华为sre后期工作计划(通用8篇)

山崖发表网工作计划2023-01-04 11:22:24158

华为sre后期工作计划 第一篇

Oncall 简单来说就是要保证线上服务的正常运行。典型的工作流程是:收到告警,检查告警发出的原因,确认线上服务是否有问题,定位到问题,解决问题。

收到告警并不总意味着真正的问题,也有可能告警设置的不合理。告警和监控面板并不是一个静态的配置,它应该是每天都在变化的,时刻在调整的。如果发现没有标志真正线上问题的告警发了出来,就应该修改告警规则。如果发现当前的监控无法快速定位问题,应该调整监控面板,添加或者删除监控指标。业务在发展,请求量在变化,某些阈值也需要不断地调整。

定位问题没有一概而论的方法了,需要根据看到的实时,结合自己的经验,然后做推测,然后使用工具验证自己的推测,然后确定问题的根因。

但是解决问题是可以有方法论的,叫做 SOP,标准操作流程[4] 。即:如果出现了这种现象,那么执行那种操作,就可以恢复业务。SOP 文档应该提前制定,并且验证其有效性。

需要注意的是上述定位问题、解决问题并没有顺序关系。一个经常犯的错误是,在出现故障的时候,花了很长时间定位到故障的根因,然后再修复。这样花的时间一般会比较长。正确的做法是先根据现象看现有的 SOP 能否恢复业务。比如说当前错误只发生在某一个节点上,那么就直接下线这个节点,具体的原因后面再排查。恢复当前的故障永远是第一要务。但是恢复操作也要经过测试,比如猜测可以通过重启解决问题的话,可以先重启一台做测试,而不是一次性将所有服务重启。大部分情况是需要临场分析的,是一个紧张又刺激的过程。

故障到底多久恢复算好?出现多少故障是可以容忍的?怎么标志服务的稳定性到底如何?我们使用 SLI/SLO 来衡量这些问题。

华为sre后期工作计划 第二篇

用户支持也是日常的一部分。包括技术咨询,以及用户要求的线上问题排查。

这里就需要提到文档的重要性了。如果没有维护好文档,那么用户就会一遍又一遍问相同的问题。写文档也是一个技术活,优秀的需要很长时间的积累。文档也需要经常更新。我一般会这样,保持这样一种状态:用户可以不需要任何人就从文档中找到他需要的所有答案。如果我发现用户的问题无法从文档中找到,或者难以找到在文档中的什么地方,就会更新文档,或者重新组织文档。如果用户的问题已经从文档中找到,那么就直接发文档给他。如果用户的问题显然是文档看都没有看过(有很多人根本不看文档的,只看文档是谁写的然后径直去问这个人),就直接忽略。

优秀的文档应该尽量引入少的专有名词,少使用没有用处的专业词汇描述,只描述具有指导意义的事实,假定用户没有相关的背景知识,列举使用例子,举一些现实会用到的例子而不是强行举例子,明确 Bad Case。等等。这其实是一个很大的话题了,这里就不展开了。

暂时就想到这一些了。下面写一些我经常见到的误解,和经常被别人问的问题。

有关做项目没有专业团队得不到训练。

这方面是听到最多的抱怨。虽然说 SRE 在工作上应该是开发时间和运维时间各 50%,但是真实的情况是,即使 SRE 有一些开发工作,也大部分是面向内部用户,面向公司内部的开发者的。大部分项目是一些想法,需要去尝试一下行不行,基本上不会有专业的设计资源,PM 资源。这种项目就需要 SRE 有多方面的技能,包括对产品的理解,清楚地知道它有什么痛点,最好是自己经历过的痛点,然后需要懂设计,管理好开发进度。然而这种人非常少。其实能写中型项目代码的 SRE 就已经非常少了。所以大部分公司内部项目都会做的又难用又复杂。

回到经常听到的这个抱怨,说在 SRE 的团队没有像开发团队那样有“正规军”,有设计和 PM,大家各司其职,后端开发只要对齐 API 然后实现就好了。大部分的应届生会有这样的幻想,但实际上不是这样。被搞错的最重要的一点是,学习主要是靠自己的,和别人没有太大的关系。我觉得可能是在一个大团队里面,有很多人一起做一件事情,心里的怀疑和焦虑会少一点,人们会对这样的工作状态感到踏实,误以为是“成长”,自己做所有的工作焦虑更多。

事实是,在大团队工作可能学到更多的沟通技能,比如和不同的人对齐不同的阶段工作目标,要想要学到其他的东西还是要靠自己。比如拿到一个设计,如果照样子去实现了,其实不会学到什么东西。而要去理解为什么这么设计,为什么不那么设计。如果自己去做,思考的过程也基本是这样的,可以怎么设计,选择什么好。都是:思考,选择,尝试,经验,思考……

另一个需要澄清的误区是,模仿并不是学习。在团队中经历了一个设计,如果记住了这个设计,下次碰到类似的问题也用这个设计去解决。这也不能叫做是学习。我见过有在业务部门做过支付的 SRE 写的代码,在内部系统中去实现了订单业务的订单、交易等概念完成一个运维流程,甚至 Model 的名字都没改过。拿着锤子找钉子,会让系统变得更加糟糕和复杂。

总之,工作分的细并不代表工作就会更加专业。一个人身兼数职也可以在每一个方面做得很专业。重要的是不断学习,使用正确的做事方式,向优秀的项目和优秀的开发者学习。

有关脏活累活。

每一项工作都会有脏活累活:学不到什么东西,做起来没有意思。可能是整理系统的监控,可能是整理现有的文档,可能清理一些年久的运维脚本,可能是需要和不同的团队做 一些沟通工作[6] 等。

这是不可避免的,如果可以的话,学会从每一项工作中找一些偷懒的方法吧,比如用脚本处理一些工作,用更聪明的方式工作等等。

但是如果这种工作的比例太高的话,就要思考工作方式的问题了。如果陷入恶性循环,看能不能从工具和工作流程上做一些改变。如果不能的话,考虑换一份工作吧。

有关背锅。

互相甩锅的工作环境无疑是非常糟糕的工作环境。如果相同的团队、或者不同的团队之间需要相互勾心斗角的话,如果工作环境不允许大方承认(SRE 无可避免地会犯一些错误)自己的错误,说明公司营造的氛围有问题。比如某些公司规定,发生 P1 级别的错误就必须开除一个 Px 级别的员工,发生 P0 级别的错误就必须开除一个 Py 级别的员工一样。如果是这种情况的话,公司实际上是在用一种懒惰地方法通过提高人的压力来提高系统的稳定性。有没有效果不知道,但是确定的是不会有人在这种情况下工作的开心。建议换一份工作。

如何转行?

华为sre后期工作计划 第三篇

维护服务等级协议,听起来像是一个非常简单的事情,只要“设定一个可用率”然后去实现它就好了。然而现实的情况并不是。

比如,制定可用率的时候,并不是说我们去“实现 4 个 9”( 的时间可用)就够了,我们有以下问题要考虑:

等等,如果这些问题不考虑清楚的话,那么 SLI 和 SLO 很可能就是没有意义的。SLI/SLO 也适用于对公司内部用户的承诺,让用户对我们的服务有预期,而不能有盲目的信任。比如 Google 在 SLI/SLO 还有预算的时候,会在满足 SLI/SLO 的时候自行对服务做一些破坏,让用户不要对服务有 100% 可用的错误预期。SLI/SLO 也会让 SRE 自己对当前服务的稳定性有更好的认识,可以根据此调整运维、变更、发布计划。

华为sre后期工作计划 第四篇

1、基础护理合格率100%。

2、急救物品完好率100%。

3、基础护理理论知识及护理技术操作考核成绩达标。

4、重病人护理合格率100%。

5.护理文件书写合格率≥90%。

6、控制成本,提高收益。

7、护理人员“三基考核合格率达100%。

8、病人对护理工作满意度为>95%。

9、严格无菌操作,做到一人一针一管一用。

10、常规器械消毒灭菌合格率100%。

11、全年护理事故发生率为零。

12、静脉穿刺成功率>95%。

13、院内压疮发生次数为零 (除不可避免压疮)。

二、主要任务

(一) 确保目标实现,加强护理管理

严格执行各项规章制度,使护士们养成良好的行为习惯从而使科室形成一种良好的风气,以利于科室长远发展。

(二) 创新服务理念,发展和升华优质护理服务内涵

1、继续开展优质护理服务,创造“三满意”工程。

2、建立平等、博爱、和谐、互助的优质护理模式病房。

3、以病人的需要、方便、应答、满意作为病房优质服务工作的切入点。

4、做到“五主动”、“四个不”。热心接待要做到:主动起立、接物、问候、自我介绍、入院介绍;耐心解释要做到:不直呼床号、对询问不说不知道、对难办的事不说不行、患者有主诉不说没事。

华为sre后期工作计划 第五篇

部署分成两种:

Day2+ 的工作要做很多次,Day 1 做的很少,在不断的迭代升级之后,还能保证有一个可靠的 Day 1 操作是很难的。换句话说,我们在服务部署之后一直改来改去,还要保证这个服务在一个全新的环境能够可靠的部署起来。部署环境的硬编码,奇奇怪怪的 work around,都会破坏 Day 1 的可靠性。之前一家公司,扩容一个新机房的过程简直是噩梦,太多的奇怪配置,hardcode,导致踩过无数个坑才能在一个新的机房部署起来全部的服务。

Day2+ 的操作也不简单,主要要关注稳定性。对于重要的变更操作要设计好变更计划,如何做到灰度测试,如果出了问题应该如何回滚,如何保证回滚可以成功(如何测试回滚)等等。

部署的操作最好都是可以追踪的,因为并不是所有会引起问题的操作都会立即引起问题。比如一个操作当时做完没有什么问题,但是过了 1 个月,偶然的重启或者内存达到了某一个指标触发了问题。如果能记录操作的话,我们可以回溯之前做过的变更,方便定位问题。现在一般都用 git 来追踪部署过程的变更( gitops[3] )。

华为sre后期工作计划 第六篇

作为存放数据的“仓库”,数据库的稳定是保障系统稳定运行的重中之重。在数据库稳定性治理方面,美图亦进行了大量探索与实践。

在研讨班上,美图DBA负责人肖维分享了美图云上数据库运维和治理实践。美图通过平台层DBA小秘书、操作平台MTDAS、云管平台实现对后端资源全生命周期的管控。同时深入建设数据库容灾系统,并且已经介入到SRE的编排系统,针对不同场景,只需要输入相关参数,系统就会自行处理工单系统,依据故障诊断系统和日志系统,并做出相应预案。

此外,面对数据的持续扩张带来的容量管理难题,美图DBA建立了智能压测系统,更准确的做好云上的容量管理。 在大规模数据库集群,美图DBA搭建异常检测、异常分析和异常处理体系,为快速定位问题、解决故障、恢复业务提供基础能力。这其中,异常检测,实现对监控指标的数据变化进行快速识别;异常分析,则针对异常业务变化进行量化分析;异常处理,是通过自动扩容、SQL限流、相关预案处理等操作实现。系统之间严密的配合,保证了美图云上服务的持续稳定运行。

从组织、流程到工具,看得出,美图的云上综合治理进行了诸多前瞻性的实践,在DBA的治理中同样得到体现。从上云以来,美图尤为重视数据库稳定性治理,并设立了DBRE(数据库可靠性工程师),组成SRE团队的重要成员,并与产品一起开发解决方案,在华为云的助力下致力于相关数据库指标的可观察性。

从IT治理到云上综合治理,虽然IT的架构进行了改变,但治理的体系一脉相承,目标一致,并同样具备较高的复杂性。好在华为云提供了全流程专业服务,并有一套完善的云上治理架构支撑,这为美图不断夯实云端系统稳定性提供了保障。

虽非生于云,但长在云上的未来美图,携手华为云不断创新与能力升级,在用好云、管好云、提升云效能的基础上,精准洞察年轻用户需求,并深入探索更多“变美”功能与创新,聚焦产品、聚焦用户、聚焦服务,与华为云一起用云上综合治理的确定性让用户一直“美”下去。

当然,随着业务发展,云上综合治理没有终点,是一项复杂的工程。秉承“智者·同行·创想”的理念,华为云联创营为行业客户、伙伴打造了一个技术交流的阵地,共探云上综合治理新思路、新路径,让企业云上创新不止步。

华为sre后期工作计划 第七篇

接入层:接入层是业务架构的第一层,需要做封禁和限流,目前全局限流比较难做,可以落实到单机限流或者间歇性的封禁

逻辑计算层:这层通常是php后者java等,这一层处理做自身的限流之外,可以做服务隔离,把一些容易受到攻击的服务单独部署。即使有攻击也不会影响到其他业务

cache:比如上cdn。或者在各层之间加上相应的cache,可以缓存热点。

快速扩容:最后当所有的方案都无效的时候,就只能依靠快速扩容了,这个需要有平台的支撑,如果是以及虚拟化或者容器化后,快速扩容就可以得到满足了

存储层:存储层常见的做法:限流、cache、热点漂移,如果发现有局部热点存储系统就利用副本复制快速扩容解决热点问题

业务优化:每次发现热点之后就需要分析瓶颈点在哪里

总结 热点和雪崩其实是日常工作中常见的问题,往往是伴随一起存在的,需要多层来解决,这样不至于发生重大的灾难事件。本文讨论一下常见的解决思路。具体的解决方案需要根据实际情况来判断

稳定性对于业务运维来说是必须要面对的问题,如果稳定性解决不要其他的问题就会是徒劳的。稳定性是一个很庞大的体系需要不断的探索。欢迎大家关注我们的微信公众号“sre说”来一起讨论

华为sre后期工作计划 第八篇

为此,美图围绕“3大方向、2个基础、1些探索”进行了一系列云上综合治理的实践。

首先,美图做的就是围绕稳定性、效率和成本3大核心方向梳理流程和体系、开发工具、搭建平台。在稳定性方面,美图面向用户端和服务端梳理出了全面的质量监控体系,建设了监控大盘,从而拥有一个全局视角来查看整个业务各个链路环节的状态;并附以图文告警快速感知服务整体状态、缩短故障定位时间;当然,监的目的是为了更好地控,进一步地,美图搭建了应急响应平台,把对服务的干预手段抽象为原子性的动作,并对这些动作进行编排,形成应对不同场景的保障预案。在效率提升上,得益于华为云提供的OpenAPI与一键WarRoom机制等,从而实现运维效率工具的自动化覆盖和敏捷响应,命令行&移动端工具的建设大幅降低了使用门槛,并实现随时随地处理运维信息。在成本优化方面,FinOps的探索让成本管控贯穿在服务的整个周期中,为此,美图建设了MTCC平台,并与OKR挂钩,从目标、人员、流程和工具多方面入手来进行成本的可视化、分析和优化。

其次,围绕运维元数据和团队建设,美图深化了2个基础建设。CMDB+Service Directory的构建,用统一的运维元数据串联工具系统、打破数据壁垒,从而形成统筹的能力;打造学习型组织,开展SRE-Pharos项目,推进AB岗覆盖,不断强化团队健壮性。

再者,在云上综合治理方面,美图亦进行了一些有意思的探索。例如利用机器人来自动化发布监控告警和服务巡检报告;建立SRE权威消息发布通道来树立和强化团队品牌;创建SRE官方群组来收敛固定运维支撑的渠道;构建稳定性运营平台来挖掘、分析稳定性数据,解读隐藏在数据背后的含义。

总之而言,面对人手不足的问题,在华为云的助力下通过效率工具的开发和流程梳理,美图大幅提升了治理效率;面对稳定性压力大的挑战,监控大盘、应急响应平台的建设和监控告警治理等,让美图云上综合治理的自动化水平显著提高;面对工具不称手的问题,通过建设运维元数据、借助华为云能力,提供了更易用和高效的工具;面对成本管控压力大的挑战,FinOps体系推进、借助OKR共同推进目标,构建了相对完善的成本管控系统。

显示全文

注:本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即后台留言通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意

点击下载文档

文档为doc格式

发表评论

评论列表(7人评论 , 39人围观)

点击下载
本文文档