闲话IT运维—学习Google SRE不易

系统正常,只是该系统无数异常情况下的一种特例
          --- 摘录自《SRE Google运维解密》

日前Google SRE很生气,我们之中被每个人都放了同等以《SRE
Google运维解密》,希望大家能熟读,从中能取得些经过。

SRE的的几独着力方法论:
1)确保运维人员长期关注研发工作;
2)在维系服务SLO的前提下最大化迭代进度;
3)重视监控系统;
4)应急事件处理,重视运维手册维护及on-call机制;
5)变更管理自动化;
6)合理对需要进行前瞻及针对容量进行对应计划。
关押罢第一节 SRE方法论后虽亮google SRE并无是那么好学了。

SRE是别一个不胜火的定义devops在google的超级实践,结合google的特点开展了扩大。在SRE的几乎个基本方法论中首先修太重点,是搞活其他几只方法论的前提与驱动力。一般运维(ops)和开单位(dev)是独立的片单机关,这简单单机构起一齐不同之对象述求,ops希望平静压倒一切,系统上线后一百年未转移才好;dev部门希望赶快就业务部门提出的需求,巴不得随时随地变更上线。这个矛盾导致个别个部门“不对付”,是IT内部不调和音之来源于,处理不当会产生严重的办公政治,对工作及组织建设都严重不利。(这种情况可参考运维界难得之等同以小说《凤凰项目-一个IT运维的传奇故事》中有关运维部门及付出机构斗智斗勇、互黑的故事,和实际中遇的正是一样同样的,说明ops和dev的龃龉与国别无关,人种无关)。

Devops希望的凡dev和ops尽量的齐心协力,一般是少单机关尽量的休戚与共,譬如,归属一个团伙、由同人领导、集中办公等等。google直接一步到位—dev和ops是一个丁(合体了),并且SRE
至少50%精力用于消费在真实的出工作达成。招聘时因开发人员的求来招聘SRE,SRE的招聘要求标准及比较寻常工作开发人员还要高,既懂开发以如懂运维。这样的裨益是明确的,一个人口身上哪个地方疼只发生温馨最懂得,运维过程被之痛点开发人员是无清楚的,运维人员取出来开发人员也非肯定能切身体会,做一个全好用的运维功能下。

现今之出再多之是事情开销,简单点说是用相同堆积if/else逻辑驱动数据以业务逻辑实现出来,很多业务开发人员对网的健壮性、可维护性根本不了解,也无能力了解,开发过程遭到呢非会见考虑到(业务功能还开不结,哪还出空去考虑健壮性啊~)。这虽需运维开发人员补充进,从系统的冗余、应急、告警、监控等大多维度去于工作系统打补丁,提高系统的平稳。这片做事今天游人如织场所下是供不应求之,因为未能够直接来价值吗促成管理层重视不够。

当运维人员来出能力(如同一个木工有矣趁手的斧头锯子),并且能够发出一半以上的活力投入到运维功能的支出被,拿事情体系还过上一致桩运维功能(健壮性、可用性mg游戏平台手机版、可维护性方面)的铠甲,那么不仅会提升系统的可用性,而且能够更好的配合工作开发人员实行持续集成(CI),持续部署(CD)这些高阶玩法,否则系统自身就是弱不禁风,怎么受得了花样翻新的煎熬!

于是,想上SRE,首先看望是否做到SRE核心方法论中之首先长达,如果运维人员还是有才只有见面看告警、查查SQL,那么大不便学到SRE精髓。当然就是做不顶,其他地方也足以参考学习,这按照开及要时有发生为数不少外值得借鉴的一对,譬如方法论的次接触,制定好SLO,根据SLO决定上线频度(有理有据和开发争取不深受上线:));方法论第四沾建告警监控之当班制等等。

相关文章