/首页
/开源
/关于
翻车后记之BUG李的自我检讨
发表@2019-12-15 12:51:44
更新@2023-04-27 21:40:19
大家周末好,我是BUG李,今天讨论一个严肃而又正规的话题并做个自我检讨。 要敢于认知到自己错误并改错,最不济你也得知错改错不认错。 其实一开始标题里我很想叫做《翻车后记之BUG李的罪己诏》。罪己诏,这玩意是皇帝用的,主要作用就是皇帝自己批斗一下自己,替下面的人扛扛锅。比如明思宗同志在被那位自称为闯王的流寇头子掘了祖坟后,就发了一个罪己诏,算是替下面跑腿的背了一次锅;又比如说汉世宗刘彻,年纪老了后吃了不少化学合成品---仙丹,也办了一些糊涂事儿,但突然有一天就良心发现了,于是就发了一个赫赫有名的《轮台罪己诏》;又或者说著名书画艺术大家、瘦金体版权所有者、蹴鞠达人宋徽宗同志,在金兵一路自助游到自己家门口的时候慌了,也发了一个罪己诏,但是私以为徽宗同志这个罪己诏明显不如明思宗和汉世宗有诚意,因为这位仁兄发了罪己诏后搞了一个骚操作,首先让位于太子自己当了太上皇,然后马上跑路去了安徽蒙城,我认为这明显有甩锅给太子的嫌疑...总之,罪己诏这个词太高端,我有点儿用不起。  翻车这个事儿,不是说翻过了就算翻过了。毕竟是翻了,四个轱辘都已经朝天了,你再不自己琢磨琢磨自己真的是说不过去...再说了,就算你能顶住,这车可不一定能顶住,这次还是四个轱辘朝天,下次指不定直接飞出去一个轱辘。  翻车后一般根据不同人群会有如下几种不同的表现: - 表面慌内心也慌并手发抖:这是绝大多数菜B的常规表现 - 一点儿也不慌,表里如一:少数,一般都是离职手续已经到手,一会儿要交下设备就可以跑路的人 - 表面不慌内心紧致而又可错落有致解决问题:少数,一般是公司大佬,深谙公司多年的屎山业务,对业务中潜在的黑科技代码段心中有数 - 不慌同时也没有离职证明:仙儿... ... - 不慌同时也没有离职证明也不是仙儿:总用户量不超过10,其中有一半还是测试账号... 先说下,在前天的翻车事故中,我是属于第一种,毕竟小一万人一起共同维护的玩意,鬼特么才知道什么地方有黑科技;在积目的时候,我是属于第三种,三百万用户线上集体翻车也能做到较为淡定地处理为【机房切割,马上回来】,毕竟那些有毒的屎山代码都是100%倾注了我精华的。 那么说下在一家正规的公司翻车后正规的操作流程应该是什么。 第一步:先平静一下心情,无论能不能平静下来,你都得强行冷静一下。如果说常规手段等都无法让你安静下来,尝试用你的身体撞几下墙,对我来说好像还确实有点儿作用。如果撞墙对你来说还是没作用,可以尝试一下坊间流传已久的偏方:  第二步:快速评估一下当前故障影响范围以及程度,第一时间采取止损措施。当然了这里的首选操作措施是回滚大法好!回滚是一定要回滚的,但是有些故障并不是回滚就可以解决的。比如由于你的骚操作导致已经让部分产生了脏数据,这些脏数据会导致故障继续存在。所以你除了回滚操作外,还要想办法清除掉这些脏数据,可能需要再次上线通过业务代码黑科技清理,或者绕开业务系统直捣黄龙去搞存储层。 第三步:观察线上故障是否恢复速度以及范围,然后才可以进入到BUG分析阶段。这会儿你就不用慌了,慢慢看下是什么地方的黑科技黑了你一把,修一下后怂怂地再次上线吧。就是一定不要忽视翻车后的事故复盘,一定要整明白翻车的来龙去脉和原因。 上面的事儿,都是事情已经发生后的手段,我认为我还是有必要聊聊翻车前的规避手段,实际上规避是不存在的,确切说应该叫【尽量低概率翻车】。其实屎山山和黑科技都不是原罪,TA们是无辜的,真正的原罪是人类,他们贪嗔痴...不好意思跑题了。实际上所有的屎山和黑科技都是人类自己手把手制造的,更让人绝望的是:绝大部分人都是精通并擅长制造屎山和黑科技。所以从此处开始,我要展开自我检讨: - 如果你有上线行为,那么记得电脑要时刻带着;其次是上线完成后,如果没什么人催促你,不要急于释放上线单,保证第一时间可以回滚 - 既然知道屎山和黑科技会害人,自己就尽量规范化一些,又不是不能用的底线要提升 - 不要抱怨其他人制造的黑科技,你要不惧怕黑科技的唯一方法就是首先面对TA,其次是搞明白黑科技黑的来龙去脉,这会儿TA再黑你也不用担忧,风险和概率会进一步降低。比如我这次翻车就是因为对之前的黑科技(一定程度上也不算太黑)了解不透彻,只是知道原来线上就有这个功能直接复用即可,这就是危险的信号。自己太大意疏忽是主要原因,黑科技是并不重要的次要原因 - 故障实际上可以在金丝雀发布的时候通过预警观察到的,这里可以考虑在每次上线前针对本次业务改动的目标数据点建立一些监控预警机制,上线流程中可以通过观察这些指标来确认是否有故障产生。这个措施也会进一步降低故障概率 - 要时刻保持淡定,不要轻言放弃,顶不住也得顶,这是心态建设问题,需要磨练意志 最后还是说下老板没有给我太大压力,其次是感谢下陪我一起查故障的big old。当你很方很慌的时候,旁边有big old一起查故障是一件幸事。过两天big old也会出一篇关于我这次翻车故障处理的文章,贴下他公众号码子,有兴趣的可以持续关注下,可能角度和我这篇会有所不同。 