原标题:微8天的停机时间,赔偿1.5亿!电力技术专家,给大家分析事故,总结的经验六个来源:《经济学人》
预览作者| | K先生来源技术领导(ID: jishulingdaoli)
微盟经历了八天的黑暗时刻,数据修复工作终于有进步,和3月1日对外宣布:
截至3月1日晚上8点,在腾讯云团队的帮助,通过7 * 24小时的努力,我们已经完全恢复数据,因为数据量非常大,为了保证数据的一致性和在线体验,我们将在3月2日凌晨2点,系统在线练习3月3日上午9点数据恢复。
这一事件对企业管理造成严重的影响,公司的管理深深地自责和内疚,我们准备了1.5亿元的赔偿规定黄金,承担1亿元,公司管理层承担高达5000万元。的根柢的一切关节,使之归数据恢复的同时,也在同步研究商家支付计划,我们提出了现金补偿和流量补偿计划供企业选择。
声明中宣布了补偿计划的商人,共有1.5亿名,公司支付1亿,管理支付5000万。是历史上最昂贵的停机时间罚款和罚款的高管包括:太阳Taoyong首席执行官,首席技术官黄俊伟,SaaS负责方Tongshu etc.Executives不如运气钱几年前,这些天连接的光损失。
公告,也提到了数据安全计划,内容截图如下:
图像微联盟官方声明
熟悉老K的读者知道,老K知名电力公司担任运营总监,在这里,我们试图利用互联网公司的事故分析方法(后期),做检查微盟事故分析,为了帮助您更好地理解这一事故的原因和改进措施,并学习宝贵的经验。
时间线,关键措施,结果
2月23日,在线生产环境和数据,恶意破坏,造成系统服务不可用。
2月25日,紧急回核心业务在线生产环境中,新用户不受影响,但无法恢复旧的数据。
2月28日,返回所有业务在线生产环境中,用户可以登录和恢复所有微站的数据产品。
3月1日晚上8点,综合检索数据,做数据一致性和在线体验。
3月2日凌晨2点到8点,数据恢复在线练习,锻炼完成后系统的数据回滚到3月2日。
3月2日晚上10点到9 o '早上时钟,3月3日,数据恢复,2月23日和3月2日数据合并,所有数据恢复就完成了。
实际在事故的分析,描述不是那么短暂,必须包含:什么时候,谁做了什么,结果是什么。真正努力减少事故发生的时候。这个链接,第一个语句数量不成比例,只需要描述事故发生的过程,以事故做进一步分析。
改进措施,改进计划,比例金额
什么时候分析事故分析、事故过程的每一步进行讨论,我们做了什么这一步吗?没有做什么?如何做效果会更好,我们怎样才能改善呢?然后写下的结果分析,我们使用微盟事故为例,分析结论如下:
1,外部安全专家的介绍,评估改进方案。此操作并不是说微盟数据安全团队没有人。当然,这么大的事情,数据安全团队是罪魁祸首。外部安全专家的引入,主要解决可信度的问题。这么大的错,你说你想要整改,谁还敢相信?引入外部专家,可以解决信任的问题。工作计划,然而,是出生或微观安全团队让它自己,也就是说,或相同的工作。
2,放弃自建数据库服务,全面使用腾讯云的云数据库。可以看到,之前计划是使用腾讯云物理机器,然后构建MySQL集群解决方案。人们会觉得奇怪,为什么这么干?因为使用腾讯云,不需要一套完整的云数据库?谢谢,不愿意把我们的一个最核心的数据资产,在别人的家里,即使你有一个好的安全的,这是人的本性。
6,缺乏日常锻炼。错,是指人为造成的系统故障随机溜到房间,例如,把有线或电源,机器可以看到系统自恢复。先进,它是使用软件故障注入到生产环境,类似于混乱的工程,阿里网飞公司(Netflix)混乱的猴子,等等,通过随机制造错误,测试系统的高可用性、结构性风险敞口。
的最后一步,改进计划,具体的实现,时间点,由QA团队跟进和追踪短期和长期的改善措施,直到最后。
,我们采用互联网公司事故的方法检查,做微盟整个事故分析,关键是思想和方法。我们必须善于学习别人的经验。毕竟,1.5亿年的经验和教训,学费不是每个公司必须支付。
总的来说,事故造成的负面影响微盟很短,只要微盟成功解决这个问题的技术管理,基本的脸微盟还是有利的。但对微盟事故教训是非常有价值和长期价值。从这一点上,长期微盟并不缺乏。
的时候,股票反弹,上周很高兴一点,微盟!
作者简介:K,知名电力公司技术老K。吴邦国CTO,畅销书,洞察技术新时代与你在一起。
关于新浪新浪英语
