9 月 19 日,微博网友大佬坊间八卦爆料,顺丰科技数据中心的一位高级工程师邓某因误删生产数据库,导致某项服务无法使用并持续 590 分钟。
随后,顺丰根据公司相关规定,辞退工程师邓某,并在顺丰内网通报。(公众号:雷锋网)
错选 RUSS 数据库
据内部通报,邓某错选了 RUSS 数据库,打算删除执行的 SQL。
在选定删除时,因其操作不严谨,光标回跳到 RUSS 库的实例,在未看清所选内容的情况下,便通过 delete 执行删除,同时邓某忽略了弹窗提醒,直接回车,导致 RUSS 生产数据库被删掉。
因运维工作人员不严谨的操作,导致OMCS运营监控系统瞬间崩溃,该系统上临时车线上发车功能无法使用并持续约10个小时。
同比9月5日的929条临时车需求临时变更,此次删库对生产业务产生了严重的负面影响。
运维工程师发现误删数据库之后,估计心里想着完蛋了,36计走为上计,直接跑路要紧~
原因分析
对于这次事件,来自数据安全公司安华金和的研究人员进行了如下原因追溯:
1、不要指望运维人永远不犯错
运维工作属于高压工种,被网友调侃是拿着如同白菜价的工资却操着卖白粉的心,心理压力大不说,为了应对外部攻击和后端非工作时间运维事件,通宵达旦加班更是家常便饭。
面对身心双重消耗,工作中稍有不慎犯个错误也是情理之中的事情。如果单靠约束运维人员不犯错误,只能说是主管领导和企业的双重天真。因此,就必须要通过规范的制度流程和有效的技术手段来防患未然。
2、流程先行,技术手段托底
从上述爆料的内部邮件中可以看出,郑某在接到变更需求后,按照操作流程要求,登陆生产数据库跳转机,却在后续操作中违反了操作流程,导致删库事件发生,带来严重影响。
外行看热闹,内行看门道。追根溯源,删库事件之所以发生,正是因为操作流程的建立并没有技术手段来托底,此次事件正暴露出权限管理、审批机制的双重缺失。因此,单有流程,却没有有效的技术手段作为防守底线,流程就变成了一纸空文,仅供事后追责而已。
要避免删库带来的严重影响,简单粗暴的说,生产数据库操作前,除了备份,必须人工交叉审核。
评论 |
|