阿里云11.12重大故障原因曝光



2023 年 11月 12 日 17:39 ,阿里云控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。
工程师修订白名单版本后,分批重启 AK 服务,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。
17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
18:01:工程师定位到根因。
18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
18:35:杭州等 Region 开始恢复正常。
19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
这次核心是在AK服务读取白名单异常,但是异常处理代码没有经过测试,导致出现了严重的数据逻辑错误。工程师一般代码对主流程处理比较关注,经常忽视异常代码的测试,导致在异常情况下完全失控,这个需要重视。
很多平台重点在关注赚钱的产品,而基础服务往往是不受重视的地方,这个需要老大有全局清醒的把控。
