
Cloudflare R2对象存储发生1小时全球中断 人为错误将凭证部署到开发环境
R2 是 Cloudflare 推出的对象存储服务,主要帮助客户存储静态文件例如图片或者软件安装程序等,昨天夜里 R2 及相关服务发生 1 小时 7 分钟的全球中断。
这次中断导致全球范围内的用户出现 100% 的写入失败 (也就是添加新文件) 和 35% 的读取失败 (因为有 CDN 缓存所以并未出现 100% 失败)。
至于原因 Cloudflare 倒是很快就完成调查:R2 服务在进行凭证轮换时,凭证被错误地部署到生产环境而非开发环境,当旧凭证被删除时 R2 生产环境实际上没有有效的凭证。
但由于 R2 对象存储的工作方式,其发生中断后出现错误时循序渐进的,这导致 Cloudflare 未能及时发现问题,进而导致发生 1 个多小时后才完成修复。
问题发生原因里还有个细节,部署凭证轮换时有个命令行是 –env produciton,该命令行代表部署到生成环境,但这个命令行被忽略进而默认部署到测试环境。
Cloudflare 透露忽略这个命令行标志是工程师的人为错误,所以要求后续部署时使用自动化工具避免再次出现这类人为错误。
此次问题导致 R2 及其相关服务出现如下中断:
R2 对象存储:百分百写入失败和 35% 读取失败
缓存预留:由于读取失败导致源流量大幅度增加
图像和流:所有上传失败,图像传输率下降至 25%,流传输流下降至 94%
其他错误:导致电子邮件安全、矢量化、日志传送、计费、密钥透明度审计全部出现服务下降
目前 Cloudflare 正在改进凭证日志记录和验证,现在要求使用自动化工具来规避人为错误,在 2 月份的时候 Cloudfalre R2 也出现类似错误并且也是人为错误,当时 Cloudflare 工程师在处理钓鱼链接时不慎关闭了整个 R2 服务。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

随时掌握互联网精彩
- 1 清明时节 与总书记一同缅怀英烈 7920717
- 2 这个“小透明”省会 赢了广深杭 7974759
- 3 挖呀挖黄老师回应“挖出一个亿” 7876247
- 4 以英烈之名 续忠诚之志 7745873
- 5 甲亢哥喊话:中国被严重低估 7615542
- 6 打电话多次听到回音可能已被监听 7550386
- 7 义乌商家谈美国加税:那我就涨价 7474949
- 8 今年多位明星宣布退圈 7373211
- 9 滴滴崩了 7219442
- 10 重庆一小客车追尾货车致7死1伤 7124492