2026-06-16

偌大的数据中心仅留3名员工值班 微软在澳大利亚的数据中心起火损毁硬件 – 蓝点网 | {$randkws}热点解读 除了办事整体离线外

来源:才薄智浅网 | 栏目:知识 | 2026-06-16 09:25:43

上周 Microsoft Azure 位于澳大利亚新南威尔士州的资料中心发生起火,除了办事整体离线外,这次事故还导致若干设备被烧毁。此次事故持续将近 24 小时才陆续重启,其中由于设备损坏,若干客户的Tips盘点资料无法转移只能经由重启手段开展复原。

微软已然亮相了这次事故的详尽报表,报表中谈及了一些令人匪夷所思的状况,例如偌大的资料中心,在夜间居然只有 3 名工程师值班,尽管这 3 名工程师已然尽力,但面对这种状况时依然忙可是来,进而导致事故变得更严重。

澳大利亚东区资料中心概况:由多个机房组成、使用水冷操控系统、有 7 台水冷设备其中 5 台为常开机 2 台为备用。

偌大的重磅暑期档速递资料中心仅留3名职员值班 微软在澳大利亚的资料中心起火损毁设备

事故时间线:

事故触发缘由是新南威尔士州的市电供应呈现难题 (8 月 30 日 08:41,注意是 UTC+0 时间非当地时间),导致 5 台常开水冷机组整体挂掉,只有 1 台备用机组自动开机,另一台开机了但又跳闸了。

实地值班工程师按照紧急操控程序试图重启常开水冷机组但失利了,微软承认由于资料中心园区的规模,夜间团队配备的人手不足以及时重启水冷机组,为此微软暂时将夜间值班工程师由 3 名增多到 7 名。婚礼现场最新进展话题持续发酵

在水冷机组歇菜后,存储和 SQL 办事器发出了告警,此时距离市电供应难题已然过去了 1 个小时 50 分钟。随着水冷机组的歇菜,办事器的温度也越来越高。

接着工程师持续使用开启水冷机组,但依然没能顺利,到 11:20 水冷机组的对比观察 OEM 扶持工程师抵达实地开展处理,到 11:34 实地工程师最后确定退出两个受作用的资料大厅的基础设施。

到 12:12 五台常开水冷机组总算手动重启顺利,接着资料中心温度着手逐步下降,接着工程师着手为受作用的基础设施重启供电,最后到次日 06:40 所有设施重启、所有资料重启。

微软大客户受作用严重:

新南威尔士州资料中心托管着微软多个大客户的资料,含有但不限于昆士兰银行、捷星航空 (澳航旗下子企业) 等,这次事故导致微软的这些大客户受到严重作用。

从事故报表来看,故障自动转移开展的似乎并不是很顺利,按照设计逻辑,一旦呈现故障,办事会自动转移到其他资料中心确保客户不受作用。

此次故障 Azure 的故障转移也开展了,但效果好像并不是很好,微软强调后续要重新改进。

微软的事后反思:

1. 由于资料中心规模较大,夜间团队人员配备不足,无法及时重启水冷机组,微软暂时将夜间值班人员从 3 名增多到 7 名。

2. 针对这类大型事故,重启水冷机组的经济操控程序执行速度很慢,微软正探索改进自动化计划用来应对供电等难题。

3. 展望前方,微软正评估各类方法确保可以对各个水冷机组的子集负载曲线开展优先级排序,以便挂了的时候先将负载最高的机组重启。

4. 运用流程表对岗位负载故障转移和设备退出开展排序,用来确定各异的优先级,另外微软正改进水冷温度报表,以便更好的依据温度阈值来确定何时开展故障转移或退出办事器。

5. 五台水冷机组没有重启,由于相应的水泵没有收到水冷机组的管理通讯,这很重大,由于水泵对水冷机组的顺利开启至关重大,为此微软正找水冷机组 OEM 调研为什么水冷机组没有命令各自的水泵重启。

6. 由于未知失误,一台备用水冷机组就是跳闸那个没能自动重启,微软正找 OEM 诊断。

上一篇:《二之国2:幽灵国度》角色宣传视频公布 3月下旬发售

下一篇:动作冒险《担架人》上线Steam首发特惠32.4元截至8月5日

相关文章