关闭主题颜色

#

有一种灾难,叫数据中心被大火烧了

耀扬软件 2021-04-14

近日,媒体报道,主机托管公司WebNX位于美国犹他州的奥格登数据中心着火。大火起源于数据中心大楼的一台发电机,后蔓延至多台服务器。由于数据中心火灾,奥格登市的一些IT服务在周日和周一都瘫痪。

WebNX在Facebook帖子中将这起事件归咎于本地停电后备用发电机发生故障。该公司表示:“周日下午,奥格登市出现停电;按照设计,我们的备用发电机自动开启。可是就在这个供电切换期间,我们最近专门针对这种情形进行了常规测试和基准测试的一台备用发电机遇到了灾难性故障,着火了...“

而就在今年3月份,欧洲云计算巨头 OVH 位于法国斯特拉斯堡的机房发生严重火灾,其中一个数据中心被完全烧毁,另有一个数据中心的建筑物部分受损。

本次火情,疑似部分客户设备主用、灾备服务器在一个机房楼或者主备云服务器在一个机房楼,导致约360万网站出现故障, 约1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复

不止这些,2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起宕机。当地消防部门共调集了4辆消防车和25名消防员到场救援。

2019年7月,某地市的一家移动公司大楼机房失火,现场浓烟滚滚,火情严重。该大楼地处市中心,是这个地市移动较大的机房,下面的营业厅也曾经是最大的营业厅。2018年11月,韩国三大电信运营商之一KT位于首尔市中心的大楼发生火灾,事故原因为地下电缆隧道起火。火灾烧毁16.8万股电话线和220套光缆。由于通信设备受损,此次事故导致韩国的警察、医院、金融等社会基础设施被迫停转。

2018年8月,东京某建筑发生火灾,该建筑为建设中的亚马逊AWS东京数据中心。起火是由于聚氨酯保温材料被乙炔气火炬上落下的火花引起。大火燃烧了八个小时,导致五人死亡五十人受伤,烧毁了大约三分之一建筑物

2017年6月,巴中地区某中国铁通机房起火,现场浓烟滚滚,经过近一个小时紧张扑救,火灾才被彻底扑灭。

2017年4月,北京邮电大学网络数据中心突发火灾。起火原因系UPS蓄电池组故障引起。由于北邮的网络信息中心机房是北京多所高校的校园网上游节点机房,此次起火导致包括中国政法、北京理工、北航等多所北京高校网络崩溃。

2015年10月,Windows Azure上海数据中心发生故障,是由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产等行业。

2014年7月,重庆农商行数据中心发生重大火灾,整个机房全部烧毁,据估计造成直接损失达到一个亿以上。

2009年7月,位于西雅图的Fisher Plaza数据中心的变压器起火引发火灾。此次火灾影响甚大,造成了包括微软Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等网站服务器的中断运行

2008年3月,美国威斯康辛数据中心被火烧得一塌糊涂。根据事后统计,这次大火已经烧掉了75台服务器、路由器和交换机,当地大量的站点都瘫痪。

......

数据中心机房作为海量数据的关键载体,是信息化的核心场所,其复杂性、特殊性和重要性不言而喻,但往往数据中心机房又是如此的脆弱。数据中心机房的安全是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。特别是机房火灾,一旦发生将给机房造成不可挽回的巨大损失。

如何做好机房的防火及数据灾备工作?我们结合《信息安全技术 网络安全等级保护基本要求》(GB/T 22239-2019)及实际测评要求,建议如下:

防火要求

以等保第三级安全要求为例,防火要求:

  • 机房内设置火灾自动消防系统,可以在发生火灾时,自动检测、报警并灭火,如自动气体消防系统、自动喷淋消防系统。

  • 使用相应耐火等级的建材。耐火建材可以有效阻止火灾的发生和蔓延。

  • 对机房进行区域划分并设置隔离防火措施。区域划分可以很好的阻止火势蔓延,避免造成更多损失。

温湿度要求

除了防火措施本身,机房的温湿度也影响防火工作。根据《基本要求》温湿度控制要求:

  • 应设置温湿度自动调节设施,使机房温湿度的变化在设备运行所允许的范围之内。

实际操作中,机房内需要安装空调、除湿机、通风机等设备,使机房内的温湿度变化保持在适宜范围内。通常机房内适宜的温度18~27℃,空气湿度35~75%。

安全运维-环境管理

做好硬件设备准备工作后,日常运维中也很重要,应做到:

  • 应指定专门的部门或人员负责机房安全管理维护工作;

  • 对机房出入进行管理、登记,记录包括来访人员、来访时间、离开时间、携带物品等;

  • 定期对机房供配电、空调、温湿度控制、消防等设施进行维护管理,并做好维护信息记录。

数据备份与恢复

做好预防管理,不意味着可以一劳永逸,灾难的发生往往是不可预测无法阻挡,而数据备份工作是信息系统正常运行使用的最重要保障。数据备份工作应做到:

  • 对重要数据库的本地数据做每天全量备份(或每天增量备份,定期全量备份),定期测试备份数据是否正常可用;
  • 应该建设灾备中心,对重要数据提供异地数据备份,保证本地系统发生灾难后不可恢复时,能利用异地备份对数据进行恢复;
  • 对重要业务数据处理系统,应当提供热冗余,当发生灾难时可以迅速切换至备用系统,保证业务系统的正常使用。

数据备份的类型、储存介质、周期各有不同,可以根据自身的业务状况、重要性、成本等因素选择适合的模式。
应急预案与应急演练

建议根据不同的火灾风险场景(如UPS、供电线路、柴油发电机失火等),分别制定切实可行的应急预案,并按照桌面演练、模拟演练、实战演练逐步开展应急演练,确保应急预案可靠有效。并定期根据情况进行修订和演练。


发表评论