导读
今日圈内热议,今年4月某数据中心UPS升级换新过程中,柴发失磁,导致断电,使终端客户和自身声誉均蒙受巨大损失。
我们不是事故调查组,仅希望以此为契机,让更多的人进行思考,也希望我们的思考,能给更多人带去参考价值。
经历了,您应该学习和思考;没有经历,您更应该学习和思考。
事故背景
2016年4月22日,某公司北京亦庄数据中心ups升级改造过程中,造成供电中断,导致机房全部设备断电,系统宕机,73家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国12个省份,并造成部分服务器损坏,银行业务最长恢复时间达到7小时32分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统相继中断。
起因简述
该数据中心的4台老旧UPS升级,先将4号和3号旧UPS换新、由2号和1号旧UPS为机房供电,而后再更新2号和1号UPS,再此期间使用三台柴油发电机并机运行为UPS供电。
升级过程中,两台旧UPS因负载过高(达到容量的90%),运行50分钟后切换至旁路,发电机不通过UPS直接对IT设备供电。12分钟后三台发电机接连出现“失磁”报警,陆续停止运行,导致机房全部设备断电,系统宕机。
事故思考
1、ups达到容量90%,运行50min后,超载切至旁路。
我们在之前曾经讨论过,出于机组运行安全,一切可能导致逆变器意外关闭或者输出电能质量失控的因数都会触发转旁路。受限于各品牌设计,常见的过载有超电流、超电压、超高温;
导致超电流的原因可能有:
谐波过大,若有功达到90%,THDI≥48.4%,会导致电流超载;
功率因数过低,若计算负载容量的功因取0.9,实际PF≤0.81,会导致电流超载;
实际负载上升,虽然一般认为IT设备负载率较为稳定一般不容易发生变化,但实际上随着服务器运转程序不同或者计算和存储需求不同,其负载还是会波动。浮动11%以上,就会导致电流超载;
传感器失准或者系统紊乱(可能是源自谐波或者其他电磁兼容问题);
设定问题,过载设定值不合理,没到100%;
质量问题;
其他;
如果以上因数皆有,则其临界值就不再需要那么大的差距了。
导致超电压的原因可能有:
柴发供电电压超高;
谐波;
质量问题;
其他;
以上综合。
导致超高温的原因可能有:
效率下降;
散热不畅;
高负载;
质量问题;
其他;
以上综合。
2、切至ups旁路后,运行12min后,3台发电机接连出现“失磁”报警,并陆续停止运行。
单台柴油发电机可能被负载拖垮的原因有:
发电机选小了,超功率;
负载容性超前,带载能力下降,并低于实际负载;
谐波影响机组控制系统;
质量问题;
其他;
以上综合。
并机可能被负载拖垮的原因有:
并机设定不合理;
并机控制系统未正常工作;
质量问题;
其他;
以上综合。
主编寄语
昨天的运维日才刚过,今天就听说了这个事故。我记得上次是阿里刚出个事故,就造就了5.27阿里运维保障日。
运维是需要时刻给予充分关注和爱护的,尤其是已经承受着难以忍受的泰山之重,平时不显山不漏水,一出故障就能看出其重要性了,任何一次对于运维的疏忽和轻视,都将给下一次事故埋下导火索。
在《数据中心外电系统可靠性与需求》文中我们曾经讨论过数据中心柴发存在必要性的问题,柴发的可靠是因为其受控,无论是设备、燃油还是管路;无论是产品、维修还是巡检;一切都在受控范围内,所以无论什么原因造成的低可靠性都有办法来解决;而由于各种原因,很多时候柴发其实不在数据中心的界面范围内,不在一线运维可以掌控的范围内,这种情况下,实际上柴发就一点都不可靠。比市电差的不是一星半点。
另外交流ups无论工频还是高频,在切换电池模式或者节能模式或者升级改造等的过程中,都是一个极具风险的操作,需要做好十二万分的准备。90%对于一个老旧的ups无论怎么说都是一个应该坚决say no的对象。
服务器的负载也是会变化的,波动个10%,并不意外,尤其是运行有些年头的设备。
柴发并机、ups上下线都应该由具备专业知识和丰富实操经验的专家来总控把关。尤其是在没有进行柴发模拟容性带载能力和真实并机测试的前提下。日常巡检应注意各保护设定值是否被改动过,其改动应该经由厂家和用户总部级的评审。调试和测试应尽量接近逼近真实负载,其保护值的设定应参考真实经验和理论方向进行整定。
如果您对本文或本刊有任何意见或者建议;
如果您希望分享您的经验或者推荐绿色好文;
欢迎直接扫描下方二维码,与主编在线交流。
欢迎扫描或者长按图片选择识别二维码直接关注新一代绿色数据中心;
版权声明:
1.本刊发布内容将力保原创或者获得原创授权;
2.本刊原创文章可免授权全文转载,节选或者再编辑需要额外授权;
3.如果您对本刊文章存在版权异议,欢迎联系本刊编辑部bianji@true.wang。
友情链接