全國咨詢(xún)服務(wù):400-777-2580 / English
當確保數據中心具有更大的彈性時(shí),組織定期維護為其提供電源保障的不間斷電源(UPS)至關(guān)重要。而其維護旨在最大限度地降低風(fēng)險,并使UPS以安全高效的方式運行。但是,如果執行維護的行為本身就構成了風(fēng)險呢?組織能采取什么樣的應對措施?
例如英國一家航空公司的數據中心在2017年夏季由于人為失誤發(fā)生故障。而人為錯誤是在UPS維護過(guò)程中出現問(wèn)題的主要原因,工程師可能會(huì )按錯開(kāi)關(guān),或者按錯誤順序執行程序。
盡管在這些情況下指責工程師的疏忽很容易,但這種錯誤通常是由于操作程序不規范、標識不良,甚至是培訓措施不到位所造成的。通過(guò)在UPS安裝開(kāi)始時(shí)消除這些問(wèn)題,可以避免風(fēng)險。
例如,如果安裝的UPS系統是由大型并聯(lián)UPS和復雜的開(kāi)關(guān)柜組成的供電系統,則應在設計中加入連鎖裝置。這些措施促使用戶(hù)以受控和安全的方式進(jìn)行切換,但在項目開(kāi)始時(shí)往往被排除在設計之外以節省成本。
全天候運行的設備監控還提供強大的保護功能,應該成為組織維護系統的一部分。而嚴格的培訓也是至關(guān)重要的。
采取簡(jiǎn)單的措施也能有所作為。通過(guò)實(shí)時(shí)更新基本標簽和切換示意圖可以避免災難的發(fā)生。建議組織提供明確的切換程序的文件記錄。如果現場(chǎng)維護非常關(guān)鍵,維護人員實(shí)施時(shí)將相互提醒(兩名工程師在執行每項行動(dòng)前都會(huì )檢查執行程序)將防止大多數人為錯誤。
采用先進(jìn)技術(shù)
任何維修和維護都可能會(huì )為UPS或開(kāi)關(guān)設備帶來(lái)風(fēng)險,所以需要減少維修次數。而出現的大多數問(wèn)題(包括電氣部件的故障)都可以通過(guò)監控電氣部件的熱量提前檢測出來(lái)。
例如,如果電氣部件的連接點(diǎn)沒(méi)有擰緊,它將開(kāi)始升溫并最終以某種方式失效。而檢查每個(gè)連接最有效的解決方案是采用熱成像技術(shù)。熱成像技術(shù)可以識別潛在的問(wèn)題。
監控設備和能力
全天候的設備監控還提供強大的保護功能,應該成為組織維護措施的一部分。嚴格的培訓也至關(guān)重要,同時(shí)確保設備主管工程師能夠勝任工作。
組織的維護人員不要害怕向維護服務(wù)提供者提出問(wèn)題,他們有責任提供合格證明,這與組織本身及其工程師有關(guān),并且總是需要檢查現場(chǎng)處理情況。
強大的維護措施還應該確保當UPS發(fā)生故障時(shí)得到及時(shí)和有效的響應。服務(wù)級別協(xié)議需要適用于應用程序的關(guān)鍵性。如果僅在正常運營(yíng)時(shí)間內才能訪(fǎng)問(wèn)UPS,那么對于UPS的全天候的響應,這樣的維護合同沒(méi)有意義。也就是說(shuō),如果數據中心全天候運營(yíng),并對業(yè)務(wù)非常關(guān)鍵,那么全天候的響應是必需的。
組織需要確切地說(shuō)明響應的構成,這也許只是一個(gè)電話(huà)號碼或者到現場(chǎng)處理的工程師,并需要審查工程師的資質(zhì)和水平。
對組織當前的UPS維護程序進(jìn)行審查,將有助于確定并降低組織以前可能沒(méi)有預料到的關(guān)鍵操作的風(fēng)險。組織通過(guò)進(jìn)行盡職調查,可以避免發(fā)生事故。