大多數(shù)人在生活或工作領域中都不希望出現(xiàn)連接中斷的情況,尤其是在以數(shù)字生活方式為主的今天,所以數(shù)據(jù)中心基礎設施變得越來越重要。對于許多消費者來說,他們希望自己的數(shù)字產(chǎn)品和服務能保持正常工作,所以當發(fā)生宕機事件時,他們就會開始抱怨甚至投訴。
以最近的航空數(shù)據(jù)中心宕機事件為例,如美國達美航空、西南航空和英國航空公司,由于一個簡單的電氣故障或不當?shù)木S修程序,導致服務器遭到災難性損壞,航空公司損失數(shù)億美元,數(shù)以萬計的乘客被滯留在全球各地的機場。
這些大規(guī)模的宕機事件總能成為新聞頭條,而且數(shù)據(jù)中心宕機事件比人們想象的更為常見。根據(jù)Uptime Institute調查顯示,25%的受訪企業(yè)在過去一年內都發(fā)生了數(shù)據(jù)中心宕機事件,無論是在自己的數(shù)據(jù)中心還是在服務提供商的網(wǎng)站上。此外,90%的數(shù)據(jù)中心和IT專業(yè)人士表示,他們的企業(yè)管理人員比一年前更加關注數(shù)據(jù)中心中斷事件。
然而,并不是每次宕機事件與航空公司停運事件一樣具有破壞性或公開性,但是宕機事件會對企業(yè)造成一定的經(jīng)濟損失。根據(jù)Uptime Institute的調查表明,只有60%的企業(yè)會測量停機成本來作為其業(yè)務指標,而在2017年,測量停機成本成為了所有企業(yè)都必須采取的措施?紤]到幾分鐘或幾小時的停機可能帶來的經(jīng)濟損失,IT專業(yè)人員和設施管理人員將會更加注重基礎設施的維護。
當然,意識到數(shù)據(jù)中心的風險與采取措施預測潛在的風險,這是兩個截然不同的問題。那么,企業(yè)該如何做才能降低數(shù)據(jù)中心宕機事件的影響呢?
效率的定義
每個數(shù)據(jù)中心管理人員都希望他們的數(shù)據(jù)中心能夠高效運營。效率是指提供給數(shù)據(jù)中心IT設備的電源和冷卻措施能夠滿足IT需求且不會產(chǎn)生不必要的成本。從更加商業(yè)的角度來看,數(shù)據(jù)中心必須能夠在滿足業(yè)務需求的同時保持這種平衡。這意味著數(shù)據(jù)中心的基礎設施,計算能力和性能需要經(jīng)常有效地擴展,以降低停機的風險。
然而,對于現(xiàn)在大多數(shù)的數(shù)據(jù)中心來說,缺少考慮數(shù)據(jù)中心環(huán)境變化帶來的影響,如推出的新技術,這些都沒被考慮在內。對于IT團隊來說,除了知道他們部署將使用的數(shù)量,空間,網(wǎng)絡和電源之外 ,他們對數(shù)據(jù)中心環(huán)境的影響往往不了解甚至不關心,這是數(shù)據(jù)中心管理人員的責任,如果IT配置對IT的有效性產(chǎn)生了負面影響,那么管理人員將會立即作出反應。問題在于IT團隊和數(shù)據(jù)中心管理人員這兩個團隊是獨立運作的,許多企業(yè)已經(jīng)部署了DCIM技術,其目的是通過數(shù)據(jù)中心的業(yè)務來縮小數(shù)據(jù)和處理流程之間的差距。
模擬每種事件的可能性
從機架上安裝單個擋板到將設備的功率提高到300kW,如果能夠準確預測這中間的所有變化,那么將會影響數(shù)據(jù)中心的彈性。這不是想象的而是實際存在的,它采取工程仿真的形式,允許數(shù)據(jù)中心設施管理人員通過創(chuàng)建虛擬原型,對現(xiàn)有設計進行故障排除,以及分析未來數(shù)據(jù)中心配置的假設場景,并且可以在離線環(huán)境中進行實驗。
這意味著當業(yè)務需求涌入時,數(shù)據(jù)中心能夠以絕對的彈性處理工作負載,或者可以減少這些要求,直到基礎設施升級完成。數(shù)據(jù)中心人員應該積極應對這種變化,這樣可以杜絕停機事件發(fā)生,或將其減輕到無害水平。
從運營連續(xù)性的角度來看,還可以模擬運行其他事件,例如,如果電源故障啟動并且由備份電池在供電,那么任何關鍵系統(tǒng)能夠脫機嗎?在重新啟動電源系統(tǒng)時,工程師如果沒有遵循正確的協(xié)議,會對數(shù)據(jù)中心產(chǎn)生不利影響嗎?如果是這樣的話,怎樣才能減輕造成的損失呢?所有這些問題和更多的問題都可以通過仿真來解決,幫助數(shù)據(jù)中心管理人員創(chuàng)建戰(zhàn)略,使關鍵硬件能夠以這樣的方式進行定位,以確保其堅持到最后。
如果90%的數(shù)據(jù)中心和IT專業(yè)人士說,他們的企業(yè)管理人員比一年前更擔心宕機事件發(fā)生,那么運營彈性則是IT團隊和數(shù)據(jù)中心設施管理人員最應該考慮的事情,而運營彈性通過上面提到的策略和工具就可以實現(xiàn)。
至于其他10%的管理層,難道他們對數(shù)據(jù)中心宕機事件不關心?如果他們的團隊盡了一切努力去防止宕機事件發(fā)生,但結果還是發(fā)生了的時候,他們將會很快改變想法,因為他們了解這將會對公司聲譽造成多大的影響,并且這也是其業(yè)務運營的底線。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |