加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
全球公認的Tier標準將數(shù)據(jù)中心的可用性分為四個等級:
Tier I: 基本容量
Tier II: 冗余容量
Tier III: 可同時維護
Tier IV: 容錯
目前國內(nèi)存在一些對Tier標準錯誤、過時的認知,對業(yè)主和從業(yè)人員有著不同程度的誤導(dǎo)。
在閱讀本文之前,請所有從業(yè)者務(wù)必了解,Uptime Institute是關(guān)于Tier標準唯一的制定、解釋及認證機構(gòu),Uptime Institute不會設(shè)計、建造和操作數(shù)據(jù)中心以確保中立,從而對數(shù)據(jù)中心的基礎(chǔ)設(shè)施、操作和策略提供中立、客觀、公正的評估。
以下關(guān)于Tier標準的理解誤區(qū)案例,全部來自Uptime Institute官網(wǎng)內(nèi)容,作者利用業(yè)余時間翻譯整理出來,以供國內(nèi)用戶和同行學(xué)習(xí)參考,但最終仍以Uptime Institute官網(wǎng)的英文版本為準。
「理解1」Tier等級與組織業(yè)務(wù)沒有關(guān)系
錯。Tier從創(chuàng)立開始就是基于業(yè)務(wù)驅(qū)動而對其數(shù)據(jù)中心進行性能評估的基準體系。一個組織通過其業(yè)務(wù)對風(fēng)險的容忍度來確定Tier等級。換句話說,一個公司的業(yè)務(wù)要求決定了其數(shù)據(jù)中心的Tier等級。如果不根據(jù)自身業(yè)務(wù)的特殊性確定基礎(chǔ)設(shè)施的Tier等級,往往會發(fā)生濫用Tier等級和企業(yè)內(nèi)部溝通的被短路等問題。
「理解2」Tier IV是最好的
錯。一個企業(yè)組織對風(fēng)險的容忍程度決定了Tier等級。Tier IV并非對所有組織都是最好的答案,當然Tier II也不是。業(yè)主應(yīng)在明確自身的Tier等級之前做盡職調(diào)查,如果業(yè)務(wù)目標沒有明確就來確定Tier等級,會造成不必要的投資。
Tier I和Tier II也是一種常見的戰(zhàn)術(shù)方案,在以成本或速度為導(dǎo)向、不必關(guān)注生命周期成本和性能的業(yè)務(wù)需求中經(jīng)常會采用。當一個組織的營業(yè)收入不需要依靠實時交付的產(chǎn)品和服務(wù)時,經(jīng)常會采用Tier I或Tier II等級。一般來說,采用Tier I或Tier II的組織,是那些依照合約不必對系統(tǒng)可用性不足引起的損失負責的業(yè)務(wù)。
而選擇Tier III和TierIV的數(shù)據(jù)中心,則是對系統(tǒng)不間斷和長期可用有嚴格要求的業(yè)務(wù)。在一個Tier III的系統(tǒng)中,任何一個容量組件可以有計劃地從系統(tǒng)中移除,而不會影響關(guān)鍵環(huán)境或IT進程。Tier IV則更加強悍,任何容量組件和分配路徑可以容忍一次失效、錯誤或計劃外事件,而不影響關(guān)鍵業(yè)務(wù)環(huán)境或IT進程。
因此,我們不能說Tier IV比TierII好,而是數(shù)據(jù)中心的性能和能力應(yīng)與業(yè)務(wù)需求相匹配。否則要不就是過度投資,要不就是業(yè)務(wù)要冒更大的風(fēng)險。
舉個例子來說,在建造一個Tier II的數(shù)據(jù)中心前,要知道Tier II并不包含可同時維護的功能,業(yè)主應(yīng)該清晰的知道自己的業(yè)務(wù)能否容忍一個計劃內(nèi)的、或與維修相關(guān)的停機,以及運維團隊如何協(xié)調(diào)基于整個數(shù)據(jù)中心來進行停機維修。
因此,數(shù)據(jù)中心Tier等級應(yīng)由其業(yè)務(wù)目標來確定。
「理解3」組件數(shù)量決定Tier等級
錯。Tier認證是對數(shù)據(jù)中心具體基礎(chǔ)設(shè)施的性能做評估,而不是一份檢測清單或類似于食譜的指導(dǎo)手冊。不幸的是,一些一知半解的人直接采用“N”來定義可用性,認為N是滿足負載要求的最小組件數(shù)量,而只要并上更多的組件就提高了可用性,例如N+1,N+2,2N或者2(N+1)。但是,增加組件的數(shù)量并不能決定或保證獲得更高的Tier等級。因為Tier也包含對分配路徑和其它子系統(tǒng)要素的評估,而不僅僅是考慮“N”。舉例來說,只用N+1的組件數(shù)量也可能達到Tier IV的等級。因此,Tier等級是依靠組件在冗余分配路徑中的配置及連接方式來決定的,而不是單純依靠設(shè)備的數(shù)量。
「理解4」做Tier認證,有設(shè)計認證就行了
錯。Tier設(shè)計認證(TCDD)只是一個Tier等級認證的第一步。在TCDD時,Uptime Institute的專家對100%完成的設(shè)計圖紙進行審查,確保每一個電力、暖通、監(jiān)控和自動化子系統(tǒng)滿足Tier基礎(chǔ)概念,在整個系統(tǒng)鏈條上不存在任何弱點。設(shè)計認證可以認為是數(shù)據(jù)中心的一個里程碑,確認相應(yīng)的設(shè)計已經(jīng)達到的目標Tier等級,數(shù)據(jù)中心業(yè)主可以放心開始建設(shè)了。
設(shè)計認證(TCDD)將設(shè)計文檔打包審查,目的是在數(shù)據(jù)中心得到建造認證(TCCF)之前做臨時性的認可。Uptime Institute尚未對此數(shù)據(jù)中心的建設(shè)做審核,所以我們此時并不能說這個數(shù)據(jù)中心的建設(shè)達到了Tier等級。為強調(diào)這一點,Uptime Institute對設(shè)計認證設(shè)置了失效期。所有在2014年1月之后授予的Tier設(shè)計認證都將在兩年之后過期。
在建造認證(TCCF)中,Uptime Institute的專家會做現(xiàn)場訪問,找尋圖紙和安裝的設(shè)備是否有差異。專家還將現(xiàn)場觀察測試和驗證,證明系統(tǒng)可以達到Tier要求。原則上講,建造認證才是Tier認證的根本,找到系統(tǒng)中真實存在的盲點和弱點。Uptime Institute的專家表示,幾乎每一個做建造認證的數(shù)據(jù)中心都會與設(shè)計認證的圖紙存在差異,以至于整個系統(tǒng)或部分子系統(tǒng)實際并無法達到Tier的要求。
最近,Uptime Institute設(shè)立了Tier運維認證(TierCertification of Operational Sustainability)來評估運維人員的操作和管理關(guān)鍵基礎(chǔ)設(shè)施的能力。甚至在很多嚴格設(shè)計和建造的數(shù)據(jù)中心中,都因為缺乏成熟的綜合管理和操作程序而發(fā)生了中斷事故。因此,只有三個階段都通過認證,數(shù)據(jù)中心的業(yè)主才能真正放心,確保他們的數(shù)據(jù)中心得到最大程度的保護。
「理解5」Tier等級可預(yù)測每年的停機時間(Downtime)
錯。早在2009年,Uptime Institute就從Tier標準中去掉了相關(guān)“每年停機時間預(yù)測”的參考內(nèi)容。但即使如此,停機時間Downtime也從來不是定義Tier等級的參數(shù)。在Tier Standard: Topology中規(guī)定,Tier可用性等級必須對應(yīng)明確的系統(tǒng)功能結(jié)果,即明確的性能目標,例如:具有冗余容量、可同時維護(通常指系統(tǒng)在計劃范圍內(nèi),可以移除任何一個容量組件或分配組件而不影響IT系統(tǒng)運行)、或容錯(通常指基礎(chǔ)設(shè)施中發(fā)生一個計劃外的錯誤而不影響IT系統(tǒng)運行)。但是,即使是一個Tier IV的數(shù)據(jù)中心,達到了容錯的級別,也可能存在因操作和管理問題造成停機的概率。
現(xiàn)在是有數(shù)學(xué)統(tǒng)計工具可以預(yù)測失效頻率和恢復(fù)時間。如果只考慮過去的正常工作時間與總時間的比值,“可用性”就是一個簡單的算術(shù)問題了。認為找到一些數(shù)字、頻率和中斷持續(xù)時間等參數(shù)就會推導(dǎo)出所謂的“可用性”結(jié)果。但是,還是小心使用這種統(tǒng)計工具為妙。因為在這些數(shù)學(xué)統(tǒng)計工具中,一般都不會考慮人的行為影響。此外,我們用統(tǒng)計百年不遇颶風(fēng)來舉例:我們是可以得到一個模糊的颶風(fēng)發(fā)生概率,但同樣有可能一年發(fā)生多個百年不遇的颶風(fēng)。
「理解6」Tier認證只適用于新建數(shù)據(jù)中心
錯。Uptime Institute已經(jīng)認證了很多已建成的數(shù)據(jù)中心。只是,在帶載的情況下做建造認證的測試程序會比較有富有挑戰(zhàn)性。對于一個已經(jīng)建成的數(shù)據(jù)中心,最好不要上來直接做設(shè)計認證(TCDD),而是先從TGA(Tier GapAnalysis)開始。TGA 將對數(shù)據(jù)中心設(shè)計中的不足之處進行高標準的概括性審查。這會給業(yè)主提供足夠的決策依據(jù),是否繼續(xù)進行詳細、徹底的設(shè)計認證(TCDD)工作。建造認證(TCCF)是在不同的功率負載下進行性能測試,可以采用假負載或?qū)嶋HIT負載,或混合的方式。
「理解7」Tier標準只是美國用的標準
錯。Uptime Institute已經(jīng)在超過85個國家和地區(qū)交付了Tier認證。
并且,Tier標準允許多種方案和各種各樣的配置方法,在設(shè)計、建造和運維上最大程度滿足Tier性能需要與當?shù)胤ㄒ?guī)的匹配。時至今日,Tier標準還沒有跟任何地區(qū)的建筑法規(guī)、立法章程、司法管轄權(quán)有沖突。
「理解8」TIA-942是Tier標準的具體指導(dǎo)文件
錯。在2014年,Uptime Institute與美國通信協(xié)會(TIA)達成一致,雙方開始明確區(qū)分各自的基準體系,以避免行業(yè)混淆、明確界定責任。也就是說,TIA關(guān)于數(shù)據(jù)中心的評估體系中已經(jīng)不被允許再使用“Tier”這個術(shù)語。
Tier標準的核心目標在于為數(shù)據(jù)中心業(yè)主通過可用性指標來定義其所擁有的數(shù)據(jù)中心的性能水平。相比之下,TIA的會員單位專家則是專注在如何部署一個領(lǐng)先的通信網(wǎng)絡(luò)。
「理解9」市電來源決定Tier等級
大錯特錯。依據(jù)Tier Standard: Topology白皮書,數(shù)據(jù)中心唯一可靠的電力來源是發(fā)電機組。原因在于市電電力往往受制于計劃外的中斷,即使在所謂電網(wǎng)可靠的地方。電力回路、變電站、電網(wǎng)的數(shù)量等關(guān)于市電對數(shù)據(jù)中心供電的參數(shù),都不會決定和影響數(shù)據(jù)中心Tier等級?梢哉f,Tier標準根本不用考慮市電。大部分取得Tier認證的數(shù)據(jù)中心把市電作為主要電力來源的原因僅僅是因為市電的經(jīng)濟性,但是市電根本不會影響Tier等級目標。
「理解10」對于Tier III和Tier IV,發(fā)電機必須每時每刻都在運行
錯。Tier標準并不需要發(fā)電機每時每刻都在運行。基于成本和管理原因,通常情況數(shù)據(jù)中心都是以市電作為主供電。但與此同時,發(fā)電機組必須正確配置、選型,確保發(fā)電機組可以無限制的承擔關(guān)鍵負載。因為在Tier標準中,數(shù)據(jù)中心默認是由發(fā)電機組供電。為了達到Tier要求,必須謹慎配置發(fā)電機組的容量和配電路徑。