數(shù)據(jù)中心要正常運(yùn)轉(zhuǎn),離不開大量的運(yùn)維工作。運(yùn)維的工作需要很多專業(yè)技術(shù)人才,要做好數(shù)據(jù)中心的運(yùn)維需要掌握多學(xué)科、多門類的專業(yè)技能,運(yùn)維的工作不強(qiáng)調(diào)人才對一門技術(shù)有多專、有深度,但要有廣度。出于成本的考慮,數(shù)據(jù)中心不可能聘入所有專業(yè)知識領(lǐng)域的人才,需要的是通用人才。如何才能成為一名優(yōu)秀的數(shù)據(jù)中心運(yùn)維專家呢?本文就來說一說運(yùn)維工作所需的知識體系架構(gòu),根據(jù)這個(gè)知識體系架構(gòu),對自己弱勢的部分有針對性地學(xué)習(xí),很快就能成為一名數(shù)據(jù)中心運(yùn)維專家。
數(shù)據(jù)中心運(yùn)維知識可以分為三大部分:運(yùn)維技術(shù)、測試和開發(fā)和運(yùn)維管理體系。先來說一說運(yùn)維技術(shù),這里邊包含的技術(shù)非常廣泛,按照網(wǎng)絡(luò)層的設(shè)計(jì)可以將運(yùn)維技術(shù)再分為幾大部分內(nèi)容。首先是客戶端,包括DNS地址解析,瀏覽器的使用,安全策略。這部分需要掌握一些瀏覽器技術(shù),知曉如何提高瀏覽器并發(fā)數(shù)、避免靜態(tài)資源在Cookie上傳;當(dāng)域名解析不出來的時(shí)候,知道如何分析,確認(rèn)是否是客戶端的問題;其次是外部層,包括第三方CDN,云計(jì)算和外包等,CDN這種網(wǎng)絡(luò)優(yōu)化技術(shù)在數(shù)據(jù)中心應(yīng)用層使用非常普及,還有云計(jì)算的基礎(chǔ)知識要掌握,尤其是與各種外包服務(wù)交流溝通的技巧,就算自己不了解的技術(shù)也可以通過外包找到答案,善于利用這些求助對象;第三是集群技術(shù),包括負(fù)載均衡、集群管理。掌握四層和七層的負(fù)載均衡技術(shù),開源的LVS(IP負(fù)載均衡),商業(yè)的F5都是很好的集群技術(shù),應(yīng)該去了解學(xué)習(xí)一下,這也是優(yōu)化網(wǎng)絡(luò)流量的重要手段之一;第四是應(yīng)用服務(wù)層,包括Web應(yīng)用,數(shù)據(jù)層,文件存儲(chǔ),分布式層等。這部分與應(yīng)用關(guān)系密切,業(yè)務(wù)是否正常在這方面會(huì)有很多表現(xiàn),往往數(shù)據(jù)中心出現(xiàn)故障,第一時(shí)間就是在應(yīng)用層面上表現(xiàn)出來,掌握這部分的一些技術(shù),有助于快速查找問題根源。像一些業(yè)務(wù)監(jiān)控接口的設(shè)計(jì)、流量分析技術(shù)、服務(wù)和安全監(jiān)控手段都需要認(rèn)真掌握;第五是網(wǎng)絡(luò)層,包括從接入到匯聚、核心的所有網(wǎng)絡(luò)技術(shù),主要有網(wǎng)關(guān)設(shè)備、防火墻、路由器、IPsec VPN、三層交換、二層交換等,網(wǎng)絡(luò)技術(shù)是數(shù)據(jù)中心里三大技術(shù)之一,是實(shí)現(xiàn)所有設(shè)備互聯(lián)互通的基礎(chǔ)技術(shù),必須要認(rèn)真掌握,每個(gè)數(shù)據(jù)中心別的工程師可以不用配置,但是網(wǎng)絡(luò)工程師必須配備。除了要掌握各種網(wǎng)絡(luò)技術(shù),還要懂得如何監(jiān)控網(wǎng)絡(luò),掌握各種監(jiān)控軟件的使用方法,利用軟件實(shí)現(xiàn)對網(wǎng)絡(luò)的自動(dòng)監(jiān)控。第六是基礎(chǔ)服務(wù)類,包括各種管理平臺(tái):日志收集平臺(tái)、自動(dòng)化部署平臺(tái)、Job管理平臺(tái)、項(xiàng)目管理、電子郵件、DHCP等等,這些技術(shù)可以通過各種監(jiān)控軟件來完成,所以掌握這些Zabbix、Kerberos等管理軟件是非常有必要的,可以利用這些軟件對數(shù)據(jù)中心進(jìn)行管理;第七是操作系統(tǒng)層,數(shù)據(jù)中心里由大量的服務(wù)器組成,這些服務(wù)器大部分是Linux的操作系統(tǒng),要掌握這些系統(tǒng)常用的操作,這樣才能完成各種應(yīng)用業(yè)務(wù)部署,并可以在出現(xiàn)問題的時(shí)候查看服務(wù)器的運(yùn)行狀態(tài);第八是基礎(chǔ)設(shè)施層,主要是設(shè)備的上下架,IDC的托管,這里要做好對網(wǎng)絡(luò)配置、設(shè)備標(biāo)注、資產(chǎn)錄入、操作系統(tǒng)安裝、機(jī)房巡檢等運(yùn)維工作,這部分工作雖然技術(shù)含量不高,但是卻是數(shù)據(jù)復(fù)雜的,容易出錯(cuò),需要工作的時(shí)候認(rèn)真仔細(xì)才行,這部分的數(shù)據(jù)準(zhǔn)確性直接決定了未來運(yùn)維工作的有效性,尤其是在發(fā)生故障時(shí),如果這些基礎(chǔ)數(shù)據(jù)是錯(cuò)誤的,排查起來就非常慢,甚至是錯(cuò)誤的。
運(yùn)維的工作也包括測試和開發(fā)部分。數(shù)據(jù)中心經(jīng)常要針對某種業(yè)務(wù)或者是網(wǎng)絡(luò)進(jìn)行性能測試、故障模擬測試、新業(yè)務(wù)開展測試等,要掌握一些常見的測試方法,并在測試時(shí)設(shè)計(jì)好測試方案,尤其要避免對數(shù)據(jù)中心正在運(yùn)行的業(yè)務(wù)造成影響。運(yùn)維的工作有時(shí)也需要自己做軟件開發(fā),主要是一些管理軟件,可提升運(yùn)維效率,減少復(fù)雜重復(fù)的人力。有很多大型數(shù)據(jù)中心都是自己開發(fā)運(yùn)維軟件,對整個(gè)數(shù)據(jù)中心進(jìn)行自動(dòng)化管理,這種可以按照自己的管理風(fēng)格和喜好進(jìn)行設(shè)計(jì),方便做后期的運(yùn)維。測試和開發(fā)也是運(yùn)維工作的重要部分,掌握一些常用的開發(fā)軟件和測試方法非常必要。
運(yùn)維的工作也需要管理,掌握一些管理體系:ITSM、ITIL、IT Service CMM等等,有效提升數(shù)據(jù)中心運(yùn)維的管理水平,有些數(shù)據(jù)中心聘請了一些職業(yè)經(jīng)理人進(jìn)行管理,其實(shí)這些人并不了解數(shù)據(jù)中心里的各種技術(shù),但是他們會(huì)管理,可以將運(yùn)維的管理做得很好,這樣同樣可以提升數(shù)據(jù)中心運(yùn)維水平,而且這種提升是質(zhì)的提升,遠(yuǎn)大于單純地掌握專業(yè)技能的人所做的貢獻(xiàn)。對數(shù)據(jù)中心進(jìn)行管理也是一種藝術(shù),做好了更能體現(xiàn)出數(shù)據(jù)中心的運(yùn)維水平。
以上簡單羅列了數(shù)據(jù)中心運(yùn)維所需的各種技術(shù),一個(gè)人全部掌握起來難度不小。在大型的數(shù)據(jù)中心里運(yùn)維人員也被分成網(wǎng)絡(luò)、服務(wù)器、應(yīng)用、監(jiān)控等幾個(gè)部分,每部分的人主要掌握其負(fù)責(zé)的這部分技術(shù)。在小型數(shù)據(jù)中心就沒有那么細(xì)分了,一個(gè)數(shù)據(jù)中心可能就一兩人在維護(hù),所有涉及的技能問題都要處理,這時(shí)就需要掌握知識的廣度。要想在數(shù)據(jù)中心運(yùn)維領(lǐng)域成為專家,必須要掌握以上介紹的這三方面技能,缺一不可,至少遇到問題得到知道是哪個(gè)方面的問題,自己搞不定還可以尋求專家,就怕遇到問題連這個(gè)問題是什么都說不清楚。所以,掌握運(yùn)維知識體系架構(gòu)就可以將問題搞清楚,就算自己搞不定,也可以說清楚,然而自己去找求資源,找到問題答案。