重回1988之IT女王 第290節(jié)
誒??生意這么好的嗎? 她不是沒有想過生意火爆,但是沒想到能這么火爆。 就為了多送兩個茶葉蛋,居然有這么多人早上五點起來預(yù)約午餐?? 小雪一邊困惑一邊點擊了「刷新」,頁面依舊提示無法連接。 小雪趕緊打電話給運維。 運維此時已經(jīng)在滿頭冒汗地處理了,他們查了一遍bug,沒bug,又查了一遍數(shù)據(jù)。 在網(wǎng)頁無法連接之前,也就一千多個人預(yù)約了早餐,還不如下大雨的飯點的訪問量高。 “吃了么……”運維工程師的汗還沒擦干凈,就輪到數(shù)據(jù)中心的運維工程師頭上冒汗了。 數(shù)據(jù)中心早就收到云間市的機(jī)房包間通道溫控報警。 工程師急忙介入查詢。 五分鐘后,多個包間升溫警報,眼看著事情越鬧越大,一時半會兒按不下去,工程師們在召喚更多同伴的同時,也不得不把事情向上匯報。 正常情況下,由一線值守的運維處理就行,一線值守的運維搞不定的話,會有更高級的技術(shù)人員來處理。 短時間能搞定的事情,第一時間都不會想到通知行政管理上的人員,技術(shù)上的事情叫他們毫無意義。除了會站在旁邊吱哇亂叫,增加緊張氣氛之外,也沒什么卵用。 然而,五點二十七分,睡得正香的安夏接到了王嬌嬌的電話:“安總,抱歉打擾,數(shù)據(jù)中心的機(jī)房出問題了?!?/br> 王嬌嬌已經(jīng)盡量用了冷靜平靜的語氣向安夏匯報。 不過她再冷靜也沒用,一件事情到了安夏這里,就說明這事已經(jīng)非常嚴(yán)重了。 不管是用報喪的語氣還是用報喜的語氣說,都不會改變性質(zhì)。 安夏被這個消息頓時嚇醒了,一線運維工程師向她匯報那個數(shù)據(jù)中心涉及的單位。 除了紫金自家的,還有幾個政府機(jī)關(guān)的網(wǎng)頁,以及幾個電業(yè)局的智能電表的數(shù)據(jù)也在這里面。 “容災(zāi)逃逸啟動了嗎?”安夏問道。 運維總負(fù)責(zé)人??回答:“還沒有?!?/br> “你在等什么?!”安夏忍不住提高了聲音。 □□馬上回答:“是,馬上切換機(jī)房!” 掛了電話以后,安夏一直在刷新網(wǎng)頁,五分鐘后,運維匯報:所有受到影響的網(wǎng)頁已經(jīng)全部恢復(fù)。 安夏看了一眼時間,剛剛到凌晨六點,從系統(tǒng)首次發(fā)現(xiàn)故障到現(xiàn)在共經(jīng)歷了一個小時,她這才稍稍松了一口氣。 幸好這個受到影響的數(shù)據(jù)中心承接的都是普通業(yè)務(wù)。 要是像后世那樣動不動就是個分鐘級、秒級的業(yè)務(wù),服務(wù)器從斷氣到機(jī)房轉(zhuǎn)移完畢,中間不知道要賠幾萬幾十萬。 也幸好現(xiàn)在時間還早,大多數(shù)人還在夢鄉(xiāng)之中。 要是紫金支付的客戶發(fā)現(xiàn)他們的賬戶余額為零,或是半天刷不出來,怕不是當(dāng)場就要提刀殺來了。 只要客戶那里不炸,機(jī)房的事可以慢慢算。 通過這件事,安夏也發(fā)現(xiàn)一個問題,明明有備災(zāi)機(jī)房,□□卻沒想到馬上開啟容災(zāi)逃逸?他對自己這么自信? 真有這個本事的話,她應(yīng)該收到的是故障說明,還有處理報告,而不是事情還沒解決就到她這里。 安夏對數(shù)據(jù)中心的救災(zāi)演習(xí)非常不滿,出現(xiàn)問題之后,運維根本就是在憑本能做事,心思都在解決故障上面,完全沒想到最重要的是不要影響到客戶。 一旦失去了客戶的信任,以后數(shù)據(jù)中心的業(yè)務(wù)還做不做了。 安夏叫來負(fù)責(zé)系統(tǒng)安全的總監(jiān)龍運,剛想問問他們有沒有一套規(guī)范的應(yīng)急手冊,以及有沒有演習(xí)過。 龍運來的時候,神色還是十分緊張,就好像剛剛被人從火場上揪下來一樣。 看他的表情,不像怕被追責(zé)的慌張,更像是還在忙著干什么事,忽然被人打斷后的模樣。 安夏問道:“機(jī)房的問題解決了嗎?” 龍運的回答差點把安夏給氣死:“沒有?!?/br> 早上五點鐘發(fā)生的事情,現(xiàn)在已經(jīng)十點,整整五個小時,還沒有解決,機(jī)房是被燒了還是炸了? “機(jī)房到底是怎么回事?” “被水淋了?!?/br> “哪來的水?”安夏一時沒反應(yīng)過來。 “機(jī)房溫控檢測到服務(wù)器溫度過高,然后……就觸發(fā)了消防自動噴淋?!饼堖\在說這話的時候,音量都不由得低了幾度。 等安夏確認(rèn)自己沒聽錯之后,她瞬間出離憤怒。 數(shù)據(jù)中心!機(jī)房!全都是怕水的硬件!被水淋一淋就要斷氣。 消防裝置用自來水噴淋系統(tǒng)?! 安夏做了幾個深呼吸,才沒有對手邊的鼠標(biāo)和手機(jī)進(jìn)行身體傷害。 “你先去處理機(jī)房的問題吧?!卑蚕臄[擺手。 事情還沒解決,把龍運扣在辦公室里罵死,被淋死的服務(wù)器們也不會死而復(fù)生。 下午四點,龍運還沒過來請罪,顯然是事情還沒解決。 設(shè)計數(shù)據(jù)中心機(jī)房的建筑設(shè)計院已經(jīng)過來了,他們說是來說明問題的,其實是來甩鍋。 機(jī)房升溫的原因:冷機(jī)系統(tǒng)故障。 故障原因:缺水。 由于水路循環(huán)受到影響,導(dǎo)致整個機(jī)房里所有的主冷機(jī)服務(wù)異常,連帶著備用的冷機(jī)也一起完蛋。 然后,補(bǔ)水了,結(jié)果由于冷卻系統(tǒng)的群控邏輯,無法單機(jī)獨立啟動,必須手動修改配置。 等工程師改完了,才重新啟動。 查原因用了三小時三十四分鐘。 補(bǔ)水用了兩小時五十七分鐘。 人工修改冷機(jī)的群控邏輯用了三小時三十二分鐘。 所以,早上五點發(fā)生的問題,直到剛剛才解決。 中途還因為傻逼的自來水消防噴淋裝置,徹底毀了一個房間里的服務(wù)器。 這家建筑設(shè)計院就是之前安夏成功推銷了軟件的那家接了援非業(yè)務(wù)的,院長朱洪濤給錢挺痛快。所以安夏在做數(shù)據(jù)中心的時候,也想到了他們。 這次帶隊過來的人是總工杜力,在來之前他們內(nèi)部已經(jīng)撕過一輪了。 冷機(jī)故障,正常情況下第一個要找的是暖通。 暖通工程師說:“關(guān)我什么事?是我讓冷機(jī)沒水的嗎?是弱電的錯!沒水了群控都查不出來。” 弱電工程師說:“關(guān)我什么事!我的程序沒錯!是給排水的錯……” 給排水工程師說:“啊對!是,我,我有罪!但是負(fù)責(zé)機(jī)房監(jiān)管的人就一點責(zé)任都沒有嗎?” 于是,杜力親自帶著給排水工程師過來謝罪。 如果有可能的話,最好能把鍋甩回給紫金科技,建筑行業(yè)一出生產(chǎn)責(zé)任事故,不是賠錢就是坐牢。 他們也不想的。 機(jī)房斷氣的責(zé)任事故有兩件事要往下追: 第一,冷機(jī)的水到底是怎么沒的。 第二,誰出的主意,在機(jī)房里用自來水噴淋做為消防手段的。 第一件事的責(zé)任方無論如何都有給排水工程師的鍋,甩是甩不掉了,他最多拉著機(jī)房監(jiān)管人員共沉淪。 杜力向安夏再三道歉,表示會馬上親自到現(xiàn)場查明事故原因。 下午五點,龍運來了。 他接到消息的時間是早上五點十分,早飯午飯都沒吃,連軸轉(zhuǎn)到現(xiàn)在,解決了機(jī)房的問題之后,又急匆匆地趕來向安夏匯報。 什么時候機(jī)房出現(xiàn)了什么事,什么時候機(jī)房全面恢復(fù)。 目前造成了什么損失。 損失只報了那一房間的硬件,安夏盯著他:“你是不是漏掉了什么?” “什么?”龍運沒反應(yīng)過來,冷機(jī)不進(jìn)水的故障不是由建筑設(shè)計院認(rèn)領(lǐng)嗎? “對客戶的影響?!卑蚕睦渲樥f:“停機(jī)多長時間,多少個客戶不能正常使用功能,這些客戶都是什么行業(yè)的,顯性的故障是多少,隱性的故障是多少?你沒想過?” 龍運完全沒往那里想:“應(yīng)該……沒有吧,那個時間還早,我們又很快把數(shù)據(jù)轉(zhuǎn)移到異地備份服務(wù)器了……” “吃了么在出現(xiàn)故障之前已經(jīng)有一千多單預(yù)約。如果不是出現(xiàn)故障,應(yīng)該還會有幾單,也許就有想預(yù)約午餐的客戶打開網(wǎng)頁之后,發(fā)現(xiàn)無法登陸,然后放棄的,這算不算損失?!?/br> 龍運不敢吭聲了,紫金內(nèi)部的各個團(tuán)隊是獨立運營,吃了么的老大又是安夏之前助理,不是可以隨便打發(fā)的小蝦米,他們的投訴當(dāng)然也是投訴。 安夏又問:“數(shù)據(jù)中心有應(yīng)急手冊嗎?有防災(zāi)演習(xí)嗎?” “有應(yīng)急手冊?!饼堖\趕緊說,并說就在公司內(nèi)網(wǎng)上就有電子版,安夏一目十行的掃完,眉頭緊鎖。 “這邊不是有關(guān)于數(shù)據(jù)中心出現(xiàn)問題之后,應(yīng)該第一時間啟動容災(zāi)逃逸嗎?為什么出現(xiàn)問題之后半小時都沒有啟動?他們不知道就算了 ,你也不知道?你還想不想干了?!” 面對暴怒的安夏,龍運沉默,安夏并沒打算因此放過他。 總經(jīng)理辦公室里的空氣像粘稠的膠水,在如此的重壓下,龍運感到自己無法呼吸,他想逃走,但是一步也走不動。 安夏的眼神像鋒利的刀,他實在不知道應(yīng)該怎么辦。 現(xiàn)在,他十分后悔,早知道,不聽那個人的建議就好了。 如果不是因為輕信了別人,選擇了更便宜。但需要經(jīng)過中間件跳轉(zhuǎn)的管控系統(tǒng),怎么會在發(fā)現(xiàn)故障的時候吵轉(zhuǎn)不過去。 如果不是一個資深運維生死時速修改bug,安夏命令他做容災(zāi)逃逸的時候,他也轉(zhuǎn)不過去…… 當(dāng)時轉(zhuǎn)成功的時候,他還松了一口氣,以為安夏不會再追問這件事了,沒想到,她還記著這事。 這要怎么向她解釋,說自己一分錢沒收,只是因為朋友關(guān)系,才聽了別人的建議?