微信光纜被挖斷 探討信息化安全軟肋
一次城建工人的失誤,造成了微信史上最大規(guī)模的一次宕機,也讓這個擁有4億用戶的超級即時通訊工具面對了自上線以來的最大危機。
從通訊中斷后的修護時間之長,到光纜被挖斷后的應急方案之弱,都讓外界注意到,微信乃至中國互聯(lián)網(wǎng)產(chǎn)業(yè)體系中曾被忽視的安全軟肋。
宕機之后,微信團隊恢復通訊的時間是6個小時,這在互聯(lián)網(wǎng)乃至通信行業(yè)里都極為罕見,尤其是曾被認為需要向互聯(lián)網(wǎng)學習的通信運營商,重新成為騰訊需要學習的對象。
“網(wǎng)絡再爛的運營商,也基本不會出現(xiàn)全網(wǎng)中斷;即使有局部地區(qū)短信中斷或話路中斷,基本也很少超過一個小時。甚至在雅安地震這樣的災難事件中,運營商也做到了在一小時內(nèi)恢復75%的通信。”一位運營商人士告訴記者。
危機6小時
7月22日上海浦東新區(qū)康橋鎮(zhèn)秀浦路,一大早,上海城建隧道股份有限公司浦東分公司的工地上就已忙碌起來。在這個被戲稱為“上海史上最熱”的炎夏,天氣最涼爽的清晨是室外市政施工最寶貴的時間。但8點剛過,他們不得不把手里的活兒全部停了下來,因為他們挖斷了光纜。
這是一次意外的事故,各路管網(wǎng)交來的圖紙顯示,地深5米處,應該沒有通訊設施。但實際的情況是,地下被挖斷的光纜甚至超過了10根,其中2根就是運營商為微信提供的光纜,同時還有其他世界500強企業(yè)也因此通訊中斷。
最先發(fā)現(xiàn)異常的是運營商,它們的網(wǎng)絡監(jiān)測系統(tǒng)第一時間發(fā)現(xiàn)區(qū)域內(nèi)管線出現(xiàn)問題,并立刻聯(lián)系在當?shù)厥┕さ某墙ü竞碗娏菊归_排查。
此時,從上海到北京、浙江、廣東,到更多地區(qū),越來越多的微信用戶發(fā)現(xiàn),自己無法登錄微信。他們開始在各個社交網(wǎng)站發(fā)問,“微信怎么了”,“我和我的小伙伴失去了聯(lián)系”……短短數(shù)小時內(nèi),幾個微博平臺,與微信故障有關(guān)的微博就已達到上億條,甚至出現(xiàn)了“微信遭受了上海等黑客團隊的攻擊”等流言。
騰訊對記者表示,負責微信機房的工作人員也發(fā)現(xiàn)了數(shù)據(jù)異常,且與運營商發(fā)現(xiàn)問題的時間基本一致。但直到9點26分,也就是光纜中斷1個半小時之后,微信團隊才對外發(fā)布第一條微博,稱“由于服務器基礎(chǔ)網(wǎng)絡故障,您的微信暫時可能出現(xiàn)收發(fā)問題。我們正在玩命恢復中,請各位小主耐心等待”。
又一個1個半小時后,騰訊微信團隊11點在官方微博上公布了宕機原因:
“機房兩路光纜出現(xiàn)硬件故障,導致部分用戶無法正常登陸和收發(fā)信息”。據(jù)記者了解,在光纜被挖斷之后,微信團隊做出的補救方案,是進行數(shù)據(jù)遷移。30%的用戶數(shù)據(jù)被遷移到其他的機房,但由于華東、華南地區(qū)的機房冗余不足,不堪重負,撲天蓋地而來的數(shù)據(jù)請求,讓各地機房的數(shù)據(jù)處理能力也迅速達到飽和,最終導致了微信業(yè)務的幾乎全線崩潰。此時,唯一的解決辦法,只剩下了全力搶修更換光纜,并通過技術(shù)手段逐步恢復用戶使用。當天下午14點23分,微信團隊終于發(fā)布微博表示,全面恢復通訊。
信為何中斷
實際上,這并不是微信第一次發(fā)生宕機事故。4月10日,微信曾因機房故障發(fā)生10分鐘的中斷。
但與上一次的短暫中斷不同,此次長達6小時的嚴重事故,具有更大的影響與意義,僅其引發(fā)的7月23日股價波動,就讓騰訊蒸發(fā)了近百億市值。
作為中國最大的互聯(lián)網(wǎng)公司之一,騰訊究竟為微信配置了怎樣的基礎(chǔ)架構(gòu),是如何保證機房數(shù)據(jù)安全、順暢的?為何因為2根光纜的中斷,就出現(xiàn)如此致命的網(wǎng)絡問題?
記者了解到,騰訊在上海設有多處機房,分別與不同運營商合作,出于成本考慮,這些機房既有合建,亦有自建。微信機房采用分布式架構(gòu),通過云平臺實現(xiàn)多機房互聯(lián)。此次被挖斷的光纜正是連接微信在華東區(qū)核心服務器所在機房,另一頭連接著具有索引功能的機房。
實際上,微信在全國的機房架構(gòu)均是遵循交互式的布局方式,因為不能將所有的雞蛋都放置到同一個籃子里。面對4億用戶群體,微信不可能、也不會將所有的用戶集中在一家服務器上。也就是說北京的用戶數(shù)據(jù)不全存儲在北京的機房里上,有可能存儲在上海、廣東等地的機房。而上海的光纜斷了,會影響到存儲到本地的北京、上海、廣東、浙江等地的用戶。
一般來說,大型公司為保證機房數(shù)據(jù)安全會設置光纖通信雙保護,一旦其中一條光纜出現(xiàn)故障,可迅速切入另一條光纜,以保證數(shù)據(jù)傳輸?!敦斀?jīng)國家周刊》記者了解到,此次,騰訊與上海運營商合作,已明確要求使用雙光纜。
但從此次的宕機故障來看,這兩條光纜卻還是被放在了同一個管道中,變成了“雙光纜、單路由”。
這就好比為了防止堵車,運營商應該為騰訊提供兩條不同的路,一旦A車被堵在了A路上,任務可由B車通過B路完成。但現(xiàn)在,兩條路卻重疊在了一起,并且同時中斷。
據(jù)悉,之前因為雙光纜單路由的設置,曾導致QQ連接故障,所以騰訊一些重要的機房被改為雙光纜雙路由。但這個經(jīng)驗顯然未被復制到微信上。“同時受到光纜被砍斷影響的業(yè)務還有QQ的其他一些業(yè)務。”騰訊公關(guān)部總經(jīng)理助理張軍電話里對記者說。
對于用戶規(guī)模越來越大的騰訊,其在基礎(chǔ)設施的花費也變得龐大起來。騰訊財報顯示,“移動及電信收費以及頻寬及服務器托管費”位列開支項目中前三。從2004年到2012年期間,增長超過10倍,從3.16億元增至34.08億元。
宕機后遺癥
微信宕機事件,再一次為互聯(lián)網(wǎng)企業(yè)們拉響了警鐘。
當前,在信息化浪潮的沖擊下,每個國家的政治、軍事、經(jīng)濟、民生,乃至每個人的生活與娛樂,都越來越依賴互聯(lián)網(wǎng),一旦互聯(lián)網(wǎng)自身出現(xiàn)安全問題,所造成的影響將在更大的領(lǐng)域擴散,甚至可能引發(fā)更大危機。
事實上,騰訊不是第一個、也絕不可能是最后一個出現(xiàn)宕機現(xiàn)象的互聯(lián)網(wǎng)公司。在此之前,新浪微博就曾兩度出現(xiàn)宕機現(xiàn)象,而Google、維基百科也曾因各種原因數(shù)度宕機。
對互聯(lián)網(wǎng)公司來說,每一次宕機,都有可能導致大量的用戶離開。據(jù)IDC調(diào)查顯示,1990-2000年間,美國發(fā)生過數(shù)據(jù)災難的公司中,55%當時倒閉,29%在兩年內(nèi)倒閉,生存下來的僅占16%。
調(diào)研機構(gòu)Qualix Group的一組數(shù)字,更說明了不同行業(yè)關(guān)鍵業(yè)務中斷帶來的金錢損失:服務器宕機1分鐘,平均會使運輸業(yè)損失15萬美元,銀行業(yè)損失27萬美元,通信業(yè)損失35萬美元,制造業(yè)損失42萬美元,證券業(yè)損失45萬美元……
而涉及到政府、國防、安全、電信、金融、交通和醫(yī)療等關(guān)系到國計民生的行業(yè)的關(guān)鍵業(yè)務,需要遵循“5個9(99.999%)”、“6個9”、甚至是“7個9”的標準。這意味著一臺服務器每年的非計劃停機時間分別只有5分鐘、30秒和3秒鐘。
合來看,目前出現(xiàn)的各類宕機,可以歸結(jié)為六大類:網(wǎng)絡故障、應用系統(tǒng)本身產(chǎn)生的問題、基礎(chǔ)設施問題、系統(tǒng)部署方案不合理,人為原因(如黑客攻擊)以及硬件故障。
易觀國際分析師閆小佳表示,在IT行業(yè)出現(xiàn)宕機并不鮮見,關(guān)鍵是要看企業(yè)能否在第一時間及時發(fā)現(xiàn)和解決問題,要看企業(yè)平時是否能建立一個良好的應急機制。此外,宕機也從一個側(cè)面揭示出,包括帶寬、云存儲等在內(nèi)的國內(nèi)互聯(lián)網(wǎng)的“基礎(chǔ)設施建設”目前仍跟不上用戶及市場發(fā)展的需要,這應成為今后行業(yè)需要加快發(fā)展的又一重點。(記者 徐英)

責任編輯:黎陽錦
-
發(fā)電電力輔助服務營銷決策模型
2019-06-24電力輔助服務營銷 -
繞過安卓SSL驗證證書的四種方式
-
網(wǎng)絡何以可能
2017-02-24網(wǎng)絡