?當(dāng)?shù)貢r間7月2日凌晨1點(diǎn)35分開始,日本運(yùn)營商KDDI的移動網(wǎng)絡(luò)發(fā)生大規(guī)模通信故障,導(dǎo)致全日本范圍內(nèi)無法撥打電話、無法收發(fā)短信、數(shù)據(jù)通信變慢。

此次事故影響范圍大,持續(xù)時間長,影響用戶數(shù)量達(dá)3915萬,故障一直持續(xù)到7月4日下午才基本完全恢復(fù),給日本全社會造成了極大的不便和損失,也是KDDI有史以來遭遇的最大一次網(wǎng)絡(luò)系統(tǒng)故障。


【資料圖】

故障發(fā)生后,KDDI高層及時召開新聞發(fā)布會,向廣大深受影響的個人和企業(yè)用戶鞠躬致歉,并表示考慮賠償損失。

那究竟是什么原因造成了此次大規(guī)模通信故障?看完KDDI的報告后,發(fā)人深省。

故障原因一:核心路由器割接失敗

7月2日凌晨,KDDI組織工程師對連接全國移動核心網(wǎng)和中繼網(wǎng)絡(luò)的一個核心路由器進(jìn)行割接,將老舊的核心路由器更換為新產(chǎn)品。

不幸的是,通信人最擔(dān)心的噩夢發(fā)生了——割接失敗了。在更換核心路由器的過程中,新的核心路由器出現(xiàn)了不明原因的故障。

搞通信的伙伴們都知道,核心路由器位于網(wǎng)絡(luò)核心位置,是整個網(wǎng)絡(luò)的“交通樞紐”,不僅性能強(qiáng)悍、價格昂貴,且需時時刻刻保持穩(wěn)定運(yùn)行,否則,一旦出現(xiàn)問題,動輒可能影響全網(wǎng)數(shù)百萬甚至數(shù)千萬用戶。

正因如此,核心路由器割接好比為活人換“心臟”,是一項(xiàng)極具挑戰(zhàn)的工作,也對要更換的新產(chǎn)品的成熟性、穩(wěn)定性、互聯(lián)互通性等能力要求極高。

但KDDI偏偏在這項(xiàng)要求極其謹(jǐn)慎的工作上掉了鏈子,接下來的后果當(dāng)然就相當(dāng)嚴(yán)重了——

由于新核心路由器無法將語音流量正確路由到VoLTE交換節(jié)點(diǎn),直接導(dǎo)致部分VoLTE語音業(yè)務(wù)中斷15分鐘。

故障原因二:信令風(fēng)暴擊潰VoLTE網(wǎng)絡(luò)

核心路由器割接失敗,這場景簡直不敢想象,隔著屏幕都能嚇出冷汗!

怎么辦?趕緊回退唄。KDDI的工程師們快速啟動了回退操作,于7月2日凌晨1點(diǎn)50分將連接重新切換回舊的核心路由器。

但更大的問題發(fā)生了。

回退后,“由于VoLTE終端每50分鐘進(jìn)行一次位置注冊”,大量終端向VoLTE交換節(jié)點(diǎn)發(fā)起位置注冊信令,以重新連接至網(wǎng)絡(luò)。海量信令集中突發(fā),很快引發(fā)VoLTE交換節(jié)點(diǎn)擁塞,致使大量用戶無法進(jìn)行VoLTE通信。

同時,移動網(wǎng)絡(luò)中有一個“用戶數(shù)據(jù)庫”,負(fù)責(zé)存儲用戶的簽約數(shù)據(jù)和位置信息,由于VoLTE交換節(jié)點(diǎn)擁塞,“注冊在用戶數(shù)據(jù)庫的位置信息無法反映在VoLTE交換機(jī)上”,出現(xiàn)數(shù)據(jù)不匹配問題,也導(dǎo)致很多用戶無法通信和撥打電話。

針對此情況,KDDI于7月2日凌晨3:00后開始從無線側(cè)、VoLTE核心網(wǎng)側(cè)同時實(shí)施流量控制策略,以及通過斷開PGW的方式減輕用戶數(shù)據(jù)庫負(fù)荷,以緩解網(wǎng)絡(luò)擁塞,并在PGW采用“會話重置”措施解決用戶數(shù)據(jù)庫中的數(shù)據(jù)不一致問題。

因?yàn)閷?shí)施流量控制,接下來導(dǎo)致了全國范圍內(nèi)的數(shù)據(jù)通信和語音通話難以連接。

接下來,KDDI開始緊張的網(wǎng)絡(luò)恢復(fù)工作。7月3日上午11點(diǎn),KDDI宣布日本西部基本完成網(wǎng)絡(luò)修復(fù)工作。下午5點(diǎn)30分,日本東部基本完成。但仍然有一些用戶難以進(jìn)行數(shù)據(jù)通信和語音通話。

直到7月4日下午4點(diǎn),距離故障發(fā)生62個小時后,KDDI表示已在全國范圍內(nèi)基本恢復(fù)。

發(fā)人深省

類似的重大網(wǎng)絡(luò)故障在日本并不是頭一次。

2021年10月14日,日本另一家運(yùn)營商N(yùn)TT DoCoMo的移動網(wǎng)絡(luò)也發(fā)生過全國性的重大通信事故,導(dǎo)致大量手機(jī)用戶無法進(jìn)行通話和數(shù)據(jù)通信。

此次事故同樣因?yàn)楦罱邮『蠡赝瞬僮?,引發(fā)信令流量大爆發(fā),導(dǎo)致網(wǎng)絡(luò)大擁塞。

具體情況是,NTT DoCoMo在替換用于存儲物聯(lián)網(wǎng)終端設(shè)備的用戶和位置信息的網(wǎng)絡(luò)設(shè)備時出現(xiàn)了問題,然后立即啟動回退操作,重新倒回到舊設(shè)備。

但這一回退操作,引發(fā)了大量物聯(lián)網(wǎng)終端向舊設(shè)備重新發(fā)起位置注冊信息,洶涌而來的“信令風(fēng)暴”快速引發(fā)了網(wǎng)絡(luò)擁塞,并波及3G/4G/5G網(wǎng)絡(luò)的語音和數(shù)據(jù)分組核心設(shè)備,導(dǎo)致大量用戶無法通話和數(shù)據(jù)通信。

與NTT DoCoMo不同的是,KDDI此次是因?yàn)楹诵穆酚善鞲罱邮∫?,而且故障持續(xù)時間要長很多。

但值得一提的是,KDDI似乎并非沒有吸取DoCoMo的教訓(xùn)。

KDDI在全日本范圍內(nèi)擁有6個交換中心,共18個VoLTE交換節(jié)點(diǎn),且交換中心內(nèi)的VoLTE交換節(jié)點(diǎn)是相互冗余備份的。而本次因核心路由器割接導(dǎo)致VoLTE業(yè)務(wù)中斷的只是其中一個交換中心的VoLTE交換節(jié)點(diǎn)。

“我們做過壓力測試,因?yàn)橛腥哂鄠浞荩词挂粋€交換中心范圍內(nèi)的所有終端同時發(fā)起重新連接請求,也不會發(fā)生擁塞。”

KDDI表示,“但不知道什么原因,結(jié)果還是發(fā)生了擁塞,我們還沒有完全搞清楚到底是哪里出了問題?!?/p>

但愿KDDI最終能徹底找出此次事故的所有原因。也希望通信業(yè)再也不要重蹈覆轍。因?yàn)椋卮缶W(wǎng)絡(luò)故障,這六個大字,對于通信業(yè)而言,實(shí)在太可怕了。?

標(biāo)簽: