摘要:IP網(wǎng)絡(luò)故障定位的復(fù)雜程度,非一般運(yùn)維人員所能掌握。如何讓運(yùn)維人員追本溯源,了解IP故障發(fā)生的機(jī)理,掌握從現(xiàn)象到定位的過(guò)程,并順利排障?IP網(wǎng)絡(luò)故障管理難表現(xiàn)為兩點(diǎn):第一,告警數(shù)量多,甚至是泛濫,每天告警工單數(shù)量很多,但一些告警定位后,又不需要作任何恢復(fù)動(dòng)作,維護(hù)人員不堪重負(fù)。第二,故障發(fā)生卻無(wú)任何告警,只能摸索排查,
IP網(wǎng)絡(luò)故障定位的復(fù)雜程度,非一般運(yùn)維人員所能掌握。如何讓運(yùn)維人員追本溯源,了解IP故障發(fā)生的機(jī)理,掌握從現(xiàn)象到定位的過(guò)程,并順利排障?
IP網(wǎng)絡(luò)故障管理難表現(xiàn)為兩點(diǎn):第一,告警數(shù)量多,甚至是泛濫,每天告警工單數(shù)量很多,但一些告警定位后,又不需要作任何恢復(fù)動(dòng)作,維護(hù)人員不堪重負(fù)。第二,故障發(fā)生卻無(wú)任何告警,只能摸索排查,定位耗時(shí)長(zhǎng),非常依賴人的經(jīng)驗(yàn)。這兩種現(xiàn)象給故障管理工作帶來(lái)非常大的困擾,本文將深入診斷其發(fā)生的根源,并給出相應(yīng)的治理辦法。
溯源
故障告警多
告警數(shù)量多的根源與IP網(wǎng)絡(luò)兩個(gè)特點(diǎn)相關(guān),第一個(gè)特點(diǎn)是網(wǎng)絡(luò)層次多,例如一個(gè)VLL(Virtual Leased Line)業(yè)務(wù)在IP網(wǎng)絡(luò)上承載,要經(jīng)過(guò)物理層、鏈路層、路由協(xié)議、MPLS、VLL等多層次處理,若某條物理光纖發(fā)生中斷,那么物理層、鏈路層、IP傳輸層、VLL管道層將全部受到影響,這些層次也將全部發(fā)送TRAP。第二個(gè)特點(diǎn)是協(xié)議關(guān)聯(lián)多,一般物理光纖的故障將引起路由協(xié)議的收斂,再引起MPLS LDP等協(xié)議的變化,這個(gè)過(guò)程中必然要發(fā)送大量的TRAP。
無(wú)告警
無(wú)告警的問(wèn)題相對(duì)復(fù)雜。我們先回顧一下故障的定義,故障是產(chǎn)品或產(chǎn)品的一部分不能或?qū)⒉荒芡瓿深A(yù)期功能的事件或狀態(tài),簡(jiǎn)單地說(shuō),就是現(xiàn)狀不符合預(yù)期。反之,如果沒(méi)有“預(yù)期”,則不會(huì)有“故障”。實(shí)際上,正是IP網(wǎng)絡(luò)上的預(yù)期無(wú)法清晰定義,才導(dǎo)致了“無(wú)告警”現(xiàn)象的發(fā)生。我們從控制平面和轉(zhuǎn)發(fā)平面的原理出發(fā),追溯無(wú)告警發(fā)生的根源。
控制平面決定源到目的地的業(yè)務(wù)路徑。在傳統(tǒng)的電路網(wǎng)絡(luò)上,管理員靜態(tài)指定主備路徑,每個(gè)業(yè)務(wù)的下一跳非主即備,預(yù)期非常清晰。而在IP網(wǎng)絡(luò)上,路由協(xié)議根據(jù)網(wǎng)絡(luò)實(shí)際情況選擇最優(yōu)路徑,單個(gè)路由器只知下一跳,并不掌握業(yè)務(wù)路徑。因此,當(dāng)鏈路中斷產(chǎn)生路由收斂或者路徑計(jì)算錯(cuò)誤,導(dǎo)致路徑發(fā)生變化時(shí),路由器無(wú)法告警業(yè)務(wù)路徑切換。
華為曾遇到過(guò)這樣一個(gè)網(wǎng)上問(wèn)題,NGN語(yǔ)音業(yè)務(wù)中斷40多分鐘而IP承載網(wǎng)無(wú)任何告警,排查中發(fā)現(xiàn)是LSP路徑計(jì)算錯(cuò)誤,其結(jié)果與ISIS路徑不一致而導(dǎo)致業(yè)務(wù)中斷。在這個(gè)案例里,建立LSP的協(xié)議并不掌握路徑預(yù)期,因此無(wú)法發(fā)現(xiàn)LSP路徑計(jì)算錯(cuò)誤,也就無(wú)法發(fā)出告警通知路徑錯(cuò)誤。
在轉(zhuǎn)發(fā)平面上,IP網(wǎng)絡(luò)不是同步網(wǎng)絡(luò),其轉(zhuǎn)發(fā)機(jī)制無(wú)法定義預(yù)期,比如,業(yè)務(wù)報(bào)文要經(jīng)過(guò)路由器A、B順序轉(zhuǎn)發(fā),但是B完全不知道A是否有報(bào)文會(huì)送到,有報(bào)文送到是正常,沒(méi)有也是正常,因此當(dāng)A路由器故障無(wú)法轉(zhuǎn)發(fā)報(bào)文時(shí),B無(wú)法告警。
此類故障最常見(jiàn)的情況是路由器間的光纖劣化,光纖上發(fā)生了丟包,但路由器上無(wú)告警。對(duì)于這類故障的排查需要花費(fèi)大量的時(shí)間,需要按照承載網(wǎng)的轉(zhuǎn)發(fā)路徑,逐個(gè)路由器、逐條鏈路去排查,最終才能發(fā)現(xiàn)是光纖故障導(dǎo)致丟包。
厘清IP網(wǎng)絡(luò)故障管理難的根源后,排障的思路和措施就比較明確了,下文將給出華為針對(duì)告警多和無(wú)告警故障的解決之道。
通信工程師備考資料免費(fèi)領(lǐng)取
去領(lǐng)取
共收錄117.93萬(wàn)道題
已有25.02萬(wàn)小伙伴參與做題