摘要:排障突出根源告警前文提到,告警數量多的根源在于層次多、關聯多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無效告警派單處理,從而減少工作量。從華為的網上問題庫中統(tǒng)計發(fā)現,IP網絡的故障根源大部分來自于硬件、鏈路的劣化。尤其是網絡中的鏈路,如光纖、微波等,容易受到
排障
突出根源告警
前文提到,告警數量多的根源在于層次多、關聯多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無效告警派單處理,從而減少工作量。
從華為的網上問題庫中統(tǒng)計發(fā)現,IP網絡的故障根源大部分來自于硬件、鏈路的劣化。尤其是網絡中的鏈路,如光纖、微波等,容易受到環(huán)境影響,從而導致接口閃斷。接口反復UP/DOWN,將引發(fā)大量接口的告警,同時又引起IGP協(xié)議收斂,引發(fā)IGP反復告警,進而引發(fā)LSP的反復告警。即鏈路的告警將衍生出大量的協(xié)議告警。
針對以上情況,華為提出兩種告警優(yōu)化的思路:第一,在告警監(jiān)控中,將告警歸類為環(huán)境、硬件、軟件、接口、鏈路管道、協(xié)議和業(yè)務等幾個類別,環(huán)境、硬件類告警的處理優(yōu)先級大于協(xié)議、業(yè)務類告警。高級別告警處理恢復后,其衍生的低級別協(xié)議告警會自動恢復。這種方法簡單實用,可短期見效。第二,建設告警相關性系統(tǒng),按協(xié)議、業(yè)務運行關系定義告警的衍生關系。在告警監(jiān)控系統(tǒng)上,將衍生告警掛接在根源告警上顯示,管理員直接處理根源告警,這種方法可以比較完善地解決告警多的問題,但建設困難且周期較長。
解決“無告警故障”的關鍵在于預期和現狀的對比,我們仍從控制平面和轉發(fā)平面分別闡述。
路徑預期和檢測
盡管IP的控制平面采用了動態(tài)協(xié)議,但其運行的基礎仍然是物理鏈路和SPF(Shortest Path First)算法,鏈路規(guī)劃越簡單,路徑預期就越清晰。如在大部分的中小型城域網設計中,網絡層次少,層次之間采用主備雙鏈路進行保護,路徑非主即備。對于這種網絡,只要維護好網絡拓撲圖,就可以滿足故障處理的需要。
對于大型、復雜的網絡,管理員通過物理鏈路的分布,已無法快速識別業(yè)務路徑。在這種情況下,需要采用仿真計算的方式,將網絡上的配置、拓撲等集中到仿真軟件中,計算出業(yè)務的預期路徑。
預期建立之后,采用OSS軟件定期獲取路徑的現狀并與預期對比的方式,若不一致即發(fā)送告警,并提示管理員網絡發(fā)生了故障。中小型、簡單網絡可以采用TraceRt獲取路徑。大型、復雜網絡一般都會存在ECMP(Equal-Cost MultiPath等價多路徑),此類情況一般可以綜合TraceRt、轉發(fā)表查詢等方式來詳細判斷業(yè)務流的路徑。另一種方式是通過分析IGP的泛洪報文,掌握路徑建立的詳細過程,根據路由算法和配置來掌握轉發(fā)路徑。
通信工程師備考資料免費領取
去領取