徐小雷
(中国联通山西省分公司 030000)
摘要
故障派单是集中监控系统的重要功能之一,集中监控系统从专业网管系统采集告警信息,进行告警规则和派单规则匹配后生成故障单进行派发,维护包机人受理工单后进行接单、处理和返单,集中监控系统将对返单后的告警信息进行判断,如果故障工单涉及中告警未恢复,将归结为未修先销工单。正常情况下,专业网管系统与集中监控系统中的告警信息应当保持一致,但在实际工作中,集中监控系统存在漏接个别告警消除信息的情况,即出现未修先销的异常工单。本人结合自己经手的一起实际案例,分析了集中监控系统未修先销异常工单的发现过程,并提供了处理经验,对集中监控系统的完善也提出了建设性的改进措施。
关键字: 集中监控 告警关联 告警比对 未修先销
集中监控系统简介
为贯彻集团公司对网络故障的集中监控、集中处理、集中管理原则,山西联通网络管理中心于2016年建设了集中监控综合管理系统,将传输、数据、交换、无线、动环等各专业的专业网管统一接入该监控系统,将专业内、跨专业的关联告警信息,频次衍生专题以及基站衍生专题告警信息以流水模式实时呈现,实现了不同专业的告警、故障、工单、资源等信息在同一平台高效管理。
我们把原来看起来孤立的、不同的专业的告警综合到了集中监控系统中这个平台,发现其实各专业间告警的发生有很强的关联性。比如,传输专业某一方向长途光缆故障,可能会影响到相关地区数据、交换专业业务;数据承载B网故障会影响交换专业ps域手机上网业务;集中监控综合系统巧妙地利用规则将不同专业的告警关联在一起,极大地提高了告警发现和故障修复的及时性和准确率。
山西省网络管理中心集中监控运营管控流程如下:

本文着重提到的告警监控主要从事以上流程图的前三步,是跨专业、跨地市、面向全网的告警集中管理,消除各网元网管以及专业网管系统之间的信息孤岛,实现全网各专业告警在同一平台上的标准化呈现,故障的主动发现、快速定位,故障工单的派发、督办,达到告警全生命周期的集中监控、集中管理。
问题的发现
某日的例行网管告警巡视时,发现吕梁mgw4在4点07分32秒,发生了“单板硬件模块故障”告警,经联系吕梁处理后故障于4点18分16秒告警恢复。以下是专业网管系统和集中监控系统中的原始告警记录:
专业网管系统的告警信息(蓝色加深的条目)

集中监控系统的告警信息(灰色加深的条目)

由上述两个系统告警信息可见,上述故障在两个系统均有相关告警信息。该条告警在集中监控系统有故障派单,按照故障工单处理流程,及时进行了故障工单的接单,故障处理完毕确认告警消除后,及时进行了故障工单的返单。
返单后收到了未修先销的短信通知:

经核查,专业网管系统显示的告警已消除,但集中监控系统中此条告警仍然未消除。

判断,应该是集中监控系统漏接了专业网管告警库的此条恢复告警信息。
解决措施
为顺利解决未修先销异常工单的问题,做了如下处理:
1、对异常工单进行取证上传。登录集中监控系统,进入个人工作台的未修先销界面,把专业网管中已恢复告警界面的截屏作为附件,上传给系统管理员:

2、清除集中监控系统告警。系统管理员审核确认后,从集中监控系统中清除该条已恢复告警,同时要寻找出现这种情况的问题根源进行解决,杜绝再次出现类似情况。
3、完成催单工单的处理。完成因为系统认为该条告警为未修先销,为纠正系统的错误,还需登录集中监控系统,进入个人工作台的个人催单界面,受理并反馈该条催单工单:

4、对异常工单进行减免。同时告知系统管理员去除该条告警的未修先销标签,确保对异常故障工单统计和考核完成减免。
一些建议
1 进一步完善告警的标准化管理
集中监控综合管理系统告警池与专业网管的完美同步对告警的标准化管理有着很高的要求。告警标准化梳理表:支持按厂家、专业、厂家告警级别、网管告警级别、告警类别、设备类型、告警逻辑分类、告警逻辑子类、该事件对设备的影响、该事件对业务的影响、网管告警ID、厂家告警ID、告警标题等条件设置网管告警级别、网管告警ID、告警逻辑分类、告警逻辑子类、告警标准名、该事件对设备的影响、该事件对业务的影响等标准化字段信息;并提供查询、增加、修改、删除和导入、导出功能。
2 及时更新网络资源及维护人信息
要让系统及时准确地将告警网元的信息派单给设备维护人去处理,就要保证网络资源和维护人信息的绝对准确性,真正做到派单到人。网络建设新增网元及电路,以及割接改造等产生的弃用资源,需要及时录入集中监控综合系统;同时,基层维护人员岗位变动及包机范围变更信息也要及时录入系统。
3 提高告警比对的频次
告警比对原理是以告警流水号为关键字段,拿厂家导出告警中的告警流水号,与集中监控系统中采集到告警的告警流水号进行比较,如果厂家告警中的告警未能在集中监控系统中找到,则认为这条告警为集中监控缺失的告警。所以导出的厂家告警中必须要有告警流水号,否则无法进行比对!
比对结果中的集中监控告警缺失数、厂家告警缺失数等数字会以一个详情表呈现,此详情表可以点击左上角的“导出”按钮导出为excel。如果集中监控告警一致率不为100%,则需要将集中监控缺失告警导出并发送给系统维护工程师核查原因。
为确保集中监控综合系统的告警数量与专业网管一致,把告警比对做成常态化,必须专人负责,高频次比对。
结束语
在集中监控系统的运行和完善中,不可避免会出现一些系统对接、数据同步和统计方面的问题,需要在工作实践中不断的发现、优化和完善,在发现异常故障工单时,要充分利用现有的网管系统,进行端到端的信息比对,定位问题点,及时与相关专业主管进行沟通,在解决工单问题的同时,协助系统维护人员完善系统的使用,共同提升网络安全稳定能力。
作者简介:
徐小雷 男 西安电子科技大学 高级工程师 现供职于山西省联通公司网管中心
联系方式:15603510809
联系地址:山西省太原市小店区数码东路5号山西联通南楼网管中心
邮政编码:030000
Email:136770222@qq.com