深价契合——H3C IMC定制服务山东电力调度网管理与运维

一、 客户需求概述

国家电网调度数据网第一平面、第二平面山东子区均建设完成 , 17个地调接入网均建设完成 , 各电压等级厂站网络覆盖率达到较高水平 , 220kV及以上电压等级厂站采用双套设备、冗余链路上行 ,拓扑示意如下图所示。

图:山东省调度数据网整体架构

在实际运行维护管理过程中,客户发现原有网络管理系统无法有效地满足大运维的需要,主要表现在:

1. 网络规模大、设备数量多,管理工作量指数级增加;

2. 组网完善性、冗余性带来链路、协议部署复杂度提升;

3. 多厂商、多平台设备并存,要求具备统一管理能力;

4. 省调需要有效掌控地调运维管理工作, 以对其进行指导和考核

5. 需要探索新技术规避非法入网、非法外联、不健康终端等潜在安全风险, 实现终端的有效管理

二、 H3C定制化管理运维解决方案概述

1. 建立分级分权管理体系:

省调对地调网络运行状况进行统一监管,地调网管admin帐号由省调统一管理,各地调单独建立帐号管理本地调网络,各地调设置县调管理员账号及权限实现分权。

2. 实现多视角监控:

日常监控中拓扑起到很重要、直观的作用,但以往的网管拓扑仅体现连接关系,信息量有限。H3C智能运维管理iMC通过自定义拓扑满足分级别的拓扑呈现,如可制定省调接入网骨干网、省调接入网统调电厂等多个拓扑来展示,避免单一拓扑视图中设备过多降低可用性的问题。而且,现在的拓扑中融合流量信息,点击某条链路即可查看流量分析的信息,便于及时掌握链路使用情况。通过拓扑监视能力,日常工作效率大幅提升。

图:多视角监控

在拓扑监视中,我们还建立数据中心的机房拓扑监控视图,将机房中各个机架都展示在拓扑中,不同的颜色代表不同运行状态,如果显示红色则表示机架内有设备出现故障;点击这个机架即可进入机架视图,快速查看是哪台设备出现问题,进行及时有效的修复

作为管理员,更为关注的是网络架构的合规性、设备性能等信息,如管理员通过自有首页上拓扑的显示直观判定某厂站的单链路上行未达到双线上行的要求,可及时通知其进行改进。

通过可定义的监控大屏实现简洁、快速的信息传递窗口

图:自定义组态监控大屏

定制大屏监控为省调值班中心提供一个简洁、快速的信息传递窗口。某个地调出现异常,在山东省地图上已报警颜色体现,指导值班员快速锁定问题区域。并可将日常监控所需要的流量变化趋势、关键告警等体现出来,帮助值班员和运维人员快速掌控异常情况。

3. 实现安全准入

部署非法外联防控,阻止用户非法外联行为,避免PC类终端通过3G上网卡等方式接入外网。以往管理模式中,运维人员、值班员、管理员等都采用同一套用户名、密码登陆设备进行管理操作,存在极大的信息安全风险,无法区分权限,并且出现错误无法追溯。利用智能网管为不同的操作人员进行不同的账户、并且区分可以执行的操作权限,提高设备登录安全性,控制错误操作风险,并且便于事后审计,实现管理的进一步合规。

4. 实现全方位管理:

1) 精细化的网络资产登记与管理,对网络资产的管理,可将设备、板卡部件等序列号统一上收,便于汇总。

2) 告警管理:告警是故障发现的最重要依据,如果告警过多(300台、10万条/天),将导致可用性差,如果过滤掉LDP建立和拆除、NTP时钟同步后时间差异等告警,降低到3K-5K条/天,则可用性很好。

3) 性能管理:掌握网络性能变化趋势,找出性能瓶颈,提供规划和调整参考,辅助掌握网络性能变化趋势,找出影响性能的瓶颈,为规划和优化调整提供参考。在日常管理中较多关注设备CPU、内存等利用率、设备响应时间、流量等信息,这些都在网管中提供清晰的视图来展示。

4) 配置管理:

针对NTP、SNMP、ACL等通用配置,批量下发,单次配置节省操作时间达300*0.05小时=15小时=2个工作日; 在网络运行进入稳定器后,建立所有设备的基线配置,形成在此时期的配置范本。在后期的维护中所做的变更,通过配置比对清晰呈现出来,并且可确保出现错误操作时快速恢复到基线配置降低业务中断时间。

imc对网络中有多个厂商、多个平台的设备具备统一管理能力。以上所涉及的功能部署,都支持对第三方设备的兼管,包括配置备份与下发、打开设备面板、控制登录权限、识别告警等。

在日常管理中常需要查询某个地区、某个电压等级的厂站设备数量进行数据统计,通过在网管中增加设备附加属性添加和查询功能,使得这一工作变得方便起来。例如,查询济南地调有多少220kV站设备,在查询中输入济南地调后显示查询结果,导出过滤220kV关键字即可得到结果。

5) 故障率统计

网管系统具备多厂商设备统一管理能力,但未对不同厂家设备的软、硬件故障进行分类及汇总分析,没有提供评估设备品质的重要数据。在故障管理流程中由故障处理人在确定问题后,根据设备品牌、型号、硬件或者软件等故障原因进行分类记录,作为故障率统计依据的基础。后续也可能由网管的二次开发实现此功能。

6) 运维报告输出

以往管理模式中,专责无法快速掌握一些考核指标的数据,如覆盖率、连通率统计结果等,都需要手动加工,费时费力。通过网管的运维报告输出,从自动输出周期的报告反映链路连通率、设备可用率、设备覆盖率、接入合规率等信息,方便专责进行工作汇报和计划。并且,各个地调的报告都可以作为省调考核地调的依据。有了这个功能,专责可以从繁杂的报告编制工作中解放出来,进一步聚焦核心业务,专注于网络质量的提升。

表1:9月份500kV变电站第一套数据网设备链路中断统计表

表2:9月份统调电厂链路中断统计表

表3:9月份各地调220kV及以上变电站网络设备月可用率统计表

表4: 110kV及以下变电站调度数据网建设情况统计表

三、 优势总结

1. 管理运维规范化

包括自定义视图规范,拓扑图规范,告警处理规范,设备添加规范,标签及附加属性规范,链路监控规范。

2. 丰富管理运维知识库

故障处理关联知识库创建流程,建立知识库作为闭环

3. 运维管理精细化、流程化

1) 通过对故障进行登记、分类、分级、状态跟踪、关闭确认等手段建立一个故障管理流程的闭环,从而对故障的处理过程进行监控和优化

2) 采用标准统一的方法和步骤来管理、控制所有对网络运行环境有影响的变更活动。通过执行变更流程,对所有操作进行正确评估和实施,从而维护网络运行环境的完整性,降低由于准备不当等原因对网络运行造成的风险。

3) 描述、跟踪、控制和汇报网络基础架构中所有设备或系统的管理流程,确保运维管理过程中所需的资产能够被恰当的控制,且当需要的时候可获得资产的精确且可靠信息的流程。这些信息包括对资产如何配置以及资产之间的关系。它制定、跟踪和汇报相关信息,以增强其他流程的有效运行,特别是变更管理、故障管理等流程。

4) 为避免未授权的访问,确保对调度数据网的访问控制管理能够遵照申请、审批、变更、取消、检查的流程规范,建立《网络访问控制管理办法》。

5) 为加强调度数据网的连续性、可用性,确保在重大事件或灾难时降低风险和损失,制定《运维保障管理规范》,指导应急预案制定等活动。

6) 为规范各级人员在运维管理工作中所产生的相关运维报告,制定《运维报告管理规范》

7) 借助系统建立流程:新建故障单——故障处理(原因分析)——故障解决——故障解决确认——故障单关闭

8) 告警联动故障管理流程: 告警直接转化为问题单处理流程,减少输入工作量 ,流程可定制。

H3C定制化管理运维解决方案有效地支撑了山东电力“三集五大”运维体系的落实,协助山东电力客户管理创新迈上新台阶。