在实际的故障定位过程中,各种定位方法往往交叉使用,互为补充。
实际操作过程中可以遵循由外到内、由大到小、先远程后现场、先硬件 后软件的原则,即先查看外部线缆连接是否牢靠、各指示灯状态是否正 常,然后通过控制台查看系统的整体运行状态,最后再查看各个模块的 运行状态。
故障定位的各个过程及其常用的方法如表 1-1所示。
故障定位过程 |
常用方法 |
其它方法 |
排除外部设备故障 |
对比分析 互换分析 仪表测试 协议分析 |
告警分析 性能分析 |
故障定位到具体设备 |
分段处理 配置数据分析 |
告警分析 性能分析 |
故障定位到单板 |
分段处理 替换分析 仪表测试 |
协议分析 |
配置数据分析
重配置不当、扩容配置不当、过往配置遗留的问题隐患等都是导致故障 的原因之一,因此定位和排除故障时有必要对配置数据进行检查分析。 维护工程师必须掌握不同业务功能的配置方法、实现原理,从而掌握不 同故障现象需要重点检查哪些配置数据,防止盲目定位,降低故障处理 效率。
告警分析
通过分析告警信息,能找到部分故障的原因,或配合其他方法共同定位 故障原因。
告警是故障或者事件发生的重要提示信息,告警信息包含故障或异常现 象的具体描述、可能的原因、修复建议等,涉及硬件、链路、业务、
CPU 占用率等各个方面, 信息丰富、全面,是进行故障分析和定位的重 要依据之一。
当系统出现故障时, 请首先查看系统是否有告警上报。如果系统有告警 上报,则分析出同本故障相关的告警,然后根据告警参考的指导清除这 些告警,进而清除故障。
对比分析
对比分析是指将故障的部件或现象与正常的部件或现象进行比较分析, 找出不同点,从而判断问题的所在。
例如:业务故障时的线路参数与业务正常时进行对比、同等地位的设备 间进行对比。对比分析适用于故障单一的场合。
互换分析
在更换备件后仍不能定位故障时,可以使用互换分析法定位和排除故 障。
互换是指将处于正常状态的部件(如单板、线缆等)与可能故障的部件 对调,通过比较对调后二者运行状况的变化, 确定故障的范围或故障
点。此方法适用于:
在更换部件后, 仍然不能确定故障范围或故障点的场合。
故障复杂的场合。
须知
互换操作具有一定的风险。例如:将短路的单板换到正常的机框中有可 能造成正常机框损坏。因此,使用互换方法必须谨慎,确保不会导致新 故障。
分段处理
在故障可能原因复杂,涉及到多个环节时,使用分段处理的方法逐个排 除可能产生故障的环节, 最终定位故障点。
进行分段处理的前提是确定可能产生故障的环节, 然后运用合适的定位 手段(如:各种环回操作、配置数据分析等) 进行逐个排查。因此,本 操作对维护工程师技能有一定要求:
对设备的系统结构和功能特性原理有深入的了解。
对可能导致业务故障的各个环节全面了解。
熟练掌握环回、配置数据分析等故障诊断操作。
熟练使用测试仪器。
囗说明
分段处理往往涉及整个组网的各个环节,建议按照先远程处理后现场处理、由 最可能原因到次要原因、由简单到复杂的顺序进行不同环节的排查,以降低故 障处理成本,提高故障处理效率。
协议分析
协议分析主要用于当设备与上层设备的对接出现问题时定位和排除故 障,是定位故障的重要手段。
协议分析是指通过信令跟踪、捕获数据包(即通常所说的“抓包”)等 手段对故障进行分析的方法。协议分析要求维护工程师对协议有深入的 了解,掌握各种协议报文的交互流程,从而能够从捕获的报文中找出故 障的真正原因。
仪表测试
仪表测试法是指使用各种仪器、仪表取得实际的各种性能参数,对照正 常的参数值来定位和排除故障。仪器、仪表以直观、量化的数据直接反 映设备运行状态,在故障处理过程中有着不可替代的作用。
在故障处理中常用的仪器、仪表包括:
万用表
线路测试仪
光功率计
性能分析
性能分析是指通过设备提供的性能统计手段, 对发生故障的业务进行性 能指标的分析,从而定位故障原因。
针对不同的故障类别,需要查看不同的统计信息, 这要求维护工程师:
熟悉系统的结构和运行机制。
了解系统能够提供哪些统计信息。
了解如何查看、分析统计信息。
评论前必须登录!
注册