• 263.25 KB
  • 2022-06-16 12:00:15 发布

贝尔bsc设备重大操作后的监控和预防措施

  • 10页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
贝尔BSC设备重大操作后的监控和预防措施中国联通贵州省分公司王宇摘要:从贵阳MX9主备单板倒换后无线接通率指标异常切入,结合贝尔BSC设备硬件结构、性能报告、TCH分配流程,深入分析无线接通率指标异常的原因,并总结本次故障处理的经验,建立一套预防措施,提高快速定位解决问题的能力,尽可能减少贝尔BSC重大操作后网络质量出现异常的持续时间。关键词:贝尔BSC重大操作监控预防一、概述前期,贵州联通贝尔区域各地市陆续进行BSC设备的升级、倒换等重大操作,由于贝尔GSM设备存在一定的隐患,操作后部分BSC的无线接通率、问题小区比例等指标出现大幅波动,如贵阳MX9、铜仁MX1,造成相应区域的网络质量和用户接入感知下降。针对此问题,在深入掌握贝尔BSC设备和性能统计知识基础上,结合TCH分配流程,以贵阳MX9无线接通率严重异常的故障为案例,分析问题产生原因,总结经验教训,制定预防措施,尽可能规避BSC设备重大操作后带来的风险,减少对网络的影响。二、贝尔BSC设备为了更好地预防和处理BSC侧故障,需要对贝尔BSC的硬件结构和单板功能有清晰的认识。目前,贵州联通公司有5个地市使用贝尔GSM设备,BSC采用A9130硬件设备,主要是由BSC、TC、MFS等三部分构成。具体结构介绍如下:10 BSC内部结构A9130BSC主要有OMCP(操作维护控制处理板)、CCP(控制处理板)、TP(传输处理板)、LIT接口板(传输接口单元)。OMCP单板相当于一台服务器,提供了系统管理的平台,实现系统管理及操作维护的功能,使用1+1冗余备份。CCP单板实现呼叫控制功能,使用N+1冗余备份,每块处理200个载频。TP单板提供传输功能,使用1+1冗余备份。LIU接口板提供与ABIS,ATERMUX的传输接口,使用1+1冗余备份,通过CS-ATER接口与TC框相连,PS-ATER接口与MFS相连。10 MFS内部结构MFS主要有OMCP(操作维护控制处理板)、GPU、LIU、MUX等单板。GPU单板提供GPRS业务功能。LIU单板提供ATERMUX的传输接口。MUX单板实现E1和IP的转换,使用1+1冗余备份。TC框只有一种MT120单板,实现语音的编码、解码功能,并提供与MSC的传输接口。一、贝尔性能报告日常优化人员根据性能报告了解网络运行情况,及时发现网络存在的问题,并进行维护和优化。贝尔系统中性能报告的类型有很多,如TYPE1、TYPE9、TYPE18、TYPE110等等。每种类型的性能报告都是一些计数器的集合。常用的性能报告类型下:110报告:统计单位为单个TRX、单个CELL或者单个N7,体现TCH、SDCCH、N7等性能情况。180报告:统计单位为一条单向切换关系,体现话务流性能情况。31报告:统计单位为单个CELL或单个TRX,体现无线链路性能情况如上下行电平、质量的统计信息。GPRS报告:统计单位为单个CELL或PVC等,体现服务质量、资源可用性和负荷等等信息。10 018报告:统计单位为单个BSC,通过对A口的TCH分配失败及SD和TCH掉话进行原因归类,可以快速地对问题进行判断,主要问题归类为BSC侧和无线测。018报告的counter主要说明如下:SD和TCH掉话:根据下表中counter的统计值,就可以知道某BSC的掉话原因。若一个BSC内的SD和TCH掉话较多,则可以结合上述各原因值进行问题判断,其中无线侧原因为主要的原因值。CounterCounter说明掉话原因值C180aNB_N7_CLEAR_REQ_RadioIntMessFail无线接口信令丢失C180bNB_N7_CLEAR_REQ_O&MintervO&M原因C180cNB_N7_CLEAR_REQ_EquipFail设备故障C180dNB_N7_CLEAR_REQ_RadioIntFail无线侧原因C180eNB_N7_CLEAR_REQ_NoRadioResAvail无线侧没有可用资源C182NB_N7_CLEAR_REQ_EST_PHAS在占用TCH信道后或者小区间切换失败和BSC切换失败发生的掉话均被记为C182TCH分配失败:根据下表中counter的统计值,就可以知道某BSC的TCH分配失败主要原因,其中C181g为主要的原因值,其次为C181d。若在原因值中出现其他类型分配失败,如C181E、C181f、C181K等,则问题可能需要定位至BSC侧。CounterCounter说明TCH分配失败原因值C181aNB_N7_ASS_FAIL_RadioIntMessFail无线接口信令丢失C181bNB_N7_ASS_FAIL_O&MintervO&M原因C181cNB_N7_ASS_FAIL_EquipFail设备故障C181dNB_N7_ASS_FAIL_NoRadioResAvail无线侧没有可用资源C181eNB_N7_ASS_FAIL_ReqTerResUnav/Alloc被分配的资源不可用或者已被占用C181fNB_N7_ASS_FAIL_ReqTrans/RateUnav被分配的资源编码方式及速率不匹配C181gNB_N7_ASS_FAIL_RadioIntFailRevOldChan因无线原因返回原信道C181hNB_N7_ASS_FAIL_RadioIntFail无线侧原因10 C181iNB_N7_ASS_FAIL_CipherAlgoNotSupp加密方式不被支持C181jNB_N7_ASS_FAIL_BSSnotEquipCIC资源未配置C181kNB_N7_ASS_FAIL_ProtocolErrorBSC和MSC间协议错误C181lNB_N7_ASS_FAIL_ReqSpeechVersUnav手机不支持信道编码方式一、TCH分配信令流程根据以往的经验,贝尔BSC升级、倒换等重大操作后,最容易出现的问题是在TCH分配阶段出现异常,导致接入失败,引起BSC内小区的无线接通率指标恶化。通过常规优化手段不能定位问题原因时,就需要使用挂信令仪或维护操作台跟踪信令,根据assginmentfailure消息携带的原因值,进一步定位,因此网络优化人员需要熟悉正常及不正常时的TCH分配流程。正常的TCH分配流程10 异常的TCH分配流程-拥塞BSC收到分配请求时,无空闲的TCH信道可用,并且队列功能未开启或已满,BSC发送带“NoRadioResoureceAvailable”原因的AssignmentFailure消息,中止呼叫,C181d计数增加一次。异常的TCH分配流程-CIC不可用异常的TCH分配流程-CIC已分配BSC收到MSC发出的AssignmentRequest后,若发现如下情况:指定的CIC为0;由于操作维护的原因导致指定的CIC不可用,BSC会发送带“Requestedterrestrialresourceunavailable”原因的AssignmentFailure消息,中止呼叫,C181e计数增加一次。BSC收到MSC发出的AssignmentRequest后,若发现指定的CIC已被其他连接使用,会发送带“TerrestrialResourceAlreadyAllocated”原因的AssignmentFailure消息,中止呼叫,C181e计数增加一次。10 BSC收到MSC发出的AssignmentRequest后,若发现以下情况:指定的CIC不存在指定的CIC没有装备或配置指定的CIC是No.7的信令信道BSC会发送带“BSSnotEquipped”原因的AssignmentFailure消息,中止呼叫,C181j计数增加。BSC收到MSC发出的AssignmentRequest后,若发现以下情况:缺少信道类型码,或指定的信道类型不是话音、数据或信令指定的信道类型为信令,但指定的信道速率不等于“SDCCH”或“SDCCHorTCH”期望的CIC不存在或存在不期望的CIC指定的信道类型和速率组合不支持指定的数据速率不存在BSC会发送带“ProtocolErrorbetweenBSCandMSC”原因的AssignmentFailure消息,中止呼叫,C181k计数增加一次。一、典型案例1、故障现象9月27日凌晨,贵阳分公司对现网5套MXBSC的所有业务板件进行主备倒换,包括BSC的TP、OMCP、CCP,TC的MT120和MFS的GP等核心板件,倒换后,贵阳地区的无线接通率大幅下降,问题小区比例高达9.74%。10 1、故障原因分析贵阳5套MXBSC的所有业务板件进行主备倒换后,贵阳MX9的无线接通率大幅下滑,尤其是话务忙时下滑非常明显,按照以下步骤进行分析排障处理:1、检查问题BSC所有小区,发现绝大部分小区的无线接通率均呈不同幅度下滑,说明问题不是集中在某个别或者少数小区,排除个例,说明问题很可能与BSC的核心板件或者A口有关,同时也排除了CCP的问题,因为如果是某块CCP问题,则问题小区应集中映射到某块CCP上,查看BSC告警信息,并无新增告警。2、查看GSM话务Type110报告,发现无线接通率下滑是TCH分配成功率大幅下滑,TCH占用成功率保持平稳,MC703和MC14b大幅下滑,而MC140a和MC812则基本保持平稳,结合语音呼叫流程,说明TCH分配失败恶化并非拥塞引起,可以排除无线侧问题,BSC收到assignmentrequest以后,应开始进行channelactivation流程,但尚未开始就被异常结束,出现这种问题可能是BSC无法占用MSC在assignmentrequest消息里分配的A口CIC,所以呼叫流程直接被终止,还有一种可能是无线资源管理模块异常,即BSC的无线资源管理模块监控到TCH信道状态异常,直接结束呼叫流程,而不会进行信道激活流程,进一步查看GSM话务Type018报告,发现问题BSC的C181E均大幅增长,基本上确定问题出在A口CIC异常,查看A口占用平均时长,并没有某条A口CIC占用时间特别短的问题,占用平均时长呈均匀分布状态。3、经过第一,二两步的分析,已经大致确定问题出现在了A口CIC,但实际上问题出现之前并未进行过任何A口的操作,即A口CIC状态异常仅仅是现象,并非是根本原因,考虑到问题出现前,进行了TP,OMCP,CCP,TC的MT120和MFS的GP等板件的倒换,故在29日凌晨对问题BSC的TP,OMCP,MT120(未进行CCP倒换,因为从前面第一步分析已经排除CCP故障的可能)再次进行了主备倒换,于29日晚忙时观察指标,未有改善,问题依旧。4、协调核心网导出A口CIC表和BSC侧进行一一核对,除了少数TS16和TS31在核心网侧与无线侧的定义不一致外,其余都是一致,解决状态不一致的CIC的问题后,指标依然没有明显改善。5、通过挂表抓取N7信令,根据信令跟踪文件过滤出所有的assginmentfailure消息,并查找消息里携带的causevalue为requestedterrestrialresourceunavailable或者terrestrialresourcealreadyallocated的指配失败(018报告中counter181E反映的就是此类问题),找到10 此类assginmentfailure消息后,再倒推找到该次呼叫对应的assignmentrequest消息,查找消息里MSC分配的CIC电路编号,说明该CIC就是状态存在异常无法占用,记录下所有类似CIC的电路编号,经过大量的分析,发现并非集中在某条CIC,而是分布散乱无规律,说明大部分CIC都有问题,而且CIC并不是完全持续不可用,而仅仅是偶发不可用(这与第二步分析提到的A口时隙平均占用时间呈均匀分布是吻合的),本来在BSC板件倒换前就已经存在,只不过执行板件倒换后,问题显著恶化,CIC不可用的概率大幅增加。6、协调MSC工程师,进行指定CIC拨打测试,对每条CIC进行逐一拨测,但很难遇到TCH分配失败原因是A口引起的,这与第五步分析的结论是相吻合的。7、综合以上分析,可以看出,无线接通率下滑的原因是A口状态不一致引起,且问题并非集中在某少数CIC,而是呈广泛分布,但A口CIC的不可用状态是偶发的,不是持续的,所以在BSC上也看不到任何相关告警,属于隐形故障。8、结合以往处理A口短时隙,传输掉话时都是重启MT120板的经验,我们在OMCR上通过对BSC的每条CIC进行lock/unlock操作后,无线接通率恢复正常,至此问题得到解决。1、解决措施在BSC的OMCR上,对每条CIC进行lock再进行unlock操作。10 一、预防措施通过本次故障,发现BSC重大操作后的指标监控和问题处理上存在一定的问题。9月27日凌晨贵阳进行BSC单板主备倒换,9月30日下午网络优化人员才发现无线接通率异常,指标监控严重滞后,需要加强BSC和网络优化人员之间的沟通力度,BSC人员进行重大操作前必须知会网络优化人员,网络优化做好指标监控和相关保障工作。10月1日16:00发现A口电路问题,10月2日凌晨处理完毕后贵阳MX9的无线接通率才彻底恢复正常,问题定位和处理时间较长,对网络质量影响很大。为了防止这种故障的再次发生,非常迫切地需要建立一套预防措施,提高发现和处理问题的效率,优化建议如下:1、网络优化人员需要将018话务报告纳入日常监控范围,及时发现指标异常的共性问题并进行处理,消除网络潜在的隐患。2、BSC人员在进行重大操作前,必须通知网络优化人员在此期间监控指标。3、网络优化人员发现指标异常,必须立即通知BSC人员及其他相关人员。根据以往的经验,若出现异常,无线接通率指标受影响可能性最大,尤其需要关注。4、网络优化人员先判断是否有告警,若有告警,优先处理告警。5、若无告警,判断问题对象是BSC,还是个别小区,若问题发生在BSC,可以根据018报告中的counter快速定位问题原因,若问题发生在个别小区,可以根据110、31报告进行定位。6、遇到疑难问题,可以通过抓表的方式跟踪信令,根据assginmentfailure消息携带的原因值,进行深层次的问题定位。7、网络优化人员定位到问题原因后,通知相关人员进行处理。作者简介:王宇,男,汉族,重庆南岸,西南师范大学,学士,现工作于中国联通贵州省分公司网优中心;联系电话:18685192894;Email:wangy1140@chinaunicom.cn10