400-612-6085
您的位置:首页>新闻中心>热门文章

IT 运维监控场景中的故障预警及处理

发布时间:2023-02-09 作者:网强 浏览:578

【故障场景】

以运维监控系统为例,先给大家分享一个案例:

值班电话响了,有业务人员反映业务系统运行缓慢,部分业务系统处理超时。

运维人员开始忙活了,查系统资源使用情况、查应用服务是否正常、查日志是否异常报错、层层递进只为尽快定位问题根本原因。

时间在不知不觉中流逝,业务员不断催促,值班经理也围上来了解情况,甚至惊动了部门老大,可以想象的问题三连:“系统恢复了吗?”、“影响了哪些业务?”、“问题原因是什么?”

而此刻,值班人员面色凝重,手飞快的在敲键盘,输命令、查日志、写sql、看业务波动。

随着值班人员紧皱的眉头舒展开,最终定位到问题原因是其中一个功能没有控制返回数量,导致内存OOM。

定位了问题解决起来就很容易了,问题虽然很快被处理了,但运维的工作才刚刚开始...

针对这个故障,各方诉求是不同的:

1、业务人员希望尽快恢复系统使用并确保以后不再出现此类问题;

2、运维经理希望进一步优化完善运维中心故障处理流程:

优先故障处理过程的时间,

提前发现故障,加强监控,

完善故障应急方案,

长远目标:故障自愈。

【运维监控机制】

这个问题解决了,还有解决不完的其他问题。尤其是运维经理还提出了新问题。

如何解决经理提出的问题,并提出未来解决故障的想法?其实这涉及到IT自动运维监控系统的设计理念。

从故障常见的处理方法到故障前的准备工作(完善监控、制定应急方案等方式)来阐述一下运维监控机制。

 故障处理方法

1、确定故障现象并初判问题影响

在处理故障前,技术人员首先要明确故障现象,故障现象直接决定故障应急方案的制定,这就要求技术人员需要对应用系统的整体功能有一定的了解。

2、应急恢复

保证系统可用性运维最基本的指标,这就涉及系统应急恢复。

有了上述故障现象与影响的判断后,就可以制定故障应急操作,故障应急处理方式有很多:

● 服务整体性能下降或异常,可以考虑重启服务;

● 应用做过变更,可以考虑是否需要回切变更;

● 资源不足,可以考虑应急扩容;

● 应用性能问题,可以考虑调整应用参数、日志参数;

● 数据库繁忙,可以考虑通过数据库快照分析,优化SQL;

● 应用功能设计有误,可以考虑紧急关闭功能菜单。

运维监控机制

1、监控可视化

故障处理人员能够快速的看到相应的运行数据。

比如:能够看到一段时间的趋势、故障期间的数据表现、性能分析的情况等,这些数据可以提前制定好策略直接推出分析结果给故障处理人员,这样就大大提高了故障的处理效率。

2、监控面

监控最基本的工作就是实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理。

3、监控告警

完善的监控策略需要有清晰的监控告警提示,值班人员要以根据监控告警即可作出简单的问题定位与应急处理方案。

结束语

网强基于平台化管理方式,建立智能化敏捷运维管理体系,提供运维数据管理的解决方案。建立从机房视角、网络环境视角、管理视角等可视化展现IT设备之间的联系,对IT资产进行全生命周期的管理。内置机器学习算法以及大数据技术,自动发现系统的各类异常,为网络运维管理系统提供完善的统计和分析报表,提供给决策分析重要的数据,掌握当前异常及历史情况,分析设备故障趋势,做到事前预警,事中快速处理,事后分析复盘。


 
在线客服  
咨询电话:400-612-6085
 
 
免费
试用