400-800-8806
您的位置:首页>新闻中心>行业资讯

机房与网管系统有效集成6招摆脱机房监控现状

发布时间:2016-12-08 作者:wqnstrong 浏览:606

 

 

  机房管理为网强IT综合管理系统/网络管理系统的增值(可选)功能模块,已有网强IT综合管理系统/网络管理系统的用户,可在原有系统基础上直接升级即可。

 

机房监控的必要性
  随着社会信息化程度的不断提高,机房建设规模日益扩大,其设备数量也日益增多,机房环境设备(如供配电系统、UPS电源、空调、消防系统、安防系统等)必须时时刻刻为业务系统提供正常的运行环境。任何影响整个业务系统的隐患,将对数据传输、存储及系统运行的可靠性构成一定的威胁,若出现故障又不能及时处理就可能造成严重后果。对于金融、运营商、政府、互联网等需要实时交换数据的信息机房,其机房管理尤为重要,一旦系统发生故障,造成的经济损失将不可估量。

 

  为了保证机房能给设备提供一个良好的运行环境,从而保障业务系统的正常运行,就有必要对机房环境的运行状态变量,进行24小时实时监测与智能化调节控制。而各行业用户对于机房监控的管理力度和方法也不尽相同,很多单位甚至仍然采用传统的24小时专人值班的方式定时巡查机房环境。

 

机房与网管系统有效集成,6招摆脱机房监控现状
  网强机房管理系统(简称:Environment Manager)通过与网强IT综合管理系统实时联动,利用智能分析和影响度关联技术,将机房环境中的温湿度、漏水、电源、UPS、烟雾、视频监控、消防及门禁等与用户的网络设备、应用、服务等IT资源关联在一起,并完整集成到业务模型。通过智能业务模型,系统将自动对各项业务以及承载业务的各个设备、服务器、应用等资源进行整体全面分析,同时在业务结构中清晰的反映机房环境对整体业务的影响程度。任何一个业务中的细小变化和端倪,都能通过系统实时组合成及展现出各个符合个人所关注的性能数据或信息,并进行实时直观展现,如整体业务健康度、可用率等。当机房环境出现异常时,系统则会可根据不同的异常等级进行告警,并通过多种告警方式及时通知运维人员,从而保障各设备、业务系统的高效运行,大大降低了业务系统运行中产生的风险。

 

现状一:机房的环境和动力设备如供电源、UPS、空调、烟感、消防等必须时时刻刻为计算机信息系统提供正常的运行环境。一旦它们出现异常或故障,后果将不堪设想。为此很多单位已经重视并对机房环境进行监控与管理。但传统的机房监控软件只能对机房动力环境进行监控,而这些环境的变化对单位关键业务的影响度为多少,运维人员却无从得知。

 

机房管理系统与网管集成,使机房环境与业务系统相关联
  网强机房管理系统通过与网强IT综合管理系统的有效集成,利用智能分析和影响度关联技术,将机房环境中的温湿度、消防设施(烟雾、漏水)、UPS电源设备、供配电系统(电流、电压、空气开关)、机房空调、安防系统(视频、门禁、红外)等与业务系统及承载业务系统的各种下属网络设备、应用系统、服务器等IT资源关联在一起,自动进行整体全面的分析,实现统一的资源管理。同时在业务结构中清晰的反映机房环境对整体业务的影响程度,任何一个业务系统中的细小变化和端倪,都能通过系统实时组合成及展现出各个符合个人所关注的性能数据或信息,并进行实时直观展现,从而有效反映影响业务系统健康度、利用率的关键因素,帮助运维人员尽快找到相关瓶颈或隐患。
          
现状二:通常机房环境监控数据的采集都是通过特定的硬件监控设备协助完成的,每一套机房管理软件都需要部署硬件设备,对于采集的数据都有对应的指标。一般十几个指标,运维人员基本能应付查看,但对于几十个甚至上百个指标,如果无法通过数据或图形形式对机房的运行情况进行直观展现,运维人员了解起来也就有点力不从心了。

 

机房变量数据实时采集,指标一览、示意拓扑图直观展现
  系统通过对机房环境中的各个硬件设备进行数据采集,并将采集的数据在IT综合管理系统的监控指标列表中集中展示。通过指标一览,可以直观了解到各个指标的类型、当前值、当前状态、异常规则、监控频度等。不仅如此,用户还可以通过增加示意图元、示意链路的方式建立示意拓扑图来模拟机房实际物理环境的摆设与布局等,将机房环境实时的在示意拓扑图中直观的展现出来。通过机房示意拓扑图,可以了解到机房环境中的温度、漏水、烟雾探测、视频、消防设备、空调与门禁等设备的运行情况和分布情况。另外,还可以根据每个示意图元的颜色状态来判断该设备的异常等级情况。当设备发生故障时,在机房示意拓扑图上可以直观看到相关设备的异常提示,直接点击异常设备则可以自动关联到该异常设备的详细信息。


现状三:一般情况下机房环境出现的问题不会直接影响业务系统运行的,都是在异常变化出现后,问题无法及时发现并处理,使环境不断的恶化致使业务系统的运行受到影响;为了保证机房能给设备提供一个良好的运行环境,保障业务系统的正常运行,企业不得不采用24小时专人值班的方式定时巡查机房环境。即便如此,当业务系统不能正常运行时,运维人员才发现是机房环境运行情况出现异常所致。

 

机房环境出现异常实时告警,及时通知运维人员恢复故障
  结合IT综合管理系统的告警敏感度、告警合并、告警过滤以及异常依赖、根源分析等多种高端技术手段,能够避免大量的无谓重复告警信息,防止告警泛滥。并能在众多的告警信息中,屏蔽不重要的告警信息,帮助运维人员将精力集中在关键问题上,准确定位可能的故障根源,真正做到事先运维、整体运维,将影响业务系统健康度和可用率的一切因素事先排除。当机房环境产生异常时,例如当前机房烟雾漏水积水、门禁开关量状态不符合规范等,将通过配置的告警功能自动触发IT综合管理系统进行告警。系统可以根据不同的异常等级,通过声音、消息框、电话、手机短信、电子邮件、广播及灯光警铃等多种告警方式及时通知运维人员,将影响业务系统健康度一切因素事先排除,真正做到事先运维。运维人员还可以由异常直接关联到系统的知识库,并从知识库中找到故障的解决方案,从而及时恢复故障,满足24 小时机房管理要求,最大限度保证了业务的服务水平。
 

现状四:当机房环境出现异常时,运维人员可以通过相关告警方式得知异常信息并及时排查。在排查故障时,如果只是单点的报警,运维人员的排查与故障恢复的效率通常都会比较高。但有多点频繁发生异常并告警时,运维人员由于无法有效判断故障的轻重缓急,常常没有针对性的排查而拖延了故障恢复的时间。

 

详细的异常信息一览便于直观判断轻重缓急,使排查更有针对性
  系统对机房环境进行全盘监控,当产生不同等级的异常时,并自动记录异常信息,如异常的指标名称、异常来源、异常等级、时间、恢复状态、异常总数及确认人等。运维人员只需查看异常列表即可了解到具体异常情况,点击异常列表中的任意指标异常可能进一步了解该异常指标的详细信息,如异常来源、指标名称、最新异常等级、异常时间段、异常总数,是否已恢复及事件合并记录描述信息等。以便于进一步确定异常的轻重缓急,以及异常的根源,从而使运维人员能更快更有效的解决故障。

 

现状五:任何一个有经验的运维人员都可以在发生异常接到告警后及时的解决故障,但每天围着机房环境出现的异常现象日复一日已是司空见惯,运维人员疲于奔命并且仍无法根除问题。当机房某个设备或环境出现异常,运维人员也由于缺少关于该设备或环境的一些历史数据来进行判断和分析,从而无法从根本上确定该异常问题是偶然性的还是由于该设备或机房环境已经长时间负荷过高所致使的。

 

机房环境运行情况实时和统计分析,全面了解以及预测变化趋势
  系统支持当日性能分析、指标时段分析(实时分析和统计分析)、资源对比分析及时段对比分析,运维人员可以通过相关统计分析数据,来详细查看机房异常情况的出现频率和变化规律。例如、通过多指标分析图可以直观了解到个人所关注的某几个指标于不同时间段的对比分析情况。根据指标的性能分析来确定机房出现的问题和存在的潜在威胁,以便于给出更准确、更彻底的解决方案。
 
现状六:企业目前诸多的IT管理工具由于功能层次不齐、管理范围受限,相互不能兼容,从而造成信息孤岛,很难协同办公建立最大价值。面对再次的网络扩展和升级,原有的监控工具和维护人员都将面临着再投入与再集成的困境。另外,传统IT管理系统对于IT设备的仅仅具有最基础的监控项,对于用户而言如果需要保证IT管理质量,这些基本监控指标是必须实时监控的,但是这样不可避免就会增加新的额外软件开发资金和大量的人力工作量投入。

 

开放的系统兼容性与自定义指标,有效应对各种网络变更与扩展


  基于IT综合管理系统所支持的WEB Service 、CORBA及RMI 等服务接口还能供第三方调用,全面保证系统的兼容性,大大满足了用户在实际的网络管理中,与其它多种应用和业务系统能够高效整合的需要。同时,系统在对具体的资源监控上,不仅有内建的监控指标、扩展的监控指标,还有自定义的监控指标,用户可以把一个资源本身的指标,将若干个个人所关注的内建指标与扩展指标组建成一个新的指标。并可以对此新的指标设置阈值、异常类型、异常过滤等,有效满足运维人员对IT设备指标的灵活监控需求,省去了传统网管系统高昂的二次开发费用的同时,真正帮助运维人员应对各种网络的变更、调整与扩展等,以不变应万变维护好整个网络。

 

 
客服  
咨询电话:400-800-8806