听说过运维墨菲定律吗?
任何事情都没有表面看起来那么简单。
所有的事情都会比你预计的时间长。
会出错的事总会出错。
如果你担心某种事情会发生,那么它更有可能发生。
如果第一次便成功,显然你已经做错某事。
当一切都朝着一个方向进行,最好朝着相反的方向深深的看一眼,自动消失的问题会自动回来。
若大家的想法都差不多,显然没有一个人是在认真的思考。
好的开始,未必就有好的结果,坏的开始,结果往往会更坏。
必须永远假设你的假设无效。
教育无法取得才智。
运维想要在公司内做出成绩真的很不容易,面对突如其来的故障,各个部门的技术支持,还有服务器费用的庞大支出,要想在工作中寻找出一些亮点确实不易。
所以不光是专业技术重要,沟通做事也非常重要,有些时候我们解决了问题,但是没有沟通好,最后也没有转换为成绩。有些时候我们遇到无法解决的问题,但是沟通好了,最后也会得到别人的认可。我们要做到态度有结果,沟通有跟踪,总之就是要做到有始有终。
运维目标:安全,稳定,高效,节约
安全,公司的运维首先应当将安全放在在第一位,安全漏洞,信息泄露这些都会关系到公司的未来发展甚至是生死存亡,发生在互联网公司的信息泄露事件不在少数都给这些公司造成很大的负面影响,要想挽回这些影响资金上的付出是很大的。 所以安全是重中之重。 稳定,在安全的前提下保证业务的稳定运行是我们运维人认真考虑的,系统的稳定性关系到用户的体验效果,重要程度不言而喻,这里不再赘述。 高效,高效的利用一切资源,让它们发挥最大的价值。 节约,硬件成本的支出,是公司支出的大头,如何从硬件上节约成本是我们值得考虑的点,我们赚不了钱,但是我们可以省钱。
流程管理
流程在我们工作中是必须要有的,在工作中流程有很多,但是真正按照流程严格执行的又有几个。 相信大家都会会心一笑,很多流程都是用来秋后算账的,当你的工作出现失误了,领导就会翻出流程对你一顿批斗。 这个当然也怪不得领导,因为很多流程都是我们自己起草制定的,所以我们在制定流程的时候就应该多加考虑,及要考虑流程的可行性,也要能让领导接受它。 那么什么样的流程是一个好的流程呢?
这里有一个小故事,有一位著名的建筑设计大师,设计迪士尼乐园经过三年的精心施工,马上就要对外开放了,然而,各个景点之间的道路该怎样连接还没有确定最后的方案。 这个大师让施工部在乐园的地上撒上草种,提前开放,小草长出来后,乐园开放,游客可以在草地上随意行走,在迪斯尼乐园提前开放的半年里,草地被踩出许多条小道,这些小道有宽有窄,优雅自然,随后这位大师让人按这些踩出的痕迹铺设人行道。 最后这位大师因为这条小道获得世界大奖。
日常操作
作为运维,服务器的日常维护操作是很频繁的事情,如何做好操作记录很有必要。 如果是重复的事情要模板化,流程的事情要自动化,这样可以很大程度上减少出错的概率。 有一些特殊的操作就需要在操作前先写操作步骤,越详细越好,不能在心里有了想法就到服务器上随心而为。 目的明确了,在心里预想一下会减少很大的出错几率。 操作完毕后一定要以截图的方式记录操作结果。
监控报警
这里不讨论那种监控工具的优劣,各个监控工具的工作方式都大同小异,报警方式无外乎短信,邮件等一些常用方式。 但是在我的工作当中,服务器有几千台,报警有很多类型,某一时刻可能会收到几十条,上百条,一条一条查看运维人员很容易忽略。 所以我们需要对发出去的报警信息进行二次加工,进行合并,分类。 将同一类型的报警合并,按照紧急程度分类。 还有对于报警形式我认为应该采取让人强制被动接受的方式,如: 使用大屏幕显示,扬声器报警,将报警发送到运维的微信群中等等形式。 这样可以大大减少运维人员的漏看,忽略等情况,还可以根据报警级别提示运维人员做下一步操作动作。
下面是网强的大屏可视化:
故障处理
对于运维来说处理故障就是家常便饭,处理故障的时间和方法是分别运维能力的重要指标,经验越多处理故障会越快方法也会更准确,这里的经验也包括使用搜索引擎的技巧。 在我看来,直觉也是相当重要的,可能在一些有明显的提示的故障问题上没什么作用,但是遇到一些日志提示模糊就会显现出来,直觉会让你拨开迷雾寻找到最快解决问题方法。
如何提升自己的直觉呢,直觉来自经验,经验来自不断的自我学习和尝试。 遇到问题不要逃避,你是逃不了的,所以就迎难而上积累经验吧。 这里还想说的一点就是问题解决后的邮件回复,我们回复的邮件应该包含以下几点: 问题解决结果,问题原因,问题解决过程,将来可能遇到的问题,建议等。
技术减少人为事故
是人总是会犯错的,作为运维如何减少犯错的几率呢,最好的办法就是用技术来解决,如将命令行操作改为选择操作,增加审批流程。 这些就需要我们的网络综合运维平台,运维人员不再需要登录到服务器上做操作,每一步操作都有审核,都有容错,都有记录。 这样就可以大大降低人为事故了。
网强网管软件能帮助你做什么呢?
支撑智能流程为核心,全面提高IT服务水平——ITSM流程管理软件
便捷的IT运维流程处理模式简化事件处理流程,提高IT运维管理水平,管理资产上线、维修、申领、报废、借出、报废等整个生命周期,移动端与客服端一体化展示,提高运维效率和质量。
全方位立体化监控,各类KPI性能数据查看、智能存储关键数据,实时分析,根据阈值策略打造智能告警体系,满足用户个性化需求,高效建立监控系统——网强IT综合管理软件
智能告警对管理的设备进行处理与检查,触发阈值告警,及时通过多种渠道通知责任人;异常处理运用智能技术实时检测异常或异常隐患,屏蔽重复告警,准确定位故障 ;故障告警用高效智能的告警方式使得运维人员及时得知网络环境的故障,并快速采取相应措施,进一步加快网络故障的处理进程,保障了故障定位的准确性,便于进一步做出故障的解决方案;知识库根据日常运维经验,自行维护知识库,以供查询、共享经验,为维护人员处理告警、性能分析提供辅助分析决策,与运维实时联动。
网强还推出了移动化运维,将整体的IT基础设施的监控状况、故障告警及工单处理形成闭环的监控方案,通过手机端随时随地的让您对网络环境做到实时监控、全面的了解网络运行情况,提高运维管理的便捷性——MMaster移动端
移动端可便捷查看与网管同步的核心资源列表,实时了解资源运行情况,可直接推送故障信息到运维人员的微信端,运维人员可快速查看故障信息,并且会推送相关知识库帮助运维人员解决故障快速创建故障工单,自动分配处理人同时支持 指定派发给相应的管理人员去处理,申报流程简单,实时把握工单进度,运维人员可接收任务处理推送的信息,不同颜色代表不同的任务等级。响应速度提高、流程简便,大大方便了运维人员解决任务,提高了工作效率。网管系统采用二维码作为用户现场设备管理与 系统应用间的桥梁。通过有效二维码生成器,可将设备资产 信息(CMDB)中生成的二维码打印,贴至对应的设备上,运维人员通过手机扫描二维码可直接获取设备的当前实时信息。
上一条:网强网络管理软件产品模板概述
下一条:网络监控系统有什么样的作用?