经过伍.2八血案看IT系统化运转,东华网智为你支

2019-04-09 02:08栏目:ca888圈外

透过5.28惨案看IT系统化运维,东华网智为您支招

2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下跌6.19%,创业板下跌5.39%,创4个月来单日最大跌幅,全国股民人均赔两万!正当股民们心灰意冷,打算出去看看世界的时候,携程挂了!

图片 1

从11:09分开始,到晚上22:45分恢复,此次携程网站崩溃时间共持续了近12个小时。事后携程的官网解释:经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。

从携程的声明来看,导致此次事件的直接原因是员工误操作造成,但有一个现象非常形象地描述了目前IT运维的真实状况:

系统出现故障后→

1、业务使用者最先发现应用受到影响,开始抓狂和投诉。

2、继而运营监控的各种大屏幕会出现流量的异样图、系统告警图。

3、最后轮到攻城狮们手忙脚乱进行troubleshooting,挨个设备的各种telnet/ssh抓取信息。

4、可以定位故障的,对症解决;不明所以的,尝试重新启动设备或者切换备份方案。

5、提交故障报告、问责、致歉、危机公关等等

目前的IT运维系统,可以查看链路状态,监控设备资源利用率,故障告警,但从业务的角度来说,还缺乏一种手段对这些数据进行系统性的分析,呈现出更明确更有意义的结论,以便在突发事件时,启动预案、快速定位和给出指导性建议。

携程事件再次向我们表明了新常态下,系统可靠性的重要作用,据统计,这次宕机给携程网造成的直接损失超过数百万美元,股价暴跌11%。云计算、大数据、互联网 的空前繁荣,让IT运维面临前所未有的挑战,如何及时全面的掌握网络、主机、数据库、存储、桌面等各类资源的运行情况?如何使我们的运维工作未雨绸缪,做到防患于未然呢?

图片 2

IT运维人员八种痛】

东华网智认为,互联网 时代,系统化的运维管理对企业有着不可估量的作用,规模化的IT系统和复杂的业务系统稳定运行是信息部门的重要职责,如果发生故障不能及时准备定位,引发业务中断,给企业带来的损失是巨大的,同时,企业IT治理、流程规范、智能巡检将有效减少违规操作、消弭隐患,降低故障发生机率。换言之,企业需要一套清晰、智能化的运维管理系统来帮助IT人员提高对整个业务系统的把控能力,而东华网智正是致力于精细化IT服务管理,帮助企业建立健全IT运维管理体系,实现IT“监.管.控”一体化,全面提升IT服务质量。

图片 3

东华IT服务综合管理解决方案技术架构】

“监”之综合监控

对IT基础架构和业务系统的实时监控,能够帮助管理人员准确定位故障,及时处理问题,并在警戒阈值达到前,将系统隐患扼杀于摇篮。东华IT综合监控范围涵盖机房动力环境、网络设备、服务器、数据库、中间件、虚拟化资源、桌面终端、通用服务等IT资源的运行状态及性能,支持SNMP、telnet、SSH、WMI、JMX、JDBC等远程非代理监测和Agent代理监测,根据管理规模不同支持分布式采集和集中管理模式,提供7X24不间断监测服务。系统将复杂的技术指标、监控状态等以图形化方式展现给客户,支持机房、办公区域、场所的3D可视化展现,大大提高用户的操作便捷性及工作效率。  

“管”之性能管理

系统不宕机、应用可访问只是保障业务连续性的入门级要求,在“永远在线”的互联网 时代,最终用户的应用体验成为关键要素。东华网智强调“业务服务视角”,分段监测业务系统的每个过程环节,快速解析应用问题并将问题范围定位到具体的应用组件,帮助运维者实现对业务应用问题的监测、定位和诊断,达到先于用户发现问题,提前建立紧急预案,保障业务可用性,提高用户体验。

“控”之流程把控

携程宕机的问题最终定位为“员工误操作”,实际是流程管控和权限设置不当,“人为因素”在很多IT事故中不是小概率事件,必须要依赖必要的IT手段将流程僵化再优化,将人为因素将至最低,操作是否合规,变更是否合理,访问是否越权,数据是否备份,一切全部由流程铁律进行约束。东华网智IT运维管理系统的目的正是通过建立一套标准的运维服务流程,围绕事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理等ITIL最佳 实践,帮助用户实现IT运维服务的流程化、规范化管理,最终让IT的“精确化”制约人力的“随机化”。

5.28携程的重大故障虽然是一次灾难,但也为所有的企业敲响了警钟,安全生产重于泰山,一个误操作带来的可能就是毁灭性的损失。在互联网企业各项业务都依赖IT系统的今天,做好IT系统的运维管理工作无疑是保障业务正常运行的核心所在。

专业的事一定要交给专业的系统来做,让5.28事件不再重演,让企业长青!


图片 4


2015年5月28日,黑色星期四,沪指一日连续下破整数关口,上证指数收盘下跌6.5%,深成指下...

图片 5

更加聚焦故障管理

互联网的迅猛发展使信息系统建设加快、规模变大,不同的信息系统中设备类型和数量增多,网络结构日益复杂,导致系统故障无法精确定位、系统状态难以实时掌握等问题时有发生,这些都给运维人员带来了很大的工作压力。可视化技术的应用,改变了传统的人工运维,让运维由繁化简。

运维服务管理系统ITM提供了一套智能化的故障排查处理机制,立足提高工程师处理效率,灵活的故障策略能适应各种各样的IT变化,帮助工程师在海量的告警中,准确的定位故障、通过自动抓取设备快照,了解当时系统运行情况,快速定位故障,有效缩短排障时间,解决运维难题。

图片 6

从数据的意义上看,数据质量的高低、优劣,将直接影响运维分析和决策。借助大数据平台针对性进行运维数据分析,可以挖掘出更多更细的指标和数据,通过将数据整合关联,可以辅助精准分析和决策,最终保障良好的用户体验。简而言之,数据可以产生价值。

面对越来越复杂的业务、越来越多样化的用户需求、不断扩展的IT应用,如何保障IT服务灵活便捷、安全稳定地运行?

支撑企业运营的是各个核心业务系统,所以IT组织的视角逐步从资源级运维向业务级运维转变,从业务角度出发,在可视化的业务视图上业务架构、服务和所依赖组件一目了然。

业务视图

运维人员在日常工作中,需要针对设备进行常规性配置,如创建用户、增加磁盘空间、安装程序补丁包等重复性工作。面对数以千计的设备,传统运维方式下,工程师需要逐个登陆系统进行配置,不但效率低下而且极容易出错。

平台通过极简的界面和简单的操作结合系统强大的后台算法和分析能力,提供专业简单的智能化故障处理引擎。

统计分析视图

图片 7

图片 8

图片 9

DevOps故名思议就是Development和Operations的组合,是过程、方法和系统的统称,主要是为了把软件开发、技术运营和质量保证进行有效的结合,从运维到管理。

平台通过网络拓扑、业务系统、机房环境、虚拟化结构等多维度视角进行可视化展现,使资源全方位信息一目了然。

流程交付视图

图片 10

图片 11

【案例】东省千佛山医院:智能化监控运维和服务外包管理

系统优化自动化

丰富的监控模型库

从业务角度看,构建业务应用分析模型,对各业务系统进行横向对比分析,包括健康度、繁忙度、可用性、宕机次数、宕机时长等,准确衡量业务系统的健康水平差异。图形可视化呈现用户、业务和应用系统的相互关联关系,一方面掌握应用系统异常对业务、用户的影响和威胁,另一方面实现IT与业务交互,将IT对业务的支撑价值完整体现。

针对常规问题,如一些服务器本身负载较大,占用大量的资源导致系统长时间运行后非常缓慢,为了保障系统的正常运行,运维人员每天要做大量的重复工作导致工作效率极低,而且有时候由于自己的操作失误,导致关键数据丢失,带来不可估量的后果。自动化运维系统ITAM,通过内置Shell、Python、Bat脚本,以定时或者人工触发的方式,实现定时优化系统、故障自动化处理、批量配置系统、关键服务启停功能,构建企业自动化运维、从而提到运维效率,降低操作风险。

图片 12

阅读原文:

通过定期执行脚本,优化系统性能、保障系统运行。

自学习的运维知识库

【大话运维 第9期】 运维大数据日记:故障根源分析之关联规则挖掘

自动化运维场景化

另外,OneCenter 移动终端运维管理,提供移动服务台、告警列表、工单待办列表、工单查询及处理操作、设备巡检、系统公告接收和知识查询等功能,为运维工程师提供了一种便捷的运维模式,有效提高IT部门整体运维能力。

图片 13

批量修改配置及增加配置信息,提高工作效率。

勤智OneCenter的ITManager监控模块,可对业务系统及支撑业务系统的所有IT资源进行7*24小时全面监控,提供性能监控与分析、资源可用性监控与分析、资源拓扑关系管理、故障监控、故障分析及定位,帮助IT运维人员提升工作效率。

【大话运维·第7期】电力行业和公安行业隔离墙技术方案

传统运维面临的问题

企事业单位用户可以通过厂家提供的管理工具,如vmware 的VC客户端,存储的管理客户端,硬件服务器的web管理控制台,或者通过查看日志/硬件设备的指示灯等方式查看运行状态和性能指标。显然,这些零散的方式会增加运维工作量,影响故障发现的及时性,IT运维人员迫切需要一个统一集中的平台将以上监控任务有效整合。同时,由于缺少有效的流程管控机制,运维工作总是处于“救火式”状态。事前无准备,事中无跟踪,事后无法追溯,运维经验无法沉淀积累与复用。

图片 14

了解应用在全生命周期中每一个周期都需要什么样的工作、平台、组织、人员进行匹配支撑,如敏捷管理、持续性的交付、IT服务管理等。

一体化运维平台大数据分析能力

图片 15

大数据时代,如何从海量的数据中提取有价值的数据,也是当今最热门的话题。大数据分析平台ITBA,通过针对ITM系统所监控的资源设备性能数据和其他业务系统运行日志进行分析,掌握当前业务系统运行情况,了解性能、容量瓶颈问题,根据日常的运行情况及性能信息指标,综合进行预测,防患于未然。

帮助运维人员建立更加快速、高效地构建丰富的知识库,利用知识库快速对运维管理中发现的故障给出解决方案,恢复系统,确保业务正常运行。

罗泽,勤智运维区域技术工程师,从事网络建设工作多年,熟悉网络的设计搭建,精通交换、路由、无线、网管产品配置。

系统内数据非常重要,如果遗漏备份,系统瘫痪/误操作等出现时会导致无法估量的后果。

随着企事业单位IT系统规模不断扩大,构成IT基础的设施呈现出规模庞大、结构复杂、品牌众多的特点,为实现信息资源合理配置、有效管理,确保系统安全可靠运行,IT集中监控系统的建设成为企业信息化运维工作的重点之一。同时,运维活动也缺少管控,如没有构建服务台、知识库、CMDB、事件管理等基本流程。此外,监控运维并不是简单的“监控 流程”,两者的有效结合也是一个难点。

什么是可视化?可视化就是将种类繁多的信息源产生的大量数据,通过映射成几何图元,再描绘成图形和图像清晰直观展现出来。

图片 16

IT监控运维系统已逐渐成为IT运维部门日常运维工作中必不可少的工具,并在很多已建成的运维项目中发挥着不可替代的作用。如国家核电统一运维项目,实现了统一监控、统一运维、统一展现等“七个统一”;湖北省公安厅智能IT统一管理平台项目,实现全网上千种IT资源的统一管理和IT资源故障告警自动流转进入服务流程;湘潭大学一体化运维项目,支持复杂环境的大规模监控,有效提升IT运维管理和服务能力。

图片 17

系统详细记录每台设备的作业执行操作过程,用户可通过WEB端动态查看作业执行过程、执行日志,以及执行结果等信息,让一切运维操作均有据可依、可查、可跟踪。

统一的运维管理平台,规范日常处理流程

对于运维来说,可视化就是提供一种高效、一致性、透明化、面向用户的服务,也是运维的价值所在。如下,我们从四个维度来探讨运维可视化。

版权声明:本文由ca888发布于ca888圈外,转载请注明出处:经过伍.2八血案看IT系统化运转,东华网智为你支