数量基本克服人为错误的二种办法

2019-05-17 20:33栏目:ca888圈外

数据中心如何减少人为故障发生率,数据中心故障

数据中心企业常常因为运维管理人员的操作不当问题而出现硬件和网络故障等问题。那么不管是在机房还是远程运维的工作人员选择何种日常事务处理方式来高效安全工作?

1. 明确稳健的流程和文档

在数据中心进行的操作过程都应该文档化,有着明确具体的验证和实践过得程序来进行。当然在开始的时候需要数据中心管理人员花费时间和精力来创建、记录与维护这些流程和程序,建立程序库并对工作员工进行培训和学习,可以有效避免因为操作不当引起的网络问题。

2. 上岗前进行专业知识培训

数据中心工作人员应该了解电气和机械系统的基本知识,数据中心系统之间的相互关系,以及如何解决在这些类型的环境中可能出现的常见问题。此外,工作人员还应具有良好的解释能力和分析解决问题的能力。

图片 1

为了建立一致的基础知识,服务供应商也应该定期培训他们的员工。McClary指出,许多数据中心设施运营商只提供短暂的工作培训,但不一定会长期进行。培训必须持续开展,而每个员工都应该对自己的教育和能力负责。

记录的流程和程序可为培训工作奠定基础。随着知识范围的不断变化和扩展,额外的培训可以确保对每个工作人员的角色,责任,以及所需技能有着敏锐的了解。

3. 日常检查和演练

数据中心员工花费时间去体验并检查数据中心设施中的所有关键系统至关重要。这些演练可以与培训工作结合起来,帮助工作人员认识到关键组成部分和任何可能出现的问题。

数据中心管理人员应该通过他们的检查来制定一些文档化的程序来帮助指导这些工作。这包括在演练期间应该检查的项目的列表,工作人员应该记录的具体参数,以及在参数结果中应采取的步骤。

通过演练可以帮助工作人员找出容易纠正的问题,防止以后出现更大的问题。

数据中心在进行租机服务时,通过手动操作来机房布线、上架服务器、安装系统、分配IP、添加硬盘等,不可避免的出现一些误操作,用户在遇到这类问题时可以督促运维工作人员仔细,同时也可以适当的理解这种错误的出现。现在比较先进的镜像和备份功能,对于数据丢失问题有一定的解决作用。

总而言之,在完美的设备没有完美的管理措施是容易发生事故的。数据中心的所有管理人员只有熟悉自己是谁,自己要做什么才能真正确保数据中心安全的运转。

数据中心企业常常因为运维管理人员的操作不当问题而出现硬件和网络故障等问题。那么...

数据中心企业常常因为运维管理人员的操作不当问题而出现硬件和网络故障等问题。那么不管是在机房还是远程运维的工作人员选择何种日常事务处理方式来高效安全工作?

如今,人为操作失误已经成为数据中心业务中断的一个主要问题,其严重性超出了许多人的想像。研究表明,人为错误占导致数据中心所有停机时间因素的60%至80%。而FORTRUST公司首席运营官Robert McClary认为人为错误是导致数据中心意外中断的最主要的原因之一,并为此制定了专门减轻数据中心人为错误的策略。

近日,某IDC服务商机房宕机直接导致某商业银行业务中断,据了解,此次宕机事故的原因是:机房内电力负载过高,造成配电柜开关跳闸,供电中断,空调停止运行,生产机房温度升高导致的设备宕机。

图片 2

客户可以通过他们的数据中心和托管提供商寻找几种行为和策略,这些行为和策略可以表明提供商消除人为错误的承诺。

其实,类似的事件不是第一次发生了,之前中国信息通信研究院的专家就针对数据中心机房故障的原因作出过总结,专家们表示,数据中心机房故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多来自人祸

(1)明确稳健的流程和文档

"过程控制和过程的全面记录至关重要,因为许多计划外停机事件是人为错误的结果。"McClary表示,"采用文档化、验证和可重复的过程为操作、服务交付和维护创建标准化的方法,同时减轻或消除与人为错误相关的风险。"

结合事件原因及之前案例,我们不难分析,导致此次事故的很大一部分原因也是“运维管理不到位”。

在数据中心进行的操作过程都应该文档化,有着明确具体的验证和实践过得程序来进行。当然在开始的时候需要数据中心管理人员花费时间和精力来创建、记录与维护这些流程和程序,建立程序库并对工作员工进行培训和学习,可以有效避免因为操作不当引起的网络问题。

图片 3

首先,在建设数据中心之前没有对负载做出充分的预估,导致电闸配置不能满足负载的需要;

(2)上岗前进行专业知识培训

(1)稳健的流程和文档

其次,在发生事故之后,应急处置能力不足,导致不能及时的解决突发事件;

数据中心工作人员应该了解电气和机械系统的基本知识,数据中心系统之间的相互关系,以及如何解决在这些类型的环境中可能出现的常见问题。此外,工作人员还应具有良好的解释能力和分析解决问题的能力。

在FORTRUST公司发布的"数据中心最大可靠性操作指南"中,McClary建议不仅要确定具体的操作流程控制和程序,而且还要记录这一活动的强大策略。

另外,机房制冷方面仅依赖空调制冷,没有设置高温应急措施,导致机房持续高温。

为了建立一致的基础知识,服务供应商也应该定期培训他们的员工。McClary指出,许多数据中心设施运营商只提供短暂的工作培训,但不一定会长期进行。培训必须持续开展,而每个员工都应该对自己的教育和能力负责。

以这种方式,在数据中心内进行的每个操作过程都应该按照一个文档化,验证和经过良好实践的程序进行。

频繁的数据中心故障和宕机事故表明,某些数据中心在一味满足客户个性化需求的同时,忽略了自身运维管理能力的提升,导致数据中心可靠性降低,从而发生此类事件。

记录的流程和程序可为培训工作奠定基础。随着知识范围的不断变化和扩展,额外的培训可以确保对每个工作人员的角色,责任,以及所需技能有着敏锐的了解。

虽然数据中心管理人员和工作人员需要花费一些时间和精力来创建、记录和维护这些程序,但这种方法带来了很大的好处。除了减轻人为错误之外,建立适当的程序库还可以鼓励一致性,支持持续的培训和学习,并帮助工作人员建立知识库。这一切都有助于确保问题始终不会出现。

在运维过程中,数据中心其实面临着诸多的挑战:

版权声明:本文由ca888发布于ca888圈外,转载请注明出处:数量基本克服人为错误的二种办法