平均故障间隔时间、平均无故障时间、平均时间间隔可修理的产品或系统的故障。这是一个关键指标确定系统故障的频率,并提供系统可靠性的概述。
平均可用于确定成功的你的团队是如何防止或减少潜在的事件。故障间隔时间越高,系统越可靠。
平均在跟踪过程中发挥作用的组件或系统的可靠性和可用性。
可靠性的概率是一个系统或组件将执行设计在一个特定时期内没有失败。平均是一个基本的衡量系统的MTBF reliability-the高,产品的可靠性就越高。使用平均失败与其他指标和维护策略更易于预测资产失败,团队可以更好地确定如何以及何时实现故障发生前的预防措施。
可用性是系统或组件操作的能力设计。平均结合平均恢复时间(MTTR)可以确定一个系统的可能性会失败在一个特定的时间框架。可以计算系统可用性的MTBF除以MTTR,平均无故障时间的总和。
可用性=平均/(平均无故障时间+ MTTR)
平均计算)除以总操作时间为一个特定的时期失败的数量在同一时期。如何计算:
确定系统的总运行时间,您需要监视系统为一个特定的一段时间。
作为一个例子,假设在一个24小时的时间内,系统经历三个小时的停机时间,发生在三个独立的事件。
如上所述,可以计算平均总运行时间除以失败记录的数量。失败率,另一方面,是计算平均无故障时间的倒数和失败的数量除以总运行时间。
平均故障间隔可以从故障率计算如下:平均无故障时间= 1 /失败率
例如:
由于故障间隔时间为一个系统或组件可以依赖等因素配置,操作条件,年龄,和其他外部因素,没有一个“好”MTBF指标。相反,MTBF应该为您的特定资产计算并将变得更加准确的为你收集更多的数据。
当然,可能没有一个公认的目标平均无故障时间、更真实的平均无故障时间、越高越好。高平均显示您的系统或组件是高度可靠和更少的问题对其生存期和有更少的事故往往转化为减少停机时间和降低成本。
低平均意味着你的系统很可能失败更频繁、需要审查你的系统的可靠性。良好的预防性维护计划和实施工具监控MTBF和其他故障指标可以帮助提高系统可靠性。
接下来,让我们考虑一些低,平均和高平均生产系统相关操作的30天。
假设系统下降6倍(720小时)30天内四个小时每次,总中断时间为24小时。
每五天停机表示极其不可靠的系统,会经常业务操作和客户的影响。
现在,想象一下,系统只下降两次在同一个30天(720小时),每次两个小时,总中断时间为4个小时。
虽然这可能不是一个非常高的平均无故障时间、一次失败每15天可以接受一些业务用例。
最后,考虑一个系统,只有下降后30天内(720小时),两个小时。
与这里描述的其他场景相比,可以被认为是一次失败,每30天高平均无故障时间、指示系统是高度可靠。
平均是一个有用的可靠性指标在几个方面的技术。让我们考虑一些场景对于网络安全,事件响应,DevOps。
在网络安全中,平均可以表明,一个系统即将结束其生命和关键故障的风险正在增加。
例如,假设一个网络安全系统是在48小时内观察到。在此期间,系统失败5次总停机时间8小时或40小时的总运行时间。
平均无故障时间= 40/5 = 8小时
次月,系统再次观察超过48小时。这一次,总共有8个故障停机12小时或36小时的总运行时间。系统的平均无故障时间现在是4.5小时。
平均无故障时间= 36/8 = 4.5小时
如果后续观测期间平均持续下降,这可能表明一个区域的系统或整个系统本身需要被替换或硬化。
平均故障间隔也可以帮助你决定如何有效事件反应小组在减少和防止事故。如果平均太低或呈下降趋势,团队应该分析事故数据发现循环中断和有关的趋势。
DevOps平均是一个衡量的频率特性或单个组件失败,允许团队预测服务的可靠性和可用性水平。通过这种方式,它能突出弱点在组件的设计或测试和维护过程。
通过监测平均无故障时间、DevOps团队可以发现和消除低效和瓶颈,可能导致故障通过改进流程和系统的基础设施。当团队做出改进,平均增加,表明一个更可靠的系统。
例如,考虑一个例子的代码集成管道的总功五天是100小时。故障发生在本周四。
使用正确的工具,您可以提高平均无故障时间和其他维护指标。这些工具包括基础设施监控工具、服务监控、可视化工具,应用程序性能监控工具,跨平台和数据聚合工具,和项目管理工具。
然而,所有这些工具都需要快速的高性能存储,可以处理大量的数据,同时保持最佳性能。与纯存储®亚搏充值后支付宝能申诉吗FlashBlade®,您可以创建一个健壮的、高性能的存储方案来支持所需的先进的监控和可观察性工具来帮助你提高你的MTBF指标。
平均和平均失效到达时间(MTTF)都是用来测量时间来评估一个系统或组件的性能,尽管他们应用的方式是不同的。