失败或MTBF之间的平均时间是产品或系统可修复故障之间的平均时间。这是确定系统故障频率并提供系统可靠性的关键指标。
MTBF可用于确定您的团队在预防或减少潜在事件方面的成功程度。失败之间的时间越高,系统越可靠。
MTBF在跟踪组件或系统的可靠性和可用性方面起着作用。
可靠性是系统或组件在特定时期内设计的概率而不会失败。MTBF是对系统可靠性的基本衡量标准 - MTBF越高,产品的可靠性越高。将MTBF与其他故障指标和维护策略一起使用,因此可以更轻松地预测资产失败,因为团队可以更好地确定在发生故障之前如何以及何时实施预防措施。
可用性是系统或组件在需要时按设计运行的能力。MTBF与平均恢复时间(MTTR)结合在一起可以确定系统在一定时间范围内失败的可能性。可以通过将MTBF除以MTTR和MTBF的总和来计算系统的可用性。
可用性= mtbf /(mtbf + mttr)
MTBF是通过将特定期限内的总操作时间除以同期的失败数量来计算的。这是计算的方式:
要确定系统的总操作时间,您需要在特定的时间内监视系统。
例如,假设在24小时的时间范围内,系统经历了三个单独事件中发生的三个小时的停机时间。
如上所述,可以通过将总正常运行时间除以记录的故障数来计算MTBF。另一方面,故障率是MTBF的倒数,可以通过将故障数除以总正常运行时间来计算。
MTBF可以根据以下的故障率计算:MTBF = 1 /失败率
例如:
由于系统或组件的故障之间的时间可能取决于配置,操作条件,年龄和其他外部因素等因素,因此没有一个“好” MTBF度量。取而代之的是,应根据您的特定资产计算MTBF,并在收集更多数据时变得更加准确。
当然,尽管可能没有普遍接受的目标MTBF,但MTBF越高,越好。高MTBF表明您的系统或组件非常可靠,并且一生中的问题将更少,而且较少的事件往往会转化为减少停机时间和降低成本。
低MTBF意味着您的系统可能会更频繁地故障,并且需要审查系统的可靠性。一个良好的预防性维护计划以及执行监视MTBF和其他故障指标的工具可以帮助提高系统可靠性。
接下来,让我们考虑一些与30天内运行的生产系统相关的低,平均和高MTBF的例子。
假设该系统在30天(720小时)内每次下降了六次,持续四个小时,总干扰时间为24小时。
每五天停电表明一个极其不可靠的系统,会经常影响业务运营和客户。
现在,想象一下,该系统在相同的30天(720小时)中每次仅下降了两次,持续两个小时,在四个小时内的总干扰时间。
尽管这可能不是非常高的MTBF,但对于某些业务用例,每15天一次都可以接受一次。
最后,考虑一个仅在30天(720小时)内仅下降一次的系统,持续两个小时。
与此处描述的其他情况相比,每30天一次故障可以视为高MTBF,表明该系统非常可靠。
MTBF是在几个技术领域的有用可靠性指标。让我们考虑一些有关网络安全,事件响应和DevOps的场景。
在网络安全方面,MTBF可以表明系统即将结束其生命的尽头,并且发生关键停电的风险正在增加。
例如,想象一下在48小时内观察到一个网络安全系统。在此期间,该系统在总停机时间为八个小时或总运行时间为40小时的五次失败。
mtbf = 40/5 = 8小时
在接下来的一个月中,该系统再次在48小时内再次观察到。这次,总停机时间为12小时或总运行时间为36小时,有八次失败。该系统的MTBF现在为4.5小时。
mtbf = 36 /8 = 4.5小时
如果MTBF在随后的观察期间继续下降,这可能表明系统中的一个区域(或整个系统本身)需要更换或硬化。
MTBF还可以帮助确定您的事件响应团队在最小化和预防事件时的有效性。如果MTBF太低或向下趋势,则团队应分析事件数据以发现反复出现的中断和有关趋势。
DEVOPS中的MTBF是对功能或单个组件故障频率的衡量标准,使团队可以预测服务的可靠性和可用性级别。这样,它可以突出组件设计或测试和维护过程中的弱点。
通过监视MTBF,DevOps团队可以发现并消除效率低下和瓶颈,这可能通过改善流程和系统基础架构而导致失败。随着团队的改进,MTBF增加了,表明系统更可靠。
例如,考虑一个示例,其中五天内代码集成管道的总工作量为100小时。在一周中,发生了四次失败。
使用正确的工具,您可以提高MTBF和其他维护指标。这些工具包括基础架构监视工具,服务监视,可视化工具,应用程序性能监视工具,跨平台和数据聚合工具以及项目管理工具。
但是,所有这些工具都需要快速的高性能存储,这些存储可以处理大量数据,同时保持最高性能。使用Pur亚搏充值后支付宝能申诉吗eStorage®闪光灯®,您可以创建强大的高性能存储解决方案,以支持高级监视和可观察性工具,以帮助您提高MTBF指标。
MTBF和平均失败时间(MTTF)都用于测量评估系统或组件性能的时间,尽管它们的应用方式不同。