什么是平均恢复时间(MTTR) ?

什么是平均恢复时间(MTTR) ?

平均恢复时间(有时称为平均恢复时间),或MTTR,描述了从失败中恢复过来的平均时间部署,事件,或服务中断。它衡量的时间从一个事件的检测或停机,直到完整的系统功能恢复。

MTTR是一个高级度量可以帮助你衡量你的恢复过程和显示的速度有多快你的系统能够从失败中恢复过来。一般来说,MTTR通常与意外事件,而不是服务请求。

平均恢复时间与解决:有什么区别吗?

平均恢复时间指的是平均时间恢复从一个产品或服务失败但不包括额外的时间来确保该事件不会再发生。

平均解决时间,另一方面,是完全恢复系统所需的平均时间,包括时间解决问题和完成任何额外的工作需要防止问题再次发生。这可能包括故障检测、诊断、修复,并主动采取措施强化系统对未来类似的失败。

因此,平均解决时间提供了洞察解决问题所需的完整的范围超出了实际停机时间,延长团队的责任不仅仅是解决问题,提高系统的长期性能。

如何计算平均恢复时间

平均恢复时间相加计算得出总停机时间超过一个特定的时间段和除以总数在那个时期的事件。

MTTR =总和的解决时间/事件的数量

例如,假设您的系统在两周内三次下降。如果第一个事件恢复花了两个小时,第二个事件花了4个小时,和第三个事件总数为12个小时,6小时的MTTR,两周内将:

MTTR = 12小时总停机时间/ 3的事件

MTTR = 4小时

什么是平均恢复时间好吗?

系统停机,停机时间严重影响客户体验,所以重要的是MTTR尽可能短。更高的MTTR意味着组织和它的客户更有可能体验重要和频繁的停机时间,从而导致投诉,取消和续聘。

良好的MTTR是直接关系到多快可以检测和识别问题的根源(平均检测时间,或MTTD)。识别问题的时间越长,时间越长它将带你去系统恢复正常运转。

MTTD低的关键是减少MTTR和改善其他可靠性指标。如果你减少所需的时间检测到一个问题,你也降低时间分辨率。可观察性和连续监测中扮演重要角色并迅速减少MTTD提醒团队问题。

除了监测,这里有一些其他方法来减少MTTR:

  • 开发一个清楚地记录事件管理计划,让团队知道如何管理一个事件,从第一个警报当系统恢复全面运作。
  • 使用自动化工具来分配责任,创建文档捕获分析和管理配置。
  • 清晰地定义并分配团队的角色和职责,这样每个人都知道要做什么当一个事件发生。
  • 执行总结过去的事件调查和文档的细节问题,这事是怎么发生的,如何防止它在未来。

如何计算平均解决时间

平均解决时间(MTTR)与平均恢复时间因为它包含任何额外的时间在未来预防类似问题的发生。

计算MTTR,增加花费的总时间恢复系统,包括额外的时间,确保以后不会再发生那样的问题,和这个数除以总数量的事件。认为它是这样的:

MTTR =总事件恢复时间+额外的时间确保问题不会复发/事件的数量

想象一下,你的系统在48小时时间内两次下降。第一个事件持续一个小时和第二个两个小时。然后,团队花费额外的三个小时淬火系统防止问题的出现,导致一共有6个小时。

MTTR =(1 + 2 + 3)小时/ 2事件

MTTR = 3小时

什么是平均解决时间好吗?

自减少MTTD减少平均恢复时间,同样的行为也会影响时间分辨率(平均解决时间)。

重点改善的速度也可以给团队可以实施预防措施。平均恢复时间的尸检过程,例如,将特别有用,因为对这一问题的深入分析,可以揭示有用的见解,可以应用于后续活动。

谁应该使用MTTR,何时?

总的来说,MTTR的速度是一个很好的指标来评估你的恢复过程在几个领域的技术。您应该使用MTTR当你想要改善你的团队的平均时间需要修复资产。

如何使用MTTR在网络安全吗

MTTR在网络安全团队指的是时间让系统网络安全破坏后恢复运转。通过这种方式,它表明你的安全团队如何快速恢复系统和影响客户正常操作。

在网络安全团队,MTTR时钟通常开始时提醒团队成员,由于网络攻击系统故障。

这里,恢复过程可能包括几个步骤,包括容器(停止扩散的威胁),实际的威胁,和必要的卫生处理的组件和资源恢复系统正常。一旦完成所有步骤,系统被认为是完全恢复。

如何使用MTTR事件反应吗

MTTR事件反应的一个关键指标,因为它给洞察影响的严重程度,帮助组织评估是否停机事件很快得到解决。

在事件反应,MTTR平均之间的间隔一个问题报告和解决时间戳。自动化工具不仅提醒团队事件,还帮助他们更容易合作和交流,导致MTTR的改善。

服务水平目标物资货柜和服务水平指标(SLI)也可以用于测量系统的可靠性和可用性和近似与产品或服务的客户满意度。不是违反时,平均恢复时间服务的总时间检测,缓解和解决问题,直到符合SLO再说一遍。

如何使用MTTR DevOps吗

在DevOps, MTTR可以代表应用程序所需的平均时间恢复生产后失败。测量MTTR帮助团队确保系统弹性和稳定性,除了确定反应过程可以改善的地方。

DevOps,测量MTTR通常包括使用监测系统来记录事件的开始,当时解决(例如,时间回滚更改或释放后,已达到生产)。

MTTR也可以评估DevOps组的性能。较低的MTTR DevOps团队是更好的。的加速DevOps 2021年报告的状态识别四个性能类别DevOps团队:

  • 精英:不到一个小时
  • 高:少于24小时
  • 介质:不到一个星期
  • 低:超过或等于一个星期

更快的MTTR导致较低的失败率,更快的交付,提高用户满意度。随着DevOps成熟度增加,MTTR应该会越来越低。

你需要什么工具监视MTTRs ?

改善MTTR,你需要能够快速检测系统故障。持续的监控工具,比如普罗米修斯Grafana,以及受欢迎的应用程序性能监控工具,如Datadog, Splunk, Dynatrace,可以帮助你收集MTTR指标。

这些系统使用大量的实时和历史数据来帮助你更快地诊断和分析问题。然而,支持复杂的查询和实时处理,你需要所有的flash存储可以提供超快的速度性能。

亚搏充值后支付宝能申诉吗纯数据存储提供了一些所有的flash存储解决方案,提供巨大的吞吐量和一致的性能。FlashBlade®是一个高性能的文件和对象存储平台,提供应用程序和所需的速度和性能监视工具,支持更快的MTTD和MTTR。

MTTR后接下来的指标是什么?

虽然MTTR是一个强大的指标快速应对问题的能力,还有其他重要可靠性指标您还应该监视。了解更多关于另一个关键计算:平均故障时间(MTBF)

CONTACTENOS
害怕Preguntas, comentarios ?

害怕这个人或pregunta o comentario尤其或o las certificaciones纯?Estamos aqui对位收效。

程序una demostracion

程序una demostracion en vivo y compruebe您mismo)科莫纯测试ayudarlo transformar sus拿督en有力resultados。

Llamenos:800-976-6494

五分镍币一样均出自同一名设计师de手:pr@purestorage.com

塞代中央德纯存储亚搏充值后支付宝能申诉吗

650年卡斯特罗圣# 400

山景城,CA 94041

800-379-7873(给)

info@purestorage.com

CERRAR
¡苏navegador丫没有es兼容!

洛马斯navegadores性逗留一个杂烩汤representan de seguridad危险。对位brindar la药对experiencia最低al utilizar都sitio, actualice cualquiera de来说navegadores mas recientes。