背景
又到一年的 11.11 大促日,最近很多团队邮件上下游确认 SLA,你是不是还没搞明白服务质量 SLA、SLO 等概念?本文通过理论知识以及基于 SLO 告警治理的实践经验分享。详细介绍如何设置 SLO、有效的告警泛滥治理、以及如何根据 SLO 的指标来指导 11.11 大促及优化服务性能和可靠性。
问题(1)
首次接触到了 SLA(服务等级协议)的概念,其中承诺的响应时间是 200 毫秒。而服务接口的 TP99(即 99% 的请求完成时间)超过了 100 毫秒,上游的超时配置却是 2000 毫秒。这之间存在何种联系呢?我感到有些困惑。后来在工作中逐步搞清楚了 SLA 的概念。
问题(2)
年初还有一个疑问一直困扰着我。例如,我负责的系统中的一个 API 接口的可用率是 99.99%,那么在部门中,包含了 N 个系统和 M 个接口,部门的季度可用率是 99.98%,这个数字又是如何计算出来的呢?统计的规则又是什么?我请教了 XXX 同学,给我解惑答疑,非常感谢!
问题(3)
展开剩余43%比如我在 XXX 云购买了 100 台云主机,在 10:00-10:05 这 5 分钟内,有 10 台机器出现故障,导致 API 的对外可用率只有 90%(在这 5 分钟内,总请求数为 1 万,失败的请求数为 1000)。如果一个月 30 天,每天发生一次这样的 5 分钟,那么这可用率到底是多少呢?
带着以上的这些问题,研究了服务质量的指标:SLI(服务水平指标)、SLO(服务水平目标)和 SLA(服务等级协议)。如果你也对上面的问题感兴趣,并且想找到答案,欢迎阅读本文,以下是我的研究成果,供大家参考,如果有不对的地方,还请大家指正。
发布于:湖南省臻富配资提示:文章来自网络,不代表本站观点。