SLA, SLO e SLI. O que são e qual usar em cada situação?

Um mundo de siglas

Vivemos submergidos em um mundo de siglas que descrevem uma infinidade de conceitos, desde países, moedas a doenças. Porém há um lugar onde adoramos ter siglas e abreviaturas para tudo é no campo da tecnologia. 

Hoje gostaria de explicá-los brevemente um pequeno conjunto delas que são o dia a dia de todo perfil tecnológico e não tão tecnológico.

Há alguns anos só se escutava falar unicamente dos SLA (Service level agreements, acordos de nível de serviços). Quem não estremeceu quando mensalmente revisava com o cliente este indicador? Isto pode resultar em penalização económica para o prestador de serviços. Nos últimos anos, foram também acrescentados alguns outros indicadores: SLOs (Service Level Objectives) e SLIs (Service Level Indicators). As diferenças entre essas siglas são pequenas mas importantes e é recomendável não cometer erros quando se trata de escolhê-las e comprometer-se com esses indicadores.

Todos nós que desenvolvemos sistemas informáticos gostaríamos que tudo funcionasse sem inconvenientes, mas a realidade é bastante diferente, existem inumeráveis situações nas quais nosso sistema deixa de funcionar ou não funciona como queremos em termos de velocidade ou funcionalidade. Eu gostaria de dizer que independentemente que o serviço seja grátis ou pago, o êxito de um projeto não só depende que o site esteja acessível quando se necessite, mas também o quão bem que funcione. Consegue imaginar se a página de navegação do Google demora mais de 30 segundos para fazer uma pesquisa? Se eu estivesse em uma situação dessas, por exemplo, seria rápido em  procurar alternativas.

 

O que significam essas três siglas?

 

SLA

Falemos dos SLA primeiro já que talvez seja o mais conhecido. Existem muitas definições, mas  simplesmente é um acordo de serviços a prestar, normalmente escrito e assinado por duas partes contratantes, o qual, se infringido, implica sanções (geralmente financeiras). 

Por exemplo, se assinamos com o cliente que vamos manter ativo o seu ecommerce durante pelo menos 99,99% do tempo do mês, isso quer dizer que o máximo de tempo que a página pode estar inacessível durante o mês será 4 minutos e 19 segundos. Quer dizer, se precisarmos fazer algo no sistema que gere indisponibilidade, não podemos demorar mais do que esse tempo. 

 

SLO 

O que entendemos por SLO? Service Level Objective: objetivo do nível de serviços. Esse indicador entra no jogo para ajudar a medir a qualidade do serviço indicando métricas sobre como funciona nosso sistema. Nesse ponto incluímos métricas que nos permitam conhecer em todo momento que o sistema funciona de acordo com níveis aceitáveis para o usuário. Vejamos um exemplo.

Imaginamos que temos uma aplicação web onde vendemos jogos e pouco a pouco estamos a ver que ao longo dos últimos 3 meses estamos a perder clientes. Nosso SLA indica que durante esses últimos 3 meses não tivemos indisponibilidade do sistema, através de questionários vemos que o problema é que nos últimos meses houve um aumento no tempo de carregamento de páginas e os clientes decidiram comprar à concorrência, uma vez que é mais rápido e demora menos tempo a fazê-lo. Depois de analisar, descobrimos que uma de nossas fases de produção aumentou o tempo de latência tornando a página “lenta”. Nesse caso, se tivéssemos tido um SLO que nos avisasse quando o limiar aceitável de utilização da página foi ultrapassado (aumento da latência), poderíamos ter rapidamente invertido a mudança para a produção e o impacto nos nossos clientes teria sido menor. 

 

Qual a diferença entre um SLO e um SLA? Parecem o mesmo?

Os SLA se utilizam externamente para definir um acordo entre um serviço de uma empresa e seus clientes. Os SLOs são objetivos que são medidos internamente para determinar se o SLA está a ser cumprido ou se será quebrado. Se os termos de um SLO são violados, as equipas devem responder e reagir rapidamente para evitar que se quebre o SLA. 

 

E os SLI?

Posteriormente, entra em jogo o termo seguinte: SLIs (Service Level Indicators) que é a métrica utilizada para determinar se o SLO está a ser cumprido ou não. É o valor medido da métrica descrita no SLO num dado momento. O SLI é o valor real medido nesse momento. Para permanecer em conformidade com o SLA, o valor SLI deve sempre cumprir ou exceder o valor determinado pelo SLO. 

Um bom plano de resposta a incidentes é fundamental para resolver rapidamente qualquer tempo de inatividade quando esta ocorre.

 

SLIs, SLAs, SLOs: resumo visual

Fonte: Atlassian

Conclusões 

Embora possa soar bem ao ouvido não treinado, um SLA de 99,99% ainda equivale a 52 minutos e 36 segundos de tempo de inatividade por ano. Isso é quase uma hora de inatividade onde os clientes ficam ociosos ou, pior ainda, à procura de outras opções. Em situações críticas da saúde, a perda de conectividade pode ser uma questão de vida ou morte. Embora a criação de acordos de nível de serviço e objectivos estratégicos seja importante para medir a saúde do sistema, a realidade é que pode ser um desafio acompanhá-los e aplicá-los, uma vez que estes acordos, geralmente escritos por pessoas que não estão nas “trincheiras” tecnológicas, muitas vezes fazem promessas que são difíceis de medir e cumprir pelas equipas. Em resumo, os SLIs demonstram o comportamento real dos sistemas de software. Essas métricas informam a criação de SLAs, que devem ser cumpridas para garantir acordos B2B. Finalmente, numa economia digital com expectativas digitais aceleradas, faz sentido monitorar os SLOs internos e melhorar as linhas de base ao longo do tempo.  

Alberto Valencia, Arquitecto Cloud

Em Cartagon ajudamos há mais de 20 anos  empresas com as suas necessidades tecnológicas e somos especialistas em serviços Cloud e DevOps. Não hesite em contactar-nos para saber como podemos apoiá-lo. Contacte-nos agora.

Somos uma empresa de consultoria de Cloud Services e Managed Services com mais de 20 anos de experiência no sector das TI.