Tiago Tartari

Conteúdo

SRE: Error Budget – O que é? Como adotar? Quais os benefícios?

Na SRE – Site Reliability Engineering – compreender sobre o que é, como adotar e os benefícios do error budget é fundamental para a criação de um acordo entre negócios e tecnologia sobre disponibilidade. Se, por um lado, queremos permitir releases mais frequentes para atender aos objetivos de negócio. Por outro, sempre temos o receio de que as novidades representem mais “dores de cabeça” do que benefícios.

O que é o error budget?

O error budget, que é utilizado na disciplina da SRE (Site Reliability Engineering), é uma métrica que estabelece limites para o número de falhas aceitáveis em um serviço. Indiferente da arquitetura escolhida, seja serviços distribuídos ou em um monólito, a adoção do error budget estabelece um acordo entre tecnologia e negócios.

Como adotar error budget?

Para começar, é essencial compreender os objetivos de negócio e qual problema o software resolve. Em seguida, definir um limite de erros para cada parte do produto. Esse limite, também conhecido como budget, determinará a quantidade de erros em um período de tempo.

Um plano de métricas eficaz e bem objetivo é fundamental para definir o orçamento adequadamente. Além disso, é importante lembrar que ao classificar os erros conforme sua gravidade, permitiremos que os times se concentrem nos erros mais importantes.

O que você precisa fazer para adotar o error budget?

  • Definir metas claras para disponibilidade do sistema e estabelecer um plano para alcançá-las, incluindo ações para corrigir problemas quando eles ocorrem;
  • Estabelecer prioridade para correções de bugs e melhorias com base no impacto potencial ao negócio;
  • Medir e monitorar a frequência e o impacto das falhas para entender onde o orçamento de erro está sendo gasto e tomar medidas para reduzir riscos;
  • Criar a cultura da transparência e da comunicação para regularmente informar o status do orçamento de erro para os stakeholders relevantes.

Os benefícios de adotar o error budget

Gerenciar e estabelecer limites de erros aceitáveis em sistemas críticos é um dos principais benefícios ao adotar o error budget. Entretanto, outros precisam de total compreensão para uma adoção adequada, são eles:

Alinhamento de expectativas

Estabelecer metas claras sobre disponibilidade ajuda a alinhar as expectativas entre times de negócios e times de tecnologia.

Priorização de correções e melhorias

Definir prioridades para correções de bugs e melhorias com base no impacto potencial das falhas no negócio e também quais ações devem ser tomadas primeiro.

Comunicação transparente

A SRE defende que a comunicação seja transparente em todos os níveis, ao adotar o error budget você equaliza a linguagem ao falar de riscos e disponibilidade, permite a comunicação do status do sistema.

Melhoria contínua

O fato de permitir medir e monitorar continuamente o desempenho do sistema, garante que equipes estejam sempre trabalhando para melhorar a disponibilidade e reduzir riscos a falhas.

Como calcular o error budget?

Antes de tudo, é importante notar que o error budget deve ser estabelecido como um acordo entre times de negócios e tecnologia. O objetivo é alinhar as expectativas e garantir que as necessidades do negócio sejam atendidas, sem comprometer a segurança e estabilidade do sistema.

Da mesma forma, é importante entender que o error budget pode variar dependendo da definição do SLO (Service Level Objective). O SLO é um acordo entre o tecnologia e o negócio, que estabelece as metas de desempenho e disponibilidade para um determinado serviço. Se o SLO tem uma meta de 99,95% de disponibilidade nas requisições de um serviço, podemos entender que o orçamento de erros seria um downtime de 3 horas 36 minutos por mês.

É importante destacar que o orçamento de erro não é uma métrica estática, mas sim uma métrica dinâmica. Ele precisa ser constantemente revisto e ajustado para garantir que ele faça sentido para o negócio e seja relevante para as necessidades da confiabilidade. Isso inclui ajustar as metas de disponibilidade de acordo com as necessidades do negócio e o comportamento do sistema, e priorizar correções e melhorias com base no impacto potencial das falhas no negócio.

O sucesso de como adotar o error budget e que benefícios ele traz está na forma como o orçamento de erros é consumido

O burn rate of error budget é uma métrica que mede a rapidez com que os erros no sistema estão consumindo do orçamento de erros estabelecido. É essencial acompanhar essa taxa, pois o orçamento de erro é limitado e você precisa assegurar que as falhas não estão o consumindo a um ritmo acelerado.

Dessa forma, se o consumo do orçamento está acelerado, significa problemas frequentes estão ocorrendo e nesse caso será necessário uma ação.

O sucesso de como adotar o error budget e que benefícios ele traz está na forma como o orçamento de erros é consumido

Conclusão

Como adotar o error budget e que benefícios ele traz convida times de tecnologia e negócios a trabalharem com o foco em confiabilidade e melhor experiência do cliente. Dessa forma, erros quando detectados tem a necessidade de serem corrigidos conforme a prioridade e impacto para o negócio. Por fim, adotar o error budget, habilita conduzir conversas transparentes com os principais stakeholders.

Compartilhe:

Tiago Tartari

Tiago Tartari

Eu ajudo e capacito pessoas e organizações a transformar problemas complexos em soluções práticas usando a tecnologia para atingir resultados extraordinários.

Qual é o desafio
que você tem hoje?