SRE: Error Budget – O que é? Como adotar? Quais os benefícios?
Na SRE – Site Reliability Engineering – compreender sobre o que é, como adotar e os benefícios do error budget é fundamental para a criação de um acordo entre negócios e tecnologia sobre disponibilidade. Se, por um lado, queremos permitir releases mais frequentes para atender aos objetivos de negócio. Por outro, sempre temos o receio de que as novidades representem mais “dores de cabeça” do que benefícios.
O que é o error budget?
O error budget, que é utilizado na disciplina da SRE (Site Reliability Engineering), é uma métrica que estabelece limites para o número de falhas aceitáveis em um serviço. Indiferente da arquitetura escolhida, seja serviços distribuídos ou em um monólito, a adoção do error budget estabelece um acordo entre tecnologia e negócios.
Como adotar error budget?
Para começar, é essencial compreender os objetivos de negócio e qual problema o software resolve. Em seguida, definir um limite de erros para cada parte do produto. Esse limite, também conhecido como budget, determinará a quantidade de erros em um período de tempo.
Um plano de métricas eficaz e bem objetivo é fundamental para definir o orçamento adequadamente. Além disso, é importante lembrar que ao classificar os erros conforme sua gravidade, permitiremos que os times se concentrem nos erros mais importantes.
O que você precisa fazer para adotar o error budget?
- Definir metas claras para disponibilidade do sistema e estabelecer um plano para alcançá-las, incluindo ações para corrigir problemas quando eles ocorrem;
- Estabelecer prioridade para correções de bugs e melhorias com base no impacto potencial ao negócio;
- Medir e monitorar a frequência e o impacto das falhas para entender onde o orçamento de erro está sendo gasto e tomar medidas para reduzir riscos;
- Criar a cultura da transparência e da comunicação para regularmente informar o status do orçamento de erro para os stakeholders relevantes.
Os benefícios de adotar o error budget
Gerenciar e estabelecer limites de erros aceitáveis em sistemas críticos é um dos principais benefícios ao adotar o error budget. Entretanto, outros precisam de total compreensão para uma adoção adequada, são eles:
Alinhamento de expectativas
Estabelecer metas claras sobre disponibilidade ajuda a alinhar as expectativas entre times de negócios e times de tecnologia.
Priorização de correções e melhorias
Definir prioridades para correções de bugs e melhorias com base no impacto potencial das falhas no negócio e também quais ações devem ser tomadas primeiro.
Comunicação transparente
A SRE defende que a comunicação seja transparente em todos os níveis, ao adotar o error budget você equaliza a linguagem ao falar de riscos e disponibilidade, permite a comunicação do status do sistema.
Melhoria contínua
O fato de permitir medir e monitorar continuamente o desempenho do sistema, garante que equipes estejam sempre trabalhando para melhorar a disponibilidade e reduzir riscos a falhas.
Como calcular o error budget?
Antes de tudo, é importante notar que o error budget deve ser estabelecido como um acordo entre times de negócios e tecnologia. O objetivo é alinhar as expectativas e garantir que as necessidades do negócio sejam atendidas, sem comprometer a segurança e estabilidade do sistema.
Da mesma forma, é importante entender que o error budget pode variar dependendo da definição do SLO (Service Level Objective). O SLO é um acordo entre o tecnologia e o negócio, que estabelece as metas de desempenho e disponibilidade para um determinado serviço. Se o SLO tem uma meta de 99,95% de disponibilidade nas requisições de um serviço, podemos entender que o orçamento de erros seria um downtime de 3 horas 36 minutos por mês.
É importante destacar que o orçamento de erro não é uma métrica estática, mas sim uma métrica dinâmica. Ele precisa ser constantemente revisto e ajustado para garantir que ele faça sentido para o negócio e seja relevante para as necessidades da confiabilidade. Isso inclui ajustar as metas de disponibilidade de acordo com as necessidades do negócio e o comportamento do sistema, e priorizar correções e melhorias com base no impacto potencial das falhas no negócio.
O sucesso de como adotar o error budget e que benefícios ele traz está na forma como o orçamento de erros é consumido
O burn rate of error budget é uma métrica que mede a rapidez com que os erros no sistema estão consumindo do orçamento de erros estabelecido. É essencial acompanhar essa taxa, pois o orçamento de erro é limitado e você precisa assegurar que as falhas não estão o consumindo a um ritmo acelerado.
Dessa forma, se o consumo do orçamento está acelerado, significa problemas frequentes estão ocorrendo e nesse caso será necessário uma ação.
Conclusão
Como adotar o error budget e que benefícios ele traz convida times de tecnologia e negócios a trabalharem com o foco em confiabilidade e melhor experiência do cliente. Dessa forma, erros quando detectados tem a necessidade de serem corrigidos conforme a prioridade e impacto para o negócio. Por fim, adotar o error budget, habilita conduzir conversas transparentes com os principais stakeholders.