Problema real e contexto
Com mais de mil servidores, o volume de séries e a janela de retenção passaram a impactar performance e custo operacional.
Foi necessário revisar a arquitetura de coleta e armazenamento para manter consultas rápidas e alertas confiáveis.
Decisões técnicas
-
Prometheus para scraping e regras locais de alerta.
-
VictoriaMetrics para retenção longa e ingestão otimizada.
-
Controle de cardinalidade por naming e labels obrigatórios.
-
Dashboards com foco em SLO, não em vanity metrics.
Tip: Sem política de cardinalidade, qualquer stack de observabilidade degrada rapidamente.
Checklist final
-
Definir budget de cardinalidade por domínio.
-
Padronizar labels como env, service e tenant.
-
Monitorar ingestão, query latency e uso de disco.
-
Revisar periodicamente séries sem uso em dashboards/alertas.
Erros comuns
-
Reter tudo por padrão sem critério de negócio.
-
Criar labels de alta cardinalidade com IDs dinâmicos.
-
Alertar em sinais ruidosos sem deduplicação.