Problema real e contexto
Custos e latência variavam por rota e tipo de pergunta sem visibilidade por etapa.
A solução foi definir telemetria mínima para gestão contínua de qualidade e eficiência.
Decisões técnicas
-
Métricas por etapa: retrieval, geração e pós-processamento.
-
Tracing distribuído com correlação de request.
-
Controle de custo por token e por fluxo de negócio.
-
Alertas para degradação de qualidade e timeout.
Tip: Monitore qualidade com dataset fixo além de métricas de performance.
Checklist final
-
Definir SLIs de latência e taxa de fallback.
-
Adicionar tags de modelo, versão e tenant nas métricas.
-
Consolidar custo diário por feature de produto.
-
Criar painéis executivos e painéis de engenharia separados.
Erros comuns
-
Medir apenas latência e ignorar qualidade.
-
Falta de segmentação por modelo/tenant.
-
Não correlacionar custo com valor entregue.