Nuevos proyectos · 24h
Ir al contenido principal
04 · Observability

Sabes qué está fallando antes de que abran un ticket.

La observabilidad añadida después del primer incidente está diseñada para el incidente que ya ocurrió. La observabilidad diseñada desde el inicio cubre los incidentes que aún no han ocurrido. La diferencia es cuándo se definen los SLIs — antes de la primera carga de usuario, no después.

Lo que le cuesta el problema.

La mayoría de los problemas de infraestructura no son causados por las herramientas elegidas. Son causados por cómo se aprovisiona y gestiona la infraestructura a lo largo del tiempo.

Observabilidad añadida retroactivamente

El stack de monitorización se añade tras el primer incidente de producción. Las alertas se configuran para los síntomas del incidente pasado, no para los futuros.

Métricas sin contexto de negocio

CPU y memoria son necesarias pero no suficientes. Sin métricas de latencia, tasa de errores y saturación específicas de cada servicio, es imposible correlacionar el estado del sistema con el impacto en usuarios.

Logs sin estructura

Los logs en texto libre requieren búsqueda de texto completo para extraer información. Durante un incidente, buscar en logs no estructurados consume tiempo que debería destinarse a la remediación.

Alertas que no apuntan a una acción

Una alerta que dice "CPU al 80%" no indica qué hacer. Una alerta que dice "Latencia p99 del servicio de pagos > 2s durante 5 minutos" apunta directamente a una acción.

El stack de observabilidad que desplegamos.

Métricas, logs y alertas configurados como código. Dashboards listos el día del primer despliegue.

01

Recolección de Métricas

Prometheus · kube-state-metrics · node-exporter · custom metrics

Prometheus scrapeando métricas de todos los componentes del clúster, los nodos y los servicios de aplicación. Métricas personalizadas de la aplicación expuestas en el endpoint /metrics.

02

Visualización

Grafana · Dashboards como código · Annotations

Dashboards Grafana definidos como JSON y gestionados en Git. Dashboards para infraestructura (nodos, pods, red) y servicios de aplicación (latencia, tasa de errores, throughput) listos en el día uno.

03

Alerting

Alertmanager · PagerDuty · Slack · Escalation policies

Alertas definidas en Prometheus alerting rules con umbrales basados en SLIs del servicio. Alertmanager enruta por severidad — crítico a PagerDuty, warning a Slack.

04

Logs Estructurados

JSON logging · Fluent Bit · CloudWatch Logs Insights

Aplicaciones configuradas para logs JSON estructurados. Fluent Bit para recolección y envío a CloudWatch Logs. Queries de CloudWatch Logs Insights predefinidas para patrones de error comunes.

05

Métricas AWS Nativas

CloudWatch · Container Insights · RDS Enhanced Monitoring

CloudWatch Container Insights para métricas de EKS y ECS. RDS Enhanced Monitoring para métricas de base de datos. Alertas de coste para detectar derivas de gasto antes de que impacten en el presupuesto.

06

SLIs y SLOs

Error budget · Availability targets · Latency budgets

SLIs definidos antes del primer despliegue: disponibilidad del servicio, latencia p50/p95/p99, tasa de errores. SLO calculado como disponibilidad objetivo mensual con alerta cuando el error budget se agota.

Cómo lo implementamos.

01

Definición de SLIs

Identificamos las métricas que miden directamente la experiencia del usuario: disponibilidad, latencia, tasa de errores. Los SLIs se definen antes de la instrumentación.

02

Instrumentación de aplicaciones

Añadimos endpoints /metrics a los servicios. Configuramos logs estructurados en JSON. Verificamos que las métricas críticas están expuestas correctamente.

03

Deploy del stack de observabilidad

Prometheus, Grafana y Alertmanager desplegados via Helm. Dashboards y reglas de alerta aplicados como código.

04

Configuración de alertas y runbooks

Alertas configuradas para los SLIs definidos. Cada alerta tiene un runbook que describe el diagnóstico y la remediación — antes de que ocurra el primer incidente.

Qué cambia al completar la entrega.

Dashboards listos en día 1

antes de la primera carga de usuario

Alertas accionables

no solo "CPU alta" — qué servicio, qué impacto

MTTD reducido

tiempo de detección de incidentes en minutos, no horas

Logs estructurados

queries predefinidas para patrones de error comunes

SLOs definidos

disponibilidad y latencia medidos continuamente

Observabilidad como código

dashboards y alertas en Git, no en la UI de Grafana

De métricas a alertas proactivas.

Instrumenta tu plataforma desde el inicio.

Trae tus servicios actuales y los requisitos de observabilidad de tu equipo. Diseñamos el stack que permite detectar incidentes antes de que los usuarios los reporten.