logoUC
📚Curso disponible

Observabilidad y SRE

Domina observabilidad y prácticas SRE: diseña logs, métricas y trazas end-to-end; crea dashboards y alertas accionables. Implementa Prometheus (scrape, alerting, recording rules), Grafana (panels, alerting), Loki (logs a escala) y Jaeger (tracing). En AWS trabajarás con CloudWatch y X-Ray. Define SLIs, establece SLOs y SLAs reales, error budgets, gestión de incidentes, postmortems sin culpables y automatización de fiabilidad.

11
Módulos

Contenido del curso

Tema 1 - Fundamentos de Observabilidad y SRE

10 lecciones
1.1. Qué es observabilidad y en qué se diferencia del simple monitoreo
1.2. Las tres señales clave: logs, métricas y trazas
1.3. Origen y evolución del rol de Site Reliability Engineer (SRE)
1.4. Relación entre DevOps y SRE: diferencias y sinergias
1.5. Principios de fiabilidad: disponibilidad, latencia, rendimiento y más
1.6. SLIs, SLOs y SLAs: métricas de compromiso real con el negocio
1.7. Error Budget: cómo usar el margen de fallo de forma estratégica
1.8. Antipatrones comunes en observabilidad y su impacto
1.9. Costes de la observabilidad y decisiones de instrumentación
1.10. Casos reales de fallo por falta de observabilidad

Tema 2 - Logs estructurados y centralizados con Fluent Bit, Loki y Grafana

10 lecciones
2.1. Por qué estructurar los logs y qué ventajas aporta
2.2. Introducción a Fluent Bit: qué es y cuándo usarlo frente a Fluentd
2.3. Instalación y configuración básica de Fluent Bit en un entorno local
2.4. Parsers y filtros en Fluent Bit: manipular y enriquecer logs
2.5. Introducción a Loki: arquitectura y principios clave
2.6. Integración de Fluent Bit con Loki: envío de logs centralizados
2.7. Instalación de Grafana y conexión a Loki como fuente de datos
2.8. Búsquedas y expresiones en Grafana Loki
2.9. Buenas prácticas de retención, volumen y coste en Loki
2.10. Ejercicio práctico: pipeline completo de logs desde una app Node.js

Tema 3 - Métricas con Prometheus y Grafana en proyectos Node y Express

10 lecciones
3.1. Qué es Prometheus y por qué es ideal para métricas en tiempo real
3.2. Instrumentación manual de una app Express con prom-client
3.3. Crear un endpoint /metrics y exponerlo correctamente
3.4. Instalación de Prometheus y configuración del prometheus.yml
3.5. Validar scraping, targets y métricas en la interfaz web de Prometheus
3.6. Primeros queries en Prometheus: rate(), sum(), avg()
3.7. Instalación y configuración básica de Grafana
3.8. Dashboards básicos en Grafana para apps Express
3.9. Alertas básicas con Prometheus y Grafana
3.10. Ejercicio guiado: Instrumentar y monitorizar una API de tareas Express

Tema 4 - Trazas distribuidas con OpenTelemetry y Jaeger en microservicios Node

10 lecciones
4.1. Qué son las trazas distribuidas y cómo complementan logs y métricas
4.2. Arquitectura básica de OpenTelemetry (OTel): SDK, exporter y collector
4.3. Instalación e integración de OpenTelemetry en un microservicio Node
4.4. Configuración de tracer provider y span processor en código Node
4.5. Instrumentación automática vs manual en aplicaciones Express
4.6. Instalación y puesta en marcha de Jaeger (all-in-one) en local con Docker
4.7. Exportación de spans desde Node a Jaeger vía OTLP
4.8. Trazabilidad entre servicios: cómo propagar contextos entre APIs
4.9. Lectura e interpretación de trazas en Jaeger (latencia, errores, secuencia)
4.10. Ejercicio práctico: instrumentar y trazar un flujo Express → API externa

Tema 5 - Dashboards de logs, métricas y trazas en Grafana con Loki y Tempo

10 lecciones
5.1. Introducción a Grafana como plataforma de observabilidad
5.2. Instalación de Grafana, Loki y Tempo con Docker Compose
5.3. Envío de logs desde Node.js a Loki con Winston o Pino
5.4. Consulta y filtrado de logs en Grafana con LogQL
5.5. Conexión de Grafana a Prometheus para mostrar métricas
5.6. Integración de Tempo para trazas distribuidas en Grafana
5.7. Dashboards personalizados por servicio: logs + métricas + trazas
5.8. Enlaces cruzados: ir de una métrica o log a una traza con un clic
5.9. Buenas prácticas de visualización: umbrales, leyendas, agrupaciones
5.10. Caso práctico: detectar un error en producción a partir de un dashboard unificado

Tema 6 - Alertas eficaces con Prometheus, Alertmanager y Grafana

10 lecciones
6.1. Introducción al sistema de alertas en SRE
6.2. Configuración de reglas de alerta en Prometheus
6.3. Instalación y configuración básica de Alertmanager
6.4. Agrupación y silenciamiento de alertas
6.5. Integración de Alertmanager con email, Slack, Teams, Telegram
6.6. Etiquetado de alertas: severidad, origen, servicio
6.7. Alertas en Grafana desde Prometheus y Loki
6.8. Alertas por logs anómalos: uso combinado con Loki
6.9. Definición de SLIs y umbrales de alerta
6.10. Simulación de alertas y pruebas de notificación

Tema 7 - Conceptos clave de SRE: SLIs, SLOs y SLAs reales

10 lecciones
7.1. Qué es un SLI (Service Level Indicator) y ejemplos reales
7.2. Cómo definir SLOs (Service Level Objectives) en base a SLIs
7.3. Qué es un SLA (Service Level Agreement) y su valor contractual
7.4. Métricas comunes usadas como SLIs: latencia, disponibilidad, errores
7.5. Cómo establecer SLOs útiles y realistas con datos históricos
7.6. Brecha entre SLOs internos y SLAs externos: gestión de expectativas
7.7. Introducción al concepto de error budget
7.8. Relación entre alertas, SLIs y SLOs: cómo vincularlos
7.9. Casos reales de SLIs/SLOs en aplicaciones frontend y backend
7.10. Visualización de SLIs/SLOs en Grafana y generación de informes

Tema 8 - Visualización profesional de métricas y logs con Grafana y dashboards personalizados

10 lecciones
8.1. Fundamentos de Grafana: qué es y cómo se integra en DevOps
8.2. Instalación de Grafana en local y en contenedor Docker
8.3. Conexión de Grafana con Prometheus, Loki y otros orígenes de datos
8.4. Principios de diseño de dashboards: claridad, contexto y jerarquía visual
8.5. Paneles y variables: personalización y reutilización avanzada
8.6. Uso de alertas visuales e integración con sistemas de notificación
8.7. Visualización de SLIs y SLOs: ejemplos de paneles reales para equipos SRE
8.8. Embeber dashboards en herramientas internas o portales web
8.9. Buenas prácticas para compartir dashboards con equipos y stakeholders
8.10. Exportación, backups y versionado de dashboards

Tema 9 - Observabilidad distribuida con Jaeger y OpenTelemetry

10 lecciones
9.1. ¿Qué es el tracing distribuido y por qué es clave en arquitecturas modernas?
9.2. Introducción a OpenTelemetry: arquitectura, componentes y filosofía
9.3. Instrumentación manual vs automática: cuándo usar cada una
9.4. Instrumentar una API en Express con OpenTelemetry (manual paso a paso)
9.5. Exportadores de OpenTelemetry: OTLP, Prometheus, Jaeger, etc.
9.6. Despliegue local de Jaeger en Docker y análisis de trazas desde UI
9.7. Ejemplo completo: trazabilidad entre frontend React y backend Express
9.8. Visualización y análisis de latencias, errores y dependencias
9.9. Integración de trazas con Grafana para unificar la observabilidad
9.10. Buenas prácticas en observabilidad distribuida: muestreo, privacidad, rendimiento

Tema 10 - Dashboards de observabilidad completos por entorno y equipo

10 lecciones
10.1. Qué debe mostrar un dashboard de observabilidad útil (y qué no)
10.2. Dashboards para SRE: enfoque en fiabilidad, latencia y errores
10.3. Dashboards para desarrolladores: errores, builds, rendimiento, logs
10.4. Dashboards para producto y negocio: KPIs, usuarios activos, tasas de conversión
10.5. Organización por entorno: producción, staging, test, desarrollo
10.6. Variables y plantillas dinámicas en Grafana
10.7. Construcción de paneles eficientes: tipo de gráficos, alertas visuales, colores
10.8. Alertas embebidas: alert rules, thresholds y eventos destacados
10.9. Gestión de permisos y visibilidad en Grafana
10.10. Casos reales: dashboard por microservicio, dashboard por clúster, dashboard por cliente

Tema 11 - Proyecto final de observabilidad real para una arquitectura en producción

10 lecciones
11.1. Descripción del escenario del proyecto final
11.2. Instalación del stack de observabilidad (Prometheus, Grafana, Loki, Tempo, Alertmanager)
11.3. Instrumentación de la aplicación: métricas custom en Node.js y logs estructurados
11.4. Exporters de PostgreSQL y Redis: node-exporter, postgres-exporter y configuración en Prometheus
11.5. Scraping y targets dinámicos con ServiceMonitors y anotaciones
11.6. Dashboards en Grafana por componente, entorno y equipo
11.7. Alertas configuradas con base en SLIs y políticas de SLOs definidos
11.8. Logging centralizado con Loki y queries estructuradas desde Grafana
11.9. Distributed Tracing entre Node.js, Redis y PostgreSQL con OpenTelemetry + Tempo
11.10. Documentación de la arquitectura de observabilidad, objetivos y límites

¿Listo para empezar?

Aprende a desarrollar desde 0 con IA integrada. Practica, resuelve retos reales, con correcciones inmediatas y completamente tutorizado.