¿Qué es el Network Monitoring?
Network monitoring observa la infraestructura que conecta servicios y usuarios: enlaces, devices, packet loss, latencia, jitter, BGP, DNS, en continuo.
¿Qué es el network monitoring?
Network monitoring es la disciplina de observar continuamente la salud, el rendimiento y el flujo de tráfico de la infraestructura de red que conecta servidores, servicios y usuarios. Hace seguimiento de devices (routers, switches, firewalls, load balancers, access points), enlaces (utilización de ancho de banda, packet loss, latencia, jitter) y los protocolos que corren encima (BGP, OSPF, DNS, TLS) para que un operador detecte un enlace degradado, un uplink saturado o una interfaz que flapping antes de que los usuarios noten page loads lentos o llamadas API fallidas.
La salida suele ser una vista de topología en tiempo real, gráficas de métricas por interfaz, alertas de threshold sobre counters como bandwidth o error rate, y una flow database (NetFlow, sFlow, IPFIX) que responde "qué tráfico cruzaba este enlace a las 14:32." Herramientas del espacio incluyen SolarWinds, PRTG, LibreNMS, Zabbix, Nagios, Cisco ThousandEyes, Kentik y Catchpoint.
Network monitoring vs infrastructure monitoring vs APM
Estas tres capas se solapan en tooling pero responden a preguntas distintas:
- Network monitoring observa las tuberías: utilización de enlace, packet loss, cambios de routing, tiempo de resolución DNS. Mejor para diagnosticar quejas de "la red va lenta."
- Infrastructure monitoring observa los hosts: CPU, memoria, disco, conteo de contenedores, métricas de kernel. Mejor para diagnosticar "este servidor está sobrecargado."
- APM observa la aplicación: latencia por endpoint, queries lentas a base de datos, error rate por code path. Mejor para diagnosticar "el checkout va lento para este cliente."
Un stack de operaciones completo corre los tres. Ver infrastructure monitoring y application performance monitoring para las capas adyacentes.
Qué cubre network monitoring
- Disponibilidad: ICMP ping, SNMP up/down, checks de reachability de puerto a intervalos fijos.
- Bandwidth y throughput: bytes por segundo por interfaz, peak vs average, uso percentil a lo largo del tiempo.
- Loss, latencia, jitter: active probes (synthetic) o análisis pasivo de flow; los tres clásicos asesinos del tráfico en tiempo real.
- Salud de routing y protocolo: estado de sesión BGP, cambios de neighbor OSPF, eventos MPLS LSP up/down.
- Flow data: registros NetFlow/sFlow/IPFIX por conversación, usados para capacity planning y forensia de seguridad.
- Configuration drift: snapshot de configs de devices, diff en el tiempo, alerta cuando un cambio no está autorizado.
Métricas clave de network monitoring
- Uptime y porcentaje de availability: por device y por enlace, agregado a un SLA de servicio.
- Utilización de bandwidth: porcentaje de capacidad del enlace en uso, p95 durante la ventana de medición.
- Porcentaje de packet loss: paquetes descartados divididos por enviados, observados por interfaz y por probe path.
- Latencia (RTT) y jitter: round-trip time y su varianza, claves para VoIP, video y trading.
- Counters de error y discard: CRC errors, FCS errors, output drops; valores no-cero sostenidos significan cableado, óptica o buffering en problemas.
- Tiempo de resolución DNS: a menudo el contribuyente silencioso a page loads lentos cuando un resolver autoritativo se degrada.
Cómo correr network monitoring
Elige un poller (SNMP para gear tradicional, gNMI o streaming telemetry para Cisco/Juniper/Arista modernos), apúntalo a cada device y guarda la time series en Prometheus, InfluxDB o el backend del vendor. Añade active probes (smokeping, blackbox_exporter) para latencia sintética entre sites. Añade un flow collector (nfdump, Akvorado, Kentik) para visibilidad por conversación. Luego construye dashboards organizados por site, por servicio y por SLA, con alertas sobre las métricas que mapean a user impact (loss, latencia, link saturation) en lugar de cada counter que exista.
Network monitoring complementa el load testing. Cuando un load test muestra latencia degradada, network monitoring te dice si el bottleneck está en la red (uplink saturado, packet loss) o por encima (aplicación lenta, base de datos lenta). Combina ambas señales durante una launch readiness review. Ver también latencia para el framework de percentiles que sustenta ambas disciplinas.
Si tu equipo necesita tráfico production-shape generado contra la red monitorizada para validar capacity, LoadFocus ofrece servicios de load testing desde regiones cloud que coinciden con la geografía de usuarios reales, con runs programados para coincidir con tus ventanas de baseline de network monitoring.
Herramientas LoadFocus relacionadas
Lleva este concepto a la práctica con LoadFocus — la misma plataforma que potencia todo lo que acabas de leer.