Was ist Infrastructure Monitoring?

Infrastructure Monitoring trackt Health von Hosts, Containern, Netzwerken und Cloud-Services unter deinen Apps: CPU, Memory, Disk, Network, Queue-Tiefe.

Was ist Infrastructure Monitoring?

Infrastructure Monitoring trackt die Health der Hosts, Container, Netzwerke und managed Cloud-Services, die unter deinem Application-Code sitzen. Das Standard-Set an Signalen ist CPU-Utilization, Memory-Pressure, Disk-I/O und freier Speicher, Network-Throughput und Packet-Loss, plus Service-spezifische Metriken: Queue-Tiefe auf SQS, Replica-Lag auf einer Datenbank, Connection-Pool-Nutzung auf einem Load-Balancer, Target-Health auf einem ECS-Service. Infrastructure Monitoring beantwortet die Frage "ist die Schicht unter meiner App gesund", bevor du anfängst zu fragen, warum deine App selbst langsam ist.

Ein Infrastructure-Monitoring-Agent (Datadog Agent, Prometheus node_exporter, AWS CloudWatch Agent, Telegraf, Beats) läuft auf jedem Host oder als Sidecar in jedem Container. Er scrapet OS-Level-Counter (procfs, /sys, Performance Counters auf Windows), polled die Metrics-API des Cloud-Providers (CloudWatch, Azure Monitor, GCP Monitoring) und shippt die Zeitreihen an ein Backend für Storage, Query und Alerting.

Infrastructure Monitoring vs Application Monitoring

Zwei Layer, beide nötig, oft verwechselt:

  • Infrastructure Monitoring: der Host, der Container, der Cloud-Service. CPU, Memory, Disk, Queue-Tiefe. Beantwortet "ist die Plattform gesund?"
  • Application Monitoring (APM): der Code, der obendrauf läuft. Endpoint-Latenz, Error-Rate, Traces. Beantwortet "verhält sich die App?" Siehe APM.

Beide Layer scheitern auf charakteristische Arten. CPU auf 100% gepinnt ist ein Infrastructure-Signal. p95-Latenz steigt während CPU flach bleibt ist ein Application-Signal. Moderne Observability-Plattformen korrelieren die zwei: Observability als Disziplin entstand zum Teil, weil Alerting auf isolierte Host-Metriken zu viele False Positives ohne App-Context produzierte.

Was Infrastructure Monitoring abdeckt

  • Hosts und VMs: CPU, Load Average, Memory, Swap, Disk-I/O, Free Disk, Inode-Usage, File-Descriptor-Count, Process-Count.
  • Container (Docker, Kubernetes): Per-Container CPU, Memory, Restart-Count, OOMKilled-Events, Pod-Readiness, Node-Pressure, Image-Pull-Failures.
  • Netzwerke: Throughput in/out, Packet-Loss, Retransmissions, Connection-Tracking-Tabellen-Fülle, Security-Group-Flow-Logs.
  • Load Balancers: Target-Health, Request-Count, 5xx-Rate, Latenz p95 am LB-Layer, Connection-Counts.
  • Datenbanken: verwendete Connections, Replica-Lag, Query-Throughput, Slow-Query-Log, Cache-Hit-Ratio, Lock-Contention.
  • Message Queues: Queue-Tiefe, Message-Age, Consumer-Lag, Dead-Letter-Count.
  • Managed Cloud-Services: SQS-Tiefe, S3 4xx/5xx, DynamoDB throttled Requests, Lambda-Concurrency, RDS-CPU und Connections.

Key Infrastructure Alerts

  1. Disk-Free unter 15% auf irgendeinem Host. Fängt Log-Rotation-Failures und Runaway-Temp-Files, bevor sie den Service downtaken.
  2. CPU dauerhaft über 80% für 10+ Minuten. Sagt dir, ein Host ist at capacity, oft bevor App-Latenz spiked.
  3. Memory-Pressure oder OOMKilled-Events auf irgendeinem Container. Oft das erste Symptom eines Memory-Leaks.
  4. Load-Balancer-Target unhealthy für 2+ Minuten. Direktes Signal, dass Traffic weggeleitet wird.
  5. Queue-Tiefe über N wo N deine "Consumer kann in 15-min verarbeiten"-Zahl ist. Fängt Consumer-Crashes oder Downstream-Slowness, bevor Kunden es merken.
  6. Netzwerk-Packet-Loss über 1% sustained. Üblicherweise ein Switch, eine Security-Group-Fehlkonfiguration oder eine fehlerhafte NIC.

Wie aufsetzen

Für Cloud-Native Stacks: CloudWatch (oder das native Monitoring deines Providers) für Baseline aktivieren, dann Datadog Agent installieren, Prometheus node_exporter plus Grafana oder das Infrastructure-Modul deines APM-Vendors auf jedem Host. Für Kubernetes: kube-state-metrics plus node_exporter, gescrapt von Prometheus, ist der OSS-Default. Alerts inkrementell hinzufügen.

Infrastructure Monitoring mit Load Tests paaren, um die Alerts zu validieren. Führe Load Testing, Spike Testing oder Capacity Testing gegen Staging aus und beobachte, welche Host-Metrik zuerst klettert.

Wenn dein Team Infrastructure-Load-Correlation unter Production-Shape-Traffic braucht, bietet LoadFocus Load-Testing-Services, wo Engineers die Matrix laufen lassen und den Breakdown produzieren.

Wie schnell ist Ihre Website?

Steigern Sie ihre Geschwindigkeit und SEO nahtlos mit unserem kostenlosen Geschwindigkeitstest.

Kostenloser Websitespeed-Test

Analysieren Sie die Ladegeschwindigkeit Ihrer Website und verbessern Sie ihre Leistung mit unserem kostenlosen Seitengeschwindigkeits-Checker.

×