Application Monitoring

Ein Tag, ein Dashboard für jeden Dienst Ihrer Anwendung

Gruppieren Sie die Dienste und Uptime-Monitore, aus denen eine Anwendung besteht, hinter einem einzigen Tag. Erhalten Sie ein einheitliches Dashboard, automatische Service-Discovery und eine öffentliche Statusseite — ohne Ihr Monitoring jedes Mal neu aufzubauen, wenn sich Ihr Stack weiterentwickelt.

15 Tage kostenlose Testversion · Keine Kreditkarte erforderlich · Einrichtung in 30 Sekunden

Über 500 Unternehmen vertrauen uns die Überwachung ihrer Anwendungen an

Bleemeo Application-Monitoring-Dashboard - Einheitliche Ansicht aller Dienste und Uptime-Monitore hinter einem einzigen Application-Tag
100+
Automatisch erkannte Dienste
60+
Prometheus-native Integrationen
13 Monate
Metriken-Retention

Eine tagbasierte Sicht auf Ihre Anwendung

Anwendungen in Bleemeo basieren auf einer einfachen Idee: Wählen Sie einen Tag, hängen Sie Dienste und Monitore daran an und erhalten Sie eine Live-Ansicht des gesamten Clusters. Einen Dienst hinzuzufügen oder zu entfernen ist eine einzige Label-Änderung, kein Dashboard-Neuschrieb.

Tag Wählen Sie einen Anwendungsnamen
Dienste Anhängen via Label oder UI
Dashboard Einheitliche Gesundheitsansicht
Statusseite Öffentliche Verfügbarkeits-URL

Cluster-Ansicht

Sehen Sie jeden Dienst einer Anwendung in einem einzigen Diagramm. Der Status wird zu einem einzigen Anwendungsgesundheits-Indikator konsolidiert.

Service-Events

Dedizierte Zeitleiste der Statusänderungen jedes Dienstes der Anwendung, ideal für Post-Incident-Reviews.

Antwortzeit

Hängen Sie Uptime-Monitore an den Anwendungs-Tag an und erhalten Sie automatisch ein Widget zur Anwendungs-Antwortzeit.

Automatische Compose-Gruppierung

Glouton erkennt jedes Docker-Compose-Projekt und erstellt ohne jede Konfiguration eine entsprechende Anwendung.

Öffentliche Statusseiten

Veröffentlichen Sie die Echtzeit-Gesundheit Ihrer Anwendung unter status.bleemeo.com/<slug>/ für Ihre Kunden.

Stack-agnostisch

Funktioniert mit Prometheus-Exportern, JMX, StatsD, HTTP/TCP-Checks und über 100 automatisch erkannten Diensten.

Möglichkeiten, Dienste in einer Anwendung zu gruppieren

Tags können von überall kommen — automatische Erkennung, Container-Labels, Pod-Annotationen, die Glouton-Konfigurationsdatei oder das Panel selbst. Wählen Sie diejenige, die zu Ihrer aktuellen Deployment-Praxis passt.

Docker Compose (automatisch)

Glouton verwendet das Label com.docker.compose.project, um jeden Dienst eines Projekts zu einer Anwendung zu gruppieren — ohne Konfigurationsänderung.

services:
  web:
    image: nginx
  api:
    image: my/api
# Automatisch unter dem Projektnamen gruppiert

Docker-Labels

Überschreiben Sie die Standardgruppierung oder fassen Sie Dienste mehrerer Compose-Projekte zusammen, indem Sie das Label glouton.tags setzen.

services:
  payments:
    image: my/payments
    labels:
      - glouton.tags=backend,payments

Kubernetes-Annotationen

Hängen Sie Pods an eine Anwendung an — mit einer einzigen glouton.tags-Pod-Annotation in Ihrem Deployment, StatefulSet oder DaemonSet.

spec:
  template:
    metadata:
      annotations:
        glouton.tags: "checkout"

Glouton-Konfiguration

Für Bare-Metal- oder maßgeschneiderte Installationen deklarieren Sie den Dienst und seine Tags direkt in einer Glouton-Konfigurationsdatei.

services:
  - type: "apache"
    instance: "web-01"
    tags:
      - frontend

Web-Oberfläche

Fügen Sie einen Tag manuell zu einem Dienst oder Monitor hinzu oder entfernen Sie ihn — nützlich für punktuelle Gruppierungen oder für das Taggen von Uptime-Monitoren, die nur in der Cloud existieren.

  • Tags direkt im Reiter Applications bearbeiten
  • Tag-Herkunft sichtbar (automatisch, Config, manuell)
  • Kein Agent-Neustart erforderlich

Uptime-Monitore

HTTP-, TCP- und Ping-Monitore können denselben Tag wie Ihre Dienste tragen, sodass externe Verfügbarkeit auf demselben Dashboard wie die interne Gesundheit erscheint.

  • HTTP- / TCP- / Ping-Checks
  • Widget Anwendungs-Antwortzeit
  • Speist die öffentliche Statusseite

Eine Anwendung in drei Schritten erstellen

1

Öffnen Sie den Reiter Applications

Klicken Sie im Bleemeo-Panel in der linken Navigation auf Applications und dann auf die Schaltfläche +.

2

Benennen Sie die Anwendung und wählen Sie einen Tag

Geben Sie der Anwendung einen Namen und einen Tag. Sie können einen bereits auf Ihren Diensten vorhandenen Tag wiederverwenden oder einen neuen erstellen — jeder Dienst oder Monitor mit diesem Tag wird unter der Anwendung gruppiert.

3

Hängen Sie Dienste und Monitore an

Fügen Sie den Tag Ihren Diensten über ein Docker-Label, eine Kubernetes-Annotation, die Glouton-Konfiguration oder die Web-Oberfläche hinzu. Neue Dienste mit dem Tag erscheinen automatisch.

# Docker Compose
labels:
  - glouton.tags=my-app

# Kubernetes
annotations:
  glouton.tags: "my-app"

Wie Tagging die Sicht auf Ihre Anwendung aufbaut

Tags begleiten Ihre Dienste, unabhängig davon, wie sie bereitgestellt werden. Die Plattform konsolidiert sie in Echtzeit zu einer einzigen Anwendungs-Entität.

Application Monitoring Architecture Four tag sources — Docker Compose labels, Kubernetes annotations, Glouton configuration, and uptime monitors — converge into a single Application entity in Bleemeo Cloud, which powers both the internal dashboard and a public status page. Docker Compose com.docker.compose.project Kubernetes glouton.tags annotation Glouton Config services: tags: [...] Uptime Monitors HTTP / TCP / ping + tag Anwendung tag: my-app Dynamische Zugehörigkeit Konsolidierter Status Anwendungs-Dashboard Status • Antwortzeit Events • Widgets pro Dienst Öffentliche Statusseite status.bleemeo.com/<slug>/ Ohne Auth • Uptime in Echtzeit Dienste mit demselben Tag — egal wo sie laufen — werden in Echtzeit zu einer Anwendung konsolidiert

Die Tag-Herkunft ist immer sichtbar

Jeder einer Anwendung zugeordnete Dienst trägt Metadaten darüber, wie der Tag angewandt wurde: automatisch (API-erkannt, aus Compose abgeleitet), Glouton-Konfiguration oder manuell (im Panel hinzugefügt). Wenn Sie eine unerwartete Zugehörigkeit untersuchen, wissen Sie immer, wo Sie nachschauen müssen.

Schluss mit Dashboard-Drift

Klassische Dashboards verrotten, wenn Dienste kommen und gehen. Bei einer tagbasierten Anwendung folgt das Dashboard dem Tag: neue Dienste erscheinen, herunterskalierte verschwinden, und das Layout bleibt lesbar. Die Schaltfläche Reset stellt die automatisch generierte Version wieder her, sobald manuelle Anpassungen nicht mehr nützlich sind.

Multi-Tag-Anwendungen

Ein Dienst kann mehrere Tags tragen — typisch für gemeinsam genutzte Komponenten wie eine Datenbank, die sowohl die Anwendung checkout als auch catalog bedient. Verwenden Sie kommagetrennte Werte (glouton.tags=checkout,catalog) in Docker-Labels oder Kubernetes-Annotationen, und jede Anwendung sieht den gemeinsamen Dienst.

Öffentliche Statusseiten nutzen dasselbe Modell

Eine öffentliche Statusseite ist lediglich eine kuratierte Auswahl von Anwendungen, die ohne Authentifizierung unter status.bleemeo.com/<slug>/ dargestellt wird. Da die Gesundheit aus denselben getaggten Diensten und Monitoren berechnet wird, divergieren das, was Sie intern sehen, und das, was Ihre Kunden sehen, niemals.

Was die Gesundheit einer Anwendung abdeckt

Der konsolidierte Anwendungsstatus spiegelt jeden Ausfallmodus seiner Mitglieder wider — von Container-Neustarts bis hin zu externen Uptime-Ausfällen.

Service-Ausfälle

  • Automatisch erkannter Dienst nicht erreichbar
  • Benutzerdefinierter TCP- oder HTTP-Check schlägt fehl
  • Prozess läuft nicht mehr
  • Container beendet oder im Neustart

Externe Verfügbarkeit

  • HTTP-Uptime-Monitor schlägt fehl
  • TCP-Endpoint nicht erreichbar
  • Ping-Check im Timeout
  • Antwortzeit über dem Schwellwert

Anwendungscode

  • Alarm auf benutzerdefinierte Prometheus-Metrik
  • JMX-Metrik-Schwellwert überschritten
  • Anomalie eines StatsD-Counters
  • Nagios-Check liefert CRITICAL

Auswirkungen aus der Infrastruktur

  • Host eines Dienstes OOM-killed
  • Festplatte auf dem Service-Node voll
  • Pod bleibt in CrashLoopBackOff hängen
  • Kubelet NotReady

Prometheus-nativ — vom Exporter bis zu PromQL

Bleemeo ist ein direkt einsetzbares, Prometheus-kompatibles Backend für Ihre Anwendungen. Instrumentieren Sie Ihren Code mit den offiziellen Client-Bibliotheken, scrapen Sie jeden vorhandenen /metrics-Endpoint und fragen Sie alles mit PromQL ab — derselben Sprache, die Ihr Team bereits kennt.

Code mit offiziellen Prometheus-Clients instrumentieren

Verwenden Sie die offiziellen Prometheus-Client-Bibliotheken, die vom Prometheus-Projekt und dem CNCF-Ökosystem gepflegt werden. Stellen Sie einen /metrics-Endpoint bereit, und Glouton scrapt ihn — kein Vendor Lock-in, kein proprietäres SDK, keine Re-Instrumentierung, falls Sie später wechseln.

Beispiel in Python
from prometheus_client import Counter, start_http_server

checkout_total = Counter('checkout_total', 'Abgeschlossene Checkouts')
start_http_server(8000)  # /metrics auf :8000 bereitgestellt

Native /metrics-Endpoints überall

Tausende moderner Anwendungen stellen Prometheus-Metriken von Haus aus bereit — kein Exporter, kein Sidecar, keine Instrumentierungsarbeit. Aktivieren Sie die Prometheus-Annotation (prometheus.io/scrape: "true") oder fügen Sie der Glouton-Konfiguration eine URL hinzu, und die Metriken fließen zu Bleemeo.

Alle über 60 vorgefertigten Service-Integrationen durchstöbern → · Oder scrapen Sie selbst einen beliebigen Prometheus-Endpoint →

PromQL für Dashboards und Alarme

Jedes Bleemeo-Dashboard-Widget und jede Alarmregel spricht PromQL. Wiederverwenden Sie die Recording Rules Ihres bestehenden Prometheus-Setups, mischen Sie Anwendungsmetriken mit Infrastrukturmetriken in derselben Abfrage und nutzen Sie die volle Kraft von rate(), histogram_quantile() und sum by(), um auszudrücken, was Ihrem Team wichtig ist.

p99-Latenz des Checkout-Dienstes, pro Endpoint
histogram_quantile(0.99,
  sum by (le, handler) (
    rate(http_request_duration_seconds_bucket{service="checkout"}[5m])
  )
)
Dashboards vollständig mit PromQL-Ausdrücken erstellt
Alerting-Regeln verwenden Ihre bestehende Prometheus-Regeldatei wieder
Recording Rules für aufwändige Aggregationen über lange Zeiträume
Verbinden Sie Anwendungsmetriken mit Host- / Container- / k8s-Metriken
Teilen Sie Ihren Uptime

Eingebaute öffentliche Statusseiten

Jede Anwendung kann mit einem Klick als gebrandete öffentliche Statusseite unter status.bleemeo.com/<slug>/ veröffentlicht werden. Die Seite ist unauthentifiziert, kundenseitig und zeigt dieselbe Echtzeit-Verfügbarkeit, die Ihr Bereitschaftsteam intern sieht — sodass das, was Kunden lesen, niemals von der Realität abweicht.

  • Nutzt Ihre bestehenden Anwendungen wieder — keine neue Konfiguration
  • Mehrere Anwendungen pro Seite für Produktsuiten
  • Echtzeit-Status berechnet aus Diensten und Uptime-Monitoren
  • Reduziert die Support-Last und liefert SLA-Nachweise
Dokumentation der öffentlichen Statusseite lesen →
Öffentliche Bleemeo-Statusseite - kundenseitige Echtzeit-Verfügbarkeit und Vorfallhistorie für eine Anwendung

Warum Application Monitoring mit Bleemeo?

Null Dashboard-Wartung

Das Dashboard folgt dem Tag. Stellen Sie einen neuen Dienst bereit, und er erscheint automatisch — kein Grafana-Neuschrieb.

Ein Signal für die Bereitschaft

Jeder Dienstausfall wird zu einem einzigen Anwendungsgesundheits-Status konsolidiert und reduziert die Alarm-Müdigkeit.

Transparenz gegenüber Kunden

Veröffentlichen Sie die Anwendungsverfügbarkeit mit einem Klick auf status.bleemeo.com — ohne separate Statusseiten-Software.

Retention 13 Monate

Bewahren Sie die Historie auf Anwendungsebene für SLA-Reporting, Post-mortems und Trendanalysen auf.

Was ist Application Monitoring?

Application Monitoring ist die Praxis, die Gesundheit, Verfügbarkeit und Leistung einer Softwareanwendung als Ganzes zu verfolgen, anstatt jeden Server, Container oder Dienst isoliert zu betrachten. Moderne Anwendungen umfassen viele bewegliche Teile — eine Datenbank, eine Web-Schicht, einen Hintergrund-Worker, eine Queue, oft auf Kubernetes betrieben — und für die Nutzer zählt, ob die Anwendung funktioniert, nicht ob ein bestimmter Pod läuft.

In Bleemeo wird eine Anwendung durch einen Tag definiert. Dienste und Uptime-Monitore, die den Tag tragen, werden unter der Anwendung gruppiert, ihre Status zu einem einzigen Indikator konsolidiert und ihre Metriken auf einem automatisch generierten Dashboard angeordnet. Die Gruppierung ist dynamisch: Eine neue Replik, einen neuen Microservice oder einen neuen Uptime-Check hinzuzufügen erfordert nur das Setzen des richtigen Tags. Die Anwendungsansicht aktualisiert sich von selbst.

Das Modell ist vollständig Prometheus-kompatibel, arbeitet mit zentralisierten Logs für die Ursachenanalyse und treibt öffentliche Statusseiten an, sodass Ihre Kunden dasselbe Bild der Verfügbarkeit sehen wie Ihr Bereitschaftsteam — abzüglich der internen Details. Eine einzige Quelle der Wahrheit für interne Observability und externe Kommunikation.

Was auf einem Anwendungs-Dashboard zu sehen ist

Service-Status-Widget

Stets auf dem Anwendungs-Dashboard präsent, listet es jeden Dienst auf, der den Anwendungs-Tag trägt, mit seinem aktuellen Zustand. Ausfälle färben das Widget — und den Anwendungsstatus — rot, sodass die Bereitschaft auf einen Blick sieht, welcher Teil der Anwendung beeinträchtigt ist.

Anwendungs-Antwortzeit

Erscheint automatisch, sobald mindestens ein Uptime-Monitor den Anwendungs-Tag trägt. Stellt die Latenz über die Zeit für HTTP-, TCP- oder Ping-Checks dar, sodass Sie für den Nutzer sichtbare Verlangsamungen mit Backend-Service-Events korrelieren können.

Widgets pro Dienst (Pro)

Im Professional-Plan wird das Dashboard automatisch mit einem dedizierten Widget pro erkanntem Dienst in der Anwendung gefüllt — CPU und Speicher für eine Datenbank, Anfragerate für einen Webserver, Queue-Tiefe für einen Broker. Sie starten mit einem sinnvollen Layout statt einer leeren Seite.

Reiter Application Information

Listet jeden Dienst und Monitor auf, der der Anwendung zugeordnet ist, gruppiert nach Tag-Herkunft (automatisch, Glouton-Konfiguration, manuell). Nutzen Sie ihn, um die Zugehörigkeit zu prüfen und Nachzügler nach einer Deployment-Änderung zu entfernen.

Reiter Service Events

Ein chronologischer Feed jeder Statusänderung innerhalb der Anwendung — Container-Neustart, HTTP-Check-Flackern, verschwundener Prozess — mit Zeitstempeln. Die erste Anlaufstelle nach einem Vorfall und der schnellste Weg, eine instabile Abhängigkeit zu erkennen.

Konsolidierte Alarme

Jeder Alarm auf einem Dienst der Anwendung trägt zum Anwendungsstatus bei. Ihr Bereitschaftsteam sieht ein Signal pro Anwendung statt eines Alarms pro Komponente, mit Drill-down auf den genauen ausfallenden Dienst.

Anwendungsfälle

Microservice-Rollouts

Gruppieren Sie alle Microservices eines Produkts hinter einem checkout-Tag. Wenn ein neuer Dienst der Mesh hinzugefügt wird, annotieren Sie ihn, und er erscheint automatisch im Anwendungs-Dashboard — keine Grafana-Änderung, keine Alarmregel-Anpassung. Die Konsolidierungen liefern ein einziges Gesundheitssignal für das gesamte Rollout-Fenster.

Docker-Compose-Stacks

Da Glouton das Compose-Projekt automatisch erkennt, wird jedes docker compose up zu einer fertigen Anwendungsansicht — ideal für Dev-Umgebungen, CI-Test-Stacks oder kleine Self-Hosted-Deployments, in denen ein extra Dashboard pro Projekt überzogen wäre.

Kundenseitige SLAs

Veröffentlichen Sie die Anwendungs-Uptime auf einer öffentlichen Statusseite, um während Vorfällen transparent zu kommunizieren, Support-Tickets zu reduzieren und Nachweise zur SLA-Konformität zu liefern — alles berechnet aus denselben Diensten und Monitoren, die Sie bereits intern haben.

Gemeinsame Abhängigkeiten

Taggen Sie eine geteilte Datenbank sowohl mit checkout als auch catalog. Wenn sich die Datenbank verschlechtert, spiegeln beide Anwendungen das wider, und die Bereitschaftsteams jedes Produkts sehen den Vorfall auf ihren jeweiligen Dashboards, ohne Infrastruktur zu duplizieren.

Drittanbieter-SaaS-Integrationen

Fügen Sie einen HTTP-Uptime-Monitor zur API eines Zahlungsanbieters hinzu, taggen Sie ihn mit Ihrer Anwendung, und Ausfälle externer Abhängigkeiten erscheinen neben internen Service-Ausfällen — keine Überraschungen mehr nach dem Motto „die App ist offline, aber alles ist grün".

Post-Incident-Review

Verwenden Sie den Reiter Service Events, um die Zeitleiste einer Verschlechterung zu rekonstruieren: Welcher Dienst fiel zuerst aus, welcher kaskadierte, welcher erholte sich. Mit 13 Monate aufbewahrten Metriken können Sie auch schleichende Regressionen analysieren, nicht nur akute Vorfälle.

Best Practices für Application Monitoring

1

Benennen Sie Tags nach Business-Domänen

Ein Tag wie checkout oder billing bleibt trotz technologischer Veränderungen relevant, während ein Tag wie node-app-v2 innerhalb eines Quartals irreführend wird. Wählen Sie Namen, die zur Bereitschaftsrotation und zur Sprache der Statusseite passen, nicht zur aktuellen Implementierung.

2

Hängen Sie immer mindestens einen Uptime-Monitor an

Die interne Servicegesundheit zeigt Ihnen, dass die Komponenten laufen; Uptime-Monitore zeigen Ihnen, dass die Anwendung von außen erreichbar ist. Ein getaggter HTTP-Monitor liefert Ihnen das Widget Anwendungs-Antwortzeit gratis und gibt Ihrer öffentlichen Statusseite Bedeutung.

3

Lassen Sie Docker Compose sich selbst gruppieren

In Dev und Staging vertrauen Sie auf die automatische Compose-Gruppierung — keine Konfiguration, keine Drift. Reservieren Sie explizite glouton.tags-Labels für Produktionsdeployments, wo Sie den Projektnamen überschreiben oder Dienste über mehrere Compose-Dateien hinweg zusammenführen möchten.

4

Taggen Sie gemeinsame Komponenten explizit

Datenbanken, Caches und Message-Broker bedienen oft mehrere Anwendungen. Fügen Sie kommagetrennte Tags hinzu (glouton.tags=checkout,catalog), damit jede Anwendung, die vom gemeinsam genutzten Dienst abhängt, dessen Gesundheit sieht und bei Verschlechterung den Alarm erhält.

5

Veröffentlichen Sie früh eine öffentliche Statusseite

Selbst in der Beta-Phase schafft eine öffentliche Statusseite Vertrauen und reduziert die Support-Last. Beginnen Sie mit einer Seite pro nutzerseitiger Anwendung und verfeinern Sie die Erzählung später. Da die Gesundheitsdaten von der Anwendung selbst stammen, fallen keine zusätzlichen Betriebskosten an.

Möchten Sie tiefer einsteigen?

Dokumentation lesen

Häufig gestellte Fragen

Alles, was Sie über Application Monitoring wissen müssen

Was ist Application Monitoring?

Application Monitoring ist die Praxis, die Gesundheit, Verfügbarkeit und Leistung einer Softwareanwendung als Ganzes zu verfolgen — über jeden Dienst, Container und jede externe Abhängigkeit hinweg, die ihre Funktionsweise ermöglichen. Es verwandelt disparate Signale pro Komponente in eine einheitliche Sicht darauf, ob die Anwendung ihre Nutzer tatsächlich bedient, und liefert Metriken, Logs und Alarme zur schnellen Problemdiagnose.

Warum ist Application Monitoring wichtig?

Application Monitoring erkennt Probleme bevor die Nutzer es tun, verkürzt die Reaktionszeit auf Vorfälle, liefert Nachweise zur SLA-Konformität und unterstützt die Kapazitätsplanung. Ohne es reagieren Teams auf Kundenbeschwerden statt auf Alarme, und die Ursachenanalyse beruht auf der manuellen Log-Inspektion über Dutzende Komponenten.

Was ist der Unterschied zwischen Application Monitoring und Infrastruktur-Monitoring?

Infrastruktur-Monitoring verfolgt Server, Container, Festplatten und Netzwerke — die Schicht, auf der Ihre Anwendung läuft. Application Monitoring verfolgt die Anwendung selbst: Anfragerate, Fehlerrate, Latenz, Business-KPIs, externe Verfügbarkeit. Beide sind notwendig, und eine gute Plattform korreliert sie, sodass Sie sehen können, ob ein langsamer Checkout durch den Code oder den Host verursacht wird.

Was ist APM (Application Performance Monitoring)?

APM ist eine Teilmenge des Application Monitorings, die sich auf die Leistung auf Codeebene konzentriert — Antwortzeit, Durchsatz, Fehlerraten und (in einigen Tools) verteilte Traces. Metrik-basiertes APM stützt sich auf instrumentierte /metrics-Endpoints, die typischerweise von den offiziellen Prometheus-Client-Bibliotheken bereitgestellt werden, und ist der Ansatz, den moderne Cloud-Native-Plattformen verwenden.

Wie funktioniert Prometheus für Application Monitoring?

Prometheus verwendet ein Pull-Modell: Ihre Anwendung stellt einen /metrics-Endpoint bereit (üblicherweise über eine offizielle Client-Bibliothek), und ein Agent ruft ihn in regelmäßigen Abständen ab. Die Metriken werden als Zeitreihen gespeichert und mit PromQL abgefragt. Da das Prometheus-Textformat zum De-facto-Standard geworden ist, stellen Tausende von Anwendungen /metrics nativ bereit, und jedes Prometheus-kompatible Backend kann sie aufnehmen und abfragen.

Welche Prometheus-Client-Bibliotheken kann ich verwenden?

Das Prometheus-Projekt pflegt offizielle Client-Bibliotheken für Go (client_golang), Java (simpleclient, auch Micrometer), Python (prometheus_client), Ruby (prometheus-client) und Rust (prometheus). Community-Bibliotheken decken Node.js, .NET, PHP, C++ und viele weitere ab. Jede Bibliothek erlaubt das Definieren von Countern, Gauges, Histogrammen und Summaries an einem /metrics-Endpoint.

Welche Metriken sollte ich für eine Webanwendung überwachen?

Der kanonische Ausgangspunkt ist die RED-Methode: Rate (Anfragen pro Sekunde), Errors (Fehlerrate) und Duration (Latenzverteilung). Ergänzen Sie sie mit USE für Ressourcen — Utilization, Saturation, Errors — und einer Handvoll Business-KPIs (Checkout-Abschlussrate, Anmelderate). Stellen Sie sie als Prometheus-Histogramme bereit und fragen Sie sie mit histogram_quantile() ab, um p50, p95 und p99 zu verfolgen.

Wie überwache ich Microservices?

Gruppieren Sie zusammengehörige Microservices hinter einem gemeinsamen Identifier — typischerweise einem Tag — sodass ihre Gesundheit zu einem einzigen Anwendungsstatus konsolidiert wird. Instrumentieren Sie jeden Dienst mit einer Prometheus-Client-Bibliothek, stellen Sie /metrics bereit und lassen Sie den Monitoring-Agent sie automatisch entdecken. Fügen Sie externe Uptime-Monitore am öffentlichen Eintrittspunkt hinzu und korrelieren Sie Metriken mit Logs zur Ursachenanalyse.

Wie messe ich die Antwortzeit einer Anwendung?

Zwei sich ergänzende Ansätze: Externe Uptime-Monitore (HTTP, TCP, Ping) messen die Antwortzeit aus Sicht des Nutzers, während interne Prometheus-Histogramme wie http_request_duration_seconds sie innerhalb der Anwendung messen. Verwenden Sie die Funktion histogram_quantile() von PromQL, um p50, p95 und p99 zu berechnen, und vergleichen Sie sie mit den externen Messungen, um Netzwerk- oder CDN-Probleme zu erkennen.

Was ist eine öffentliche Statusseite und warum brauche ich eine?

Eine öffentliche Statusseite ist eine kundenseitige URL, die die Echtzeit-Verfügbarkeit Ihrer Anwendung und laufende Vorfälle anzeigt. Sie reduziert die Support-Last bei Ausfällen, kommuniziert transparent mit den Kunden und liefert Nachweise zur SLA-Konformität. Die besten Statusseiten verwenden dieselben Monitoring-Daten, die Sie intern nutzen, sodass das, was Kunden sehen, niemals von der Realität des Bereitschaftsteams abweicht.

Beginnen Sie mit dem Monitoring Ihrer Anwendungen

Ein Tag, um Ihre Dienste zu gruppieren. Ein Dashboard. Eine öffentliche Status-URL.