Alerting e Notifiche Intelligenti

Ricevete notifiche istantanee quando si verificano problemi. Routing intelligente degli avvisi, molteplici canali di notifica e rilevamento anomalie basato su ML vi assicurano di essere sempre informati senza affaticamento da alert.

Dashboard Bleemeo - Stato degli avvisi in tempo reale che mostra problemi critici e warning nella vostra infrastruttura

Come funziona l'alerting Bleemeo

L'alerting Bleemeo segue una pipeline ottimizzata progettata per intercettare rapidamente i problemi reali filtrando il rumore transitorio. Il flusso è diretto: Rilevamento di un'anomalia nelle metriche, Creazione dell'evento nel Cloud Bleemeo, Notifica inviata attraverso i vostri canali configurati, e Risoluzione tracciata automaticamente quando il problema si risolve. Ogni passaggio viene registrato in modo che possiate rivedere esattamente cosa è successo e quando.

Al centro del livello di rilevamento si trova l'agente Glouton, il leggero collector open-source di Bleemeo. Glouton campiona le metriche della vostra infrastruttura con una risoluzione di 10 secondi, offrendovi una visibilità quasi in tempo reale sull'utilizzo della CPU, il consumo di memoria, l'utilizzo del disco, il throughput di rete e centinaia di altri indicatori. Quando una metrica supera una soglia configurata, viene creato un evento nella piattaforma Cloud Bleemeo e si attiva la pipeline di valutazione degli alert.

Uno degli aspetti più apprezzati di Bleemeo sono le soglie preconfigurate. Sin dall'installazione, valori predefiniti sensati si attivano automaticamente per le metriche infrastrutturali più comuni, tra cui carico CPU, pressione della memoria, spazio su disco, errori di rete e latenza I/O del disco. Non è necessaria alcuna configurazione manuale per gli scenari di monitoraggio standard. Collegate un server, installate l'agente, e l'alerting inizia a funzionare immediatamente.

Per evitare che picchi transitori generino falsi alert, Bleemeo utilizza un periodo di grazia soft-status. Per impostazione predefinita, una metrica deve rimanere in uno stato problematico per 5 minuti (300 secondi) prima che l'alert passi dallo stato soft a hard e venga inviata una notifica. Questo impedisce che un breve picco di CPU durante un deployment o un momentaneo problema di rete svegli il vostro ingegnere reperibile alle 3 di notte.

Ogni metrica supporta due livelli di severità: Warning e Critical. Le soglie Warning segnalano che una risorsa si sta avvicinando a una zona pericolosa, mentre le soglie Critical indicano un problema immediato che richiede attenzione. Entrambi i livelli sono completamente personalizzabili per gruppo di server, permettendovi di applicare limiti più severi ai server di produzione mantenendo policy più rilassate per gli ambienti di sviluppo.

Per i casi d'uso avanzati, le recording rules vi permettono di creare metriche derivate utilizzando espressioni PromQL. Potete aggregare, trasformare o combinare metriche grezze e poi generare alert sul risultato calcolato. Ad esempio, potreste definire una recording rule che calcola l'utilizzo totale della CPU su tutti i container Cassandra in un cluster e attivare un alert critico quando quel valore aggregato supera una soglia di capacità. Questo approccio vi offre l'espressività dell'alerting Prometheus all'interno della piattaforma gestita Bleemeo.

Pipeline di alerting Bleemeo Diagramma che illustra il flusso degli alert: l'infrastruttura invia metriche all'agente Glouton a intervalli di 10 secondi, che le inoltra al Cloud Bleemeo per la valutazione delle soglie e il rilevamento delle anomalie, poi al motore di alert per la creazione degli eventi e il periodo di grazia di 5 minuti, e infine ai canali di notifica tra cui Email, SMS, Slack, PagerDuty, Push Mobile e Webhook. Infrastruttura Server, Container, Kubernetes, Cloud Agente Glouton Raccolta metriche ogni 10s Bleemeo Cloud Valutazione soglie Rilevamento anomalie Recording Rules Motore Alert Creazione evento Periodo grazia 5min Routing per severità Notifiche Email SMS Slack / MS Teams PagerDuty Push Mobile Webhook

Funzionalità di Alerting

Avvisi Email

Le notifiche email istantanee arrivano con formattazione HTML avanzata, grafici delle metriche incorporati che mostrano il momento esatto del superamento delle soglie e link diretti alla dashboard pertinente. Gli alert correlati vengono raggruppati in thread per mantenere la vostra casella di posta organizzata, e potete configurare più destinatari per regola per assicurarvi che le persone giuste siano sempre informate.

Notifiche SMS

Gli avvisi critici via SMS vi assicurano di essere notificati anche quando siete lontani dal computer. Con copertura globale degli operatori, i messaggi raggiungono il vostro team ovunque nel mondo. Gli SMS possono essere configurati solo per la severità critica per riservare questo canale ad alta priorità alle vere emergenze, e la limitazione della frequenza integrata con controllo dei costi previene le inondazioni di notifiche durante incidenti importanti.

Integrazione Webhook

Inviate payload JSON strutturati contenenti dettagli degli alert, valori delle metriche, informazioni sull'host e timestamp a qualsiasi endpoint HTTP. Le integrazioni pronte all'uso funzionano con Slack, PagerDuty, Microsoft Teams, OpsGenie, VictorOps e qualsiasi servizio compatibile con webhook. Utilizzate i webhook per guidare workflow di rimedio automatizzato o alimentare gli alert nella vostra piattaforma di gestione incidenti esistente.

Push Mobile

Le notifiche push native iOS e Android portano gli alert critici direttamente sulla schermata di blocco del vostro telefono. Un tocco vi porta direttamente alla vista della metrica pertinente nell'app mobile Bleemeo. Gli alert critici possono essere configurati per ignorare la modalità Non disturbare, garantendo che i problemi infrastrutturali urgenti non vengano mai persi anche fuori dall'orario di lavoro.

Rilevamento Anomalie ML

Gli algoritmi di machine learning studiano continuamente le vostre metriche per imparare come appare la "normalità" per ogni servizio e host. Nel tempo, il sistema costruisce baseline comportamentali e avvisa quando rileva un degrado graduale delle prestazioni, pattern di traffico insoliti o cambiamenti sottili che le soglie statiche non intercetterebbero. Non è necessaria alcuna configurazione manuale delle soglie per gli alert basati sulle anomalie.

Routing degli Avvisi

Indirizzate gli avvisi per tipo di servizio, livello di severità, ora del giorno o tag personalizzati in modo che il team giusto riceva sempre la notifica giusta. Gli alert del database vanno ai vostri DBA, gli alert dei server vanno all'ops e gli errori applicativi vanno agli sviluppatori. Ogni percorso può utilizzare canali di notifica e policy di escalation diversi, dandovi un controllo granulare sul vostro workflow di risposta agli incidenti.

Canali di Notifica

Email

  • Formattazione HTML avanzata
  • Grafici metriche incorporati
  • Destinatari multipli
  • Raggruppamento in thread
  • Link diretti alle dashboard
  • Filtri di severità configurabili

SMS

  • Copertura globale
  • Solo avvisi critici
  • Limitazione della frequenza
  • Controllo dei costi
  • Consegna internazionale
  • Fallback di escalation

Webhook

  • Integrazione Slack
  • Supporto PagerDuty
  • Microsoft Teams
  • Endpoint personalizzati
  • OpsGenie
  • Payload JSON personalizzati

App Mobile

  • Notifiche push
  • Dettagli in-app
  • Azioni rapide
  • Cronologia avvisi
  • iOS & Android
  • Override alert critici

Cronologia Completa degli Eventi

Tracciate ogni evento nella vostra infrastruttura con una timeline completa. Scoprite quando si sono attivati gli avvisi, cosa è cambiato e come sono stati risolti i problemi. La cronologia degli eventi è preziosa per le revisioni post-incidente: filtrate per servizio, severità o intervallo temporale per ricostruire esattamente cosa è successo durante un'interruzione. Esportate i dati degli eventi per il reporting di conformità o per alimentare il vostro workflow di gestione incidenti.

  • Streaming eventi in tempo reale
  • Filtrabile per servizio, severità e tempo
  • Correlazione tra eventi correlati
  • Esportazione per analisi post-incidente
  • Tracciamento conferma degli alert
  • Metriche tempo medio di risoluzione
Timeline eventi Bleemeo - Cronologia completa degli eventi e alert dell'infrastruttura

Gestione Intelligente degli Avvisi

Raggruppamento Avvisi

Gli alert correlati provenienti dallo stesso server o servizio vengono automaticamente consolidati in un'unica notifica, riducendo drasticamente il rumore preservando il contesto completo. Invece di ricevere cinquanta alert CPU individuali quando un nodo del cluster è in difficoltà, ricevete una notifica raggruppata che riassume ogni metrica interessata e rimanda alle dashboard pertinenti.

Policy di Escalation

Definite workflow di escalation multilivello che assicurano che i problemi critici non passino mai inosservati. Se un ingegnere reperibile principale non conferma un alert entro una finestra temporale configurabile, la notifica si escala automaticamente al livello successivo con contatti e canali diversi. Una catena tipica potrebbe progredire da email a SMS a telefonata, garantendo che i problemi urgenti raggiungano qualcuno che può agire.

Finestre di Manutenzione

Specificate un intervallo temporale e gli host o servizi interessati, e Bleemeo tratterrà le notifiche degli alert per tutta la durata. Il monitoraggio continua senza interruzioni in modo che raccogliate comunque i dati, ma il vostro team non viene disturbato da interruzioni previste. Le finestre di manutenzione supportano pianificazioni ricorrenti per cicli di patching regolari, finestre di deployment o routine di riavvio settimanali.

Dipendenze degli Avvisi

Quando un servizio padre va in down, gli alert figli vengono automaticamente soppressi per prevenire tempeste di alert da guasti a cascata. Ad esempio, se uno switch di rete diventa irraggiungibile, Bleemeo sopprime gli alert individuali degli host dietro quello switch perché sono tutti conseguenze della stessa causa principale. Questo mantiene il vostro team concentrato sul problema reale invece di annegare nel rumore sintomatico.

Configurazione Flessibile delle Notifiche

Configurazione in tre passaggi: definite l'ambito, scegliete il problema, selezionate i destinatari

1. Ambito

Scegliete cosa monitorare: qualsiasi server, server specifici, gruppi di server o selezione basata su tag. Raggruppate i server per ambiente (produzione, staging, sviluppo) per policy di alert diverse. Potete anche limitare le notifiche a singoli servizi in esecuzione su quei server, dandovi un controllo granulare su quali componenti generano alert.

2. Problema

Definite cosa attiva una notifica: soglie di metriche specifiche, violazioni di recording rules, perdita di connessione del server o indisponibilità del servizio. Impostate livelli warning e critical indipendentemente per distinguere tra situazioni che richiedono attenzione a breve e quelle che richiedono azione immediata. Combinate più condizioni per una logica di alerting sofisticata.

3. Destinatari

Indirizzate gli alert alle persone giuste: gruppi di contatto, singoli membri del team o sistemi esterni tramite webhook. Configurate vincoli temporali come solo orario lavorativo o solo weekend, e impostate ritardi di ripetizione per problemi persistenti non risolti. Ogni destinatario può ricevere le notifiche tramite il proprio canale preferito.

Pianificazione Reperibilità e Gruppi di Contatto

Gestire chi viene notificato e quando è importante tanto quanto gli alert stessi. I gruppi di contatto di Bleemeo vi permettono di organizzare i membri del team per ruolo o responsabilità — un team database, un team networking, un team piattaforma — e indirizzare gli alert al gruppo giusto in base al servizio o all'infrastruttura coinvolta.

La pianificazione della reperibilità assicura che gli alert critici raggiungano sempre qualcuno che può agire. Definite pianificazioni di rotazione in modo che le responsabilità di reperibilità siano condivise equamente nel vostro team. Quando un ingegnere è reperibile, riceve gli alert tramite i propri canali preferiti — notifiche push mobile durante l'orario di lavoro, escalation SMS o telefonata fuori orario.

Le regole di silenzio vi permettono di sopprimere temporaneamente gli alert durante la manutenzione pianificata senza disabilitare il monitoraggio. Pianificate finestre di silenzio in anticipo per la manutenzione regolare, o create silenzi ad-hoc quando dovete lavorare su un problema noto senza rumore di alert. Il monitoraggio continua normalmente durante i periodi silenziosi, così avete tutti i dati delle metriche alla fine della finestra.

Volete saperne di più?

Leggi la documentazione

Domande frequenti

Tutto quello che dovete sapere sul sistema di alerting di Bleemeo

Quali canali di notifica sono supportati?

Bleemeo supporta molteplici canali di notifica: Email con formattazione HTML avanzata e grafici delle metriche incorporati, SMS per avvisi critici con copertura globale, Webhook per l'integrazione con Slack, PagerDuty, Microsoft Teams, OpsGenie e endpoint personalizzati, e Notifiche push mobile tramite le app Bleemeo per iOS e Android. Potete configurare più canali per regola di alert.

Come posso creare regole di alert?

Bleemeo fornisce regole di alert preconfigurate per i problemi comuni dell'infrastruttura (CPU alta, spazio disco basso, servizio down, ecc.) che si attivano automaticamente quando connettete i server. Per alert personalizzati, potete definire regole basate su soglie per qualsiasi metrica con livelli di warning e critical configurabili. Gli utenti avanzati possono usare query PromQL per condizioni di alerting complesse.

Cos'è il rilevamento anomalie basato su ML?

Bleemeo utilizza il machine learning per rilevare automaticamente pattern insoliti nelle vostre metriche. Invece di richiedere soglie statiche, il sistema impara cosa è "normale" per ogni metrica nel tempo. Quando il comportamento devia significativamente dai pattern attesi, viene attivato un alert. Questo cattura problemi che verrebbero persi dagli alert tradizionali basati su soglie, come il degrado graduale delle prestazioni o pattern di traffico insoliti.

Posso indirizzare gli avvisi a team diversi?

Sì, Bleemeo supporta il routing degli avvisi basato su criteri multipli. Potete indirizzare gli avvisi per tipo di servizio (avvisi database ai DBA, avvisi web server agli ops), livello di severità (critici alla reperibilità, warning via email), ora del giorno (contatti diversi per orario lavorativo vs fuori orario), e tag personalizzati. Ogni percorso può usare canali di notifica diversi.

Come posso prevenire l'affaticamento da alert?

Bleemeo include diverse funzionalità per ridurre il rumore degli alert: il Raggruppamento degli alert combina alert correlati in singole notifiche, le Dipendenze degli alert sopprimono gli alert downstream quando vengono rilevati problemi alla causa principale, la Limitazione della frequenza previene flood di notifiche, e le Finestre di manutenzione sopprimono gli alert durante lavori pianificati. Queste assicurano che veniate notificati sui problemi reali senza essere sopraffatti.

Come funziona l'escalation degli alert?

Potete definire policy di escalation multilivello. Se un alert non viene riconosciuto entro un tempo specificato, viene automaticamente escalato al livello successivo - magari da email a SMS, o dal reperibile primario al backup. Questo assicura che i problemi critici non vadano persi anche se il primo risponditore non è disponibile. Ogni livello di escalation può avere contatti e canali diversi.

Cosa sono le finestre di manutenzione?

Le Finestre di manutenzione vi permettono di sopprimere gli alert durante lavori pianificati. Specificate un intervallo temporale e opzionalmente quali host o servizi sono interessati. Il monitoraggio continua durante la finestra (così avete i dati), ma gli alert vengono trattenuti. Questo previene falsi allarmi durante deployment, aggiornamenti o manutenzione programmata. Potete creare finestre ricorrenti per programmi di manutenzione regolari.

Posso vedere la cronologia degli alert?

Sì, Bleemeo fornisce una cronologia completa degli eventi che mostra quando gli alert si sono attivati, hanno cambiato stato e si sono risolti. Potete filtrare per servizio, severità e intervallo temporale. Questa cronologia è preziosa per l'analisi post-incidente, la comprensione dei problemi ricorrenti e il monitoraggio del tempo medio di risoluzione (MTTR). Gli eventi possono essere esportati per reporting o conformità.

Gli alert funzionano con webhook per integrazioni personalizzate?

Sì, l'integrazione webhook di Bleemeo invia payload JSON a qualsiasi endpoint HTTP. Il payload include dettagli dell'alert, valori delle metriche, informazioni sull'host e timestamp. Questo permette l'integrazione con sistemi di ticketing personalizzati, piattaforme di gestione incidenti, strumenti di chat o workflow di automazione. Potete personalizzare quali alert attivano i webhook e verso quali endpoint.

Quanto sono veloci le notifiche degli alert?

Le notifiche degli alert vengono inviate entro pochi secondi dal rilevamento di una condizione di alert. Le metriche vengono raccolte ogni 10 secondi e gli alert vengono valutati continuamente. Le notifiche email e webhook arrivano tipicamente in pochi secondi; gli SMS potrebbero richiedere leggermente più tempo a seconda dell'operatore. Le notifiche push alle app mobile sono quasi istantanee per gli utenti con l'app installata.

Non Perdete Mai un Problema Critico

Configurate l'alerting intelligente in pochi minuti. Nessuna configurazione complessa richiesta.

Inizia la Prova Gratuita