Guides

Alert fatigue bij MSPs: benchmarks, metrics en indicatoren

~10 min leestijd

Alert fatigue bij MSPs treedt op wanneer het volume, de frequentie of het gebrek aan relevantie van monitoring-alerts ertoe leidt dat engineers alerts structureel negeren, vertragen of foutief classificeren — met als gevolg dat echte incidenten worden gemist of te laat worden opgepakt.

Het is geen gevoel. Het is een meetbaar operationeel probleem. Bij MSPs die op Level 2 opereren zien we typisch:

50–500 alerts per engineer per dag
70–95% van die alerts vereist geen actie (false positives of ruis)
Engineers besteden typisch 1–3 uur per dag aan het verwerken van niet-actionable alerts
Kritieke alerts worden gemist in 15–30% van de gevallen bij hoge alert-volumes

1. Acht kernmetrics

1.1

Alerts per engineer per dag

Het totaal aantal gegenereerde alerts gedeeld door het aantal engineers dat die alerts verwerkt.

Level 1 (geen monitoring): 0 alerts — problemen worden niet gedetecteerd totdat een eindgebruiker belt
Level 2 (gemonitord, niet gefilterd): 50–500 alerts per engineer per dag — de bandbreedte waar alert fatigue het sterkst optreedt
Level 3 (verbeterd): 20–80 — eerste filtering en deduplicatie zijn ingeregeld
Level 4+ (policy-driven): minder dan 20 actionable — bekende patronen worden autonoom afgehandeld of gefilterd

Er is geen "goed" absoluut getal. Het onderscheid zit in de verhouding actionable versus non-actionable. Een engineer die 30 alerts per dag verwerkt waarvan 25 actie vereisen, heeft een ander probleem dan een engineer die 200 alerts verwerkt waarvan er 190 ruis zijn.

1.2

False positive rate

Het percentage alerts dat geen menselijke actie vereist en geen echt incident vertegenwoordigt.

Level 2 (typisch): 70–95% false positives
Level 3: 50–70%
Level 4+ (policy-driven): onder 30% — of alerts worden direct autonoom geremedieerd zonder de queue te bereiken

Een false positive rate boven 80% is een sterk signaal voor alert fatigue. Boven 90% functioneert het monitoringsysteem niet meer als betrouwbaar signaal — engineers hebben geleerd dat het systeem vaker ongelijk dan gelijk heeft.

1.3

Tijd besteed aan alert-verwerking per dag

De gemiddelde tijd per engineer per dag besteed aan het lezen, beoordelen en sluiten of escaleren van alerts.

Level 2 (problematisch): 2–4 uur per engineer per dag voor alert-triage
Level 3: 1–2 uur
Level 4+: minder dan 30 minuten — alerts worden gefilterd of autonoom afgehandeld voordat ze de engineer bereiken

Bij een werkdag van acht uur en drie uur alert-triage gaat 37% van de beschikbare engineercapaciteit op aan ruis-management. Dat is geen triage meer — dat is een voltijdstaak die de feitelijke operationele capaciteit van het team uitholt.

1.4

Mean Time to Acknowledge (MTTA)

De gemiddelde tijd tussen het genereren van een alert en de eerste actie door een engineer — bevestiging, sluiting of escalatie.

Gezond: onder 5 minuten voor P1-alerts
Matig (alert fatigue begint): 5–30 minuten voor P1
Problematisch: boven 30 minuten voor P1 — engineers scannen alerts niet meer actief

MTTA stijgt bij alert fatigue — niet omdat engineers langzamer werken, maar omdat ze opgehouden zijn om de alert-queue actief te monitoren. Als 90% ruis is, is het rationeel om niet elke melding direct te openen.

1.5

Missed incident rate

Het percentage kritieke alerts (P1/P2) dat niet binnen de SLA-termijn wordt opgepakt.

Laag (gezond): onder 5% gemiste kritieke alerts
Matig: 5–15%
Hoog (alert fatigue aanwezig): boven 15% — bij hoge false positive rates kan dit oplopen tot 30%

Dit is de gevaarlijkste metric. Een MSP die 20% van zijn P1-alerts mist, heeft geen configuratieprobleem — die heeft een structureel operationeel risico. Elke gemiste P1 is een potentiële SLA-breach, klantescalatie of incidentverergering.

1.6

Alert-to-incident ratio

Hoeveel alerts genereren één uniek, bevestigd incident?

Level 2: 10–50 alerts per uniek incident (storm alerts, cascading failures, dubbele meldingen)
Level 3: 3–10
Level 4+: 1–2 alerts per incident, of directe remediatie zonder dat een incident wordt aangemaakt

Hoge ratio's duiden op ontbrekende alert-correlatie en deduplicatie. Als één server-outage vijftig alerts genereert, is het signaal niet dat er vijftig problemen zijn — maar dat er één probleem is met vijftig symptomen.

1.7

Alert burnout-index

Een samengestelde kwalitatieve indicator — geen harde metric, maar vier operationele signalen die samen alert burnout beschrijven.

Bulk-dismiss gedrag: Engineers sluiten alerts zonder inhoudelijk te beoordelen. Bij 200+ alerts/dag en <30 sec per alert is er geen tijd voor beoordeling.
Stijgende acknowledgement-lag: Als het alert-volume stabiel is maar de reactietijd oploopt, duidt dat op afnemende alertheid — niet door drukte, maar door vermoeidheid.
Piketweigering en uitval: Toenemende piketweigering, hogere ziekteverzuimcijfers en burn-out gerelateerde uitval in teams die structureel overbelast worden.
Verlies van vertrouwen: Engineers geven bij incidentevaluaties aan dat ze "de monitoring niet meer vertrouwen." Op dat punt is de monitoring-investering operationeel waardeloos.
1.8

Noise reduction rate na interventie

Hoeveel daalt het alert-volume na gerichte tuning of structurele filtering?

Na eerste tuning-ronde: 40–60% volumereductie haalbaar zonder informatieverlies
Na structurele policy-laag: verdere reductie van 70–80%+ doordat bekende patronen autonoom worden afgehandeld

Dit is de meest hoopgevende metric in dit overzicht. Alert fatigue is oplosbaar — maar niet door meer engineers in te zetten. De oplossing zit in het reduceren van het signaal tot wat daadwerkelijk actie vereist.

2. Snelle referentie — groen, oranje, rood

Indicator Groen (gezond) Oranje (zorgwekkend) Rood (kritiek)
Alerts per engineer per dag < 20 actionable 20–100 gemengd > 100, waarvan > 80% false positive
False positive rate < 30% 30–70% > 70%
Triage-tijd per dag < 30 min 30 min – 2 uur > 2 uur
MTTA (P1-alerts) < 5 min 5–30 min > 30 min
Missed incident rate < 5% 5–15% > 15%
Alert-to-incident ratio 1:1–2 1:3–10 1:10+

Eén indicator in de rode kolom is een signaal. Drie of meer in de rode kolom is een structureel probleem dat niet met configuratiewerk alleen opgelost wordt.

Alert fatigue scorecard — zelfevaluatie

Metric Groen Oranje Rood
Alerts per engineer per dag
False positive rate
Triage-tijd per dag
MTTA (P1-alerts)
Missed incident rate
Alert-to-incident ratio
0–1 rood: Gezond. Je alert-operatie functioneert. Richt je op preventief onderhoud van drempelwaarden en policies.
2–3 rood: Alert fatigue risico. Er zijn structurele signalen. Begin met gerichte alert-tuning op de rode indicatoren.
4+ rood: Structureel alert fatigue. Extra tuning levert afnemende meeropbrengsten. De vraag verschuift: hoe verwijder je bekende patronen structureel uit de alertstroom?

3. Level 2 vs. Level 4 — de operationele kloof

Dimensie Level 2 (Gemonitord) Level 4 (Policy-driven)
Alerts per dag (totaal) 100–500 10–50 actionable
False positive rate 70–95% < 30%
Triage-tijd per dag 2–4 uur < 30 min
MTTA P1-alerts 10–60 min < 5 min
Missed incident rate 15–30% < 5%
Engineerbelasting Hoog (ruis-management domineert) Laag (alleen uitzonderingen)

Het verschil tussen Level 2 en Level 4 is niet dat Level 4-teams betere engineers hebben. Het verschil is dat het systeem de bekende patronen afhandelt voordat ze de engineer bereiken. De engineer op Level 4 verwerkt minder alerts — maar elke alert die doorkomt, verdient aandacht.

Zie: MSP Automation Maturity Model →

4. Wat kost alert fatigue?

Alert fatigue is een operationeel probleem. Maar de gevolgen zijn financieel.

Component Impact
2–3 uur alert-triage per engineer per dag 25–37% capaciteitsverlies op het beschikbare engineerteam
Gemiste P1-alerts (15–30% bij hoge FP rates) SLA-breaches, boeteclausules en ongeplande escalatiekosten
Ruis-tickets die de servicedesk bereiken Hogere servicedeskbelasting per endpoint
Piketweigering en burn-out gerelateerde uitval Hogere personeelskosten en wervingsdruk
Klantescalaties na gemiste incidenten Churn-risico op contractniveau

Rekenvoorbeeld

Een team van vier engineers dat gemiddeld twee uur per dag aan alert-triage besteedt, verliest collectief acht uur per dag — één volledige FTE aan ruisverwerking. Bij gangbare interne uurtarieven loopt dat op tot ruwweg zes cijfers per jaar aan capaciteit die opgaat aan het beoordelen van alerts die geen actie vereisen. De exacte cijfers verschillen per organisatie, maar de orde van grootte is herkenbaar.

5. Hoe alert fatigue ontstaat

Alert fatigue is geen gevolg van luie engineers. Het is een rationele reactie op een irrationeel systeem. Het mechanisme verloopt in vier fasen:

1

Oorsprongspatroon

Monitoring wordt opgezet met lage drempelwaarden ("liever te veel dan te weinig"). Dit levert de eerste golf false positives op.

2

Aanpassingsreactie

Engineers leren welke alerts consistent false positive zijn en beginnen die te negeren. Dit is rationeel gedrag bij een hoge ruis-verhouding.

3

Glijvlak

De categorie "negeer dit" groeit. Nieuwe false positives worden automatisch genegeerd — inclusief echte incidenten die eruitzien als bekende false positives.

4

Point of no return

Een kritiek incident dat eruitziet als een bekende false positive wordt gemist. Het incident wordt pas opgemerkt wanneer een eindgebruiker belt of een SLA-timer afgaat.

De kern: alert fatigue is het gevolg van een systeem dat structureel meer signaal produceert dan een mens kan verwerken. De oplossing zit niet in betere engineers, maar in een betere signaal-ruisverhouding.

Zie ook: Alert fatigue bij MSPs: het probleem zit niet in de alerts →

6. Wat alert fatigue oplost

Vier benaderingen, op volgorde van directe impact naar structurele oplossing.

1

Alert-tuning

Drempelwaarden aanpassen, niet-actionable alerttypen supprimeren, urgentieniveaus herijken. De snelste interventie — typisch 40–60% volumereductie. Het nadeel: zonder structurele laag is tuning een eenmalige correctie die bij groei opnieuw nodig is.

2

Correlatie en aggregatie

Gerelateerde alerts bundelen tot één incident. Dit reduceert volume én verbetert de signaal-ruisverhouding.

Lees meer →
3

Policy-driven filtering

Bekende patronen die consistent false positive zijn, worden structureel gefilterd. Bekende incidenten worden geremedieerd zonder alert te genereren.

Lees meer →
4

Autonome remediatie

De meest structurele oplossing. Alerts worden niet alleen gefilterd maar opgelost voordat ze de engineer bereiken. Een volle schijf wordt opgeruimd, een vastgelopen service wordt herstart — autonoom, geverifieerd en gelogd.

Lees meer →

Kernvraag

Als drie of meer indicatoren uit tabel 1 in de rode zone vallen, heb je waarschijnlijk geen monitoringprobleem maar een signaal-ruisprobleem. Op dat punt levert extra tuning afnemende meeropbrengsten op. De vraag verschuift van "hoe configureer ik beter?" naar "hoe verwijder ik bekende patronen structureel uit de alertstroom?"

7. Veelgestelde vragen

Hoeveel alerts per dag zijn normaal voor een MSP?

Er is geen absoluut "normaal." Wat telt is de verhouding tussen actionable en non-actionable alerts. Bij MSPs die op Level 2 opereren — monitoring staat aan, maar er is geen filtering of correlatie — zien we typisch 50–500 alerts per engineer per dag. Het merendeel (70–95%) vereist geen actie. Bij goed geconfigureerde omgevingen (Level 4+) daalt het volume naar minder dan 20 actionable alerts per engineer per dag, doordat bekende patronen autonoom worden afgehandeld of gefilterd.

Wat is een acceptabele false positive rate?

Een false positive rate onder 30% is een gezonde bandbreedte voor omgevingen met actieve alert-tuning en policy-driven filtering. Tussen 30 en 70% is het systeem functioneel maar verbeterbaar. Boven 70% is er een structureel probleem: engineers vertrouwen de monitoring niet meer en beginnen alerts categorisch te negeren — inclusief echte incidenten. Boven 90% is het monitoringsysteem feitelijk niet meer betrouwbaar als signaal.

Hoe meet ik of mijn team alert fatigue heeft?

Kijk niet naar één metric, maar naar het patroon. De sterkste signalen zijn: stijgende MTTA bij gelijkblijvend of dalend alert-volume (engineers scannen niet meer actief), alerts die binnen seconden worden gesloten zonder actie (bulk-dismiss), en een stijgend percentage gemiste P1-incidenten. Kwalitatief: als engineers in incidentevaluaties aangeven dat ze "de monitoring niet meer vertrouwen," is alert fatigue aanwezig.

Is alert fatigue op te lossen zonder nieuwe tooling?

Gedeeltelijk. De eerste stap — alert-tuning — vereist geen nieuwe tools: drempelwaarden aanpassen, deduplicatie inrichten en niet-actionable alerts supprimeren. In de praktijk levert een eerste tuning-ronde typisch 40–60% volumereductie op. Maar zonder een structurele laag die bekende patronen autonoom filtert of oplost, keert het probleem terug zodra het aantal endpoints of klantomgevingen groeit.

Wat is het verschil tussen alert fatigue en monitoring-misconfiguratie?

Ze overlappen, maar het onderscheid is belangrijk. Monitoring-misconfiguratie is een technisch probleem: drempelwaarden staan verkeerd, alerts missen context of er ontbreekt deduplicatie. Dat is op te lossen met configuratiewerk. Alert fatigue is een menselijk probleem dat ontstaat als gevolg van langdurige blootstelling aan te veel irrelevante alerts — ook als de monitoring technisch correct is geconfigureerd.

Hoe UptimePilot dit aanpakt

UptimePilot biedt policy-driven remediation als structurele oplossing voor alert fatigue — geen alerting-tool die filters toevoegt, maar een beslis- en actielaag die het volume aan de bron reduceert.

Bekende patronen → autonome remediatie — incidenten met een gestandaardiseerde oplossing worden opgelost voordat een alert de engineer bereikt
Onbekende patronen → escalatie met context — incidenten buiten de policy-scope worden geëscaleerd met de diagnostische context die de engineer nodig heeft
Verificatie na elke actie — het systeem controleert of de remediatie is geslaagd en escaleert alsnog bij mislukking
Audit trail — elke autonome handeling is herleidbaar naar de policy die is gevolgd

UptimePilot vervangt geen monitoring-stack. Het voegt de beslis- en actielaag toe die het verschil maakt tussen "we weten dat er een probleem is" en "het probleem is opgelost."

Detect. Decide. Act. →

Volgende stap

Hoe scoort jouw alert-operatie?

Laat UptimePilot je huidige monitoring-setup analyseren en ontdek waar het signaal-ruisprobleem structureel opgelost kan worden.