Guides
Uptime-KPI's voor MSPs — welke metrics tellen en hoe je ze meet
Uptime-KPI's en incident-KPI's meten verschillende dingen: uptime is een uitkomst, incidentmetrics zijn de drijfveren die die uitkomst bepalen. Een MSP die alleen beschikbaarheid rapporteert, laat niet zien waarom de uptime is wat die is. Een MSP die alleen MTTR meet, weet niet hoe die MTTR de klantervaring beïnvloedt. De combinatie van beide vertelt het volledige verhaal — en maakt het mogelijk om gericht te investeren in de metrics die de meeste impact hebben.
1. Waarom uptime-KPI's anders zijn dan incident-KPI's
Incidentmetrics
Ticketvolume, MTTR, first-time fix rate — ze meten hoe goed het operationele team functioneert. Interne sturingsinstrumenten: hoe snel reageert het team, hoe vaak lost het een incident in één keer op, hoeveel tickets verwerkt het per maand.
Uptime-KPI's
Ze meten het resultaat dat de klant ervaart. Externe verantwoordingsinstrumenten: hoeveel tijd was de omgeving beschikbaar, hoe vaak ging er iets mis, hoe verhoudt de werkelijkheid zich tot het contract.
De relatie is causaal maar niet lineair. Een lagere MTTR leidt typisch tot hogere availability, maar alleen als de detectietijd ook kort is. Een lager ticketvolume suggereert minder incidenten, maar kan ook betekenen dat incidenten niet worden gedetecteerd.
Wie de automatiserings-KPI's al kent: dit artikel bouwt daarop voort met een specifieke focus op uptime en beschikbaarheid.
2. De vijf kern uptime-KPI's
Availability rate (%)
De primaire uptime-KPI. Meet het percentage van de tijd dat een omgeving, service of systeem beschikbaar was in een gedefinieerde periode.
Meet per klant en per omgeving. Eén availability-getal voor de hele MSP-portefeuille maskeert individuele klantproblemen.
MTTR — Mean Time to Resolve
De metric die de duur van de downtime-impact bepaalt. Uitgebreid behandeld in de automatiserings-KPI's en de MSP Metrics Benchmark. In de context van uptime is MTTR de variabele waarop een MSP de meeste directe invloed heeft: elke minuut MTTR-verbetering is een minuut minder downtime voor de klant.
MTTF — Mean Time to Failure
Meet hoe lang een systeem of service gemiddeld draait zonder incident. Waar MTTR meet hoe snel je herstelt, meet MTTF hoe stabiel de omgeving is.
Een stijgende MTTF over tijd is een indicator dat de onderliggende oorzaken worden aangepakt — niet alleen de symptomen.
SLA-nalevingspercentage
Het contractuele ankerpunt. Meet hoeveel van de contractueel afgesproken beschikbaarheidsdoelstellingen daadwerkelijk zijn gehaald in de rapportageperiode.
Een availability rate van 99,5% klinkt goed — maar als het contract 99,9% belooft, is het een breach.
Proactieve vs reactieve incidentratio
Het percentage incidenten dat intern werd gedetecteerd vóór de klant contact opnam. De metric die het verschil meet tussen een MSP die reageert en een MSP die anticipeert.
Bij een ratio onder 50% is de klant vaker de melder dan het systeem — dat ondermijnt het vertrouwen in de monitoring, ongeacht de availability rate.
3. Hoe uptime-KPI's veranderen bij automatisering
| KPI | Zonder automatisering | Met autonome remediatie |
|---|---|---|
| Availability rate | 99,0–99,5% | 99,5–99,9% |
| MTTR (herhalende incidenten) | 30–60 min | < 5 min |
| MTTF | Variabel | Stijgend (oorzaken structureel verholpen) |
| SLA-nalevingspercentage | 85–95% | > 95% |
| Proactieve vs reactieve ratio | 40–60% | > 80% |
De grootste verschuiving zit in de MTTR voor herhalende incidenten. Bij autonome remediatie wordt een incident opgelost in minuten — ongeacht tijdstip, beschikbaarheid van engineers of piketrotatie. Dat heeft een direct effect op de availability rate en het SLA-nalevingspercentage.
De proactieve ratio stijgt omdat het systeem incidenten detecteert en oplost voordat de klant ze opmerkt. In het detect → decide → act-framework is dit het ideaalscenario: de hele loop is gesloten voordat er een extern signaal is.
4. Hoe je uptime rapporteert aan klanten
Uptime-rapportages zijn voor de meeste mkb-klanten geen technische documenten — het zijn vertrouwensdocumenten. Drie principes:
Rapporteer per klant, niet als portefeuille-gemiddelde
Een klant wil zijn eigen availability zien, niet een gemiddelde over alle klanten. Portefeuillegemiddelden zijn intern nuttig maar extern misleidend.
Combineer uitkomst met oorzaak
Een availability rate alleen zegt niet genoeg. Voeg context toe: hoeveel incidenten waren er, hoe snel werden ze opgelost, welke werden autonoom afgehandeld en welke door een engineer. Dat maakt de metric verklaarbaar.
Laat de trend zien
Een maandelijkse availability rate van 99,7% is een getal. Een stijgende trend van 99,2% naar 99,7% over zes maanden is een verhaal. De trend vertelt de klant dat de MSP structureel investeert in de stabiliteit van hun omgeving.
5. Veelgestelde vragen
Wat is een realistische uptime-doelstelling voor mkb-MSP klanten?
Voor de meeste mkb-klanten is 99,5% een realistische en verantwoorde doelstelling. Dat staat gelijk aan ruwweg drie tot vier uur downtime per maand. 99,9% — minder dan een uur downtime per maand — is haalbaar maar vereist een combinatie van redundante infrastructuur, snelle detectie en autonome remediatie. De juiste doelstelling hangt af van de klantbehoefte, de contractwaarde en de investering die de MSP bereid is te doen.
Hoe bereken ik de availability rate over een maand?
Tel het totale aantal minuten in de maand (typisch 43.200 voor een maand van 30 dagen). Trek daar de totale downtime in minuten van af. Deel het resultaat door het totale aantal minuten en vermenigvuldig met 100. Een uur downtime in een maand van 30 dagen geeft een availability rate van 99,86%.
Wat is het verschil tussen uptime en beschikbaarheid?
In de praktijk worden de termen door elkaar gebruikt. Strikt genomen meet uptime of een systeem aan staat, terwijl beschikbaarheid (availability) meet of een systeem bereikbaar en functioneel is voor de eindgebruiker. Een server kan up zijn maar onbereikbaar door een netwerkprobleem — dan is de uptime 100% maar de beschikbaarheid niet. Voor MSP-rapportages aan klanten is beschikbaarheid de relevantere metric.
Hoe UptimePilot dit aanpakt
UptimePilot beïnvloedt de vijf uptime-KPI's waar ze het meest impact hebben: MTTR en proactieve ratio. Door herhalende incidenten autonoom te detecteren, op te lossen en te verifiëren, daalt de MTTR voor die incidenttypes naar minuten. De proactieve ratio stijgt omdat het systeem handelt voordat de klant het incident opmerkt. Het resultaat is een structureel hogere availability rate en een betere SLA-naleving — onderbouwd door een volledige audit trail per incident.
Volgende stap
Hoe veranderen jouw uptime-KPI's met autonome remediatie?
Bekijk hoe UptimePilot de MTTR en proactieve ratio structureel verbetert — en wat dat betekent voor de availability rate die je aan klanten rapporteert.