Crowdstrike hat RCA zum Ausfall veröffentlicht

Wenn man von Hamburg über NY nach München fährt

Crowdstrike hat hier ein RCA zum Großausfall von neulich veröffentlicht.

Laut Einleitung ist es weniger technisch und soll verständlich sein. Das würde ich so jetzt nicht unterschreiben. Das Dokument ist erklärend ... nachdem man sich durch den Schutzwall an Bullshit-Bingo gekämpft hat. Es macht den Eindruck, dass man hier mit sehr viel Bingo versucht das eigentliche Problem erheblich aufzublähen, damit es weniger trivial aussieht.

Die eigentlichen Fehler sind nämlich recht schnell erklärt und gehören zu den absoluten Klassikern. 

Der eigentliche Ursprung liegt wohl darin, dass der Template-Parser statt 21 nur 20 Parameter erfasst hat. Der 21. wurde bisher wohl nicht genutzt. Der Validator ist aber von 21 ausgegangen und hat die Länge des Array nicht ... validiert. Beim Leseversuch des 21. Elements gab es dann einen Speicherzugriffsfehler und der führt in dieser Konstellation dann zum Systemabsturz.

Hinzu kommen noch automatisierte Tests, die nicht gegriffen haben weil sie augenscheinlich nur den genutzten und nicht den generischen Fall getestet haben und ein Verzicht auf ein Staging, was hier wohl auch ganz klar vorteilhaft gewesen wäre.

Im 2. Teil des Dokumentes gelobt Crowdstrike Besserung und erklärt was man gedenkt im Prozess zu verbessern bzw. schon verbessert hat. Das klingt auch alles gut. Nur muss man leider eben auch sagen, dass dieser Ausfall in dieser Form echt unnötig war. Das Problem verteilt sich über mehrere Fehlerquellen. Es hätte aber vermutlich auch an jeder davon entdeckt und unterbunden werden können.