Jediný konfigurační soubor. Devadesát minut. Osm a půl milionu zhroucených systémů po celém světě.
19. 7. 2024 zastavil výpadek způsobený aktualizací bezpečnostního softwaru od firmy CrowdStrike leteckou dopravu, ochromil nemocnice a odhalil, jak křehká je globální IT infrastruktura.
Letiště hlásila tisíce zrušených letů, banky zápasily s platebními systémy a IT specialisté marně zkoušeli restartovat zamrzlé počítače.
Příběh o tom, jak IT systém navržený pro vyšší bezpečnost způsobil totální kolaps.
Bezpečnostní záplata přinesla akorát chaos
Páteční ráno 19. července 2024 začalo jako každé jiné. Krátce po půlnoci východoamerického času rozeslala firma CrowdStrike zákazníkům po celém světě rutinní aktualizaci svého bezpečnostního softwaru Falcon Sensor.
Software měl chránit před kybernetickými hrozbami – místo toho ale způsobil jeden z nejrozsáhlejších technologických výpadků v dějinách.
Problém se objevil v konfiguračním souboru označeném jako Channel File 291. Aktualizace obsahovala logickou chybu, která u počítačů se systémem Windows verze 7.11 a vyšší vedla k okamžitému pádu operačního systému.
Systémy zamrzly a odmítly se restartovat. Notoricky známá modrá obrazovka smrti se objevila odhadem na 8,5 milionech monitorů současně.
CrowdStrike stáhl problematickou aktualizaci už po devadesáti minutách, v 05:27 UTC. Jenže škoda už byla napáchaná.
A protože šlo o automatickou aktualizaci bezpečnostního nástroje, kterou zákazníci nemohli odmítnout, zasáhla všechny naráz.
Dominový efekt pádu IT infrastruktury napříč kontinenty
Rozsah výpadku se ukázal ještě téhož dne. Nejdřív začaly hlásit problémy cloud platformy – Microsoft Azure a Google Compute Engine. Obzvláště zasažená byla světová letiště, nejhorší situace byla ve Španělsku, Indii, Německu či Austrálii.
Na pražském Letišti Václava Havla zcela vypadl odbavovací systém. Americké letecké společnosti požádaly úřad FAA o globální zastavení letového provozu.
Výpadek ale také silně zasáhl např. nemocnice. V německém Kielu a Lübecku zrušily všechny plánované operace. Britští lékaři ztratili přístup k záznamům pacientů. Na Aljašce dokonce selhaly služby pro nouzová volání.
V ČR hlásila výpadek systémů například nemocnice v Rokycanech a lékárny BENU na dva dny zavřely většinu poboček.
Televizní stanice Sky News nemohla vysílat. Londýnská burza a asijské banky zápasily s výpadky platebních systémů.
Celkem bylo zrušeno přes 5 000 letů – 4,6 % všech plánovaných spojů toho dne. Důsledky ale pokračovaly, třeba Delta Air Lines musela během pěti dnů zrušit přes 6 000 letů (což odpovídá škodě 8,93 miliardy korun).
Účet, který nikdo nechce zaplatit
Finanční dopady výpadku se vyšplhaly do astronomických výšin. Pojišťovací firma Parametrix odhadla přímé ztráty amerických společností z žebříčku Fortune 500 na 5,4 miliardy dolarů. Celosvětové škody dosáhly minimálně 10 miliard dolarů (tj. 235 miliard korun).
Nejhůř na tom bylo zdravotnictví se ztrátami 1,94 miliardy dolarů a bankovnictví s 1,15 miliardy. Letecké společnosti přišly dohromady o 860 milionů. Zmíněná Delta Air Lines na CrowdStrike následně podala žalobu, kde vyžadovala kompenzaci půl miliardy dolarů.
Pikantní detail: kybernetické pojištění pokryje jen 10 až 20 % celkových škod.
Horší než finanční ztráty se však ukázala skutečnost, že opravu nebylo možné provést vzdáleně.
IT specialisté museli fyzicky opravit každý postižený počítač, spustit ho v nouzovém režimu a ručně vadný soubor smazat. U některých přístrojů trvalo obnovení funkcí až 15 restartů.
Jaké z toho plyne poučení?
Výpadek odhalil zásadní slabinu moderní IT infrastruktury – převážnou většinu Fortune 500 společností chrání software jedné jediné firmy.
Firma CrowdStrike sice následně slíbila dělat postupné zavádění aktualizací a dát zákazníkům větší kontrolu nad načasováním updatů, zůstává ale otázka, zda to stačí.
Pro firmy všech velikostí z toho plyne, že:
je nutná diverzifikace dodavatelů,
automatické aktualizace bez možnosti testování představují riziko
a plán obnovy po havárii by měl počítat i se scénářem, kdy selže právě to, co má systémy chránit.
Velmi důležitý je také nepřetržitý dohled nad stavem IT infrastruktury. Firmy, které mají zavedený profesionální monitoring a správu datových center, pak dokáží identifikovat problémy mnohem dříve a začít jednat okamžitě, než se situace zhorší.