Close

Login

Wenn Sie sich hier zum ersten Mal seit dem 09.02.2024 anmelden wollen, nutzen Sie bitte die "Passwort vergessen"-Funktion.

Noch kein Abonnent? Hier geht es zu unseren Angeboten.
Close

Passwort vergessen

Close

Gastregistrierung

Mit Ihrer Registrierung erhalten Sie für 4 Wochen kostenlos und unverbindlich Zugriff auf unsere Inhalte.

Die Panne etwas differenzierter betrachtet.

Kommentar

Bernd Zimmermann

Bernd Zimmermann

Ein durchtrenntes Glasfaserkabel legte kürzlich den Flugverkehr der Lufthansa lahm – und sorgte für reichlich Spott in den Medien. Unser IT-Experte Werner Metterhausen kommentiert die Ursachen etwas differenzierter.

Bagger-Lufthansa-IT-Ausfall: nicht zu schnell urteilen!

Als am 15. Februar 2023 ein Baggerfahrer bei Bauarbeiten in Frankfurt ein Glasfaserkabel durchtrennt und der Lufthansa einen IT-Ausfall beschert hatte, folgten in der Presse sogleich Schuldzuweisungen à la „Der Fehler liegt bei der Lufthansa“. Auch unser Redaktionskollege Werner Metterhausen schlug angesichts einer solchen Panne spontan die Hände über dem Kopf zusammen. Aber war der „peinliche Resilience-GAU“ (Susanne Nolte) tatsächlich nur auf die fehlende Redundanz (=doppelte Auslegung) der Glasfaserleitung zurückzuführen? Mit ein wenig Abstand und ein wenig mehr Hintergrundinformationen kommt Metterhausen heute zu einem etwas differenzierteren Schluss. Er stellt den Lesern von Sicherheits-Berater direkt nachfolgend seinen Kommentar zur Verfügung:

Bagger-Lufthansa-IT-Ausfall: nicht zu schnell urteilen!

Der Fall liest sich zunächst wie eine Übung für angehende Juristen: Das KRITIS-Unternehmen Lufthansa hat ein für den Flugbetrieb sehr wichtiges IT-System in einem Rechenzentrum irgendwo im Raum Frankfurt stationiert. Betreiber dieses RZ ist nach Presselage die IBM Deutschland. Durch den Provider Telekom ist dieses RZ über einen (!) Kabelweg an den größten Flughafen Deutschlands angeschlossen. Durch Bauarbeiten der Deutschen Bahn wird dieses Kabel zerstört. Daraufhin kommt der Flugbetrieb der Lufthansa zum Erliegen. Welche Parteien haben schuldhaft oder fahrlässig gehandelt?

Fachbegriffe, kurz erklärt


Backbone
Englisch für Rückgrat. In Informatik
und Telekommunikation ein Bereich
des Telekommunikationsnetzes mit
besonders hohen Bandbreiten.

BCM
Business Continuity Management,
also betriebliches Kontinuitäts-
management. Dieses soll die Fort-
führung der Kerngeschäfte im
Krisenfall und die Wiederaufnahme
des Geschäftsbetriebes ermöglichen.

BSI-Grundschutz
Der sogenannte IT-Grundschutz
des Bundesamtes für Sicherheit
in der Informationstechnik (BSI)
ist ein umfangreiches Arbeits-
werkzeug (ein Maßnahmenpapier)
für Informationssicherheit mit System.

Resilience
Englisch für elastische Wider-
standsfähigkeit bzw. Resilienz
und die Fähigkeit, durch An-
passung auf Veränderungen zu
reagieren und sich zu erholen.

RZ
Rechenzentrum

Service-Level-Agreements
Vertragliche Vereinbarungen,
die z. B. die Verfügbarkeit von
Daten und Diensten auf einem
bestimmten Niveau zusichern.

Diese schlichte Darstellung der Lage nach dem Stillstand am Frankfurter Flughafen sorgte für die übliche Empörung bei allen „Fachleuten“ auf Twitter und in diversen Internetforen. Auch in Presse, Funk und Fernsehen wurde die Lufthansa auf Basis dieser dünnen Faktenlage zum Schuldigen erklärt. Andere Details, die mittlerweile durchgesickert sind, geben Hinweis darauf, dass der Fall doch komplizierter war als „Kabel kaputt – alles dunkel – keine Redundanz – wie dumm!“.

So wusste das Handelsblatt zu berichten: „Neben dem Rechenzentrum bei Frankfurt gibt es ein weiteres Systemhaus in Norderstedt. Doch ein Back-up von dort in die Konzernzentrale sei am Mittwoch nicht möglich gewesen, berichten mit der Angelegenheit vertraute Manager.“

Eine wichtige, in den ersten Reaktionen stets übersehene Tatsache ist, dass die Zerstörung des Kabels am Dienstagabend nicht unmittelbar zu einem Ausfall der IT-Services am Flughafen geführt hat. Erst am Mittwochvormittag musste die Lufthansa den Betrieb einstellen, weil unter anderem das Boarding in Frankfurt nicht mehr möglich war.

Das Internetportal aero.de vermeldete aus einer internen Lufthansa-Meldung zu der Störung: „Der Ausfall geht auf ein Problem in der zentralen Infrastruktur von Frankfurt zurück. Die Backup-Systeme seien aktiviert, aber überlastet“. Damit lässt sich ein durchaus vorstellbares Bild des Vorfalls und seiner Begleitumstände zeichnen. Lufthansa hat durchaus Systeme für diese kritischen IT-Services in georedundanten Rechenzentren zur Verfügung. Bei der Planung und Bereitstellung dieser redundanten Systeme und ihrer Anbindung an die Flughäfen in Deutschland (oder sogar weltweit?) wurde dann eine Lösung gesucht und gefunden, in der die Service-Level-Agreements, die Kapazitäten der redundanten Systeme und Leitungen und auch die Kosten „passten“.

Die Anbindung des Ausweich-Rechenzentrums im Norden der Republik hat dann im Ernstfall zwar ausgereicht, den Nachtbetrieb am Frankfurter Flughafen zu bewältigen, dem Tagbetrieb haben die möglicherweise schlanker ausgelegten Systeme im Ausweich-RZ und die Bandbreite der Anbindung nicht standgehalten.

Wenn diese Annahme zutrifft, kann man der Lufthansa an dieser Stelle nicht einmal einen Fehler im Business Continuity Management (BCM) vorwerfen. Aus wirtschaftlichen Gründen wird die technische Umsetzung des BCM immer Kompromisse eingehen, um Kosten im Rahmen zu halten. Die Wahrscheinlichkeit des stundenlangen Ausfalls eines Telekom-Backbones wurde möglicherweise einfach unterschätzt.
Auch die Betrachtung dessen, was tatsächlich passiert ist, verdient ein wenig Sachlichkeit. Es sind einen Tag lang Flüge in Frankfurt ausgefallen und die Passagiere mussten entschädigt werden. Das ist aus Sicht des Unternehmens gewiss ein Millionenschaden. Es wäre aber nachvollziehbar, wenn ein solcher technisch bedingter Ausfall als weniger wahrscheinlich eingestuft worden ist als gleich teure Szenarien wie zum Beispiel „Streik des eigenen Personals“ oder „Streit des Funktionspersonals im Flughafens“.

Entsprechend kann der Sicherheits-Berater als Lehre für alle BCM- Verantwortlichen formulieren:

  1. erstens den Allgemeinplatz „expect the unexpected“ anführen und zudem darauf hinweisen, dass Service-Level-Agreements ein Vertragsbestandteil und keine unverrückbaren Tatsachen sind. Das BCM muss selbstverständlich beachten, dass Leistungen, die von Dritten erbracht werden, trotz aller vertraglichen Zusicherungen ausfallen können.
  2. Zweitens kann er wie üblich auf den BSI-Grundschutz verweisen, der auch in diesem Fall die richtige Anregung gibt – in der Maßnahme DER.4.A16 zum Thema „Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten“ ist zu lesen:

    „Bei der Notfallvorsorge- und Notfallreaktionsplanung für ausgelagerte Komponenten SOLLTE regelmäßig das Notfallmanagement der liefernden oder dienstleistenden Institution in den unterzeichneten Verträgen geprüft werden. Auch SOLLTEN die Abläufe in Notfalltests und -übungen mit der liefernden oder bereitstellenden Institution abgestimmt und, wenn angemessen, gemeinsam durchgeführt werden. Die Ergebnisse und Auswertungen SOLLTEN regelmäßig zwischen der Institutionsleitung und den liefernden Institutionen oder Dienstleistenden ausgetauscht werden. In den Auswertungen SOLLTEN auch eventuelle Verbesserungsmaßnahmen enthalten sein.“

So kennen die Leser des Sicherheits-Berater den Redaktionskollegen und Sicherheitsberater Werner Metterhausen:

In dem Zusammenhang möchten wir auf die heute, am 1. März 2023, erscheinende Ausgabe 5/2023 des Sicherheits-Berater hinweisen. Sie befasst sich mit dem thematischen Schwerpunkt „Integrationstests “, die zugleich Resilienztests sind. Solche Tests sind durchaus dazu geeignet, Pannen wie die oben geschilderte vorzubeugen.

Newsletterbeiträge Februar 2023

Newsletterarchiv

Aktuelle Fachbeiträge

Login

Noch kein Abonnent? Hier geht es zu unseren Angeboten.