Auch bei Netzwerkausfällen gilt Murphys Gesetz…

Dirk Schuma  |
Auch bei Netzwerkausfällen gilt Murphys Gesetz

Auch bei Netzwerkausfällen gilt Murphys Gesetz.

Murphys Gesetz besagt: Was schiefgehen kann, geht auch schief. Leider bewahrheitet sich diese universale Weisheit auch im Falle von Netzwerkausfällen viel zu oft. Dies sind sieben typische Fehler bei der Behebung von Downtimes und so können Unternehmen sie vermeiden. 

Zusammenfassung (TL; DR):

  • Insbesondere der Zeitdruck, der bei einem Netzwerkausfall entsteht, verleitet Administratoren dazu, möglichst schnell einen Fix zu implementieren.
  • Ein Leitsatz aus der Cybersecurity lautet: „You can’t protect what you can’t see.“ Auch im Netzwerkbereich, denn Administratoren können Fehler nicht beheben, die sie nicht sehen.
  • Fazit: Es wichtig, sich von Zeit zu Zeit potenzielle Gefahrenquellen vor Augen zu führen und das eigene Verhalten in Krisensituationen zu evaluieren.

Wenn um 4 Uhr nachts das Telefon bei einem Netzwerkadministrator klingelt und ihn aus dem Schlaf reißt, dann brennt es ziemlich sicher – manchmal sogar buchstäblich. Oft sind es allerdings weniger dramatische Gründe – Murphys Gesetz zum Trotz -, weshalb ein Netzwerk ausgefallen ist. Enormer Zeitdruck, mangelhafte Prozesse, menschliches Versagen und eine ineffiziente Tool-Landschaft führen trotzdem dazu, dass die Behebung der Downtime länger dauert als nötig. Opengear benennt die häufigsten Fehler, die in diesem Zusammenhang passieren:

Erster Fehler: Keine echte Ursachenanalyse

Insbesondere der Zeitdruck, der bei einem Netzwerkausfall entsteht, verleitet Administratoren dazu, möglichst schnell einen Fix zu implementieren. Ob das ursächliche Problem damit tatsächlich aus der Welt geschafft wurde, ist in diesem Fall zweitrangig. Das kann dazu führen, dass der gleiche Fehler erneut auftritt. Besser ist es, den Fehler mit der nötigen Ruhe systematisch via Root-Cause-Analyse zu untersuchen und erst dann Maßnahmen zu ergreifen, wenn der Ursprung wirklich klar identifiziert ist.

Zweiter Fehler: Schlechte Kommunikation

In vielen Unternehmen arbeiten die verschiedenen Stakeholder in der IT isoliert voneinander. Diese Silos erschweren die Abstimmung oder machen sie gar unmöglich, insbesondere in Notsituationen. Sinnvoller ist es, wenn Teams interoperabel miteinander kommunizieren, denn selten sind Downtimes ausschließlich im Verantwortungsbereich der Netzwerkadministratoren begründet.

Dritter Fehler: Fehlende Visibilität

Ein Leitsatz aus der Cybersecurity lautet: „You can’t protect what you can’t see.“ Und genau so ist es auch im Netzwerkbereich, denn Administratoren können Fehler nicht beheben, die sie nicht sehen. Läuft das Monitoring etwa in Ermangelung einer Out-of-Band-Lösung über das Produktivnetzwerk, sind Admins im Problemfall blind und haben keine Möglichkeit, remote auf elementare Komponenten zuzugreifen oder eine Diagnose zu erstellen. Da auch ein rein gespiegeltes Netzwerk bei einem Ausfall häufig in die Knie geht, sollten Unternehmen eine Service-Infrastruktur mit Out-of-Band-Netzwerk aufbauen. Nur so behalten  Administratoren auch im Notfall die volle Kontrolle.

Vierter Fehler: Falsche Priorisierung

Manchmal erkennen Netzwerkadministratoren kritische Probleme erst zu spät und eskalieren daher nicht rechtzeitig. Das passiert häufig, wenn mehrere Probleme gleichzeitig auftreten. Unternehmen sollten, um falschen Priorisierungen vorzubeugen, klare Triage-Prozesse implementieren und Eskalationsmatrixen erarbeiten.

Fünfter Fehler: Quick Fixes

Schnelle Lösungen für komplexe Probleme ziehen oft einen Rattenschwanz an weiteren Problemen nach sich. Um möglichst schnell wieder online zu sein, setzen Netzwerkadmins manchmal auf sogenannte Quick Fixes, also instabile und spontan implementierte Problemlösungen. Statt auf unsichere Workarounds zu setzen, sollten Netzwerk-Teams vielmehr sichere Recovery-Prozesse durchführen, um Fehler nachhaltig zu beheben.

Sechster Fehler: Mangelhaftes Testing

Ein leider sehr weit verbreiteter Fehler ist, dass Netzwerk-Teams Updates ausrollen, ohne sie ausgiebig getestet zu haben. Das gleiche gilt für Änderungen an der bestehenden Konfiguration. Fehlendes oder zu oberflächliches Testing kann Schwachstellen ins System bringen oder zu Downtimes führen. Daher gilt die goldene Regel: Änderungen jeglicher Art immer testen, Rollback-Pläne bereithalten und erst dann kontrolliert Updates oder neue Konfigurationen ausrollen.

Siebter Fehler: Blindes Vertrauen in (KI-)Tools

Ein Phänomen der aktuellen Zeit ist, dass immer mehr Netzwerkadministratoren sich blind auf KI und andere Tools verlassen. Oft sind die Ergebnisse wunderbar und hilfreich, aber ein gewisses Maß an Skepsis sollten sich Admins immer erhalten. Gerade bei kritischen Problemen gilt es, die Ergebnisse zu validieren und für die finale Entscheidung auf die eigene Expertise zu vertrauen.

„Murphys Gesetz zeugt: Fehler passieren, gerade im Ernstfall“, betont Dirk Schuma, Sales Manager EMEA North bei Opengear. „Daher ist es wichtig, sich von Zeit zu Zeit potenzielle Gefahrenquellen vor Augen zu führen und das eigene Verhalten in Krisensituationen zu evaluieren. Nur dann funktionieren Admins im Ernstfall wie eine gut geölte Maschine. Und das ist unbedingt nötig, denn die nächste Downtime kommt bestimmt.“

Weitere Inhalte zum Thema

Logo Newsletter IT-Sicherheit

Nichts mehr verpassen!

Mit Klick auf „Newsletter anmelden“ erhalten Sie unseren Newsletter. Die Anmeldung wird erst aktiv, nachdem Sie den Bestätigungslink in der E-Mail angeklickt haben. Datenschutzerklärung

Das könnte Sie auch interessieren