Risiken einer IT-Infrastruktur erkennen und managen

Bild: 123rf/Fractal

Typography
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Ein Brand deckt fehlende Redundanzen auf oder der Flughafen steht still wegen eines Baggerbisses? Hardware-Ausfälle lassen sich in der IT nicht komplett verhindern, die Folgen aber minimieren. Eine professionelle IT-Dokumentation hilft dabei.

In der heutigen Zeit ist ein Unternehmen in wenigen Tagen insolvent, wenn die IT voll- ständig ausfällt. Solche Katastrophen passieren höchst selten, aber der Ausfall eines wichtigen Rechenzentrums oder kritischer IT-Systeme kommt durchaus vor. Unternehmen sind also gefordert, solche Risiken zu erkennen, mögliche Auswirkungen zu begrenzen und bei Störungen unmittelbar reagieren zu können. Ein professionelles IT-Infrastruktur-Management-System bildet die Basis, um die Infrastruktur zu dokumentieren, zu planen und zu verwalten. Zum einen lassen sich über geeignete Anwendungen und Massnahmen Ausfälle auf ein Minimum begrenzen, zum anderen auftretende Störungen kurzfristig lokalisieren und beheben – denn gänzlich verhindern können IT-Verantwortliche sie nicht.

Szenario 1: Verlorene Daten durch Mangel an redundanten Systemen
Auch in jüngster Vergangenheit ist es vor- gekommen, dass ein Rechenzentrum brennt. Erst 2021 wurde Europas grösstes Datacenter in Strassburg mit 12 000 Servern ein Opfer der Flammen. Viele Kunden hatten für eine redundante Datenhaltung bezahlt und somit anschliessend kein Problem, etliche hatten darauf aber verzichtet – für manche war das existenzbedrohend. Das bedeutet: «In der Cloud» heisst nicht automatisch «kann nicht verloren gehen». Redundante Backup-Systeme sind auch im Cloud-Zeitalter wichtig. Wer diese nicht regelmässig in Übungen auf Funktion testet, ist auf eine lückenlose und detaillierte Dokumentation angewiesen. Denn IT-Verantwortliche brauchen eine umfassende Übersicht, um bei Bedarf und im Ernstfall jedes Detail betrachten, analysieren und bewerten zu können.

Szenario 2: Flughafen-Stillstand durch Baggerbiss
Im Februar dieses Jahres hat ein Bagger bei Bahnbauarbeiten Glasfaserkabel der Lufthansa-Zentrale am Frankfurter Flughafen durchtrennt. Dies hat zur Streichung aller Lufthansa-Flüge an dem Tag geführt. Auch innerdeutsch mussten alle Lufthansa-Flüge gestrichen werden, die Auswirkungen waren weltweit zu spüren. Es ging zwar «nur» um die Abfertigung, die gestört war, aber ohne diese konnte keine Maschine starten. Vermutlich gab es Planungs- oder Ausführungsfehler, die nie aufgefallen sind, da kein IT-Dokumentationssystem zur Erfassung, Analyse und Testung im Einsatz war. Sind redundante Systeme zu schwach dimensioniert, kann das im Ernstfall (das Backup-System muss übernehmen) auch zum Komplettausfall führen, weil es die notwendige Leistung nicht erbringen kann. Es funktioniert in dem Fall «nicht nur ein bisschen langsamer», sondern überhaupt nicht mehr, weil beispielsweise Anwendungen nicht mehr funktionieren und die Kommunikation zusammenbricht.

Szenario 3: Rechenzentrumsausfall durch zu hohe Strom- oder Bodenlast
Ein Rechenzentrum kann unter normalen Umständen jahrelang unauffällig laufen und dann aber plötzlich ausfallen. Schuld kann beispielsweise eine zu hohe Stromlast sein, die bisher nicht aufgefallen ist, weil nicht mit der Maximallast aller eingesetzten Komponenten (Server, Switche, Storage-Systeme) und Kühlsysteme gerechnet wurde. Erhöht sich die Last jedoch plötzlich (eventuell durch den Ausfall eines anderen Systems), kann die Grenze überschritten sein. Im besten Fall greifen Sicherungen, im schlechtesten brennen die Kabel.

Im Rechenzentrum ist die Dokumentation des Stromverbrauchs, der -netze und der Auslastung überlebenswichtig. Sonst drohen ein Brand, lange Ausfälle und hohe Kosten. Diese Berechnungen sollten sich aber nicht nur auf den Stromverbrauch beziehen, sondern auch auf die maximale Gewichts- last des Bodens in den Serverräumen (sonst bricht eventuell der Boden ein). Ebenso wichtig ist eine Übersicht über die Verbindungen der Systeme untereinander und die Anbindung an und die Einbindung der Cloud-Systeme. Wenn die Netzwerkbandbreite nicht ausreicht, kann das in Stosszeiten ebenfalls zu Ausfällen durch Timeouts führen und eine Kettenreaktion auslösen.

Geschäftsrisiken versus Ausfallrisiken

Es muss nicht immer gleich eine Katastrophe sein, die den Einsatz einer professionellen IT-Dokumentationslösung sinnvoll macht. Sie kann auch dazu dienen, Kosten einzusparen und damit Geschäftsrisiken zu minimieren. Eine vollständige Erfassung aller IT-Assets in einem Rechenzentrum fördert dann auch schon mal Systeme zutage, die zwar laufen, aber keinerlei Verbindung zu anderen Systemen mehr haben, ohne dass das auffällt. Oder Systeme, von denen niemand mehr weiss, welche Aufgabe sie haben, und bei denen die IT-Abteilung sich nicht traut, sie abzuschalten. Solche Systeme systematisch zu finden und abzuschalten, gelingt erst, wenn Hardware-Verbindungen wie auch die Software-Anbindung erfasst sind. IT-Infrastruktur-Management-Anwendungen können anschliessend prüfen, welche Systeme von anderen Systemen abhängen. Ganz ähnlich verhält es sich mit gering ausgelasteten Systemen, deren Serverlast sich auf anderen Servern verteilen lässt, um sie abzuschalten und Kosten sowie Energie zu sparen.

risiken einer it infrastruktur erkennen und managen2
Eine professionelle IT-Dokumentationslösung stellt Racks mit allen bestückten Geräten fotorealistisch dar und visualisiert auch deren Verbindungen.

Hotspots treiben die Klimakosten in die Höhe

Generell unterschätzen einige RZ-Betreiber auch die Einsparmöglichkeiten durch Vermeidung von Hotspots: Stehen hochbelastete Systeme eng beieinander, kann das zu einem Hitze-Hotspot führen. Drohen die Geräte die Temperaturschwelle zum maximal Erlaubten zu überschreiten, muss die Klimaanlage gegensteuern, um die Temperatur im Serverraum zu halten, obwohl nur einzelne Geräte betroffen sind. Der Stromverbrauch steigt dafür aber enorm an. Sehr wahrscheinlich würden die Temperaturen nicht erreicht, wenn die ausgelasteten Systeme besser im Raum verteilt wären. Das hätte zur Folge, dass die Klimaanlage mit geringerer Leistung laufen kann, was Strom spart und der Nachhaltigkeit dient. Solche Hotspots kann eine professionelle IT-Dokumentationslösung wie die FNT Command Platform finden.

risiken einer it infrastruktur erkennen und managen
Eine Visualisierung der Temperaturverteilung im Rechenzentrum hilft, Hotspots zu erkennen und zu vermeiden. Bild: FNT

Schnelle Lokalisierung und Abhilfe bei unvorhersehbaren Ausfällen

Dass ein Server oder Switch ausfällt, ist in der Praxis manchmal unausweichlich. Theoretisch liessen sich solche Systeme so weit redundant auslegen, dass immer eine Ersatzkomponente bereitsteht und einspringt. Diese Herangehensweise ist aber selten wirtschaftlich abbildbar, da sie zu viel nicht produktives Kapital bindet. Dass ein Ausfall passiert, lässt sich also nicht immer vermeiden. Vermeidbar ist jedoch ein Chaos, wenn er eintritt. Eine professionelle IT-Dokumentationslösung kann in Sekunden anzeigen, wo das betroffene System steht und welche Ersatz-IT-Komponenten übernehmen können. Damit kann ein Technikerteam losgeschickt werden, um die Lage vor Ort zu inspizieren und sofort Reparaturen vorzunehmen. Das System liefert ausserdem wichtige Informationen, welche Services und Anwendungen vom Ausfall betroffen sind, und kann die Verantwortlichen dabei unterstützen, entsprechende Konfigurationsänderungen vorzunehmen, um Anwendungen auf funktionierende Systeme zu verlagern. Damit kann der Ausfall in Minuten kompensiert und weitere Reparaturen veranlasst werden.

Digitaler Zwilling zur Planungsunterstützung

Ein professionelles IT-Dokumentationstool kann darüber hinaus auch wie ein digitaler Zwilling agieren: IT-Verantwortliche können damit Szenarien erstellen, die unter anderem den Ausfall eines Systems simulieren und anschliessend auswerten, wie sich die Umstellung auf Bandbreite, Stromverbrauch, Klimaleistung und sogar CO2-Verbrauch auswirkt. Damit können sie testen, ob Redundanzen ausreichen, um im Falle eines Ausfalls handlungsfähig zu bleiben.

Maximale Transparenz notwendig

Das Management von Ausnahmesituationen bedingt eine lückenlose Transparenz über alle Systeme und Vernetzungen in einem Unternehmen. Denn auch (hybride) Cloud- Systeme besitzen häufig Abhängigkeiten zu On-Premise-Anwendungen. Verschiedene Standorte teilen sich eventuell Server-Systeme oder Verbindungen ins Internet. Eine umfassende Übersicht ist die Grundlage, um in kritischen Situationen die richtigen Entscheidungen zu fällen, ohne unbeabsichtigt weitere Problemfälle zu erzeugen.

Über FNT

Die FNT GmbH mit Hauptsitz in Ellwangen (Jagst) vereinfacht mit ihrer FNT Command Platform das Management von hochkomplexen digitalen Infrastrukturen in Unternehmen und Behörden. Sowohl IT-, Telekommunikations- als auch Rechenzentrumsinfrastrukturen lassen sich mit der Cloud-fähigen «Software made in Germany» effizient als digitaler Zwilling erfassen und über alle Ebenen vom Gebäude bis zum digitalen Service dokumentieren. Die Software bietet zudem offene Schnittstellen und zahlreiche Funktionen, um Transformationen und Changes integriert zu planen, umzusetzen und zu automatisieren. Zu den Kunden von FNT zählen mehr als 500 Unternehmen und Behörden weltweit, darunter mehr als die Hälfte der im DAX-40 notierten Konzerne. FNT betreibt Niederlassungen an mehreren Standorten in Deutschland sowie in New York, London, Singapur und Timisoara und verfügt über ein internationales Partnersystem mit den marktführenden IT-Service-Providern und Systemintegratoren. ■

FNT GmbH, DE-73479 Ellwangen (Jagst)
✆ +49 (0) 7961 9039 0
Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein., www.fntsoftware.com

Download Beitrag

Jobpartner

Wir verwenden Cookies auf unserer Website. Einige von ihnen sind für den Betrieb der Website von wesentlicher Bedeutung, während andere uns dabei helfen, diese Website und die Benutzererfahrung zu verbessern (Tracking-Cookies). Sie können selbst entscheiden, ob Sie Cookies zulassen möchten oder nicht. Bitte beachten Sie, dass Sie möglicherweise nicht alle Funktionen der Website nutzen können, wenn Sie sie ablehnen.