Nachrichten
 
Auch mit den besten Schutzmaßnahmen bleibt die totale Sicherheit illusorisch. Ein mehr oder weniger gravierender Unfall kann zu jedem Zeitpunkt passieren. In diesem Fall muss man schnell reagieren können, um die Schäden einzudämmen und das System wieder anlaufen zu lassen.
Der Wiederanlaufplan (Recovery Plan) ist die Kunst, zu fallen, ohne sich (allzu schwer) zu verletzen, und danach schnell und stark wieder aufzustehen.
Der Organisation erlaubt der Wiederanlaufplan, schnell zu einer Alternativprozedur zu wechseln, falls der normale Betrieb nicht mehr möglich ist. Zum Beispiel, indem auf eine alternative EDV-Struktur zurückgegriffen wird, welche das Bestehen der Aktivität garantiert.
Das Erstellen eines Wiederanlaufplans ist eine spannende Herausforderung, denn man muss sich im Vorfeld einige Fragen stellen, wie zum Beispiel:
  • Welche Aktivitäten sind für das Überleben des Betriebs unentbehrlich?
  • Auf welche Daten muss für diese Aktivitäten zugegriffen werden?
  • Welchen Risiken sind die Daten dabei ausgesetzt?
Die letzte Frage setzt eine gewisse Vorstellungskraft voraus, denn von bereits bekannten Risiken einmal abgesehen, gibt es viele, die noch unbekannt sind und/oder schwer nachvollziehbar. 
Sobald die kritischen Daten identifiziert sind, müssen zwei Strategien definiert werden: RTO und RPO. Worum handelt es sich dabei?
RTO bezeichnet die maximal zulässige Zeit, während der eine EDV-Ressource aufgrund eines Zwischenfalls nicht verfügbar sein kann (Return Time on Objective).
RPO  ist der maximal zulässige Datenverlust (Recovery Point Objective). Er wird, genau wie die RTO, in Stunden und Minuten ausgedrückt, denn er ergibt sich aus der Differenz zwischen dem letzten Backup und dem Zwischenfall.


Zeit ist Geld

Sehr kurze RTOs und RPOs (weniger als eine Minute zum Beispiel) sind oft viel kostspieliger als höhere Toleranzgrenzen, da sie Speichermaßnahmen fast in Echtzeit voraussetzen.
Wurden diese beiden Werte erst einmal festgelegt, müssen adäquate Reaktionen auf identifizierte Risiken ins Auge gefasst werden. Diese begreifen normalerweise Maßnahmen wie Sicherungskopien, Ersatzmaterial, redundante EDV-Mittel, einen Ausweich-Standort,...
RTO und RPO sind normalerweise den Verhandlungen ausgesetzt zwischen den Verantwortlichen der betreffenden Bereiche, die am besten das Limit kennen, das sie nicht überschreiten dürfen, ohne das Business zu gefährden, und dem EDV-Verantwortlichen, der eine präzisere Kenntnis der technischen Kapazitäten des Betriebs hat.
Im Anschluss an diese Konfrontation zwischen „Business“ und „Informatik“  kann eine Studie der technischen und finanziellen Lösungen durchgeführt werden.
 

Bestandsaufnahme: Der erste Schritt

Der Wiederanlaufplan muss als Element des Risikomanagements angesehen werden und benötigt dementsprechend eine präzise Bestandsaufnahme der Werte. Diese Bestandsaufnahme erlaubt es, die Werte zu klassifizieren, um zum Beispiel zwischen vitalen, kritischen oder Standard-Applikationen zu unterscheiden.
Sie erlaubt außerdem, die Wartung von Material und Applikationen zu optimieren, und so diversen Zwischenfällen vorzubeugen.
Manche Wiederanlaufpläne sehen auch die Konstruktion eines „Ausweich-Standorts“ vor, welcher den Betrieb übernimmt, falls es auf dem Hauptstandort zur Katastrophe kommt. In diesem Fall ist das Ersatzmaterial ständig einsatzbereit. Im Wiederanlaufplan muss diese Krisensituation berücksichtigt werden, die in der Regel jedoch nur von sehr kurzer Dauer ist.
Um mehr über den Wiederanlaufplan zu erfahren, lesen Sie unseren technischen Steckbrief.

Szenario: Größerer Brand im Serverraum

Im Vorfeld wurden durch die Risikoanalyse mehrere Schwachstellen im Serverraum, der die vitalen Daten des Unternehmens beherbergt, ermittelt. Es gibt weder einen Rauchmelder noch einen automatischen Brandlöscher. Außerdem wird das Backup-System im selben Raum beherbergt, wie die Server selbst.

Generelles Thema: Ein Kurzschluss führt zur totalen Zerstörung des Serverraums.
Der Zwischenfall:
Der Betriebsleiter hat entschieden, dass Renovierungen an der Elektrik durchgeführt werden. Am Vorabend des Wochenendes versäumt es ein Techniker, der am Schaltkasten im Serverraum arbeitet, diesen an die Sicherung anzuschließen. In der Nacht von Freitag auf Samstag führt eine durch einen falschen Kontakt erzeugte Überhitzung zu einem Feuer, das den ganzen Serverraum zerstört. Erschwerend kommt hinzu, dass das Backup-System sich im gleichen Serverraum befindet. Es wird jedoch monatlich eine Sicherungskopie im Safe eines Nebengebäudes hinterlegt.

Komponenten des Szenarios :
  • Quelle des Problems: Brand
  • Bedrohung: Unvorsichtigkeit eines Arbeiters
  • Schwachstellen: Kein Feuermelder, kein automatisches Löschsystem
  • Betroffene EDV-Systeme: Netzwerk + Server + Backup
  • Unmittelbare Folge: Verlust der Verfügbarkeit
  • Mögliche Auswirkungen auf die Organisation: Betriebsverluste - finanzielle Verluste
Zu testende Elemente
Auf Basis der im Tresor des Nebengebäudes befindlichen Backups:
  • Sind wir in der Lage, die RPO einzuhalten?
  • Sind wir in der Lage, die RTO einzuhalten?
Gegenmaßnahmen / zu testende technische Lösungen  :
  • Sind wir für den Wiederanlauf der Anwendungen in der Lage:
    • ein provisorisches oder ein Ersatzrechenzentrum zu benutzen?
    • Stehen menschliche Ressourcen zur Verfügung und verfügen sie über die notwendigen Kenntnisse, um die Infrastruktur wieder aufzubauen?
  • Ist der Anbieter in der Lage das SLA ("Service Level Agreement"), falls ein solches existiert, für die Lieferung von Ersatzteilen zu einzuhalten?
 Siehe auch: Sicherheit für KMUs - Infrastruktur und ihre Bedrohungen