DIVERA 24/7 - Eingeschränkte Erreichbarkeit der API – Details zu Vorfällen

Alle Systeme funktionieren

Eingeschränkte Erreichbarkeit der API

Gelöst
Teilausfall 20 %
Aufgetreten am vor 4 TagenDauerte etwa 4 Stunden

Betroffen

Hauptsysteme

Teilausfall aus 12:59 PM bis 1:10 PM, Beeinträchtigte Leistung aus 1:10 PM bis 1:48 PM, Funktionsfähig aus 1:48 PM bis 5:21 PM

DIVERA 24/7 (API + Web-App)

Teilausfall aus 12:59 PM bis 1:10 PM, Beeinträchtigte Leistung aus 1:10 PM bis 1:48 PM, Funktionsfähig aus 1:48 PM bis 5:21 PM

Schnittstellen

Funktionsfähig aus 12:59 PM bis 2:08 PM, Beeinträchtigte Leistung aus 2:08 PM bis 5:21 PM

Alarmserver (E-Mail Auswertung)

Funktionsfähig aus 12:59 PM bis 2:08 PM, Beeinträchtigte Leistung aus 2:08 PM bis 5:21 PM

Aktualisierung
  • Gelöst
    Gelöst

    Die Mitigationsarbeiten wurden abgeschlossen. Auch der Alarmserver (eingehende E-Mail Verarbeitung) berücksichtigt nun wieder die aktuellen Einstellungen für Postfächer.

    Es kam zwischen 13:59 Uhr und 14:10 Uhr für ca. 1,5% der Anfragen zu Verbindungsfehlern. Ursache war eine dauerhafte Netzwerkstörung zu einem Server. Durch unser Monitoring, die automatisierten Verteilungseffekte, sowie die vorbereiteten Prozesse, konnten sehr schnell Maßnahmen ergriffen werden, die die Auswirkungen stark eingeschränkt haben.

    Desweiteren kam es zwischen 13:59 Uhr und 14:48 Uhr zu einer langsameren Verarbeitung von Alarmierungen über den Leitstellen-Account.

    In den nächsten Tagen werden erneut weitere Analysen und Wartungsarbeiten durchgeführt, um Beeinträchtigungen bei Netzwerkstörungen zu minimieren.

  • Update
    Update

    Während der laufenden Wartungsarbeiten zur Wiedereingliederung eines Servers nach seiner Störung, werden neue Änderungen an den Alarmserver-Einstellungen, sowie neue RICs seit 15:08 Uhr teilweise nicht berücksichtigt. Wir informieren hier, sobald wir die Arbeiten abgeschlossen haben.

    Betroffen ist nur die Alarmierung per E-Mail, wenn neue Zuweisungsregeln (RICs) oder Einstellungen an den erlaubten Absendern seit 15:08 Uhr vorgenommen werden.

  • Überprüfung
    Überprüfung

    Wir haben um 14:41 Uhr eine Maßnahme eingeleitet, um die langsamere Abarbeitung der Alarmierungen zu beheben, seit 14:48 Uhr zeichnen unsere Metriken keine Verzögerungen mehr auf. Zuvor kam es für 95% der Alarmierungen über den Leitstellen-Account zu Verzögerungen zwischen 1-4 Sekunden, in einzelnen Fällen konnte es einige Sekunden länger dauern.

  • Identifizierung
    Identifizierung

    Wir haben um 14:01 Uhr die Ursache identifizieren können und Maßnahmen ergriffen, um einen von einer Störung betroffenen Server aus dem Serververbund zu isolieren. Diese haben dazu geführt haben, dass sich die Fehlerquote bei den Verbindungen bis 14:05 Uhr deutlich reduziert hat. Seit 14:10 Uhr kommt es zu keinen Verbindungsfehlern mehr.

    Aktuall kann es zu längerer Verarbeitungszeit und damit kurzen Verzögerungen von wenigen Momenten bei der Alarmierung kommen. Wir arbeiten weiter an der langfristigen Behebung und Wiedereingliederung des betroffenen Systems.

  • Analyse
    Analyse

    Unser Monitoring meldet uns, dass es aktuell seit 13:59 Uhr zu teilweisen Fehlern beim Aufruf unserer API kommt. Wir arbeiten an der Störungsanalyse und Mitigation.