E-Mail läuft, aber die Zustellung hakt: Der unterschätzte Einfluss von Latenzen

Der Nachrichtenfluss funktioniert. Zumindest meldet das der Exchange-Server. Es gibt keine Services im Fehlerzustand, keine NDRs oder Beschwerde-E-Mails vom Helpdesk. Trotzdem wartet im Vertrieb jemand seit zwanzig Minuten auf eine Antwort, die längst verschickt wurde. Noch schlimmer ist es im Trading- oder Buchhaltungsbereich, wo E-Mails zeitkritische Prozesse steuern. Dort sammeln sich Nachrichten in einer Queue, die niemand überwacht.

Latenzen im Exchange-Nachrichtenfluss gehören zu den hinterhältigsten Problemen, denen Exchange-Administratoren begegnen. Es handelt sich nicht um einen Ausfall, keinen Hard Bounce oder klassischen Fehler; sie treten einfach, unbemerkt, langsam auf, oft über Stunden. Dieser Artikel erklärt, wo Latenzen entstehen, warum einzelne Serverumgebungen und Multi-Site-Architekturen mit DAGs unterschiedliche Risikoprofile aufweisen und worauf es beim Monitoring wirklich ankommt.

Wo beginnt die Latenz eigentlich?

Bevor wir die Szenarien anschauen, ist ein kurzer Überblick über die Grundabläufe hilfreich. Eine E-Mail, die an deinen Exchange-Server gesendet oder von ihm empfangen wird, durchläuft mehrere Schritte: Sie wird vom Frontend-Transportdienst angenommen, an den Transportdienst weitergeleitet, in der Queue-Datenbank gespeichert, an den Postfach-Transportdienst weitergegeben und schließlich im Postfach zugestellt. An jeder dieser Stationen können Verzögerungen auftreten, die nicht immer sofort erkennbar sind.

Auf der Gegenseite, beim ausgehenden Nachrichtenfluss, treten die Sendekonnektoren, die DNS-Auflösung, die TLS-Aushandlung, das Throttling und schließlich die Zustellung an den Empfänger-MTA in den Vordergrund. Auch hier gibt es viele Stellen, an denen der Ablauf still und unbemerkt ins Stocken gerät.

Externe Kommunikation: Wenn Mails die Organisation verlassen

Der ausgehende Mailflow an externe Empfänger ist oft der erste Bereich, in dem Latenzen sichtbar werden. Jedoch selten dort, wo man sie zuerst vermutet. Typische Ursachen sind:

  • DNS-Probleme beim Lookup der MX-Records der Zieldomäne
    Langsame oder fehlerhafte DNS-Auflösung verlängert die Zustellzeit erheblich. Exchange protokolliert solche Fehler im Protokoll des SMTP-Connectors, aber wer schaut dort schon regelmäßig rein?
  • TLS-Verhandlung und Zertifikatsprüfung
    Wenn die Gegenstelle ein ungültiges oder abgelaufenes Zertifikat präsentiert oder TLS-Versionsanforderungen nicht erfüllt, schlägt die Verbindung fehl oder wird auf opportunistisches TLS zurückgestuft. Das kostet Zeit.
  • Throttling durch den Empfänger-MTA
    Viele E-Mail-Provider beschränken eingehende Verbindungen, wenn die Verbindungsrate zu hoch ist oder die IP-Adresse einen schlechten Ruf hat. Exchange versucht dann mehrfach, die Mails zuzustellen, weshalb sie in der Retry-Queue landen.
  • Back Pressure
    Wenn Ressourcen wie Arbeitsspeicher, Festplattenplatz der Transportdatenbank oder CPU auf dem Exchange-Server einen festgelegten Schwellenwert überschreiten, reduziert Exchange aktiv die Annahme neuer Nachrichten. Dies dient dem Schutz des Servers, ohne dass Sender oder Empfänger direkt bemerken, außer durch Verzögerungen.

Beim eingehenden Mailflow von extern ist es ähnlich: Der MX-Eintrag zeigt korrekt auf den Exchange-Server, der SMTP-Service nimmt Verbindungen entgegen, alles ist grün. Aber wenn der Empfangsconnector nicht korrekt konfiguriert ist, Protokollierungsgrenzen greifen oder der Postfach-Transportdienst ins Stottern kommt, entstehen Warteschlangen, die zunächst niemand bemerkt.

Hybrider Nachrichtenverkehr: Wenn die eigene Cloud zur Gegenstelle wird

In Hybrid-Umgebungen gibt es eine zusätzliche Ebene. Nachrichten zwischen lokalen Postfächern und Exchange Online-Konten im eigenen Microsoft 365-Mandanten werden über spezielle Send- und Receive-Connectoren gesendet, die vom Hybrid Configuration Wizard eingerichtet werden. Obwohl diese Lösung technisch effizient ist, kann sie auch eine häufig übersehene Ursache für Latenz sein.

Ein typisches Szenario: Eine Person mit einem On-Premises-Postfach schreibt an eine Kollegin oder einen Kollegen mit einem Exchange Online-Postfach. Die Nachricht verlässt den Exchange-Server, wird an Exchange Online Protection (EOP) übergeben, dort gefiltert und schließlich im Cloud-Postfach zugestellt. Klingt einfach. Wird es aber dann nicht, wenn:

  • das Connector-Zertifikat auf einer der beiden Seiten abgelaufen oder fehlerhaft ist,
  • die TLS-Konfiguration zwischen Exchange Server und EOP nicht mehr übereinstimmt,
  • die Hybridverbindung durch einen zwischengeschalteten Drittsystem-MTA unterbrochen wird, der Nachrichten modifiziert und damit die Vertrauensstellung bricht,
  • Microsoft-seitig Throttling aktiv ist, weil der On-Premises-Server als veraltet eingestuft wird, ein wachsendes Risiko für Umgebungen, die noch nicht auf Exchange Server SE migriert haben.

Das Problem bei diesen Szenarien ist, dass der Exchange-Server keinen Fehler meldet. Er versucht die Zustellung, durchläuft den Retry-Zyklus und wartet ab. Im Microsoft 365 Admin Center fällt häufig nichts auf. Ohne ein Monitoring-Tool, das sowohl den Versand- als auch den Empfangsprozess überwacht, bleibt die Ursache unentdeckt.

Einzel-Server-Umgebung vs. Multi-Site mit DAG: Zwei verschiedene Risikoprofile

Nicht jede Exchange-Umgebung ist gleich. Die Frage, ob ein Einzel-Exchange-Server oder eine Multi-Site-Umgebung mit einer Datenbankverfügbarkeitsgruppe (DAG) betrieben wird, hat erheblichen Einfluss darauf, wo Latenzen entstehen — und wie schnell sie eskalieren.

Einzel-Server-Umgebungen

In einer Einzelserver-Umgebung befinden sich alle Komponenten wie Postfachdatenbanken, Transportdatenbank und Clientzugriffsdienste auf einem einzigen System. Diese Architektur ist übersichtlich, aber auch anfällig. Bei hoher Festplattenlast, etwa durch intensive Datenbankaktivitäten, wachsende Transportqueues oder fehlenden Speicherplatz, leidet Exchange auf mehreren Ebenen gleichzeitig. Back Pressure wird aktiviert, die Zustellung verzögert sich, und im schlimmsten Fall werden Nachrichten verworfen.

Hier eine oft unterschätzte, aber wichtige Empfehlung: Die Transportdatenbank sollte auf einem eigenen, dedizierten Volume liegen, getrennt von den Postfachdatenbanken und vom Betriebssystem. Da die Transportdatenbank kontinuierlich und intensiv schreibt, konkurriert sie bei gemeinsamer Nutzung desselben Volumens direkt mit anderen Datenbankdateien um I/O-Ressourcen. Das führt zu spürbaren Latenzen, und ein Monitoring, das nur die Erreichbarkeit überprüft, erkennt diese Konkurrenz zwischen unterschiedlichen Nutzungsverhältnissen nicht.

Multi-Site-Umgebungen mit DAG

Wenn man mehrere Exchange-Server in einer oder mehreren DAGs betreibt, erhöht das die Hochverfügbarkeit, bringt aber auch zusätzliche Komplexität in die Umgebung. Ein oft unterschätzter Aspekt ist dabei das Log Shipping.

DAGs replizieren Postfachdatenbanken zwischen den Mitgliedsservern mithilfe eines kontinuierlichen Log-Shipping-Verfahrens. Transaktionsprotokolldateien werden per SMTP vom aktiven auf den passiven Knoten übertragen und dort eingespielt. Das klingt zunächst nach einem Hintergrundprozess, ist es aber technisch gesehen auch. Wenn das Log Shipping jedoch ins Stocken gerät, hat das direkte Konsequenzen:

  • Der Replikationsrückstand (Copy Queue Length und Replay Queue Length) nimmt zu. Bei einem Failover übernimmt eine Datenbankkopie, die möglicherweise nicht aktuell ist, was zu Datenverlust oder manuellen Wiederherstellungsmaßnahmen führen kann.
  • In Multi-Site-Szenarien, in denen aktive und passive Kopien an unterschiedlichen Standorten laufen, spielt die Netzwerklatenz zwischen den Standorten eine entscheidende Rolle. Hohe Latenz oder Paketverluste zwischen den Sites verzögern das Log Shipping und erhöhen den Replikationsrückstand.
  • Wenn das Log Shipping dauerhaft blockiert ist, beispielsweise durch einen Netzwerkunterbruch zwischen den Standorten, und Exchange einen automatischen Failover durchführt, kann der Mailfluss vorübergehend vollständig zum Stillstand kommen, bis ein neuer aktiver Knoten die Zustellung übernimmt.

Das Monitoring einer DAG-Umgebung muss daher deutlich tiefer gehen als das bloße Prüfen der Serviceverfügbarkeit. Copy Queue Length und Replay Queue Length sind Schlüsselmetriken, die kontinuierlich im Blick behalten werden müssen. Werte über 10 für die Copy Queue und über 15 für die Replay Queue sind Warnsignale, die proaktives Handeln erfordern. Und das lange bevor ein tatsächliches Problem eskaliert.

In einer Multi-Server-DAG-Umgebung sollte die Transportdatenbank auf jedem Server auf einem separaten Volume liegen. Dies ist wichtig für die Performance im Normalbetrieb und auch während eines Failovers, wenn der übernehmende Server kurzfristig mehr Last bewältigen muss.

Hardware und Disk Performance: Die unsichtbare Bremse

Ob Einzelserver oder DAG: Physische Hardware bleibt eine Grundvoraussetzung für einen stabilen Mailflow. Festplattenperformance, insbesondere bei klassischen HDDs in Umgebungen ohne vollständiges SSD-Deployment, ist oft der limitierende Faktor. Exchange ist I/O-intensiv. Postfachdatenbanken, Transportdatenbanken, Protokolldateien und temporäre Verzeichnisse erzeugen fortlaufend Schreib- und Lesezugriffe.

Ein häufiges Muster: Der Server läuft seit Jahren stabil. Dann nimmt die Last zu, z.B.durch mehr Nutzerinnen und Nutzer, größere Anhänge und ein höheres E-Mail-Volumen, und auf einmal beginnen die Queues zu wachsen. Nicht dramatisch, nicht sofort auffällig, aber beständig. Performance-Countern wie Disk Latency (ms/Transfer) sollten in jedem Exchange-Monitoring prominent vertreten sein.

Ein Ping oder ein HTTP-Statuscheck auf OWA sagt hier gar nichts aus. Der Server antwortet, der Dienst ist erreichbar, aber die I/O-Latenz bei Datenbankoperationen liegt dreimal über dem empfohlenen Grenzwert. Das verdeutlicht, warum Level-7-Sichtbarkeit im Monitoring unerlässlich ist: Es geht nicht nur darum, ob der Service antwortet, sondern auch darum, ob er tatsächlich performant ist.

Monitoring: Der Unterschied zwischen Sehen und Verstehen

All diese Szenarien haben eines gemeinsam: Sie sind mit einfachen Erreichbarkeitstests nicht erkennbar. Ping kommt durch, OWA lädt, im Eventlog keine kritischen Events. Trotzdem hakt der Mailflow.

Professionelles Exchange-Monitoring muss deshalb mehrere Ebenen gleichzeitig abdecken:

  • Queue Health
    Kontinuierliche Überwachung der Transportqueues, inkl. Submission Queue, Delivery Queues und Shadow Redundancy. Wachsende Queues sind das erste Zeichen einer Zustellverzögerung.
  • Back Pressure Status
    Überwachung der Back-Pressure-Ressourcen (Speicherplatz der Transportdatenbank, verfügbarer Arbeitsspeicher, CPU-Auslastung). Back Pressure drosselt die Annahme aktiv, bevor ein harter Fehler entsteht.
  • DAG-Replikationsstatus
    Copy Queue Length und Replay Queue Length für alle Datenbankkopien, in Echtzeit. Abweichungen müssen sofort sichtbar sein.
  • Disk I/O-Latenz
    Schreib- und Lesewerte für alle Exchange-Volumes, insbesondere für die Transportdatenbank. Grenzwerte für Millisekunden-Latenz müssen definiert und überwacht werden.
  • Hybrid Mailflow
    End-to-End-Sichtbarkeit über On-Premises und Exchange Online. Nicht nur jeweils für sich, sondern als zusammenhängendes System.
  • Log Shipping Metriken
    Replikationsrückstand und Log-Shipping-Latenz zwischen DAG-Knoten, insbesondere in Multi-Site-Umgebungen mit Standort-zu-Standort-Netzwerkverbindungen.

Fazit

Latenzen im Exchange-Mailflow sind keine seltenen Randerscheinungen, sondern alltägliche Realität in wachsenden, alternden oder stark belasteten Umgebungen. Sie treten auf Infrastrukturebene (Hardware, I/O, Speicher), Transportebene (Queues, Back Pressure, Log Shipping) sowie Verbindungsebene (externe Gegenstellen, hybride Connectoren, TLS-Konfiguration) auf.

Einzelserver- und Multi-Site-DAG-Umgebungen weisen unterschiedliche Risikoprofile auf: Bei Einzelservern stehen hauptsächlich I/O-Konkurrenz und die Performance der Transportdatenbank im Fokus. In DAG-Umgebungen kommen zusätzlich die Replikationsgesundheit und das Log Shipping als kritische Aspekte hinzu. In beiden Fällen gilt stets: Die Transportdatenbank sollte auf einem dedizierten Volume liegen.

Wer erst dann reagiert, wenn Nutzer sich beschweren, hat bereits verloren. Proaktives Monitoring, das tief in die Exchange-Infrastruktur eintaucht und sowohl On-Premises- als auch Cloud-Welten verbindet, ist der einzige Weg, Latenzen zu erkennen, bevor sie zu Ausfällen führen.

Links

Kurz-URL | Short URL: https://granikos.eu/go/HKcT

Kommentar verfassen

Sie sehen gerade einen Platzhalterinhalt von Standard. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Entdecke mehr von Granikos GmbH & Co. KG

Jetzt abonnieren, um weiterzulesen und auf das gesamte Archiv zuzugreifen.

Weiterlesen