Definition: Ein High Availability (HA) Cluster ist ein Verbund aus mehreren Servern oder Instanzen, die gemeinsam einen Dienst bereitstellen, um die Systemverfügbarkeit bei Hardware- oder Softwarefehlern zu maximieren. Durch automatische Failover-Mechanismen übernimmt beim Ausfall eines Knotens sofort ein redundanter Partner, wodurch Betriebsunterbrechungen für kritische Applikationen wie MES oder SCADA eliminiert oder minimiert werden.
In der industriellen IT ist die Hochverfügbarkeit (High Availability) der entscheidende Faktor für die Resilienz der Wertschöpfungskette. Ein HA-Cluster basiert auf der Eliminierung von Single Points of Failure (SPOF). Das bedeutet, dass keine einzelne Komponente – sei es ein Netzteil, eine Netzwerkkarte oder ein kompletter Server – den Stillstand des gesamten Systems herbeiführen darf.
Ein HA-Cluster besteht typischerweise aus mindestens zwei Knoten (Nodes). Diese überwachen sich gegenseitig über einen sogenannten „Heartbeat“. Bleibt das Signal eines Knotens aus, initiiert das Cluster-Management-System einen Failover. Der Dienst wird auf einem gesunden Knoten neu gestartet oder fortgeführt. Für die angeschlossenen SPS-Steuerungen und Terminals am Shopfloor bleibt dieser Vorgang im Idealfall vollkommen transparent.
Oft werden diese Begriffe fälschlicherweise synonym verwendet. Für die strategische Planung der IT-Infrastruktur ist die Abgrenzung jedoch essenziell:
| Merkmal | High Availability (HA) | Backup | Disaster Recovery (DR) |
| Primärziel | Minimierung der Downtime | Schutz vor Datenverlust | Wiederherstellung nach Katastrophe |
| Wiederanlaufzeit (RTO) | Sekunden bis Minuten | Stunden bis Tage | Tage bis Wochen |
| Datenaktualität (RPO) | Echtzeit (nahe 0) | Letzter Sicherungszeitpunkt | Stunden bis Tage |
| Kosten | Hoch (Redundante Hardware) | Gering | Mittel bis Hoch |
| Anwendung | Laufender Betrieb (MES, ERP) | Archivierung / Historie | Brand, Flut, Cyberangriff |
Ein häufiger und fataler Fehler bei der Einrichtung von HA-Clustern ist das sogenannte Split-Brain-Szenario. Wenn die Kommunikationsverbindung (Heartbeat) zwischen zwei Knoten unterbrochen wird, beide Server aber noch laufen, glauben beide, der jeweils andere sei ausgefallen.
Praxis-Warnung: In diesem Zustand versuchen beide Knoten gleichzeitig, auf dieselben Datenbestände oder IP-Adressen zuzugreifen. Dies führt unweigerlich zu massiver Datenkorruption.
Lösung: Ein Tier-A-Setup nutzt immer einen sogenannten Quorum-Mechanismus (oder Witness). Eine dritte, unabhängige Instanz entscheidet im Zweifelsfall, welcher Knoten die „Lufthoheit“ behält. Ohne ein korrekt konfiguriertes Quorum ist ein HA-Cluster ein Sicherheitsrisiko statt eines Schutzschildes.
Stellen Sie sich eine vollautomatisierte Montagelinie in der Automobilindustrie vor. Jedes Bauteil muss vor dem nächsten Prozessschritt gegen eine Datenbank (MES) geprüft werden (Traceability).
Fällt der zentrale Datenbank-Server aus, kann kein Bauteil mehr verifiziert werden – die gesamte Linie steht still.
1. Brauche ich für HA-Cluster immer identische Hardware?
Es ist dringend zu empfehlen. Zwar erlauben moderne Software-Layer (wie VMware vSphere oder Proxmox) unterschiedliche Hardware, doch im Failover-Fall muss der Ersatzknoten die volle Last der Produktion tragen können. Heterogene Umgebungen führen oft zu unvorhersehbarem Leistungsabfall (Performance Degradation).
2. Was ist der Unterschied zwischen Active/Active und Active/Passive?
In einem Active/Passive-Cluster schläft der Ersatzknoten und wird nur im Fehlerfall aktiv. In einem Active/Active-Setup verteilen beide Knoten die Last (Load Balancing). Fällt einer aus, übernimmt der andere die restlichen 100 %. Letzteres ist effizienter, aber komplexer in der Daten-Synchronisation.
3. Schützt ein HA-Cluster vor Ransomware?
Nein. Ein HA-Cluster repliziert Fehler und verschlüsselte Daten in Echtzeit auf den Partnerknoten. Wenn ein Virus Daten löscht, geschieht dies auf beiden Knoten gleichzeitig. Hierfür ist ein offline-gesichertes Backup zwingend erforderlich.
4. Ist eine Cloud-Lösung automatisch hochverfügbar?
Nicht zwangsläufig. Auch Cloud-Anbieter bieten verschiedene Verfügbarkeitsklassen an. Für echte industrielle Hochverfügbarkeit müssen Dienste über mehrere „Availability Zones“ (physisch getrennte Rechenzentren) verteilt werden.
Der ROI eines HA-Clusters berechnet sich simpel über die vermiedenen Stillstandskosten. Ein System, das die Verfügbarkeit von 99,0 % (ca. 3,6 Tage Ausfall pro Jahr) auf 99,99 % (ca. 52 Minuten Ausfall pro Jahr) hebt, amortisiert sich in der Regel bereits beim ersten verhinderten Linienstopp. Zudem sichert ein HA-Cluster die [Schedule Adherence], da ungeplante IT-Wartungsfenster oder Spontanausfälle den Produktionsplan nicht mehr gefährden.