High Availability (HA) Cluster in der Fertigung

Geschrieben von Symestic | Feb 26, 2026 9:28:29 PM

Definition: Ein High Availability (HA) Cluster ist ein Verbund aus mehreren Servern oder Instanzen, die gemeinsam einen Dienst bereitstellen, um die Systemverfügbarkeit bei Hardware- oder Softwarefehlern zu maximieren. Durch automatische Failover-Mechanismen übernimmt beim Ausfall eines Knotens sofort ein redundanter Partner, wodurch Betriebsunterbrechungen für kritische Applikationen wie MES oder SCADA eliminiert oder minimiert werden.

Das Prinzip der „No Single Point of Failure“-Architektur

In der industriellen IT ist die Hochverfügbarkeit (High Availability) der entscheidende Faktor für die Resilienz der Wertschöpfungskette. Ein HA-Cluster basiert auf der Eliminierung von Single Points of Failure (SPOF). Das bedeutet, dass keine einzelne Komponente – sei es ein Netzteil, eine Netzwerkkarte oder ein kompletter Server – den Stillstand des gesamten Systems herbeiführen darf.

Ein HA-Cluster besteht typischerweise aus mindestens zwei Knoten (Nodes). Diese überwachen sich gegenseitig über einen sogenannten „Heartbeat“. Bleibt das Signal eines Knotens aus, initiiert das Cluster-Management-System einen Failover. Der Dienst wird auf einem gesunden Knoten neu gestartet oder fortgeführt. Für die angeschlossenen SPS-Steuerungen und Terminals am Shopfloor bleibt dieser Vorgang im Idealfall vollkommen transparent.

Technischer Vergleich: HA-Cluster vs. Backup vs. Disaster Recovery

Oft werden diese Begriffe fälschlicherweise synonym verwendet. Für die strategische Planung der IT-Infrastruktur ist die Abgrenzung jedoch essenziell:

Merkmal	High Availability (HA)	Backup	Disaster Recovery (DR)
Primärziel	Minimierung der Downtime	Schutz vor Datenverlust	Wiederherstellung nach Katastrophe
Wiederanlaufzeit (RTO)	Sekunden bis Minuten	Stunden bis Tage	Tage bis Wochen
Datenaktualität (RPO)	Echtzeit (nahe 0)	Letzter Sicherungszeitpunkt	Stunden bis Tage
Kosten	Hoch (Redundante Hardware)	Gering	Mittel bis Hoch
Anwendung	Laufender Betrieb (MES, ERP)	Archivierung / Historie	Brand, Flut, Cyberangriff

Die „Split-Brain“-Falle: Typische Fehler in der HA-Implementierung

Ein häufiger und fataler Fehler bei der Einrichtung von HA-Clustern ist das sogenannte Split-Brain-Szenario. Wenn die Kommunikationsverbindung (Heartbeat) zwischen zwei Knoten unterbrochen wird, beide Server aber noch laufen, glauben beide, der jeweils andere sei ausgefallen.

Praxis-Warnung: In diesem Zustand versuchen beide Knoten gleichzeitig, auf dieselben Datenbestände oder IP-Adressen zuzugreifen. Dies führt unweigerlich zu massiver Datenkorruption.

Lösung: Ein Tier-A-Setup nutzt immer einen sogenannten Quorum-Mechanismus (oder Witness). Eine dritte, unabhängige Instanz entscheidet im Zweifelsfall, welcher Knoten die „Lufthoheit“ behält. Ohne ein korrekt konfiguriertes Quorum ist ein HA-Cluster ein Sicherheitsrisiko statt eines Schutzschildes.

Praxisbeispiel: Hochverfügbarkeit für die Traceability

Stellen Sie sich eine vollautomatisierte Montagelinie in der Automobilindustrie vor. Jedes Bauteil muss vor dem nächsten Prozessschritt gegen eine Datenbank (MES) geprüft werden (Traceability).

Fällt der zentrale Datenbank-Server aus, kann kein Bauteil mehr verifiziert werden – die gesamte Linie steht still.

Ohne HA: Der IT-Admin muss den Server manuell neu starten oder ein Backup einspielen. Stillstandzeit: 2 Stunden. Kosten: 50.000 €.
Mit HA-Cluster: Der passive Knoten erkennt den Hardware-Defekt des aktiven Knotens nach 5 Sekunden. Er übernimmt die IP-Adresse und die Datenbankdienste. Die Fertigung läuft ohne Unterbrechung weiter.

FAQ: Häufige Fragen zu High Availability in der Produktion

1. Brauche ich für HA-Cluster immer identische Hardware?

Es ist dringend zu empfehlen. Zwar erlauben moderne Software-Layer (wie VMware vSphere oder Proxmox) unterschiedliche Hardware, doch im Failover-Fall muss der Ersatzknoten die volle Last der Produktion tragen können. Heterogene Umgebungen führen oft zu unvorhersehbarem Leistungsabfall (Performance Degradation).

2. Was ist der Unterschied zwischen Active/Active und Active/Passive?

In einem Active/Passive-Cluster schläft der Ersatzknoten und wird nur im Fehlerfall aktiv. In einem Active/Active-Setup verteilen beide Knoten die Last (Load Balancing). Fällt einer aus, übernimmt der andere die restlichen 100 %. Letzteres ist effizienter, aber komplexer in der Daten-Synchronisation.

3. Schützt ein HA-Cluster vor Ransomware?

Nein. Ein HA-Cluster repliziert Fehler und verschlüsselte Daten in Echtzeit auf den Partnerknoten. Wenn ein Virus Daten löscht, geschieht dies auf beiden Knoten gleichzeitig. Hierfür ist ein offline-gesichertes Backup zwingend erforderlich.

4. Ist eine Cloud-Lösung automatisch hochverfügbar?

Nicht zwangsläufig. Auch Cloud-Anbieter bieten verschiedene Verfügbarkeitsklassen an. Für echte industrielle Hochverfügbarkeit müssen Dienste über mehrere „Availability Zones“ (physisch getrennte Rechenzentren) verteilt werden.

Strategischer Mehrwert und ROI

Der ROI eines HA-Clusters berechnet sich simpel über die vermiedenen Stillstandskosten. Ein System, das die Verfügbarkeit von 99,0 % (ca. 3,6 Tage Ausfall pro Jahr) auf 99,99 % (ca. 52 Minuten Ausfall pro Jahr) hebt, amortisiert sich in der Regel bereits beim ersten verhinderten Linienstopp. Zudem sichert ein HA-Cluster die [Schedule Adherence], da ungeplante IT-Wartungsfenster oder Spontanausfälle den Produktionsplan nicht mehr gefährden.

Vollständigen Beitrag anzeigen