Statusmeldungen

Bei Systemstörungen oder Wartungsarbeiten informieren wir Sie proaktiv über den aktuellen Status. Wir empfehlen Ihnen, unseren Feed zu abonnieren:

Tech Feed

Zurück zu den aktuellen Statusmeldungen

zuletzt aktualisiert: 1. Februar 2023 um 23:41

Wartung Netzwerkinfrastruktur Datacenter

Art

Wartungsarbeit

Status

GESCHLOSSEN

Zeitspanne

01.02.2023, 19:30 CEST -
01.02.2023, 20:30 CEST

Downtime

max. 5min

Betroffen

Sämtliche Services

Details

Diesen Mittwoch-Abend 1. Februar ab 19:30 Uhr gehen wir mit unserer neuen Netzwerk-Infrastruktur live. Rechne bitte mit vereinzelten Unterbrüchen von wenigen Sekunden, im worst case mit maximal 5min Downtime.

Ein paar technische Details, falls es dich interessierst und du unsere Begeisterung teilen möchtest:

Es handelt sich hier um ein grösseres Projekt, das bereits zur Hälfte umgesetzt ist. Unsere Switches wurden am 25. Januar durch neue Modelle abgelöst, wobei es lediglich zu Unterbrüchen von wenigen Sekunden kam. Diesen Mittwoch werden wir auch unsere firewall appliances im HA-Setup durch neue leistungsfähigere Modelle ablösen und dabei von pfSense auf OPNsense umsteigen.

Primär geht es bei dieser Migration um eine noch bessere Ausfallssicherheit, welche durch eine komplett redundante Netzwerk-Infrastruktur erzielt wird. Sekundär geht es um die Ablösung von pfSense durch OPNsense (das seit längerem viel fortschrittlichere und uns sympathischere Projekt) und 10Gbps «readiness».

Upstream (Internet-Anbindung via unseren Datacenter/Housing Anbieter METANET) fährt Onlime schon seit 2017 eine redundante Netzwerk-Anbindung. Auch lief unsere gesamte Netzwerk- und Server-Infrastruktur schon bisher auf Dual Power, d.h. jede Firewall Appliance, jeder Switch, und jeder Server wurde durch eine doppelte, voneinander unabhängige Stromzufuhr gespiesen. Dies war uns aber trotzdem nicht genügend Redundanz und wir haben in den letzten Monaten die gesamte Architektur neu durchdacht.

Neu laufen die Switches im Stacking-Betrieb, d.h. unsere Server sind auch Netzwerk-seitig doppelt angebunden an unterschiedliche Switches mit jeweils 2x 1Gbps. Zur «Link Aggregation», der «parallelen Bündelung von mehreren Netzwerkverbindungen», verwenden wir das LACP Protokoll. Dank dem Stacking-Betrieb und der doppelten Anbindung an unsere Firewall appliances (ebenfalls via LACP), können wir künftig auch Firmware-Upgrades an den Switches vornehmen, ohne dass es dabei zu Unterbrüchen kommt. Selbst ein Komplett-Ausfall einer Firewall appliance resp. eines Switches würde uns nicht mehr beunruhigen und würde zu keinem Ausfall unserer Dienste führen. (BTW: Dies ist in Vergangenheit gar nie passiert, da wir stets nur beste Hardware im Einsatz hatten.)

Und, auch wenn schwer zu glauben: Dank der neuen Architektur wird unsere Infrastruktur insgesamt «schlanker» (Einsparung von 3HE im Rack) und weniger Strom-hungrig (Abschaltung zusätzlicher Netzwerk-/ATS-Switches), trotz dieser Luxus-Lösung!

Mit diesem Setup geht ein lang ersehnter Traum endlich in Erfüllung: Jede, aber wirklich auch jede Komponente unserer gesamter Infrastruktur läuft redundant, sowohl auf Netzwerk- als auch auf Strom-Ebene.

Updates

1. Februar 2023 um 23:40 CEST

Die Migration konnte erfolgreich abgeschlossen werden. Wir sind mit den neuen OPNsense firewall appliances live gegangen und konnten sämtliche Ausfallszenarien durchtesten, was nur zu kurzzeitigen Downtimes einzelner Services geführt hat.

Onlime verfügt nun über eine 100% redundante Netzwerk- und Strom-Infrastruktur! Rock solid architecture!