Benutzer:Ov3rdriv3/Storage

WORK IN PROGRESS

Aktuell (Juni 2012) werden für die BundesIT in der Aktion 100k Spenden gesammelt, um die IT-Infrastruktur zu erweitern, die der gewachsenen Mitgliederzahl und der intensivierten Arbeit nicht mehr gewachsen ist.

Auf dieser Seite mache ich mir ein paar Gedanken dazu.

Editieren durch andere ist erwünscht!

Grundlagen

Die BundesIT betreibt eine Landschaft aus verschiedenen Hosts, auf denen virtuelle Maschinen laufen (ich glaube VMWare ?) Darüberhinaus werden mehrere MySQL Datenbanken betrieben. Den virtuellen Maschinen sollen iSCSI Laufwerke zur Verfügung gestellt werden.

Anforderungen

Ausfallsicherheit

Darunter sind mehrere Szenarien zu subsummieren, die mit verschiedener Eintrittswahrscheinlichkeit und auch verschiedenen Auswirkungen verbunden sind. Eine totale Ausfallsicherheit gibt es nicht. Das Ziel kann nur sein, die Wahrscheinlichkeit möglichst gering zu halten, die Wiederherstellungszeit kurz zu halten und die Auswirkungen zu kennen und zu antizipieren.

===Szenario 1: eine Platte fällt aus===

Kritikalität: Gering

Eintrittswahrscheinichkeit: Hoch

Risiko des Datenverlusts: Gering

Gegenmassnahme: RAID oder ZFS mit Redundanz

Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung

Im Eintrittsfall zu tun: Festplatte muss manuell ausgetauscht werden

Bemerkungen: Ersatz-Festplatte entweder als HotSpare oder als Spare vorhalten

Auswirkungen auf die Fehlertoleranz: Bei Mehrfacher Redundanz Verringerung der Redundanz um eine Stufe

===Szenario 2: zwei Platten fallen aus===

Kritikalität: Hoch

Eintrittswahrscheinichkeit: Gering

Risiko des Datenverlusts: Hoch

Gegenmassnahme: RAID oder ZFS mit Mehrfach-Redundanz

Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung

Im Eintrittsfall zu tun: Festplatten müssen manuell ausgetauscht werden

Bemerkungen: Ersatz-Festplatten entweder als HotSpare oder als Spare vorhalten

Auswirkungen auf die Fehlertoleranz: Array ist nicht mehr redundant

===Szenario 3: eine Netzverbindung fällt aus===

Kritikalität: Gering

Eintrittswahrscheinichkeit: Gering

Risiko des Datenverlusts: Gering

Gegenmassnahme: Multipathing

Auswirkungen: Keine

Im Eintrittsfall zu tun: Netzwerkverbindung muss manuell überprüft und eventuell repariert werden

Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz

===Szenario 4: ein Netzteil des Storage fällt aus===

Kritikalität: Gering

Eintrittswahrscheinichkeit: Gering

Risiko des Datenverlusts: Gering

Gegenmassnahme: Appliance mit redundantem Netzteil

Auswirkungen: Keine

Im Eintrittsfall zu tun: Das defekte Netzteil muss ausgetauscht werden

Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz

===Szenario 4: ein iSCSI Taget wird zerschossen===

Kritikalität: Gering

Eintrittswahrscheinichkeit: Hoch

Risiko des Datenverlusts: Hoch (Stand wird auf letzten verwendbaren Backup-Stand zurückgedreht)

Gegenmassnahme: Regelmäßige Backups (Multi-Tier)

Auswirkungen: VM steht nicht mehr zur Verfügung

Im Eintrittsfall zu tun: Backup zurückspielen

Bemerkungen: je nach Backup-Plan hängt der Erfolg davon ab, wie schnell das Problem erkannt wird und wie Feingranular die Backups sind. Durch regelmäßiges Snapshotting zusätzlich zum Backup können Zwischenstände wiederherstellbar gehalten werden.

Auswirkungen auf die Fehlertoleranz: Keine

Performance

Die dauerhafte Bandbreite soll mindestens 80 MByte/s schreibend betragen

Die durchschnittliche Seek-Zeit soll nicht mehr als 5 ms betragen

Wartbarkeit

Es soll eine HTML Oberfläche vorhanden sein, um tägliche administrative Tätigkeiten ausführen zu können.

Vorschlag

Multi-Tier Architektur Die Performance und Verfügbarkeit wird von Tier 1 zu Tier 3 geringer. Die Kapazität steigt allerdings.

Tier 1: Hochperformanter SAN Cluster Tier 2: Günstige NAS Lösung mit hoher Kapazität Tier 3: LTO Library zur Langzeit-Archivierung

Tier 1

Je nach vorhandenem Budget kann entweder ein SAS2 JBOD von zwei Heads angesprochen werden (1), oder zwei komplette SAN Systeme werden mit Spiegelung oder Replikation verwendet (2). (1) JBOD muss dabei zwei SAS2 Ports haben (Z.B. Supermicro CSE-216E26-R1200LPB). Ein Head kann im JBOD Gehäuse liegen, zweiter Head in einem 1 HE Gehäuse oder in einem Baugleichen, aber nicht mit Platten bestückten Gehäuse (Erweiterungsmöglichkeit). Es besteht auch die Möglichkeit, beide Gehäuse zu bestücken und über kreuz von den beiden Heads ansprechen zu lassen.

(1)

Begriffe

Spiegelung (synchron)

Hierunter verstehe ich in diesem Zusammenhang eine synchrone Block-Level Spiegelung, die sicherstellt, dass jeder Schreibvorgang innerhalb der Transaktion auf den Slave übertragen wird. Vorteile: Komplette Redundanz ohne Datenverlustrisiko. Nachteile: Performance Impact, Kosten

Replikation (asynchron)

Hierunter verstehe ich, dass Änderungen am Master mit einer zeitlichen Verzögerung asynchron auf den Slave übertragen wird. Vorteil: Geringer bis kein Performance Impact, geringere Kosten. Nachteil: Möglicher Datenverlust

--Ov3rdriv3 14:58, 22. Jun. 2012 (CEST)

Benutzer:Ov3rdriv3/Storage

Inhaltsverzeichnis

Grundlagen

Anforderungen

Vorschlag

Tier 1

Begriffe

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Mitmachen im Wiki

Piratenpartei

Landesverbände

Werkzeuge