Benutzer:Ov3rdriv3/Storage

Aus Piratenwiki
Wechseln zu: Navigation, Suche

WORK IN PROGRESS

Aktuell (Juni 2012) werden für die BundesIT in der Aktion 100k Spenden gesammelt, um die IT-Infrastruktur zu erweitern, die der gewachsenen Mitgliederzahl und der intensivierten Arbeit nicht mehr gewachsen ist.

Auf dieser Seite mache ich mir ein paar Gedanken dazu.

Editieren durch andere ist erwünscht!

Grundlagen

Die BundesIT betreibt eine Landschaft aus verschiedenen Hosts, auf denen virtuelle Maschinen laufen (ich glaube VMWare ?) Darüberhinaus werden mehrere MySQL Datenbanken betrieben. Den virtuellen Maschinen sollen iSCSI Laufwerke zur Verfügung gestellt werden.

Anforderungen

  • Ausfallsicherheit
Darunter sind mehrere Szenarien zu subsummieren, die mit verschiedener Eintrittswahrscheinlichkeit und auch verschiedenen Auswirkungen verbunden sind. Eine totale Ausfallsicherheit gibt es nicht. Das Ziel kann nur sein, die Wahrscheinlichkeit möglichst gering zu halten, die Wiederherstellungszeit kurz zu halten und die Auswirkungen zu kennen und zu antizipieren.
===Szenario 1: eine Platte fällt aus===
Kritikalität: Gering
Eintrittswahrscheinichkeit: Hoch
Risiko des Datenverlusts: Gering
Gegenmassnahme: RAID oder ZFS mit Redundanz
Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung
Im Eintrittsfall zu tun: Festplatte muss manuell ausgetauscht werden
Bemerkungen: Ersatz-Festplatte entweder als HotSpare oder als Spare vorhalten
Auswirkungen auf die Fehlertoleranz: Bei Mehrfacher Redundanz Verringerung der Redundanz um eine Stufe
===Szenario 2: zwei Platten fallen aus===
Kritikalität: Hoch
Eintrittswahrscheinichkeit: Gering
Risiko des Datenverlusts: Hoch
Gegenmassnahme: RAID oder ZFS mit Mehrfach-Redundanz
Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung
Im Eintrittsfall zu tun: Festplatten müssen manuell ausgetauscht werden
Bemerkungen: Ersatz-Festplatten entweder als HotSpare oder als Spare vorhalten
Auswirkungen auf die Fehlertoleranz: Array ist nicht mehr redundant
===Szenario 3: eine Netzverbindung fällt aus===
Kritikalität: Gering
Eintrittswahrscheinichkeit: Gering
Risiko des Datenverlusts: Gering
Gegenmassnahme: Multipathing
Auswirkungen: Keine
Im Eintrittsfall zu tun: Netzwerkverbindung muss manuell überprüft und eventuell repariert werden
Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz
===Szenario 4: ein Netzteil des Storage fällt aus===
Kritikalität: Gering
Eintrittswahrscheinichkeit: Gering
Risiko des Datenverlusts: Gering
Gegenmassnahme: Appliance mit redundantem Netzteil
Auswirkungen: Keine
Im Eintrittsfall zu tun: Das defekte Netzteil muss ausgetauscht werden
Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz
===Szenario 4: ein iSCSI Taget wird zerschossen===
Kritikalität: Gering
Eintrittswahrscheinichkeit: Hoch
Risiko des Datenverlusts: Hoch (Stand wird auf letzten verwendbaren Backup-Stand zurückgedreht)
Gegenmassnahme: Regelmäßige Backups (Multi-Tier)
Auswirkungen: VM steht nicht mehr zur Verfügung
Im Eintrittsfall zu tun: Backup zurückspielen
Bemerkungen: je nach Backup-Plan hängt der Erfolg davon ab, wie schnell das Problem erkannt wird und wie Feingranular die Backups sind. Durch regelmäßiges Snapshotting zusätzlich zum Backup können Zwischenstände wiederherstellbar gehalten werden.
Auswirkungen auf die Fehlertoleranz: Keine
  • Performance
Die dauerhafte Bandbreite soll mindestens 80 MByte/s schreibend betragen
Die durchschnittliche Seek-Zeit soll nicht mehr als 5 ms betragen
  • Wartbarkeit
Es soll eine HTML Oberfläche vorhanden sein, um tägliche administrative Tätigkeiten ausführen zu können.

Vorschlag

Multi-Tier Architektur Die Performance und Verfügbarkeit wird von Tier 1 zu Tier 3 geringer. Die Kapazität steigt allerdings.

Tier 1: Hochperformanter SAN Cluster Tier 2: Günstige NAS Lösung mit hoher Kapazität Tier 3: LTO Library zur Langzeit-Archivierung

Tier 1

Je nach vorhandenem Budget kann entweder ein SAS2 JBOD von zwei Heads angesprochen werden (1), oder zwei komplette SAN Systeme werden mit Spiegelung oder Replikation verwendet (2). (1) JBOD muss dabei zwei SAS2 Ports haben (Z.B. Supermicro CSE-216E26-R1200LPB). Ein Head kann im JBOD Gehäuse liegen, zweiter Head in einem 1 HE Gehäuse oder in einem Baugleichen, aber nicht mit Platten bestückten Gehäuse (Erweiterungsmöglichkeit). Es besteht auch die Möglichkeit, beide Gehäuse zu bestücken und über kreuz von den beiden Heads ansprechen zu lassen.

(1)


Begriffe

  • Spiegelung (synchron)
Hierunter verstehe ich in diesem Zusammenhang eine synchrone Block-Level Spiegelung, die sicherstellt, dass jeder Schreibvorgang innerhalb der Transaktion auf den Slave übertragen wird. Vorteile: Komplette Redundanz ohne Datenverlustrisiko. Nachteile: Performance Impact, Kosten
  • Replikation (asynchron)
Hierunter verstehe ich, dass Änderungen am Master mit einer zeitlichen Verzögerung asynchron auf den Slave übertragen wird. Vorteil: Geringer bis kein Performance Impact, geringere Kosten. Nachteil: Möglicher Datenverlust



--Ov3rdriv3 14:58, 22. Jun. 2012 (CEST)