Benutzer:Ov3rdriv3/Storage
WORK IN PROGRESS
Aktuell (Juni 2012) werden für die BundesIT in der Aktion 100k Spenden gesammelt, um die IT-Infrastruktur zu erweitern, die der gewachsenen Mitgliederzahl und der intensivierten Arbeit nicht mehr gewachsen ist.
Auf dieser Seite mache ich mir ein paar Gedanken dazu.
Editieren durch andere ist erwünscht!
Inhaltsverzeichnis
Grundlagen
Die BundesIT betreibt eine Landschaft aus verschiedenen Hosts, auf denen virtuelle Maschinen laufen (ich glaube VMWare ?) Darüberhinaus werden mehrere MySQL Datenbanken betrieben. Den virtuellen Maschinen sollen iSCSI Laufwerke zur Verfügung gestellt werden.
Anforderungen
- Ausfallsicherheit
- Darunter sind mehrere Szenarien zu subsummieren, die mit verschiedener Eintrittswahrscheinlichkeit und auch verschiedenen Auswirkungen verbunden sind. Eine totale Ausfallsicherheit gibt es nicht. Das Ziel kann nur sein, die Wahrscheinlichkeit möglichst gering zu halten, die Wiederherstellungszeit kurz zu halten und die Auswirkungen zu kennen und zu antizipieren.
- ===Szenario 1: eine Platte fällt aus===
- Kritikalität: Gering
- Eintrittswahrscheinichkeit: Hoch
- Risiko des Datenverlusts: Gering
- Gegenmassnahme: RAID oder ZFS mit Redundanz
- Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung
- Im Eintrittsfall zu tun: Festplatte muss manuell ausgetauscht werden
- Bemerkungen: Ersatz-Festplatte entweder als HotSpare oder als Spare vorhalten
- Auswirkungen auf die Fehlertoleranz: Bei Mehrfacher Redundanz Verringerung der Redundanz um eine Stufe
- ===Szenario 2: zwei Platten fallen aus===
- Kritikalität: Hoch
- Eintrittswahrscheinichkeit: Gering
- Risiko des Datenverlusts: Hoch
- Gegenmassnahme: RAID oder ZFS mit Mehrfach-Redundanz
- Auswirkungen: Initial keine, später Performance Verringerung durch Resynchronisierung
- Im Eintrittsfall zu tun: Festplatten müssen manuell ausgetauscht werden
- Bemerkungen: Ersatz-Festplatten entweder als HotSpare oder als Spare vorhalten
- Auswirkungen auf die Fehlertoleranz: Array ist nicht mehr redundant
- ===Szenario 3: eine Netzverbindung fällt aus===
- Kritikalität: Gering
- Eintrittswahrscheinichkeit: Gering
- Risiko des Datenverlusts: Gering
- Gegenmassnahme: Multipathing
- Auswirkungen: Keine
- Im Eintrittsfall zu tun: Netzwerkverbindung muss manuell überprüft und eventuell repariert werden
- Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz
- ===Szenario 4: ein Netzteil des Storage fällt aus===
- Kritikalität: Gering
- Eintrittswahrscheinichkeit: Gering
- Risiko des Datenverlusts: Gering
- Gegenmassnahme: Appliance mit redundantem Netzteil
- Auswirkungen: Keine
- Im Eintrittsfall zu tun: Das defekte Netzteil muss ausgetauscht werden
- Auswirkungen auf die Fehlertoleranz: Verringerung des Ausfalltoleranz
- ===Szenario 4: ein iSCSI Taget wird zerschossen===
- Kritikalität: Gering
- Eintrittswahrscheinichkeit: Hoch
- Risiko des Datenverlusts: Hoch (Stand wird auf letzten verwendbaren Backup-Stand zurückgedreht)
- Gegenmassnahme: Regelmäßige Backups (Multi-Tier)
- Auswirkungen: VM steht nicht mehr zur Verfügung
- Im Eintrittsfall zu tun: Backup zurückspielen
- Bemerkungen: je nach Backup-Plan hängt der Erfolg davon ab, wie schnell das Problem erkannt wird und wie Feingranular die Backups sind. Durch regelmäßiges Snapshotting zusätzlich zum Backup können Zwischenstände wiederherstellbar gehalten werden.
- Auswirkungen auf die Fehlertoleranz: Keine
- Performance
- Die dauerhafte Bandbreite soll mindestens 80 MByte/s schreibend betragen
- Die durchschnittliche Seek-Zeit soll nicht mehr als 5 ms betragen
- Wartbarkeit
- Es soll eine HTML Oberfläche vorhanden sein, um tägliche administrative Tätigkeiten ausführen zu können.
Vorschlag
Multi-Tier Architektur Die Performance und Verfügbarkeit wird von Tier 1 zu Tier 3 geringer. Die Kapazität steigt allerdings.
Tier 1: Hochperformanter SAN Cluster Tier 2: Günstige NAS Lösung mit hoher Kapazität Tier 3: LTO Library zur Langzeit-Archivierung
Tier 1
Je nach vorhandenem Budget kann entweder ein SAS2 JBOD von zwei Heads angesprochen werden (1), oder zwei komplette SAN Systeme werden mit Spiegelung oder Replikation verwendet (2). (1) JBOD muss dabei zwei SAS2 Ports haben (Z.B. Supermicro CSE-216E26-R1200LPB). Ein Head kann im JBOD Gehäuse liegen, zweiter Head in einem 1 HE Gehäuse oder in einem Baugleichen, aber nicht mit Platten bestückten Gehäuse (Erweiterungsmöglichkeit). Es besteht auch die Möglichkeit, beide Gehäuse zu bestücken und über kreuz von den beiden Heads ansprechen zu lassen.
(1)
Begriffe
- Spiegelung (synchron)
- Hierunter verstehe ich in diesem Zusammenhang eine synchrone Block-Level Spiegelung, die sicherstellt, dass jeder Schreibvorgang innerhalb der Transaktion auf den Slave übertragen wird. Vorteile: Komplette Redundanz ohne Datenverlustrisiko. Nachteile: Performance Impact, Kosten
- Replikation (asynchron)
- Hierunter verstehe ich, dass Änderungen am Master mit einer zeitlichen Verzögerung asynchron auf den Slave übertragen wird. Vorteil: Geringer bis kein Performance Impact, geringere Kosten. Nachteil: Möglicher Datenverlust
--Ov3rdriv3 14:58, 22. Jun. 2012 (CEST)