Max-Planck-Institut

Big Data und Datenspeicherung: astronomische Datenmengen im Max-Planck-Institut

Unendliche Weiten an Daten – diese verwaltet das Max-Planck-Institut für Radioastronomie mit dem OpenArchive von GRAU DATA: eine Case Study zur Nutzung eines Open Source Programmes für Big Data aus der Pulsa- Forschung.

Wenn eine Forschungseinrichtung wie das Max-Planck-Institut in den Tiefen der Galaxien nach neuen Erkenntnissen sucht, findet sie zunächst eines: astronomisch große Datenmengen. In ihnen liegen die Antworten auf große Fragen.

So ergründet die Forschungsgruppe für Radioastronomische Fundamentalphysik des Max-Planck-Instituts die kosmische Radiostrahlung. Dazu untersuchen sie sogenannte Pulsare, um die magnetischen Kräfte der Milchstraße zu erforschen. Ihre Beobachtungen und Daten ermöglichen nichts Geringeres als Tests der Allgemeinen Relativitätstheorie und alternativer Gravitationstheorien.

Die Daten hierfür stammen von dem Radioteleskop Effelsberg, das bei einer Messung in nur 30 Minuten über 100 Gigabyte an Daten erzeugt. Monatlich werden rund 18 Terabyte (TiB) an Messdaten zur Berechnung und Analyse gespeichert. Die Auswertung der Daten dauert ungleich länger. Per Gesetz müssen das Institut diese Daten für 10 Jahre archivieren – nicht einmal einen Wimpernschlag in Weltall-Zeiten. Die Daten über das Weltall verlieren auch in Jahrhunderten nicht an Aktualität und könnten den Durchbruch für zukünftige Forschung bedeuten. Daher müssen sie sicher und für sehr lange Zeit gespeichert werden, sodass ein ungehinderter Zugriff jederzeit möglich ist. Denn ständig werden neue Algorithmen entwickelt, für die auch „alte“ Datenbestände miteinbezogen werden. Das Problem ist: Der Speicherplatz ist nicht unendlich. Alle Daten der Radioteleskope auf Festplatten, also auf Online-Speicher zu archivieren, würde die Budgets des Instituts bei Weitem sprengen. Hinzu kommt, dass die Daten ohnehin nicht ständig genutzt werden und oftmals längere Zeit unberührt auf den Speichereinheiten liegen – und währenddessen Ressourcen verbrauchen.

Es stellt sich also die Herausforderung, enorm große Datenmengen langfristig, sicher, und dabei kosteneffizient zu speichern. Die Lösung: ein Hierarchisches Speichermanagement-Konzept

auf Basis von GRAU DATA OpenArchive – einer Open Source HSM- und Archiv-Software, die mehrere Petabyte an Daten sehr effizient verwalten.

SCHNELLE IMPLEMENTIERUNG

Der Startcountdown der Weltalldatenspeicherung mit der HSM- und Archivierungssoftware OpenArchive beginnt im August 2011. Im ersten Schritt wird die Software auf Wunsch des Max-Planck-Instituts in kurzer Zeit auf das Betriebssystem Debian/GNU Linux portiert. Bereits im Oktober werden die Tests erfolgreich abgeschlossen und im November wird die Gesamtlösung produktiv in Betrieb genommen.

„Die Software läuft absolut zuverlässig und lässt auch bei der Administration keine Wünsche offen“, kommentiert Jan Behrend das erfolgreiche Projekt.

LEISTUNGSSTARKES PRODUKTIONSSYSTEM

Die astronomischen Messdaten vom Radioteleskop Effelsberg werden zunächst im 8 Gbit FC SAN auf einem 120 TB Platten-Online-Speicher gepuffert. Server-seitig stehen leistungsfähige Fujitsu Primergy RX 300 S6 Systeme zur Verfügung, welche die Daten mithilfe des GRAU DATA OpenArchive auf die Spectralogic LTO 5 Tape Libraries in Effelsberg und Bonn redundant verlagern. Pro Library verwaltet die Archivsoftware in 2012 rund 350 Bänder mit je 1,5 Terabyte (TiB) Fassungsvermögen – und die Datenbestände wachsen schnell. Insgesamt wächst der Datenbestand bis Mai 2012 auf 525 Terabyte an. Das Gesamtsystem ist jedoch derzeit auf bis zu 3,5 Petabyte ausbaubar.

„Im Gegensatz zu klassischen Archivsystemen in Unternehmen wird die Band-Technologie in unserer Abteilung des Max-Planck-Instituts oftmals als erweiterter Online-Speicher genutzt, auf den die Forscher in regelmäßigen Abständen zugreifen“, erklärt Jan Behrend, IT-Spezialist beim Max-Planck-Institut den Aufbau der Speicherstruktur.

„Die Tape Libraries in Verbindung mit OpenArchive sind im 1 GBit/s Netzwerk schnell genug, um den Forschungsgruppen ihre enorm großen Datenmengen zur Verfügung zu stellen. Gleichzeitig bietet uns das Speichersystem enorme Kostenvorteile im Vergleich zu einem klassischen Online-Speicher auf Disk.“
Das hardware-unabhängige GRAU DATA OpenArchive in Verbindung mit den Fujitsu Servern ist in der Lage, große Datenmengen sehr schnell auf die Tape Libraries zu migrieren. Die Eingangsdatenrate in das HSM-System liegt bei einem Gigabit pro Sekunde. Die Schreib- und Lesegeschwindigkeit erreicht bei optimaler Auslastung der Tape-Laufwerke bis zu 130 MiB pro Sekunde und Laufwerk, was ca. 500 GiByte/Stunde entspricht.

VERWALTUNG GROSSER DATENMENGEN LEICHT GEMACHT

OpenArchive bietet dem IT-Team des Forschungsinstituts eine leichte und intuitive Administration. Füllstände und Transferraten werden von der Software ständig kontrolliert. Sollte ein manueller Eingriff nötig sein, erhält der Administrator sofort eine Meldung. Auch das tägliche Backup der Metadaten in die Remote-Location verläuft automatisch.

Aufgrund des problemlosen Betriebs der HSM- und Archivierungssoftware entschloss sich

das Max Planck Institut, die Mandantenfähigkeit der Lösung zu nutzen und zwei weitere Forschungsgruppen in das gesamte System mit einzubinden. Durch die Mandantenfähigkeit ließen sich separate Partitionen anlegen, wodurch eine Trennung der Daten und die separierte Nutzung der Laufwerke und Tapes gewährleistet sind.

INDIVIDUELL UND FLEXIBEL: OPEN SOURCE FÜR LINUX

Ein entscheidender Grund für die Nutzung der GRAU DATA Archiv-Software war neben den umfangreichen Funktionen und der Portierung auf das Linux Betriebssystem Debian die Verfügbarkeit als Open Source Programm. Das Max-Planck-Institut setzt, wie die Mehrheit der weltweiten Forschungsinstitute, auf die Betriebssystem-Plattform Linux. GRAU DATA bietet mit OpenArchive die weltweit einzige linux-basierte professionelle Archivsoftware auf Open Source Basis.

Jan Behrend sagt zur Open Source Strategie: „Die Überlegungen zielen neben eventuellen Kosteneinsparungen für Lizenzen auch darauf, dass wir als Forschungsinstitut oftmals eigene Anwendungen designen und schreiben. Diese lassen sich in einer durchgängigen Open Source-Umgebung leichter über den offenen Code der Archivierungssoftware anbinden.“

Möchten Sie mehr über HSM-Archivierung mit dem Open Source Programm OpenArchive erfahren? Dann lesen Sie hier mehr über die Software OpenArchive oder kontaktieren Sie uns hier direkt für eine individuelle Beratung.