Astronomische Datenmengen
Max-Planck-Institut für Radioastronomie setzt für Big Data aus der Pulsar-Forschung den GRAU DATA ArchiveManager ein
© 2012 Case Study des Max-Planck-Instituts
Wenn eine Forschungseinrichtung wie das Max-Planck-Institut in den Tiefen der Galaxien nach neuen Erkenntnissen sucht, werden große Datenmengen erzeugt, die oftmals über viele Jahre hinweg erhoben werden. Die Forschungsgruppe für Radioastronomische Fundamentalphysik des Max-Planck-Institut beschäftigt sich mit der kosmischen Radiostrahlung und untersucht Pulsare, um die magnetischen Kräfte der Milchstraße zu studieren. Die Beobachtungen erlauben unter anderem Tests der Allgemeinen Relativitätstheorie und alternativer Gravitationstheorien. Die Daten hierfür stammen von dem Radioteleskop Effelsberg, das bei einer Messung in nur 30 Minuten über 100 Gigabyte an Daten erzeugt. Monatlich werden rund 18 Terabyte (TiB) an Messdaten zur Berechnung und Analyse gespeichert. Die Auswertung der Daten dauert ungleich länger. Die Forscher sind darauf angewiesen, dass die Daten viele Jahre hinweg gespeichert sind und ein ungehinderter Zugriff jederzeit möglich ist. Realisiert hat das Max-Planck-Institut die Speicherung dieser großen Datenmengen mit dem GRAU DATA ArchiveManager, einer HSM und Archiv-Software, die mehrere Petabyte an Daten sehr effizient verwalten kann.
Das Max-Planck-Institut ist führend in der radioastronomischen Fundamentalphysik und die Mitarbeiter in den Forschungsgruppen messen und analysieren enorm große Datenmengen. Gesetzlich ist das Institut zwar für eine Datenhaltung von zehn Jahren verpflichtet, doch die Forschungsdaten müssen wesentlich länger vorgehalten werden. Ständig werden neue Algorithmen entwickelt für die auch alte Datenbestände in die Berechnungen einbezogen werden. Alle über die Radioteleskope erlangten Daten auf Festplatten, also auf Online-Speicher vorzuhalten, würde die Budgets des Instituts bei weitem sprengen. Hinzu kommt dass die Daten nicht ständig benutzt werden und oftmals längere Zeit inaktiv auf den Speichereinheiten verbleiben.
Die Lösung war ein hierarchisches Speichermanagement Konzept auf Basis der GRAU HSM & Archivierungssoftware mit LTO Magnetbändern als Langzeitarchivierungsmedium.
Test, Anpassung und Produktionssystem des ArchiveManagers
Im August 2011 startete das Max-Planck-Institut gemeinsam mit GRAU DATA das Projekt mit der HSMund Archivierungssoftware
ArchiveManager. Im ersten Schritt wurde die Software auf Wunsch des Max-Planck-Instituts in kurzer Zeit auf das Betriebssystem Debian/GNU Linux portiert. Bereits im Oktober wurden die Tests erfolgreich abgeschlossen und im November wurde die Gesamtlösung produktiv in Betrieb genommen.
Die astronomischen Messdaten vom Radioteleskop Effelsberg werden im ersten Schritt im 8 Gbit FC SAN auf einem 120 TB Platten-Online-Speicher gepuffert. Server-seitig stehen leistungsfähige Fujitsu Primergy RX 300 S6 Systeme zur Verfügung, welche die Daten mit Hilfe des GRAU DATA
ArchiveManagers auf die Spectralogic LTO 5 Tape Libraries in Effelsberg und Bonn redundant verlagern. Pro Library verwaltet die Archivsoftware heute rund 350 Bänder mit je 1,5 Terabyte (TiB) Fassungsvermögen und die Datenbestände wachsen schnell. Insgesamt ist der Datenbestand bis Mai 2012 auf 525 Terabyte angewachsen, das Gesamtsystem ist derzeit auf bis zu 3,5 Petabyte ausbaubar.
„Im Gegensatz zu klassischen Archivsystemen in Unternehmen, wird die Band-Technologie in unserer Abteilung des Max-Planck-Instituts oftmals als erweiterter Online-Speicher genutzt, auf den die Forscher in regelmäßigen Abständen zugreifen“, erklärt Jan Behrend, IT-Spezialist beim Max-Planck-Institut den Aufbau der Speicherstruktur. „Die Tape Libraries in Verbindung mit dem
ArchiveManager sind im 1 GBit/s Netzwerk schnell genug, um den Forschungsgruppen ihre enorm großen Datenmengen zur Verfügung zu stellen. Gleichzeitig bietet uns das Speichersystem enorme Kostenvorteile im Vergleich zu einem klassischen Online-Speicher auf Disk.“ Der Hardware-unabhängige GRAU DATA
ArchiveManager in Verbindung mit den Fujitsu Servern ist in der Lage, große Datenmengen sehr schnell auf die Tape Libraries zu migrieren. Die Eingangsdatenrate in das HSM-System liegt bei einem Gigabit pro Sekunde. Die Schreib-/Lesegeschwindigkeit erreicht bei optimaler Auslastung der Tape-Laufwerke bis zu 130 MiB pro Sekunde und Laufwerk was ca. 500 GiByte/Stunde entspricht.
Verwaltung großer Datenmengen leicht gemacht
Der
ArchiveManager erlaubt dem IT-Team des Forschungsinstituts eine leichte und intuitive Administration. FüllstaÅNnde und Transferraten werden von der Software ständig kontrolliert. Sollte ein manueller Eingriff nötig sein, erhält der Administrator sofort eine Meldung. Auch das tägliche Backup der Metadaten in die Remote-Lokation verläuft automatisch. Aufgrund des problemlosen Betriebs der HSM- und Archivierungssoftware entschloss sich das Max Planck Institut, die Mandantenfähigkeit der Lösung zu nutzen und zwei weitere Forschungsgruppen in das gesamte System mit einzubinden. Durch die Mandantenfähigkeit ließen sich separate Partitionen anlegen, wodurch eine Trennung der Daten und die separierte Nutzung der Laufwerke und Tapes gewährleistet ist.
Langfristige Open Source Strategie
Ein entscheidender Grund für die Nutzung der GRAU DATA Archiv-Software war neben den umfangreichen Funktionen die Portierung auf das Linux Betriebssystem Debian sowie die Verfügbarkeit einer Open Source Variante mit nahezu gleicher Funktionalität. Das Max-Planck-Institut setzt, wie die Mehrheit der weltweiten Forschungsinstitute, auf die Betriebssystem Plattform Linux.
GRAU DATA bietet mit „OpenArchive“ die weltweit einzige linux-basierte, professionelle Archivsoftware auf Open Source Basis (siehe
www.openarchive.net).
„Im ersten Schritt war der
ArchiveManager das optimale Produkt für uns, um eine stabilen und performanten Betrieb zu gewährleisten. Langfristig werden wir eventuell auf die Open Source-Variante von GRAU DATA umsteigen. Die Überlegungen zielen neben eventuellen Kosteneinsparungen für Lizenzen auch darauf, dass wir als Forschungsinstitut oftmals eigene Anwendungen designen und schreiben. Diese lassen sich in einer durchgängigen Open Source-Umgebung leichter über den offenen Code der Archivierungssoftware anbinden. Zum heutigen Zeitpunkt sind wir jedoch mit dem
ArchiveManager hervorragend bedient. Die Software läuft absolut zuverlässig und lässt auch bei der Administration keine Wünsche offen“, kommentiert Jan Behrend das erfolgreiche Projekt.