02.09.2021|News

Mit Metadaten-Analyse zum Data-Mining

GRAU DATA Metadata-Hub extrahiert Metadaten-Tags von über 320 File-Formaten großer Datenpools

Schwäbisch Gmünd 02. September 2021 – GRAU DATA stellt mit seinem Metadata-Hub eine neue Lösung für das Auslesen und die Erfassung von Metadaten vor. Damit haben Unternehmen die Möglichkeit, ihre unstrukturierten Daten genau zu durchsuchen, zu analysieren, in Big-Data-Projekte einzubinden und das Potenzial großer unstrukturierter Datenmengen nachhaltig und langfristig zu nutzen.

„Mehr als 80 Prozent aller Daten in Unternehmen liegen in unstrukturierter Form vor und die meisten Unternehmen haben bisher keine Möglichkeit, die Daten, deren Inhalte und vor allem deren Wert nachhaltig zu nutzen. Ohne eine detaillierte Metadaten-Analyse sind die Daten bereits nach kurzer Zeit wertlos, da die Inhalte nicht mehr nachvollzogen werden können. Mit dem Metadata-Hub kann das Potenzial großer Dateimengen schnell und unkompliziert ausgeschöpft werden“, erklärt Herbert Grau, Geschäftsführer der GRAU DATA GmbH.

Der Metadata-Hub erkennt, analysiert und verarbeitet „embedded“ Metadaten von unstrukturierten Daten auf beliebig großen Filesystemen, kann über 320 File-Formate verarbeiten und mehr als 50.000 unterschiedliche Metadaten-Tags in kürzester Zeit auslesen. „Embedded“ Metadaten enthalten viel umfangreichere Informationen als Standard Filesystem Metadaten. Der Metadata-Hub ist weitaus leistungsfähiger als Lösungen, die zumeist auf bestimmte Dateiformate beschränkt sind und eine unternehmens- und abteilungsübergreifende Analyse aller Dateiformate nicht zulassen.

Universell einsetzbar und beliebig skalierbar

Der Metadata-Hub ist plattformunabhängig und lässt sich in nahezu jede IT-Struktur einfach und schnell integrieren. Er wird über eine browserbasierte Weboberfläche gesteuert. Der Metadata-Hub ist beliebig skalierbar, indem mehrere Hubs parallel installiert und über die zentrale WebUI administriert werden. Damit kann der Metadata-Hub in jeder Unternehmensgröße und mit jeder Dateimenge eingesetzt werden – von klassischen mittelständischen Unternehmen bis hin zu Konzernen oder großen Forschungsorganisationen mit Milliarden an Dateien.

Kernkomponente des Metadata-Hub ist der intelligente Dateisystem-Crawler & Harvester (Metadata-Sammler). Dieser extrahiert kontinuierlich die eingebundenen Metadaten aus den Dateien. Der Crawler & Harvester greift via NFS oder SMB alle „embedded“ Metadaten ab und extrahiert Millionen von Tags in kürzester Zeit. Die Tags werden unmittelbar nach der Extraktion in einer speziell dafür ausgelegten Datenbank gespeichert. Anschließend stehen die Metainformationen strukturiert zur Verfügung, etwa für Auswertungen, Abfragen. Eine GraphQL-basierte API, ein natives Python-SDK sowie ein umfangreiches Command Line Interface bieten zudem die nahtlose Integration in Lösungen anderer Anbieter zur automatisierten Big-Data-Weiterverarbeitung.