Forschung

Scientific Data Management Group

© Quelle: Christian Malsch / LUH
Quelle: Christian Malsch / LUH

Effiziente und skalierbare Methoden für die Integration großer Datenmengen sowie Wissensrepräsentation und -entdeckung sind zentrale Herausforderungen des Forschungsprogramms der Forschungsgruppe Scientific Data Management. Die entwickelten Anwendungen werden in verschiedenen Domänen eingesetzt (insbesondere Biomedizin und digitale Bibliotheken), um aus heterogenen Daten verwertbare Erkenntnisse zu machen.

Der Forschungsplan beinhaltet die Entwicklung modernster Infrastrukturen zur Verwaltung heterogener wissenschaftlicher Daten, zur Extraktion von aus diesen Daten gewonnenem Wissen und zur Erschließung neuer Zusammenhänge und Muster. Diese Infrastrukturen erleichtern die Integration und Analyse großer und komplexer Datenbestände in wissenschaftliche Wissensgraphen und ermöglichen die Zusammenarbeit aller Akteure in Wertschöpfungsketten um wissenschaftliche Daten. Zu den Herausforderungen, welche die Forschungsgruppe bearbeitet, gehören:

  • Wissensgraphen, die nicht nur die Bedeutung und Zusammenhänge wissenschaftlicher Daten kodieren, sondern auch Wissen über Provenienz, Privatsphäre, Qualität und Unsicherheit enthalten.
  • Domänenspezifische Ontologien und Link-Discovery-Techniken, die in der Lage sind, die Interoperabilität von heterogenen und großen wissenschaftlichen Datensätzen auf skalierbare Weise zu befördern.
  • Integrationsmethoden für heterogene und umfangreiche wissenschaftliche Datenquellen, zum Beispiel Altdatenbestände, strukturierte und unstrukturierte Daten sowie statische Daten und kontinuierliche Datenströme.
  • Speicherung und Verteilung von umfangreichen wissenschaftlichen Daten und Wissensgraphen.
  • Zugriffskontrollmethoden zur Durchsetzung von Datenschutzvorschriften für sensible Daten. 
  • Föderierte Abfrage-Engines für wissenschaftliche Wissensgraphen.
  • Datenanalyse und Methoden der Wissensentdeckung über wissenschaftliche Wissensgraphen.

Die entwickelten Infrastrukturkomponenten werden anhand verschiedener Datenbestände evaluiert. Dafür eignen sich insbesondere wissenschaftliche Daten aus Veröffentlichungen, die in den Datenbanken der TIB archiviert werden (zum Beispiel via RADAR oder DataCite). Wissenschaftlerinnen und Wissenschaftler werden die entwickelten Scientific-Data-Management-Infrastrukturen nutzen können, um die Effektivität und Produktivität ihrer Forschungsarbeit nachhaltig zu steigern.