Eine Infrastruktur zur Harmonisierung von Datenstrukturen und Semantik


Eine Infrastruktur zur Harmonisierung von Datenstrukturen und Semantik

Steinmeier, L.; Ballani, F.; Rau, F.

Derzeit wird viel daran geforscht, wie Forschungsdaten im Sinne der FAIR-Prinzipien publiziert werden können. Diese Prinzipien bereits während der Erfassung und Bearbeitung der Daten, also zu einem frühen Zeitpunkt im Forschungsdatenlebenszyklus anzuwenden, bringt viele Vorteile mit sich. Wir stellen eine Softwareinfrastruktur vor, die dies unterstützen soll. Hierbei legen wir den Schwerpunkt auf die Aspekte des Austausches und der Harmonisierung von Datenstrukturen und Semantik und beschreiben auch, wie eine angebundene Endnutzersoftware aussehen kann.

Die Infrastruktur basiert auf folgender Top-Level-Architektur: Teilnehmende Parteien können eigene Instanzen von Datenstruktur- und Semantik-"Warehouses" mit privaten und öffentlichen Teilen betreiben. Ein globaler Index macht dann die öffentlichen Teile aller Warehouses auffindbar und zugänglich. Diese Infrastruktur muss die Anbindung beliebiger Endnutzersoftware durch einen gemeinsamen Kommunikationsstandard ermöglichen, da die Anforderungen an Dateneingabe und -bearbeitung zwischen verschiedenen Forschungsfeldern sehr unterschiedlich ausfallen können. Die Kommunikation soll grundsätzlich über Graphdaten erfolgen, da diese besonders geeignet sind, um vernetzte Inhalte abzubilden.

Eine solche Infrastruktur kann u. a. folgende Funktionen in Endnutzersoftware unterstützen: Bei der Eingabe von Daten können automatisch bestehende Datenstrukturen und Semantiken zur Verwendung vorgeschlagen werden; bestehende Daten, die gleiche oder ähnliche Strukturen und Semantiken verwenden, können gefunden und verglichen werden; Datenstrukturen und Semantiken können öffentlich diskutiert werden, um sie von und für die jeweiligen Nutzergemeinschaften weiter zu harmonisieren und zu entwickeln.

Zur Demonstration der Funktionen und Vorteile einer derartigen Infrastruktur entwickeln wir eine Proof-of-Concept-Endnutzersoftware in Form eines Graphdateneditors. Dieser Editor wird Forschende beim FAIRen Erfassen von Daten durch die folgenden Funktionalitäten unterstützen: Zu domänenunabhängigen Themen (z. B. Einheiten) stellt er ihnen Standards für Strukturen und Semantik zur Verfügung. Er ermöglicht ihnen, bestehende Ressourcen wie Geräte oder Datensätze mit ihrer Arbeit zu verknüpfen. Und er fördert unter Verwendung eines Prototypen der skizzierten Infrastruktur die Harmonisierung von Datenstrukturen und Semantik mit anderen Nutzer:innen.

Keywords: FAIR; Semantik; Datenstruktur; Harmonisierung; Graphdaten; Editor; Infrastruktur

  • Poster
    Datenräume in Deutschland und Europa gestalten - Impulse der Wissenschaft, 24.-25.04.2023, Hannover, Deutschland

Permalink: https://www.hzdr.de/publications/Publ-36670