Skip to content

Latest commit

 

History

History
121 lines (98 loc) · 6.56 KB

tr10.md

File metadata and controls

121 lines (98 loc) · 6.56 KB

Dieser Report fasst Ergebnisse eines Vergleichs von APIs zum Zugriff auf ausgewählte Wissensorganisationssysteme zusammen.

Einführung

Im Rahmen des Projekt coli-conc wurden in einem Workshop der DINI AG KIM allgemeine Anforderungen an Normdatendienste zum Zugriff auf verschiedene Wissenssorganisationssysteme ermittelt [@TR4]. Der vorliegende Report untersucht die Eigenschaften einiger vorhandener Normdatendienste. Die Untersuchung basiert auf den Ergebnissen eines umfangreicheren Vergleichs von APIs zum Zugriff auf kontrollierte Vokabulare [@Horn2016].

Untersuchte Normdatendienste

Untersucht wurden vier Schnittstellen zum Zugriff auf die folgenden Vokabulare:

Vokabular Typ API-Betreiber
Regensburger Verbundklassifikation (RVK) Klassifikation Uni Regensburg^[http://rvk.uni-regensburg.de/Portal_API/ (nicht dokumentierter Endpunkt)]
Gemeinsame Normdatei (GND) Normdatei hbz (lobid.org)^[http://lobid.org/api]
Standardthesaurus Wirtschaft (STW) Thesaurus ZBW^[http://zbw.eu/labs/de/project/econ-ws (Sammlung mehrerer APIs)]
Library of Congress Subject Headings (LCSH) Thesaurus LoC^[http://id.loc.gov/authorities/subjects.html]

Rückgabeformate

Abgesehen von der RVK-API, die ein eigenes JSON- bzw. XML-Format verwendet, basieren die Rückgabeformate aller APIs auf RDF, das in unterschiedlichen Serialisierungen (RDF/XML, Turtle...) ausgewählt werden kann. Die RDF-Formate basieren bei STW und LCSH auf SKOS [@SKOS], während für die GND eine eigene Ontologie definiert wurde [@Haffner2016]. Das Format der STW beschränkt sich weitgehend auf SKOS. Die Library of Congress bietet mit MADS/RDF zusätzlich eine Erweiterung an.^[http://www.loc.gov/standards/mads/rdf/] Noch umfangreicher ist die GND-Ontologie mit 228 Eigenschaften.

Umfang der zurückgelieferten Daten

Trotz unterschiedlicher Rückgabeformate lassen sich Gemeinsamkeiten in den über die verschiedenen APIs abfragbaren Datenfeldern ausmachen. Die folgende Übersicht beschränkt sich auf einen Vergleich der abfragbaren Verknüpfungen: Dies sind hierarchische (broader, narrower, ancestors) und assoziative Verknüpfungen (related) zwischen Begriffen eines Vokabulars sowie mappings auf andere Vokabulare.

Feld RVK GND STW LCSH
broader X X X X
narrower X - X X
ancestors X - - -
related - X X X
mappings - X X X

Die RVK-API bietet als einzige der untersuchten Dienste eine Möglichkeit alle transitiv übergeordneten Klassen (ancestors) einer Klasse abzufragen, was allerdings bei monohierarchischen Klassifikationen auch einfacher umzusetzen ist. Allerdings wird bei Auswahl einer Klasse nur mitgeteilt, ob untergeordneten Klassen vorhanden sind, die in diesem Fall mit einer weiteren Abfrage ermittelt werden können. In der GND fehlen untergeordnete Begriffe ganz.

Die Einträge von STW zu GND und LCSH zu GND sind jeweils über Mappings miteinander verknüpft. Zudem enthält die LCSH Mappings auf die Normdatei RAMEAU der französischen Nationalbibliothek. In der GND sind diese Mappings zwar auch enthalten, werden aber nicht über die API mitgeliefert. Die GND enthält dafür Verknüpfungen zu den eigenen GND Subject Categories und der DDC. Sowohl GND als auch STW sind weiterhin (über de.wikipedia bzw. DBPedia) mit Wikipedia verknüpft^[Inzwischen wäre ein Mapping mit Wikidata sinnvoller.]). In den STW-Daten sind zusätzlich Verlinkungen auf Einträge im Katalog des ZBW enthalten.

Abfragemöglichkeiten für typische Anwendungsfälle

Die folgende Tabelle liefert einen Vergleich der APIs mit den von @TR4 genannten Anwendungsfällen und Anforderungen mit Ausnahme von Schreib-Zugriffen.

Anforderung RVK GND STW LCSH
Abfrage von Synonymen X - X -
(Fuzzy-)Suche in Normdateien X X (X) -
Metasuche in mehreren Normdateien - - - X
Multilinguale Suche - - X -
Autovervollständigung/Typeahead X X X -
Entity-Kurzinfo (X) X (X) X
Abfrage der kanonischen Form - X (X) (X)
Abfrage von Konkordanzen und Mappings - - X -
Abfrage von Änderungen - - X (X)
Nutzungsstatistik - - - -
Ermittlung von indexierten Ressourcen - - (X) -

Einige Anwendungsfälle können mit den vorhandenen APIs nicht oder nur eingeschränkt (z.B. indirekt über andere Abfragen) umgesetzt werden. Die APIs der STW bieten den weitesten Funktionsumfang, was allerdings auch mit der Komplexität des Vokabulars zusammenhängt. Die API der LCSH kann mit ihrer Beschränkung auf einfachem Linked Open Data, d.h. Abfrage per bekannter URI, den wenigsten Anforderungen genügen. Die Typeahead-Funktionen sind bei allen APIs mangelhaft, da sie anscheinend nicht auf Ranking-Verfahren basieren.

Zusammenfassung und Ausblick

Zusammenfassend lässt sich feststellen dass die verschiedenen untersuchten Normdatendienste trotz grundsätzlicher Vergleichbarkeit sehr unterschiedlich ausfallen. Selbst die RDF-basierten APIs sind uneinheitlich umgesetzt. Generell lassen sich mit SKOS zwar Ansätze einer Vereinheitlichung erkennen, solange aber SKOS-Erweiterungen, Umfang der zurückgelieferten Daten und Abfragemöglichkeiten variieren, ist eine einheitliche Abfrage verschiedener Normdatendienste aber nicht möglich.

Im Rahmen des Projekt coli-conc wird deshalb neben der Vereinheitlichung von SKOS-Varianten mit dem Format JSKOS [@JSKOS] eine darauf basierende API zur Abfrage von Wissenssorganisationssystemen entwickelt. Eine Teilmenge dieser JSKOS-API wurde bereits unter dem Namen ELMA [@ELMA] festgelegt und umgesetzt.

Zur weiteren Entwicklung und Evaluation von Normdatendiensten sollen im Verlauf des Projektes neben Normdatendiensten für einzelne Vokabulare die APIs verschiedener Webanwendungen zum Zugriff auf Wissensorganisationssysteme verglichen werden [@TR7].

Nachweise