Data for UBOs emneregister til Dewey
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
dist
src
.gitignore
LICENSE.txt
Makefile
README.md
dodo.py
logging.cfg
publish.py
requirements.txt
ubo-onto.ttl
usvd.json
usvd.scheme.ttl

README.md

UBOs emneregister til Dewey

Innhold

Universitetsbiblioteket i Oslos emneregister til Dewey, også kjent som UBOs kjederegister til Dewey, tidligere kjent som UBO/SV's kjederegister til Dewey, derav akronymet USVD som fremdeles brukes.

Registeret er søkbart på http://wgate.bibsys.no/search/pub?base=USVDEMNE. Det vedlikeholdes i BIBSYS' emnemodul, og vi har fått en XML-eksport derfra (usvd.xml) på epost fra Gunvald 30. juni 2014.

  • src/usvd.xml : Source data from BIBSYS' emnemodul.
  • dist/usvd.ttl : Converted to RDF Turtle.
  • dist/usvd.marc21.ttl : Converted to MARC21 XML.

Conversion

Authority data is currently maintained in Bibsys and converted to JSON (RoaldIII data model) using RoaldIII. RoaldIII is also used to mix in mappings before exporting RDF/SKOS and MARC21.

  • pip install -r requirements.txt to install dependencies needed for the conversion.
  • doit build to do the actual conversion. This only runs if any of the source files have changed or any of the target files are missing. To force a conversion even if no files have changed, run doit forget build && doit build (useful during development).

Please see the RoaldIII repo for more details on the conversion.

The RoaldIII JSON data is found in usvd.json. Complete, distributable RDF/SKOS and MARC21 files are found in the dist folder.

Konverteringsprosessen

I registerfilen er hver term angitt som et <post>-element. Dette har underelementer som <term-id>, <hovedemnefrase>, osv. Under vises vår foreløpige modell for mapping av disse elementene til RDF, som implementert i convert.xq. Vi bruker hovedsakelig SKOS-vokabularet.

if <se-id> then

  <http://data.ub.uio.no/usvd/<se-id> a skos:Concept
    skos:altLabel "<hovedemnefrase> (<kvalifikator>)"@nb

else:

  <http://data.ub.uio.no/usvd/<term-id> a skos:Concept
    skos:prefLabel "<hovedemnefrase> : <kjede>"@nb
    dcterms:identifier "<term-id>"
    dcterms:modified "<dato>"^^xs:date
    skos:notation "<signatur>"^^<http://dewey.info/schema-terms/Notation>
    skos:definition "<definisjon>"@nb
    skos:editorialNote "<noter>"@nb
    skos:editorialNote "Lukket bemerkning: <lukket-bemerkning>"@nb
    skos:scopeNote "Se også: <gen-se-ogsa-henvisning>"@nb
    skos:broader <http://data.ub.uio.no/usvd/<overordnetterm-id>
    skos:broader <http://data.ub.uio.no/usvd/<ox-id>
    skos:related <http://data.ub.uio.no/usvd/<se-ogsa-id>

Foreløpig håndtering av klassifikasjonskoder (Dewey-notasjon)

  • Klassifikasjonskode (Dewey-notasjon) legges i skos:notation, med datatype <http://dewey.info/schema-terms/Notation>, ikke som mappinger.

  • Alle tegn utenom tall, punktum og bindestrek fjernes. Eksempelvis blir «005.133Basi» konvertert til «005.133» (USVD00332), «b 394.109411» til «394.109411» (USVD45296), og «372.1103/kl» til «372.1103» (USVD45366). Hvis færre enn tre gyldige tegn gjenstår utelates feltet. Dette er sannsynligvis feilinnførsler. Se f.eks. USVD34368 der «Tai språk (språkgruppe)» er fylt inn i feltet for klassifikasjonskode.

  • I noen poster blir feltet gjentatt, f.eks. USVD00007. Vi bruker kun den første (gyldige) verdien, og ignorerer påfølgende verdier. Dette gjelder 58 poster, som er listet opp her så vi kan sjekke konsekvensene av dette (Listen er generert av list_multiple_signatures.xq).

  • Feltet kan inneholde rekker, som «011-016» (USVD00393). Disse beholdes som de er, selv om de ikke kan brukes i mappingprosjektet. Hvis de fører til støy kan vi evt. fjerne dem.

Andre merknader

  • Se-henvisninger mappes til skos:altLabel. De beholder ikke egne identifikatorer. Vi kan beholde disse ved å bruke SKOS-XL, men foreløpig seg jeg ikke noe poeng med det. Må diskuteres!

  • Elementet <underemnefrase> ignoreres. Jeg er usikker på feltets betydning, og det er bare brukt 22 ganger (Listen er generert av list_underemnefrase.xq).

Lisens

Dataene ble lagt ut i forbindelse med prosjektet tesaurus-mapping høsten 2014. De er tilgjengelige under CC0 1.0.