<a href="https://colab.research.google.com/github/Fuenfgeld/2022TeamADataManagementBC/blob/main/Tutorial-Metadaten/structureData_task.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Strukturelle Daten und Metadatenschema

#### REFERENCE MODEL FOR AN OPEN ARCHIVAL INFORMATION SYSTEM (OASI)

![REFERENCE MODEL FOR AN
OPEN ARCHIVAL
INFORMATION SYSTEM (OASI)](data/OASI_chard.jpg)

Sturcture Information, definiton by [Open Archival Information System](https://public.ccsds.org/pubs/650x0m2.pdf):

- It does this by **describing the format**, or data structure concepts, which are to be applied to the bit sequences and that in turn result in more meaningful values such as characters, numbers, pixels, arrays, tables, etc.

- These common computer **data types**, **aggregations** of these data types, and **mapping rules** which map from the underlying data types to the higher level concepts needed to understand the Digital Object are referred to as the Structure Information of the Representation Information object.

Beispiel: 
- Ein Verweis auf den ASCII-Standard (ISO 9660), um bits in characters zu interpretieren.
- Ein Verweis auf ISO/TS 22028-4 (Digital images encoded using eciRGB) um bits in Bilder zu interpretieren.

## import required libraries

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'pandas'

## Data exploration

Orginal Daten können, wie angesprochen unter https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-datasetOr
gefunden werden.

Features:

-    Age | Objective Feature | age | int (days)
-    Height | Objective Feature | height | int (cm) |
-    Weight | Objective Feature | weight | float (kg) |
-    Systolic blood pressure | Examination Feature | ap_hi | int |
-    Diastolic blood pressure | Examination Feature | ap_lo | int |
-    Smoking | Subjective Feature | smoke | 0-2 |
-    Presence or absence of cardiovascular disease | Target Variable | cardio | 0-9 |

In [None]:
df = pd.read_csv("./data/new_data.csv", sep = ',', index_col = 0)

In [19]:
df.head(5)

Unnamed: 0_level_0,age,height,weight,ap_hi,ap_lo,smoke,cardio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,50,168,62.0,110,80,2,5
1,55,156,85.0,140,90,0,5
2,51,165,64.0,130,70,1,6
3,48,169,82.0,150,100,1,0
4,47,156,56.0,100,60,0,9


## Was bedeuten diese Daten?

![Was bedeuten diese Daten?](data/metadata_question.jpg)

![Questions?](data/question.jpg)

### Metadatenschema
- Es gibt viele Arten von Metadatenstandards/-schemata(generisch/domänenspezifisch).
- Generische: [Dublin Core](https://www.dublincore.org/), [MODS](http://format.gbv.de/mods) (Metadata Object Description Schema) sind in der Regel einfach zu verwenden und weit verbreitet, müssen jedoch häufig erweitert werden, um spezifischere Informationen abzudecken.
- Domänenspezifische Schemata: Haben ein viel reichhaltigeres Vokabular und eine viel umfangreichere Struktur, sind jedoch in der Regel hochspezialisiert und nur für Forscher auf diesem Gebiet verständlich. [Beispiele here](https://fairsharing.org/search?fairsharingRegistry=Standard)

## [Dublin Core](https://www.dublincore.org/specifications/dublin-core/dcmi-terms/#section-1)

- Dublin Core geht auf die sogenannte Dublin Core Metadata Initiative(DCMI)
- 1994 in Chicago gegründet
- 1995 in Dublin einheitliche Standards zur Auszeichnung von Metaangaben definiert.
- Ziel: Suchmaschinen das Durchsuchen von Dokumenten zu erleichtern, indem wichtige Inhalte bereits in den Metadaten hinterlegt sind. 
- Verwendung wo Suchmaschinen genutzt werden: Internet, Bibliotheken, Verwaltungen oder Museen.
- Heute werden die Standards von einer Gruppe aus Freiwilligen weiter bearbeitet. 

### Einteilung in 15 core elements [here](https://www.dublincore.org/specifications/dublin-core/dcmi-terms/):
- contributor
- coverage
- creator
- date
- description
- format
- identifier
- language
- publisher
- relation
- rights
- source

- **contributor (Beitragende)** *WHO?*: <br>
Nennen der Person(en) oder Organisation(en), die bei der Erstellung der Ressource (Content) mitgewirkt haben.
   
- **coverage (Ort und Zeit)** *WHERE/WHEN?*: <br>
An dieser Stelle werden Informationen zum [Ort](http://www.getty.edu/research/tools/vocabularies/tgn/?find=&place=Heidelberg&nation=&prev_page=1&english=Y&popup=P) und zeitlichen Gültigkeitsbereich abgelegt. Hierbei sollen für Orte die gültigen Namen und für die temporäre Dauer Zeitintervalle (z.B. 07.07 - 12.07) verwendet werden.
    
- **creator (Ersteller)** *WHO?*: <br>
Nennen des ursprünglichen Autors einer Ressource. Autoren können Person(en) und Organisation(en) sein.

- **[date (Datum)](https://www.w3.org/TR/NOTE-datetime)** *WHEN?*:<br>
Hinterlegen von Informationen bezüglich Erstellungsdatum, Änderungsdatum, Sperrfrist und Löschdatum.
    
- **description (Beschreibung)** *WHY/WHAT?*:<br>
Zusätzliche Informationen, die die Ressource noch näher beschreiben. Hierzu zählen z.B. eine Kurzfassung oder ein Inhaltsverzeichnis.
    
- **format (Format)** *WHAT/HOW?*:<br>
Angaben zum [MIME-Typ](https://www.iana.org/assignments/media-types/media-types.xhtml) der Ressource wie Pixelgröße, Dateiformat, Bearbeitungsdauer, usw.

- **identifier (Identifizierer)** *WHAT?*: <br>
Dieses Element enthält einen eindeutigen Bezeichner für die Ressource z.B. eine URL([DOI](https://www.doi.org/)), Artikelnummer oder UID.
    
- **language (Sprache)** *WHAT/HOW?*:<br>
Hinterlegen eines Sprachecodes. Hierfür sollen Sprachcodes nach [ISO 639](https://www.loc.gov/standards/iso639-2/php/code_list.php) oder RFC 3066 verwendet werden.
    
- **publisher (Verlag/Herausgeber)** *WHO?*: <br>
Enthält Informationen über den Verleger. Der Verleger können Person(en) oder Organisation(en) sein.

- **relation (Beziehungen)** *WHAT?*:<br>
Hier werden Informationen über Beziehungen zu anderen Ressourcen festgehalten.
    
- **rights (Rechte)** *WHO/WHERE?*: <br>
An dieser Stelle werden Informationen bezüglich den Rechten an Ressourcen hinterlegt. Zum Beispiel über den Urheber oder die [Lizenzart](https://opensource.org/licenses) (GPL, LGPL, ZPL usw.).
   
- **source (Quelle)** *WHAT?*: <br>
Eine verwandte Ressource, von der die beschriebene Ressource abgeleitet ist. Die beschriebene Ressource kann ganz oder teilweise von der verwandten Ressource abgeleitet sein.

    
- **subject (Stichwörter)**  *WHAT?*:<br>
Hier können Stichwörter oder ganze identifizierende Phrasen zu einer Ressource hinterlegt werden.
    
- **title (Titel)**  *WHAT?*:<br>
Hinterlegen des Ressourcentitels (z.B. Dokumenttitel).
    
- **[type (Typ)](https://www.dublincore.org/specifications/dublin-core/dcmi-terms/#section-7)**  *WHAT/HOW?*:<br>
Über den Typ wird einer Ressource eine Medienkategorie wie Bild, Artikel, Ordner usw. zugeordnet.

### Aufgabe

Fassen Sie die noch fehlenden "Core Elemente" unter der Verwendung der verlinkten Codierung-Standards für den vorgestellten Datensatz zusammen. Zusätzliche Informationen zum Datensatz können [hier](https://github.com/Fuenfgeld/2022TeamADataManagementBC/wiki/3.-Datensatz#zus%C3%A4tzliche-beschreibung) entnommen werden.

Beispielhafte Codierung-Standards:
- [Thesaurus of Geographic Names (TGN)](http://www.getty.edu/research/tools/vocabularies/tgn/?find=&place=Heidelberg&nation=&prev_page=1&english=Y&popup=P)

- [Date and Time Formats](https://www.w3.org/TR/NOTE-datetime)

- [Media types](https://www.iana.org/assignments/media-types/media-types.xhtml)

- [Codes for the Representation of Names of Languages (ISO 639-2)](https://www.loc.gov/standards/iso639-2/php/code_list.php)

- [List of popular Licenses](https://opensource.org/licenses)

### XML-Schme

- [Guidlines](https://www.dublincore.org/specifications/dublin-core/dc-xml-guidelines/2003-04-02/)
- Unterschied **Simple** und **Qulified** Dublin Core

#### Simple Dublin Core

- Besteht aus einer oder mehreren Eigenschaften und den zugehörigen Werten.
- Jede Eigenschaft ist ein Attribut der beschriebenen Ressource.
- Jede Eigenschaft muss eines der 15 DCMES [DCMES]-Elemente sein.
- Eigenschaften können wiederholt werden.
- Jeder Wert ist ein String.
- Jeder String-Wert kann eine zugeordnete Sprache haben (z.B. en-GB).


```xml
<?xml version="1.0"?>

<metadata
  xmlns="http://example.org/myapp/"
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://example.org/myapp/ http://example.org/myapp/schema.xsd"
  xmlns:dc="http://purl.org/dc/elements/1.1/">

  <dc:title>
    UKOLN
  </dc:title>
  <dc:description>
    UKOLN is a national focus of expertise in digital information
    management. It provides policy, research and awareness services
    to the UK library, information and cultural heritage communities.
    UKOLN is based at the University of Bath.
  </dc:description>
  <dc:publisher>
    UKOLN, University of Bath
  </dc:publisher>
  <dc:identifier>
    http://www.ukoln.ac.uk/
  </dc:identifier>

</metadata>
```

#### Qualified Dublin Core


- Besteht aus einer oder mehreren Eigenschaften und den zugehörigen Werten. **✓**
- Jede Eigenschaft ist ein Attribut der beschriebenen Ressource. **✓**
- Jede Eigenschaft muss entweder:
    - eines der 15 DC-Elemente, **✓**
    - eines der anderen vom DCMI empfohlenen Elemente (z. B. Publikum) [DCTERMS],
    - eine der Elementverfeinerungen, die in der Empfehlung der DCMI-Metadatenbedingungen [DCTERMS] aufgeführt sind.
- Eigenschaften können wiederholt werden. **✓**
- Jeder Wert ist eine String. **✓**
- Jeder Wert kann ein zugeordnetes Codierungsschema haben.
- Jedes Kodierungsschema hat einen Namen.
- Jeder String-Wert kann eine zugeordnete Sprache haben (z. B. en-GB). **✓**


```xml
<?xml version="1.0"?>

<metadata
  xmlns="http://example.org/myapp/"
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://example.org/myapp/ http://example.org/myapp/schema.xsd"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:dcterms="http://purl.org/dc/terms/">

  <dc:title>
    UKOLN
  </dc:title>
  <dcterms:alternative>
    UK Office for Library and Information Networking
  </dcterms:alternative>
  <dc:subject>
    national centre, network information support, library
    community, awareness, research, information services,public
    library networking, bibliographic management, distributed
    library systems, metadata, resource discovery,
    conferences,lectures, workshops
  </dc:subject>
  <dc:subject xsi:type="dcterms:DDC">
    062
  </dc:subject>
  <dc:subject xsi:type="dcterms:UDC">
    061(410)
  </dc:subject>
  <dc:description>
    UKOLN is a national focus of expertise in digital information
    management. It provides policy, research and awareness services
    to the UK library, information and cultural heritage communities.
    UKOLN is based at the University of Bath.
  </dc:description>
  <dc:description xml:lang="fr">
    UKOLN est un centre national d'expertise dans la gestion de l'information
    digitale.
  </dc:description>
  <dc:publisher>
    UKOLN, University of Bath
  </dc:publisher>
  <dcterms:isPartOf xsi:type="dcterms:URI">
    http://www.bath.ac.uk/
  </dcterms:isPartOf>
  <dc:identifier xsi:type="dcterms:URI">
    http://www.ukoln.ac.uk/
  </dc:identifier>
  <dcterms:modified xsi:type="dcterms:W3CDTF">
    2001-07-18
  </dcterms:modified>
  <dc:format xsi:type="dcterms:IMT">
    text/html
  </dc:format>
  <dcterms:extent>
    14 Kbytes
  </dcterms:extent>

</metadata>
```