# 7. XML-Korpora

- semistrukturierte Datenformate (XML, JSON, YAML, TOML, ...) 
- JSON und Download von Korpus-Ressourcen mit curl
- Speicherung (Serialisierung) von strukturierten Daten
- XML als Korpusformat
  - Baumstruktur
  - Attribute
  - Knoten 


## 7.1 Semistrukturierte Datenformate

### Kategorisierung von Daten:

* __unstrukturierte Daten:__
  * _keine Strukturinformationen gegeben_
  * _Metadaten und Daten vermischt (z.B. Autorangabe als Teil eines Textes)_
  * Beispiele:
    * Bilddateien
    * Videodateien
    * Tonaufzeichnungen
    * Textdokumente
    * ...
* __semistrukturierte Daten:__
  * _haben Strukturinformationen (Objekte+Attribute), aber keine gleichartige Strukturierung (kein Datenmodell)_
  * _z.B. Auszeichnung einer Autorangabe über XML-Tag_ 
  * Beispiele:
    * LaTEX
    * XML
    * HTML
    * JSON
    * YAML
    * TOML
    * ...
* __strukturierte Daten:__
  * _haben Datenmodell (Schema) mit allgemeiner Struktur (gleichartige Strukturinformationen = Objekte+Attribute)_
  * Formate:
    * tabularische Formate (CSV, TSV, XLS, ...)
    * relationale Datenbanken (MySQL, PostgreSQL, ...)
    * alternative Datenbanken (NoSQL, Neo4J, ...)
  

#### Vorteile semistrukturierter Daten:
* __maschinenlesbar__, Informationen aus Daten dekodierbar (anders als unstrukturierte Daten)
* __Flexibilität__: Strukturierung erweiterbar, da kein fixes Schema
* können einfach zur __Auszeichnung__ von aus unstrukturierten Daten extrahierten Informationen verwendet werden (IE)
* Verwendung als __Datenaustauschformat__ (Textdatei mit Auszeichnungen)

##  7.2 JSON (JavaScript Object Notation)
* Datenaustauschformat in einfacher Textform
* Datentypen:
  * Objekte aus Schlüssel- und Wertpaaren (~Dictionaries)
  * Arrays (Listen)
  * Booleans
  * Gleitkommazahlen
  * Strings
  * Null
* verwendet vor allem zur Kommunikation von Web-Diensten (APIs) über JSON-kodierte Strings als HTTP-Request/Response
* aber auch annotierte Korpora, z.B. https://www.kaggle.com/datasets/daishinkan002/new-york-times-relation-extraction-dataset 
* üblicherweise UTF-8 kodiert
* Tool zum Arbeiten mit JSON auf der Kommandozeile: [jq](https://stedolan.github.io/jq/)
* json-Library Teil der Standard-Libraries von Python

#### JSON Einlesen und Verarbeiten mit der json-Library:

In [1]:
# Einlesen JSON-File als String:
raw_file = open('timeline.json').read()
raw_file

'{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://docs.github.com/v3/activity/events/#list-public-events"}'

In [2]:
import json
# Konvertierung in Dictionary:
data= json.loads(raw_file)
data

{'message': 'Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.',
 'documentation_url': 'https://docs.github.com/v3/activity/events/#list-public-events'}

In [3]:
type(data)

dict

In [4]:
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

In [5]:
# alternativ: Lesen und direkt in Dictionary konvertieren:
with open('timeline.json') as json_file:
    data = json.load(json_file)
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

#### Einlesen JSON mit pandas:

In [6]:
import pandas as pd
df = pd.read_json('timeline.json', lines=True)
df.head()

Unnamed: 0,message,documentation_url
0,"Hello there, wayfaring stranger. If you’re rea...",https://docs.github.com/v3/activity/events/#li...


### Download und Verarbeitung JSON mit requests-Library

In [7]:
import requests
r = requests.get('https://github.com/timeline.json')
data = r.json()
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

#### Download mit UNIX-Tool (curl):

In [8]:
%%bash
curl 'https://github.com/timeline.json'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   374  100   374    0     0   2018      0 --:--:-- --:--:-- --:--:--  2125


{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://docs.github.com/v3/activity/events/#list-public-events"}

#### Konvertierung Dictionary in JSON-String:

In [9]:
import json

book1 = {
  "titel": "Faust I",
  "author": {
    "vorname": "Johann Wolfgang",
    "nachname": "von Goethe",
  },
  "preis": 4.95,
  "verlag": "Reclam"
}

book2 = {
  "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
  "author": {
    "vorname": "Friedrich",
    "nachname": "Schiller",
  },
  "preis": 5.50,
  "verlag": "Suhrkamp"
}

#print(json.dumps([book1, book2], indent=2)) #Default: ensure_ascii=True: escape Sonderzeichen als Unicode-Points
print(json.dumps([book1, book2], indent=2, ensure_ascii=False)) # UTF-8-Kodierung

[
  {
    "titel": "Faust I",
    "author": {
      "vorname": "Johann Wolfgang",
      "nachname": "von Goethe"
    },
    "preis": 4.95,
    "verlag": "Reclam"
  },
  {
    "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
    "author": {
      "vorname": "Friedrich",
      "nachname": "Schiller"
    },
    "preis": 5.5,
    "verlag": "Suhrkamp"
  }
]


##  7.3 Serialisierung und Deserialisierung von Python-Objekten 

- Serialisierung: Konvertierung von strukturierte Daten in sequentielle Form
- Ziel: persistente Speicherung, z.B. von ML-Modellen
- JSON (oder YAML; menschenlesbar) oder als data stream (mit pickle)
- https://docs.python.org/3/library/pickle.html#comparison-with-json
- pickle ist **nicht** sicher; niemals Objekte von unbekannten/unzuverl&auml;ssigen Quellen laden

#### Pickle a Python dictionary:

In [10]:
# https://docs.python.org/3/library/pickle.html#examples

import pickle

# An arbitrary collection of objects supported by pickle.
data = {
    'a': [1, 2.0, 3+4j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

with open('data.pickle', 'wb') as f:
    # Pickle the 'data' dictionary using the highest protocol available.
    pickle.dump(data, f, pickle.HIGHEST_PROTOCOL)

#### Read the resulting pickled data:

In [31]:
import pickle

with open('data.pickle', 'rb') as f:
    data = pickle.load(f)
print(data)

{'a': [1, 2.0, (3+4j)], 'b': ('character string', b'byte string'), 'c': {False, None, True}}


##  7.4 XML (Extensible Markup Language)
* Auszeichnungsprache zum Datenaustausch (Markup/Auszeichnung von Strukturen in Texten)
* verwandt mit HTML
* Nachfolger von SGML
* verwendet zur Datenauszeichnung, Serialisierung und Konfiguration
* XML-Standard wird vom [W3C (World Wide Web Consortium)](https://www.w3.org/) verwaltet

![Entwicklung einiger Markup-Sprachen](history.png)
> Entwicklung einiger Markup-Sprachen

### Unterschiede zu HTML (Hypertext Markup Language)
* entwickelt  Ende der 1980er Jahre
* bildet das Fundament des World Wide Webs
* HTML beschreibt Dokumentenstruktur durch _vordefiniertes Markup_ (festes Tagset: Elemente und Attribute)
* dagegen _XML: kein vorgegebenes Tagset_ (flexibel, aber beeinträchtigt Interoperabilität)

##  7.5 Struktur von XML-Dokumenten
* __Prolog (_optional_):__
  * ___XML-Deklaration___ am Anfang (von `<?...?>` umgeben):
    1. XML-Version (Standardwert: 1.0)
    2. Encoding (Standardwert: UTF-8)
    3. Standalone (mögliche Werte: yes, no)
  * ___Stylesheetreferenzen___ 
  * ___Dokumenttypdeklarationen___
* __eigentliche Daten__ (folgen auf den XML-Prolog):
  * ___Elemente___ bilden das Markup im XML-Dokument
  * Elementnamen können frei vergeben werden
  * Jedes Element ist von einem _Start-Tag_ und einem _End-Tag_ umgeben: `<element-name>...</element-name>`
  * Elemente in XML _müssen_ immer mit einem schließenden Tag abgeschlossen werden
  * Abkürzende Schreibweise für leere Elemente `<elem></elem>`: `<elem/>`
  * Regeln für Elementnamen:
    * Namen sind Folgen alphanumerischer Zeichen beliebiger Länge
    * Elementnamen dürfen mit `_` beginnen
    * `.` und `-` dürfen nach dem ersten Zeichen auftauchen
    * `:` ist reserviert für Namensräume
    * keine Leerzeichen erlaubt
    * die Zeichenfolge `xml` ist reserviert
  * Elemente spannen einen ___Baumstruktur___ auf:
    * genau ein Wurzelknoten
    * jeder Knoten (außer dem Wurzelknoten) muss genau einen Elternknoten haben

#### XML-Beispiel (buchkatalog.xml):

```xml
<?xml version="1.0" encoding="UTF-8"?>
<!-- Buchkatalog -->
<buchkatalog>

  <buch>
    <titel>Faust I</titel>
    <autor>
      <vorname>Johann Wolfgang</vorname>
      <nachname>von Goethe</nachname>
    </autor>
    <preis>4,95</preis>
    <verlag>Reclam</verlag>
  </buch>

  <buch>
    <titel>Maria Stuart: Trauerspiel in fünf Aufzügen</titel>
    <autor>
      <vorname>Friedrich</vorname>
      <nachname>Schiller</nachname>
    </autor>
    <preis>5,50</preis>
    <verlag>Suhrkamp</verlag>
  </buch>

  <buch>
    <titel>Buddenbrooks: Verfall einer Familie</titel>
    <autor>
      <vorname>Thomas</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>12,00</preis>
    <verlag>Fischer</verlag>
  </buch>

  <buch>
    <titel>Treffpunkt im Unendlichen</titel>
    <autor>
      <vorname>Klaus</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>9,99</preis>
    <verlag>Rowohlt</verlag>
  </buch>

</buchkatalog>
```


<img src="tree.png" alt="Baumstruktur" style="width:850px;"/>

> Baumstruktur eines XML-Dokuments


## Übungsaufgaben 7



### Aufgabe 1 (Verarbeitung BNC-XML-Korpus)

Schreiben Sie ein Python-Programm, das 

- ein Sample des British National Corpus mit Hilfe des NLTK-XML-Korpusreaders (https://www.nltk.org/_modules/nltk/corpus/reader/bnc.html) einliest, 

- die getaggten Wörter (mit `tagged_words()`) ausgibt,

- Bigramme berechnet,

- und aus dem XML-Dokumenteninhalt (`<teiHeader>`) die Metadaten mit `xml.etree` extrahiert.

Sie können das BNC Sample entweder über NLTK herunterladen: 
```python
nltk.download('bnc')
```
oder hier manuell herunterladen: https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2553