# Semistrukturierte Daten und XML
* unstrukturierte Daten:
  * Bilddateien
  * Videodateien
  * Tonaufzeichnungen
  * ...
* semistrukturierte Daten:
  * LaTEX
  * XML
  * HTML
  * JSON
  * YAML
  * TOML
  * ...
* strukturierte Daten:
  * tabularische Formate (CSV, TSV, XLS, ...)
  * relationale Datenbanken (MySQL, PostgreSQL, ...)
  * alternative Datenbanken (NoSQL, Neo4J, ...)

## JSON (JavaScript Object Notation)
* menschenlesbares Datenaustauschformat
* Datentypen:
  * Objekte aus Schlüssel- und Wertpaaren (~Dictionaries)
  * Arrays (Listen)
  * Booleans
  * Gleitkommazahlen
  * Strings
  * Null
* verwendet vorallem zur Kommunikation von Web-Diensten
* üblicherweise UTF-8 kodiert
* Tool zum Arbeiten mit JSON auf der Kommandozeile: [jq](https://stedolan.github.io/jq/)


In [18]:
import json

book1 = {
  "titel": "Faust I",
  "author": {
    "vorname": "Johann Wolfgang",
    "nachname": "von Goethe",
  },
  "preis": 4.95,
  "verlag": "Reclam"
}

book2 = {
  "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
  "author": {
    "vorname": "Friedrich",
    "nachname": "Schiller",
  },
  "preis": 5.50,
  "verlag": "Suhrkamp"
}
print(json.dumps([book1, book2], indent=2))
#print(json.dumps([book1, book2], indent=2, ensure_ascii=False))

[
  {
    "titel": "Faust I",
    "author": {
      "vorname": "Johann Wolfgang",
      "nachname": "von Goethe"
    },
    "preis": 4.95,
    "verlag": "Reclam"
  },
  {
    "titel": "Maria Stuart: Trauperspiel in f\u00fcnf Aufz\u00fcgen",
    "author": {
      "vorname": "Friedrich",
      "nachname": "Schiller"
    },
    "preis": 5.5,
    "verlag": "Suhrkamp"
  }
]


## YAML (YAML Ain't Markup Language)
* menschenlesbares Datenaustauschformat
* rückwärtskompatibel mit JSON
* Leerzeichen sind signifikant (wie in Python)
* akzeptiert multiple Dokumente in einer Datei
* Datentypen:
  * Objekte aus Schlüssel- und Wertpaaren (~Dictionaries)
  * Arrays (Listen)
  * Booleans
  * Gleitkommazahlen
  * Strings
  * Null
  * Datum
  * ...
* verwendet als Serializations- und Konfigurationsformat
* Kommentare mit `#`
* üblicherweise UTF-8 kodiert


In [10]:
import sys
!{sys.executable} -m pip install --upgrade pip pyyaml
import yaml

book1 = {
  "titel": "Faust I",
  "author": {
    "vorname": "Johann Wolfgang",
    "nachname": "von Goethe",
  },
  "preis": 4.95,
  "verlag": "Reclam"
}

book2 = {
  "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
  "author": {
    "vorname": "Friedrich",
    "nachname": "Schiller",
  },
  "preis": 5.50,
  "verlag": "Suhrkamp"
}
print(yaml.dump([book1, book2]))

- author:
    nachname: von Goethe
    vorname: Johann Wolfgang
  preis: 4.95
  titel: Faust I
  verlag: Reclam
- author:
    nachname: Schiller
    vorname: Friedrich
  preis: 5.5
  titel: "Maria Stuart: Trauperspiel in f\xFCnf Aufz\xFCgen"
  verlag: Suhrkamp



## TOML (Tom's Obvious, Minimal Language)
* menschenlesbares Datenaustauschformat
* inspieriert vom Ini-Format
* Datentypen:
  * Objekte aus Schlüssel- und Wertpaaren (~Dictionaries)
  * Arrays (Listen)
  * Booleans
  * Gleitkommazahlen
  * Strings
  * Null
  * Datum
  * ...
* entwickelt als einfaches Konfigurationsformat
* Kommentare mit `#`
* üblicherweise UTF-8 kodiert


In [15]:
import sys
!{sys.executable} -m pip install --upgrade pip toml
import toml

book1 = {
  "titel": "Faust I",
  "author": {
    "vorname": "Johann Wolfgang",
    "nachname": "von Goethe",
  },
  "preis": 4.95,
  "verlag": "Reclam"
}

book2 = {
  "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
  "author": {
    "vorname": "Friedrich",
    "nachname": "Schiller",
  },
  "preis": 5.50,
  "verlag": "Suhrkamp"
}
print(toml.dumps({"faust_I": book1, "maria_stuard": book2}))

[faust_I]
titel = "Faust I"
preis = 4.95
verlag = "Reclam"

[maria_stuard]
titel = "Maria Stuart: Trauperspiel in fünf Aufzügen"
preis = 5.5
verlag = "Suhrkamp"

[faust_I.author]
vorname = "Johann Wolfgang"
nachname = "von Goethe"

[maria_stuard.author]
vorname = "Friedrich"
nachname = "Schiller"



## XML (Extensible Markup Language)
* Auszeichnungsprache zum Datenaustausch
* verwand mit HTML
* Nachfolger von SGML
* verwendet zur Datenauszeichnung, Serialisierung und Konfiguration
* XML-Standard wird vom [W3C (World wide Web Consortium)](https://www.w3.org/) verwaltet

![Entwicklung einiger Markup-Sprachen](history.png)
Entwicklung einiger Markup-Sprachen

### Unterschiede zu HTML (Hypertext Markup Language)
* entwickelt  Ende der 1980er Jahre
* bildet das Fundament des World Wide Webs
* beschreibt Dokumentenstruktur durch _vordefiniertes Markup_

### Struktur von XML-Dokumenten
* XML-Deklaration am Anfang (von `<?...?>` umgeben):
  1. XML-Version (Standardwert: 1.0)
  2. Encoding (Standardwert: UTF-8)
  3. Standalone (mögliche Werte: yes, no)
* Nach der optionalen XML-Deklaration folgen optional Stylesheetreferenzen und/oder Dokumenttypdeklarationen
* XML-Deklaration, Stylesheetreferenzen und Dokumenttypdeklarationen bilden den _Prolog_
* eigentlichen Daten folgen auf den XML-Prolog
* _Elemente_ bilden das Markup im XML-Dokument
* Elementnamen können frei vergeben werden
* Jedes Element ist von einem _Start-Tag_ und einem _End-Tag_ umgeben: `<element-name>...</element-name>`
* Elemente in XML _müssen_ immer mit einem schließenden Tag abgeschlossen werden
* Abkürzende Schreibweise für leere Elemente `<elem></elem>`: `<elem/>`
* Regeln für Elementnamen:
  * Namen sind Folgen alphanumerischer Zeichen beliebiger Länge
  * Elementnamen dürfen mit `_` beginnen
  * `.` und `-` dürfen nach dem ersten Zeichen auftauchen
  * `:` ist reserviert für Namensräume
  * keine Leerzeichen erlaubt
  * die Zeichenfolge `xml` ist reserviert
* Elemente spannen einen Baumstruktur auf:
  * genau ein Wurzelknoten
  * jeder Knoten (außer dem Wurzelknoten) muss genau einen Elternknoten haben

<img src="tree.png" alt="Baumstruktur" style="width:850px;"/>
Baumstruktur eines XML-Dokuments


### XML-Parsing in Python
* verschiedene Parsing-Strategien:
  * SAX-Parsing (Callback-basiert)
  * DOM-Parsing (Abbildung der Baumstruktur im Programm)
  * Pull-Parsing (imperatives Parsing der XML-Struktur)
* verschiedene XML-Büchereien in Python:
  * `xml.sax` (SAX-Parser)
  * `xml.minidom` (DOM-Parser)
  * `xml.etree` (pythonic XML-Parser)
  * `xml.dom.pulldom` (Pull-Parser für DOM-Parser)

In [49]:
import xml.etree.ElementTree as ET
import xml.dom.minidom

root = ET.Element('root')
message = ET.SubElement(root, 'message')
message.text = "Hello, world!"

# Raw output: print(ET.tostring(root)) or ET.dump(root)
# Pretty printing:
dom = xml.dom.minidom.parseString(ET.tostring(root))
print(dom.toprettyxml())

<?xml version="1.0" ?>
<root>
	<message>Hello, world!</message>
</root>



In [9]:
import xml.etree.ElementTree as ET

tree = ET.parse('buchkatalog.xml')
root = tree.getroot()

print(root.tag)
for c in root:
    print("+--> " + c.tag)
    title = c.find('titel')
    verlag = c.find('verlag')
    preis = c.find('preis')
    print("|    +--> " + title.tag + ": " + title.text)
    print("|    +--> " + verlag.tag + ": " + verlag.text)
    print("|    +--> " + preis.tag + ": " + preis.text)

buchkatalog
+--> buch
|    +--> titel: Faust I
|    +--> verlag: Reclam
|    +--> preis: 4,95
+--> buch
|    +--> titel: Maria Stuart: Trauerspiel in fünf Aufzügen
|    +--> verlag: Suhrkamp
|    +--> preis: 5,50
+--> buch
|    +--> titel: Buddenbrooks: Verfall einer Familie
|    +--> verlag: Fischer
|    +--> preis: 12,00
+--> buch
|    +--> titel: Treffpunkt im Unendlichen
|    +--> verlag: Rowohlt
|    +--> preis: 9,99


### Attribute
* Elemente können _Attribute_ enthalten
* Attribute fügen Elementen weitere Informationen hinzu
* Attribute sind Schlüssel- Wertpaare: `key="value"`
* im Allgemeinen für Metadaten
* Unterschied oftmals nicht eindeutig:

Genre als Attribut:
```xml
...
<buch genre="tragödie">
 <titel>Faust I</titel>
 <autor>
  <vorname>Johann Wolfgang</vorname>
  <nachname>von Goethe</nachname>
 </autor>
 <preis>4,95</preis>
 <verlag>Reclam</verlag>
</buch>
...
```

Genre als Element:
```xml
...
<buch>
 <genre>tragödie</genre>
 <titel>Faust I</titel>
 <autor>
  <vorname>Johann Wolfgang</vorname>
  <nachname>von Goethe</nachname>
 </autor>
 <preis>4,95</preis>
 <verlag>Reclam</verlag>
</buch>
...
```

In [50]:
import xml.etree.ElementTree as ET

tree = ET.parse('buchkatalog.xml')
root = tree.getroot()

id = 1
for c in root:
    c.attrib['id'] = str(id)
    id += 1
ET.dump(root)

<buchkatalog>

  <buch id="1">
    <titel>Faust I</titel>
    <autor>
      <vorname>Johann Wolfgang</vorname>
      <nachname>von Goethe</nachname>
    </autor>
    <preis>4,95</preis>
    <verlag>Reclam</verlag>
  </buch>

  <buch id="2">
    <titel>Maria Stuart: Trauerspiel in fünf Aufzügen</titel>
    <autor>
      <vorname>Friedrich</vorname>
      <nachname>Schiller</nachname>
    </autor>
    <preis>5,50</preis>
    <verlag>Suhrkamp</verlag>
  </buch>

  <buch id="3">
    <titel>Buddenbrooks: Verfall einer Familie</titel>
    <autor>
      <vorname>Thomas</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>12,00</preis>
    <verlag>Fischer</verlag>
  </buch>

  <buch id="4">
    <titel>Treffpunkt im Unendlichen</titel>
    <autor>
      <vorname>Klaus</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>9,99</preis>
    <verlag>Rowohlt</verlag>
  </buch>

</buchkatalog>


### Namensräume
* Namensräume zur Unterscheidung verschiedener Elemente mit gleichen Elementnamen
* Namensräume sind Präfixe von Elementnamen: `<prefix:name>`
* Es können auch Standardnamesräume ohne Präfixe vergeben werden

Namensräume mit Präfix:
```xml
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
```

Standardnamensräume:
```xml
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <autor xmlns="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <vorname>Stephan</vorname>
  <nachname>Hawking</nachname>
  <titel>Prof. Dr.</titel>
 </autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
```


In [25]:
import xml.etree.ElementTree as ET

xml = '''
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
'''

root = ET.fromstring(xml)
print(root.tag + ": " + root.find('titel').text)
autor = root.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}autor', ns)
vorname = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname', ns)
nachname = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname', ns)
titel = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel', ns)
print(vorname.tag + ": " + vorname.text)
print(nachname.tag + ": " + nachname.text)
print(titel.tag + ": " + titel.text)


buch: Eine kurze Geschichte der Zeit
{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname: Stephan
{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname: Hawking
{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel: Prof. Dr.


In [23]:
import xml.etree.ElementTree as ET

ns = {'p': 'www.dhvlab.gwi.uni-muenchen.de/xml/person'}
xml = '''
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
'''

root = ET.fromstring(xml)
print(root.tag + ": " + root.find('titel').text)
autor = root.find('p:autor', ns)
vorname = autor.find('p:vorname', ns)
nachname = autor.find('p:nachname', ns)
titel = autor.find('p:titel', ns)
print(vorname.tag + ": " + vorname.text)
print(nachname.tag + ": " + nachname.text)
print(titel.tag + ": " + titel.text)


buch: Eine kurze Geschichte der Zeit
{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname: Stephan
{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname: Hawking
{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel: Prof. Dr.


## Aufgaben
### Aufgabe `tagxml.py`

Schreiben Sie ein Python-Programm, das aus einer Korpusdatei
den Dokumenteninhalt extrahiert, diesen dann satzweise POS-tagged
und eine XML-Datei folgender Form ausgibt:

```xml
<doc>
  <s id="s-0001">
    <w id="w-0001" pos="DET">Der</w>
	<w id="w-0002" pos="NOUN">Hase</w>
	...
  </s>
  <s id="s-0002">
  ...
</doc>
```

Anmerkungen:
* verwendenden Sie die [TEI](https://tei-c.org/)-kodierte
  Korpusdateien des [deutschen
  Textarchivs](https://www.deutschestextarchiv.de/); z.B:
  * [Altman 1890](https://www.deutschestextarchiv.de/book/download_xml/altmann_elementarorganismen_1890)
  * [Brandes 1832](https://www.deutschestextarchiv.de/book/download_xml/brandes_naturlehre03_1832)
* Sie können die XML-Dateien auch mit Werkzeugen wie wget oder curl
  (man-Pages!)  herunterladen, oder auch Pythons `urllib` verwenden
* Sie können `nltk` zur Satzsegmentierung und zum POS-taggen verwenden; alternativ
  dazu können Sie auch [spacy](https://spacy.io/) verwenden
* stellen Sie sicher, dass der tatsächlichen Text aus den Dokumenten extrahieren;
  betrachten Sie hierzu folgendes (valides) XML-Dokument: `<a><b>1<c>2<d/>3</c></b>4<lb/>5</a>` 

