# 7. XML-Korpora und XML-Parsing


- semistrukturierte Datenformate (XML, JSON, YAML, TOML, ...) 
- JSON und Download von Korpus-Ressourcen mit curl
- Speicherung (Serialisierung) von strukturierten Daten
- XML als Korpusformat
  - Baumstruktur
  - Attribute
  - Knoten 
- Parsing von XML-Korpora mit etree
- Namensräume
- Entitäten 
- Validierung mit Dokumenttypdefinitionen (DTD’s)




## Semistrukturierte Datenformate

### Kategorisierung von Daten:

* __unstrukturierte Daten:__
  * _keine Strukturinformationen gegeben_
  * _Metadaten und Daten vermischt (z.B. Autorangabe als Teil eines Textes)_
  * Beispiele:
    * Bilddateien
    * Videodateien
    * Tonaufzeichnungen
    * Textdokumente
    * ...
* __semistrukturierte Daten:__
  * _haben Strukturinformationen (Objekte+Attribute), aber keine gleichartige Strukturierung (kein Datenmodell)_
  * _z.B. Auszeichnung einer Autorangabe über XML-Tag_ 
  * Beispiele:
    * LaTEX
    * XML
    * HTML
    * JSON
    * YAML
    * TOML
    * ...
* __strukturierte Daten:__
  * _haben Datenmodell (Schema) mit allgemeiner Struktur (gleichartige Strukturinformationen = Objekte+Attribute)_
  * Formate:
    * tabularische Formate (CSV, TSV, XLS, ...)
    * relationale Datenbanken (MySQL, PostgreSQL, ...)
    * alternative Datenbanken (NoSQL, Neo4J, ...)
  

#### Vorteile semistrukturierter Daten:
* __maschinenlesbar__, Informationen aus Daten dekodierbar (anders als unstrukturierte Daten)
* __Flexibilität__: Strukturierung erweiterbar, da kein fixes Schema
* können einfach zur __Auszeichnung__ von aus unstrukturierten Daten extrahierten Informationen verwendet werden (IE)
* Verwendung als __Datenaustauschformat__ (Textdatei mit Auszeichnungen)

## JSON (JavaScript Object Notation)
* Datenaustauschformat in einfacher Textform
* Datentypen:
  * Objekte aus Schlüssel- und Wertpaaren (~Dictionaries)
  * Arrays (Listen)
  * Booleans
  * Gleitkommazahlen
  * Strings
  * Null
* verwendet vor allem zur Kommunikation von Web-Diensten (APIs) über JSON-kodierte Strings als HTTP-Request/Response
* aber auch annotierte Korpora, z.B. https://www.kaggle.com/datasets/daishinkan002/new-york-times-relation-extraction-dataset 
* üblicherweise UTF-8 kodiert
* Tool zum Arbeiten mit JSON auf der Kommandozeile: [jq](https://stedolan.github.io/jq/)
* json-Library Teil der Standard-Libraries von Python

#### JSON Einlesen und Verarbeiten mit der json-Library:

In [1]:
# Einlesen JSON-File als String:
raw_file = open('timeline.json').read()
raw_file

'{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://docs.github.com/v3/activity/events/#list-public-events"}'

In [2]:
import json
# Konvertierung in Dictionary:
data= json.loads(raw_file)
data

{'message': 'Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.',
 'documentation_url': 'https://docs.github.com/v3/activity/events/#list-public-events'}

In [3]:
type(data)

dict

In [4]:
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

In [5]:
# alternativ: Lesen und direkt in Dictionary konvertieren:
with open('timeline.json') as json_file:
    data = json.load(json_file)
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

#### Einlesen JSON mit pandas:

In [6]:
import pandas as pd
df = pd.read_json('timeline.json', lines=True)
df.head()

Unnamed: 0,message,documentation_url
0,"Hello there, wayfaring stranger. If you’re rea...",https://docs.github.com/v3/activity/events/#li...


## Download und Verarbeitung JSON mit requests-Library

In [7]:
import requests
r = requests.get('https://github.com/timeline.json')
data = r.json()
data['documentation_url']

'https://docs.github.com/v3/activity/events/#list-public-events'

#### Download mit UNIX-Tool (curl):

In [8]:
%%bash
curl 'https://github.com/timeline.json'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   374  100   374    0     0   2018      0 --:--:-- --:--:-- --:--:--  2125


{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://docs.github.com/v3/activity/events/#list-public-events"}

#### Konvertierung Dictionary in JSON-String:

In [9]:
import json

book1 = {
  "titel": "Faust I",
  "author": {
    "vorname": "Johann Wolfgang",
    "nachname": "von Goethe",
  },
  "preis": 4.95,
  "verlag": "Reclam"
}

book2 = {
  "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
  "author": {
    "vorname": "Friedrich",
    "nachname": "Schiller",
  },
  "preis": 5.50,
  "verlag": "Suhrkamp"
}

#print(json.dumps([book1, book2], indent=2)) #Default: ensure_ascii=True: escape Sonderzeichen als Unicode-Points
print(json.dumps([book1, book2], indent=2, ensure_ascii=False)) # UTF-8-Kodierung

[
  {
    "titel": "Faust I",
    "author": {
      "vorname": "Johann Wolfgang",
      "nachname": "von Goethe"
    },
    "preis": 4.95,
    "verlag": "Reclam"
  },
  {
    "titel": "Maria Stuart: Trauperspiel in fünf Aufzügen",
    "author": {
      "vorname": "Friedrich",
      "nachname": "Schiller"
    },
    "preis": 5.5,
    "verlag": "Suhrkamp"
  }
]


## Serialisierung und Deserialisierung von Python-Objekten 

- Serialisierung: Konvertierung von strukturierte Daten in sequentielle Form
- Ziel: persistente Speicherung, z.B. von ML-Modellen
- JSON (oder YAML; menschenlesbar) oder als data stream (mit pickle)
- https://docs.python.org/3/library/pickle.html#comparison-with-json
- pickle ist **nicht** sicher; niemals Objekte von unbekannten/unzuverl&auml;ssigen Quellen laden

#### Pickle a Python dictionary:

In [10]:
# https://docs.python.org/3/library/pickle.html#examples

import pickle

# An arbitrary collection of objects supported by pickle.
data = {
    'a': [1, 2.0, 3+4j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

with open('data.pickle', 'wb') as f:
    # Pickle the 'data' dictionary using the highest protocol available.
    pickle.dump(data, f, pickle.HIGHEST_PROTOCOL)

#### Read the resulting pickled data:

In [31]:
import pickle

with open('data.pickle', 'rb') as f:
    data = pickle.load(f)
print(data)

{'a': [1, 2.0, (3+4j)], 'b': ('character string', b'byte string'), 'c': {False, None, True}}


## XML (Extensible Markup Language)
* Auszeichnungsprache zum Datenaustausch (Markup/Auszeichnung von Strukturen in Texten)
* verwandt mit HTML
* Nachfolger von SGML
* verwendet zur Datenauszeichnung, Serialisierung und Konfiguration
* XML-Standard wird vom [W3C (World Wide Web Consortium)](https://www.w3.org/) verwaltet

![Entwicklung einiger Markup-Sprachen](history.png)
> Entwicklung einiger Markup-Sprachen

### Unterschiede zu HTML (Hypertext Markup Language)
* entwickelt  Ende der 1980er Jahre
* bildet das Fundament des World Wide Webs
* HTML beschreibt Dokumentenstruktur durch _vordefiniertes Markup_ (festes Tagset: Elemente und Attribute)
* dagegen _XML: kein vorgegebenes Tagset_ (flexibel, aber beeinträchtigt Interoperabilität)

## Struktur von XML-Dokumenten
* __Prolog (_optional_):__
  * ___XML-Deklaration___ am Anfang (von `<?...?>` umgeben):
    1. XML-Version (Standardwert: 1.0)
    2. Encoding (Standardwert: UTF-8)
    3. Standalone (mögliche Werte: yes, no)
  * ___Stylesheetreferenzen___ 
  * ___Dokumenttypdeklarationen___
* __eigentliche Daten__ (folgen auf den XML-Prolog):
  * ___Elemente___ bilden das Markup im XML-Dokument
  * Elementnamen können frei vergeben werden
  * Jedes Element ist von einem _Start-Tag_ und einem _End-Tag_ umgeben: `<element-name>...</element-name>`
  * Elemente in XML _müssen_ immer mit einem schließenden Tag abgeschlossen werden
  * Abkürzende Schreibweise für leere Elemente `<elem></elem>`: `<elem/>`
  * Regeln für Elementnamen:
    * Namen sind Folgen alphanumerischer Zeichen beliebiger Länge
    * Elementnamen dürfen mit `_` beginnen
    * `.` und `-` dürfen nach dem ersten Zeichen auftauchen
    * `:` ist reserviert für Namensräume
    * keine Leerzeichen erlaubt
    * die Zeichenfolge `xml` ist reserviert
  * Elemente spannen einen ___Baumstruktur___ auf:
    * genau ein Wurzelknoten
    * jeder Knoten (außer dem Wurzelknoten) muss genau einen Elternknoten haben

#### XML-Beispiel (buchkatalog.xml):

```xml
<?xml version="1.0" encoding="UTF-8"?>
<!-- Buchkatalog -->
<buchkatalog>

  <buch>
    <titel>Faust I</titel>
    <autor>
      <vorname>Johann Wolfgang</vorname>
      <nachname>von Goethe</nachname>
    </autor>
    <preis>4,95</preis>
    <verlag>Reclam</verlag>
  </buch>

  <buch>
    <titel>Maria Stuart: Trauerspiel in fünf Aufzügen</titel>
    <autor>
      <vorname>Friedrich</vorname>
      <nachname>Schiller</nachname>
    </autor>
    <preis>5,50</preis>
    <verlag>Suhrkamp</verlag>
  </buch>

  <buch>
    <titel>Buddenbrooks: Verfall einer Familie</titel>
    <autor>
      <vorname>Thomas</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>12,00</preis>
    <verlag>Fischer</verlag>
  </buch>

  <buch>
    <titel>Treffpunkt im Unendlichen</titel>
    <autor>
      <vorname>Klaus</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>9,99</preis>
    <verlag>Rowohlt</verlag>
  </buch>

</buchkatalog>
```


<img src="tree.png" alt="Baumstruktur" style="width:850px;"/>

> Baumstruktur eines XML-Dokuments


## XML-Parsing in Python
* verschiedene Parsing-Strategien:
  * SAX-Parsing (Callback-basiert)
  * DOM-Parsing (Abbildung der Baumstruktur im Programm)
  * Pull-Parsing (imperatives Parsing der XML-Struktur)
* verschiedene XML-Parser in Python-Standardlibrary:
  * `xml.sax` (SAX-Parser)
  * `xml.minidom` (DOM-Parser)
  * `xml.dom.pulldom` (Pull-Parser für DOM-Parser)
  * __`xml.etree`__ (pythonic XML-DOM-Parser zur Extraktion von Inhalten aus XML-Dateien)
* weitere XML-Library:
  * __`BeautifulSoup`__ (XML Parser, ebenfalls zur Extraktion von Inhalten aus XML-Dateien verwendet)


### XML-Generierung mit etree: Element(), SubElement()

- Erzeugen von XML (Knoten)  mit etree

In [12]:
import xml.etree.ElementTree as ET
import xml.dom.minidom

root = ET.Element('root')
message = ET.SubElement(root, 'message')
message.text = "Hello, world!"

# Raw output: print(ET.tostring(root)) or ET.dump(root)

# Pretty printing: (reparse with minidom that supports pretty print)
dom = xml.dom.minidom.parseString(ET.tostring(root))
print(dom.toprettyxml())

<?xml version="1.0" ?>
<root>
	<message>Hello, world!</message>
</root>



### XML-Parsing mit etree: parse(), getroot(), find()

- Einlesen eines XML-Dokuments und und Parsen der Baumstruktur mit etree

In [13]:
import xml.etree.ElementTree as ET

tree = ET.parse('buchkatalog.xml')
root = tree.getroot()

print(root.tag)
# Iterieren über Knoten:
for c in root:
    print("+--> " + c.tag)
    title = c.find('titel')
    verlag = c.find('verlag')
    preis = c.find('preis')
    print("|    +--> " + title.tag + ": " + title.text)
    print("|    +--> " + verlag.tag + ": " + verlag.text)
    print("|    +--> " + preis.tag + ": " + preis.text)

buchkatalog
+--> buch
|    +--> titel: Faust I
|    +--> verlag: Reclam
|    +--> preis: 4,95
+--> buch
|    +--> titel: Maria Stuart: Trauerspiel in fünf Aufzügen
|    +--> verlag: Suhrkamp
|    +--> preis: 5,50
+--> buch
|    +--> titel: Buddenbrooks: Verfall einer Familie
|    +--> verlag: Fischer
|    +--> preis: 12,00
+--> buch
|    +--> titel: Treffpunkt im Unendlichen
|    +--> verlag: Rowohlt
|    +--> preis: 9,99


### XML-Parsing mit BeautifulSoup (bs4):

In [15]:
from bs4 import BeautifulSoup
import codecs

with codecs.open("buchkatalog.xml", "r", "utf-8") as file:
    soup = BeautifulSoup(file) 
    #The variable soup now contains a BeautifulSoup object that you can use to traverse the root element.

title = soup.find('titel')
print(title)

<titel>Faust I</titel>


In [16]:
for title in soup.find_all("titel"):
    print(title)

<titel>Faust I</titel>
<titel>Maria Stuart: Trauerspiel in fünf Aufzügen</titel>
<titel>Buddenbrooks: Verfall einer Familie</titel>
<titel>Treffpunkt im Unendlichen</titel>


## Attribute
* Elemente können _Attribute_ enthalten
* Attribute fügen Elementen weitere Informationen hinzu
* Attribute sind Schlüssel-Wertpaare: `key="value"`
* im Allgemeinen für Metadaten
* Unterschied oftmals nicht eindeutig:

Genre als Attribut:
```xml
...
<buch genre="tragödie">
 <titel>Faust I</titel>
 <autor>
  <vorname>Johann Wolfgang</vorname>
  <nachname>von Goethe</nachname>
 </autor>
 <preis>4,95</preis>
 <verlag>Reclam</verlag>
</buch>
...
```

Genre als Element (Auszeichnung):
```xml
...
<buch>
 <genre>tragödie</genre>
 <titel>Faust I</titel>
 <autor>
  <vorname>Johann Wolfgang</vorname>
  <nachname>von Goethe</nachname>
 </autor>
 <preis>4,95</preis>
 <verlag>Reclam</verlag>
</buch>
...
```

### Attribute mit etree: attrib-Dictionary

- Hinzufügen von Attribut mit etree:

In [17]:
import xml.etree.ElementTree as ET

tree = ET.parse('buchkatalog.xml')
root = tree.getroot()

id = 1
for c in root:
    c.attrib['id'] = str(id)
    id += 1
ET.dump(root)

<buchkatalog>

  <buch id="1">
    <titel>Faust I</titel>
    <autor>
      <vorname>Johann Wolfgang</vorname>
      <nachname>von Goethe</nachname>
    </autor>
    <preis>4,95</preis>
    <verlag>Reclam</verlag>
  </buch>

  <buch id="2">
    <titel>Maria Stuart: Trauerspiel in fünf Aufzügen</titel>
    <autor>
      <vorname>Friedrich</vorname>
      <nachname>Schiller</nachname>
    </autor>
    <preis>5,50</preis>
    <verlag>Suhrkamp</verlag>
  </buch>

  <buch id="3">
    <titel>Buddenbrooks: Verfall einer Familie</titel>
    <autor>
      <vorname>Thomas</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>12,00</preis>
    <verlag>Fischer</verlag>
  </buch>

  <buch id="4">
    <titel>Treffpunkt im Unendlichen</titel>
    <autor>
      <vorname>Klaus</vorname>
      <nachname>Mann</nachname>
    </autor>
    <preis>9,99</preis>
    <verlag>Rowohlt</verlag>
  </buch>

</buchkatalog>


## Namensräume
* Namensräume zur Unterscheidung verschiedener Elemente mit gleichen Elementnamen
* Namensräume sind Präfixe von Elementnamen: `<prefix:name>`
* Es können auch Standardnamensräume ohne Präfixe vergeben werden

Namensräume mit Präfix:
```xml
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
```

Standardnamensräume:
```xml
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <autor xmlns="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <vorname>Stephan</vorname>
  <nachname>Hawking</nachname>
  <titel>Prof. Dr.</titel>
 </autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
```


In [18]:
import xml.etree.ElementTree as ET

# Namespace-Dictionary:
ns = {'p': 'www.dhvlab.gwi.uni-muenchen.de/xml/person'}

xml = '''
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
'''

root = ET.fromstring(xml)
print(root.tag + ": " + root.find('titel').text)
autor = root.find('p:autor', ns)
vorname = autor.find('p:vorname', ns)
nachname = autor.find('p:nachname', ns)
titel = autor.find('p:titel', ns)
print(vorname.tag + ": " + vorname.text)
print(nachname.tag + ": " + nachname.text)
print(titel.tag + ": " + titel.text)


buch: Eine kurze Geschichte der Zeit
{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname: Stephan
{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname: Hawking
{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel: Prof. Dr.


In [19]:
import xml.etree.ElementTree as ET

# alternativ ohne Namespace-Dictionary:

xml = '''
<buch>
 <titel>Eine kurze Geschichte der Zeit</titel>
 <p:autor xmlns:p="www.dhvlab.gwi.uni-muenchen.de/xml/person">
  <p:vorname>Stephan</p:vorname>
  <p:nachname>Hawking</p:nachname>
  <p:titel>Prof. Dr.</p:titel>
 </p:autor>
 <preis>9,99</preis>
 <verlag>Rowohlt</verlag>
 <genre>wissenschaft</genre>
</buch>
'''

root = ET.fromstring(xml)
print(root.tag + ": " + root.find('titel').text)
autor = root.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}autor')
vorname = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname')
nachname = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname')
titel = autor.find('{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel')
print(vorname.tag + ": " + vorname.text)
print(nachname.tag + ": " + nachname.text)
print(titel.tag + ": " + titel.text)


buch: Eine kurze Geschichte der Zeit
{www.dhvlab.gwi.uni-muenchen.de/xml/person}vorname: Stephan
{www.dhvlab.gwi.uni-muenchen.de/xml/person}nachname: Hawking
{www.dhvlab.gwi.uni-muenchen.de/xml/person}titel: Prof. Dr.


## Entitäten
* Entitäten in XML: `&entity-name;`
* Et-Zeichen (&): `&amp;`
* einfaches Anführungszeichen: `&apos;`
* doppeltes Anführungszeichen: `&quot;`
* größer als: `&gt;`
* kleiner als: `&lt;`


* Escapen durch XML-Entities von Zeichen, die Teil der XML-Syntax sind, ist notwendig, da sonst Syntaxfehler beim Parsing auftreten


* eigene Definitionen (Makros) möglich (mit Hilfe von DTDs)

In [37]:
import xml.etree.ElementTree as ET
doc = '''
<programm>
    if 1 &lt; 20:
        print(&apos;Eins ist kleiner als zwanzig!&apos;)
</programm>
'''
root = ET.fromstring(doc)
print(root.text)


    if 1 < 20:
        print('Eins ist kleiner als zwanzig!')



## Dokumenttypdefinitionen (DTD)
* Schemasprache zur Festlegung von XML-Strukturen (z.B. TEI-Schema für Korpusdaten)
* Regeln aus welchen Elementen, Attributen und Entitäten ein
  XML-Dokument bestehen darf/muss
* sorgt für einheitliche Auszeichnung von Daten
* etwa für die Korpus-Dokumentenformat-Definitionen von TEI-XML verwendet (siehe Aufgabe 1)
* DTD's können in XML referenziert werden:
  * inline im Prolog des Dokuments
  * über private Datei: `<!DOCTYPE name SYSTEM "file.dtd">`
  * auf öffentliche DTD verweisen: `<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">`

### Elementdeklarationen

|Operator | Funktion|
|:---|:---|
|`#PCDATA` |  Textinhalt |
|`ANY` | Beliebiger Inhalt |
|`EMPTY` | Leeres Element |
|`Element` | Das Element muss genau einmal auftreten.|
|`Element*` | Das Element kann entweder gar nicht auftreten oder es kann beliebig oft auftreten.|
|`Element+` | Das Element muss mindestens einmal auftreten oder es kann beliebig oft auftreten.|
|`Element?` | Das Element kann entweder gar nicht auftreten oder es kann genau einmal auftreten.|
|`Element1,Element2,..` | Gibt eine festgelegte Sequenz von Elementen an.|
|`Element1`<code>&#124;</code>`Element2`<code>&#124;</code>`..` | Gibt eine Reihe von Alternativen an, aus der immer nur genau eine auftreten darf.|
|`(Element1 Op Element2..)` | Definiert eine Elementgruppe.|

### Attributdeklarationen

|Operator | Funktion|
|:---|:---|
|`#REQUIRED` | Attribut dar nicht ausgelassen werden. |
|`#IMPLIED` | Attribut kann ausgelassen werden. |
|`#FIXED "..."` | Attribut muss einen fixen Wert haben. |
|`"..."` | Standardwert, wenn Attribut ausgelassen wird. |
|`ID` | Ein eindeutiger Identifizierer.|
|`Character Data (CDATA)` | Zeichendaten, die nicht verarbeitet werden. |
|`(Wert1\`<code>&#124;</code>`Wert2`<code>&#124;</code>`...)` | Ein Wert aus einer Aufzählung. |

#### Beispiel:
```
<!ATTLIST Element1
 Attribut1 ID #REQUIRED
 Attribut2 CDATA #IMPLIED
>
```


#### Beispiel: programmsammlung.dtd
```xml
<!ELEMENT programmsammlung (programm+)>
<!ELEMENT programm ( name,sprache, code,autor)>
<!ELEMENT sprache (#PCDATA)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT code (#PCDATA)>
<!ELEMENT autor (#PCDATA)>
```

#### programmsammlung.xml:
```xml
<programmsammlung>

	<programm>
		<name>simple_loop.py</name>
		<sprache>Python</sprache>
		<code>for p in persons:
			print(p.name + " " + p.age)
		</code>
		<autor>Jane Doe</autor>
	</programm>
	
	<programm>
		<name>tier.java</name>
		<sprache>Java</sprache>
		<code>public class Tier{
		private String art;
		private String name;
		
		public Tier(String art, String name){
			this.name = name;
			this.art = art; 
		}
		</code>
		<autor>John Doe</autor>
	</programm>
	
</programmsammlung>
```

## Validierung von XML-Dateien anhand von DTD-Schema
- die externe Python-Bibliothek [lxml](https://lxml.de) unterstützt
  DTD-Validation:


In [28]:
import sys
#!{sys.executable} -m pip install --upgrade pip lxml
from lxml import etree

with open('programmsammlung.dtd') as f:
    dtd = etree.DTD(f)
with open('programmsammlung.xml', 'rb') as f:
    root = etree.XML(f.read())

print(dtd.validate(root))

True


#### XML-Datei-interne DTD mit Definition von Makronamen (s.o. Entitäten):

In [29]:
doc = '''<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE programm [
    <!ENTITY year "ⅯⅯⅩⅩⅠ">
    <!ENTITY longs "ſ">
    <!ENTITY cpr "Copyright by Erika &amp; Max Mu&longs;termann (&year;)">
]>
<programm>
    <name>simple_loop.py</name>
    <sprache>Python</sprache>
    <code>for p in persons:
            print(p.name + " " + p.age)
    </code>
    <copyright>&cpr;</copyright>
</programm>
'''
root = ET.fromstring(doc)
print("copyright: " + root.find('copyright').text)

copyright: Copyright by Erika & Max Muſtermann (ⅯⅯⅩⅩⅠ)


## Übungsaufgaben 7



### Aufgabe 1: Verarbeitung BNC-XML-Korpus

Schreiben Sie ein Python-Programm, das 

- ein Sample des British National Corpus mit Hilfe des NLTK-XML-Korpusreaders (https://www.nltk.org/_modules/nltk/corpus/reader/bnc.html) einliest, 

- die getaggten Wörter (mit `tagged_words()`) ausgibt,

- Bigramme berechnet,

- und aus dem XML-Dokumenteninhalt (`<teiHeader>`) die Metadaten mit `xml.etree` extrahiert.

Sie können das BNC Sample entweder über NLTK herunterladen: 
```python
nltk.download('bnc')
```
oder hier manuell herunterladen: https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2553


### Aufgabe 2: xmlpos (Extraktion und Annotation von TEI-XML)
Schreiben Sie ein Python-Programm `xmlpos`, das aus einer Korpusdatei
den Dokumenteninhalt extrahiert, diesen dann satzweise POS-tagged
und eine XML-Datei folgender Form ausgibt:

```xml
<doc>
  <s id="s-0001">
    <w id="w-0001" pos="DET">Der</w>
	<w id="w-0002" pos="NOUN">Hase</w>
	...
  </s>
  <s id="s-0002">
  ...
</doc>
```

Anmerkungen:
* Verwendenden Sie die [TEI](https://tei-c.org/)-kodierten Korpusdateien des [deutschen Textarchivs](https://www.deutschestextarchiv.de/), z.B:
  * Altman 1890: https://www.deutschestextarchiv.de/book/download_xml/altmann_elementarorganismen_1890
  * Brandes 1832: https://www.deutschestextarchiv.de/book/download_xml/brandes_naturlehre03_1832


> _XML-TEI (Text Encoding Initiative): weit verbreitetes XML-Dokumentenformat für die Kodierung von Textkorpora_    
  (Schema mit einheitlichen Elementnamen und Attributen für die editionswissenschaftliche und linguistische Annotation von Texten, u.a. über DTD definiert)

> _DTA (Deutsches Textarchiv): historisches deutsches Korpus_ (linguistisch annotiertes Volltextkorpus deutschsprachiger Texte aus der Zeit um 1600 bis 1900)


* Sie können die XML-Dateien auch mit Werkzeugen wie wget oder curl
  (man-Pages!)  herunterladen, oder auch Pythons `urllib` verwenden
* Sie können `nltk` zur Satzsegmentierung und zum POS-Tagging verwenden; alternativ
  dazu können Sie auch _stanza_ (oder _[spacy](https://spacy.io/)_) verwenden
* Stellen Sie sicher, dass der tatsächlichen Text aus den Dokumenten extrahiert wird;
  betrachten Sie hierzu folgendes (valides) XML-Dokument: `<a><b>1<c>2<d/>3</c></b>4<lb/>5</a>` 

```xml
 <a>
	<b>
		1
		<c>
			2
			<d/>
			3
		</c>
	</b>
	4
	<lb/>
	5
</a> 
``` 



---
### Aufgabe 3: xmltcf (Verarbeitung von annotierten XML-Dateien im TCF-Format)

Im deutschen Textarchiv findet man auch annotierte Daten zu den
entsprechenden Dokumenten.  Laden Sie eine solche lemmatisierte und
annotierte XML-Datei im [TCF-Format](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format) (Text Corpus Format)
herunter (z.B. Altmann: https://www.deutschestextarchiv.de/book/download_fulltcf/16299)
und schreiben Sie ein Programm `xmltcf`, das eine zeilenweise die Sätze
ausgibt, wobei die Token entweder mit ihren Lemmata oder ihren Tags
annotiert sind:
```bash
$ ./xmltcf.py file.xml
Ich/ich gehe/gehen ...
$ ./xmltcf.py --tags file.xml
Der/DET Mann/NOUN ...
```
