# XML - Entiäten und Dokumenttypdefinitionen
## Entitäten
* Entitäten in XML: `&entity-name;`
* Et-Zeichen: `&amp;`
* einfaches Anführungszeichen: `&apos;`
* doppeltes Anführungszeichen: `&quot;`
* größer als: `&gt;`
* kleiner als: `&lt;`
* eigene Definitionen (Makros) möglich


In [47]:
import xml.etree.ElementTree as ET
doc = '''
<programm>
    if 1 &gt; 20:
        print(&apos;Eins ist größer als zwanzig!&apos;)
</programm>
'''
root = ET.fromstring(doc)
print(root.text)


    if 1 > 20:
        print('Eins ist größer als zwanzig!')



## Dokumenttypdefinitionen (DTD)
* Regeln aus welchen Elementen, Attributen und Entitäten ein
  XML-Dokument bestehen darf/muss
* sorgt für einheitliche Auszeichnung von Daten
* DTD's können in XML referenziert werden:
  * inline im Prolog des Dokuments
  * über private Datei: `<!DOCTYPE name SYSTEM "file.dtd">`
  * auf öffentliche DTD verweisen: `<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">`
* die externe Python-Bibliothek [lxml](https://lxml.de) unterstützt
  DTD-Validation


In [24]:
import sys
!{sys.executable} -m pip install --upgrade pip lxml
from lxml import etree

with open('programmsammlung.dtd') as f:
    dtd = etree.DTD(f)
with open('programmsammlung.xml') as f:
    root = etree.XML(f.read())

print(dtd.validate(root))

False


### Elementdeklarationen

|Operator | Funktion|
|:---|:---|
|`#PCDATA` |  Textinhalt |
|`ANY` | Beliebiger Inhalt |
|`EMPTY` | Leeres Element |
|`Element` | Das Element muss genau einmal auftreten.|
|`Element*` | Das Element kann entweder gar nicht auftreten oder es kann beliebig oft auftreten.|
|`Element+` | Das Element muss mindestens einmal auftreten oder es kann beliebig oft auftreten.|
|`Element?` | Das Element kann entweder gar nicht auftreten oder es kann genau einmal auftreten.|
|`Element1,Element2,..` | Gibt eine festgelegte Sequenz von Elementen an.|
|`Element1|Element2|..` | Gibt eine Reihe von Alternativen an, aus der immer nur genau eine auftreten darf.|
|`(Element1 Op Element2..)` | Definiert eine Elementgruppe.|

### Attributdeklarationen

|Operator | Funktion|
|:---|:---|
|`#REQUIRED` | Attribut dar nicht ausgelassen werden. |
|`#IMPLIED` | Attribut kann ausgelassen werden. |
|`#FIXED "..."` | Attribut muss einen fixen Wert haben. |
|`"..."` | Standardwert, wenn Attribut ausgelassen wird. |
|`ID` | Ein eindeutiger Identifizierer.|
|`Character Data (CDATA)` | Zeichendaten, die nicht verarbeitet werden. |
|`(Wert1\|Wert2\|...)` | Ein Wert aus einer Aufzählung. |

Beispiel:
```
<!ATTLIST Element1
 Attribut1 ID #REQUIRED
 Attribut2 CDATA #IMPLIED
>
```


In [48]:
doc = '''<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE programm [
    <!ENTITY year "ⅯⅯⅩⅩⅠ">
    <!ENTITY longs "ſ">
    <!ENTITY cpr "Copyright by Erika &amp; Max Mu&longs;termann (&year;)">
]>
<programm>
    <name>simple_loop.py</name>
    <sprache>Python</sprache>
    <code>for p in persons:
            print(p.name + " " + p.age)
    </code>
    <copyright>&cpr;</copyright>
</programm>
'''
root = ET.fromstring(doc)
print("copyright: " + root.find('copyright').text)

copyright: Copyright by Erika & Max Muſtermann (ⅯⅯⅩⅩⅠ)


## Aufgaben
### Aufgabe 1 xmltcf

Im deutschen Textarchiv findet man auch annotierte Daten zu den
entsprechenden Dokumenten.  Laden Sie eine solche lemmatisierte und
annotierte XML-Datei herunter (z.B.:
[Altmann](https://www.deutschestextarchiv.de/book/download_fulltcf/16299))
und schreiben Sie ein Programm, das eine zeilenweise die Sätze
ausgibt, wobei die Token entweder mit ihren Lemmata oder irhen Tags
annotiert sind:
```bash
$ ./xmltcf.py file.xml
Ich/ich gehe/gehen ...
$ ./xmltcf.py --tags file.xml
Der/DET Mann/NOUN ...
```
