# Einführung in XML

Wir beginnen mit der Rekapitulation einiger der wichtigsten Sprachkonstruke. Lesen Sie diese sorgfältig durch. Schauen Sie sich danach die Übungen an. Es geht darum, XML Dokumente auf Wohlgeformtheit zu testen. Ist ein Dokument nicht wohlgeformt, erklären Sie warum und verbessern Sie das Dokument entsprechend. Überprüfen Sie das verbesserte Dokument erneut. Ist es nun wohlgeformt? Zum Schluss, schreiben Sie Ihr eigenes XML Dokument und testen Sie dieses auf wohlgeformtheit.

## Konstrukte

### Tag

Ein *tag* ist ein Sprachkonstrukt welches mit `<` beginnt und mit `>` endet.

Es gibt drei Arten von *tags*:

* Das *opening tag*, zum Beispiel `<title>`
* Das *closing tag*, zum Beispiel `</title>`
* Das *empty-element tag*, zum Beispiel `<title />` oder `<title/>`

### Element

Ein XML Element ist ein Objekt welches mit einem *opening tag* beginnt und mit einem entsprechenden *closing tag*  endet.

XML Elemente können Text oder andere Elemente zwischen den entsprechenden *tags* enthalten.


```xml
<!-- Example element with text between matching tags -->
<title>The Dark Side of the Moon</title>
```

```xml
<!-- Example element with other elements between matching tags --> 
<album>
    <title>The Dark Side of the Moon</title>
    <year>1973</year>
</album>
```

XML Elemente können leer sein.

```xml
<!-- Example empty element -->
<title></title>
<!-- which can be abbreviated as -->
<title />
```

### Attribut

*Opening tags* und *empty-element tags* können ein oder mehrere Attribute enthalten, innerhalb der `<` und `>` Klammern als `name="value"` Paare, wobei `name` eindeutig sein muss innerhalb des *tags*.

```xml
<!-- Example tag with attribute -->
<album title="The Dark Side of the Moon" />
```

XML spezifiziert nicht wie Information geschrieben werden soll. Der Albumtitel ist hier ein Attribut. Im vorherigen Beispiel ist der Titel ein Element. Element ist grundsätzlich flexibler, da erweiterbar. Letztlich müssen Sie allerdings selbst entscheiden was für die Anwendung besser ist.

### Dokument

Ein XML Dokument is a Textdokument. Es beginnt mit einer (optionalen) Deklaration welche die verwendete Versionsnummer (*version*) des XML Standards deklariert, üblicherweise `1.0`, und optional die Kodierung, meist `utf-8` (*encoding*).

```xml
<?xml version="1.0" encoding="utf-8"?>
```

Ein XML Dokument muss genau ein (äusserstes) Element enthalten. Dieses wird Wurzelelement (*root element*) genannt. Das folgende Beispiel ist somit ein XML Dokument.

```xml
<?xml version="1.0"?>
<discography/>
```

## Übungen

Schreiben und testen Sie XML Dokument auf Wohlgeformtheit (*well-formed*).

Zuerst definieren wir eine Hilffunktion (hier in der Python Programmiersprache) die uns das Testen auf Wohlgeformtheit etwas erleichtert. Machen Sie sich keine grosse Gedanken wenn Sie nicht ganz verstehen was hier geschieht. Fragen Sie.

Wichtig ist, dass Sie diesen Code ausführen (ALT+ENTER).

In [3]:
from lxml import etree

def is_well_formed(doc):
    try:
        etree.fromstring(doc)
        print('The document is well-formed')
    except etree.XMLSyntaxError:
        print('The document is NOT well-formed')

Nun testen wir einige XML Dokumente auf Wohlgeformtheit. 

Ist das Dokument nicht wohlgeformt, versuchen Sie zu erklären warum und korrigieren Sie den Fehler. Schreiben Sie Ihre Erklärung an die entsprechende Stelle indem Sie den entsprechenden Block editieren (Doppelclick).

In [None]:
is_well_formed('<?xml version="1.0"?><discography/>')

In [None]:
is_well_formed('<discography/>')

In [None]:
is_well_formed('<discography/><albums/>')

# Erklärung: Dokument hat 2 Wurzelelemente.

In [None]:
doc = """
<discography>
    <albums>
        <album>
            <title>The Dark Side of the Moon</title>
        </album>
        <album>
            <title>The Wall</title>
        </album>
    </albums>
</discography>
"""
is_well_formed(doc)

Vergleichen Sie das nächste Dokument mit dem letzten. Beide sind syntaktisch korrekt und sind somit wohlgeformt. Man kann allerding einwenden, dass eine Sammlung an Alben kein Titel hat und *The Dark Side of the Moon* sicherlich kein Titel einer Sammlung ist. XML versteht solche Unterschiede nicht.

In [None]:
doc = """
<discography>
    <albums>
        <title>The Dark Side of the Moon</title>
    </albums>
</discography>
"""
is_well_formed(doc)

In [4]:
doc = """
<discography>
<albums>
<album>
<title>The Dark Side of the Moon</title>
</album>
</discography>
"""
is_well_formed(doc)

# Erklärung: </albums> fehlt.

The document is NOT well-formed


In [None]:
doc = """
<discography>
<albums>
<album>
<title>The Dark Side of the Moon</title>
</albums>
</album>
</discography>
"""
is_well_formed(doc)

# Erklärung: Der Platz von </albums> und </album> wurde verauscht. 

In [5]:
doc = """
<discography
<albums>
<album>
<title>The Dark Side of the Moon</Title>
</album>
</albums>
</discographie>
"""
is_well_formed(doc)

# Erklärung:Schreibfehler bei </discographie> und Tag bei <discography fehlt. 

The document is NOT well-formed


In [None]:
doc = """
<discography>
<albums>
<album title="The Dark Side of the Moon" year="1973" />
</albums>
</discography>
"""
is_well_formed(doc)

In [None]:
doc = """
<discography>
<albums title="The Dark Side of the Moon" title="The Wall" />
</discography>
"""
is_well_formed(doc)

# Erklärung: Ein title zu viel. 

In [None]:
doc = """
<disc:discography xmlns:disc="http://discography.org">
<disc:albums>
<disc:album>The Dark Side of the Moon</disc:album>
</disc:albums>
</disc:discography>
"""
is_well_formed(doc)

In [None]:
doc = """
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
"""
is_well_formed(doc)

Erstellen Sie nun ein XML Dokument und prüfen Sie es auf Wohlgeformtheit. Bauen Sie dann einige Fehler ein.

In [None]:
doc = """
"""
is_well_formed(doc)