# XML: Fortgeschrittene Themen

In der Vorlesung haben wir einige fortgeschrittene Themen behandelt, wie XML Baumstruktur, Vokabularien mit XML, und XML Programmierung. Hier werden wir diese Themen etwas in der Praxis anschauen.

## XML Baumstruktur

Da jedes XML Dokument genau ein Wurzelelement (*root element*) hat und Kindelement (*child elements*) entsprechend verschachtelt, kann jedes (wohlgeformte) XML Dokument als Baum dargestellt werden. Probieren Sie dies in dieser Übung. Die Funktion `print_tree` wird Ihnen dabei helfen. Schauen Sie sich das folgende XML Dokument an und schreiben Sie dann Ihr eigenes. Wie verändert sich das Verhalten der `print_tree` Funktion wenn die beiden kommentierten Zeilen ausgeführt werden?

In [23]:
def print_tree(xml):
    level = 0
    context = et.iterwalk(xml, events=('start', 'end'))
    for event, element in context:
        if event == 'start':
            print('{}> {}'.format('  ' * level, element.tag))
            if not len(element):
                print('{}> {}'.format('  ' * (level + 1), element.text))
            level = level + 1
        if event == 'end':
            level = level - 1

In [24]:
from lxml import etree as et

doc = """<discography><albums>
<album><title>The Dark Side of the Moon</title><released>16 March 1973</released></album>
<album><title>The Wall</title><released>30 November 1979</released></album>
</albums></discography>
"""
# die zuvor ausgeblendeten Inhalte der tags title und released werden nun angezeigt. 

print_tree(et.fromstring(doc))

> discography
  > albums
    > album
      > title
        > The Dark Side of the Moon
      > released
        > 16 March 1973
    > album
      > title
        > The Wall
      > released
        > 30 November 1979


In [25]:
from lxml import etree as et

# My XML document ...
doc = """<sammlung>
            <bücher>
                <buch>
                    <title>Das leere Haus</title>
                    <autor>Blackwood</autor>
                </buch>
            </bücher>
        </sammlung>
        
                
"""

print_tree(et.fromstring(doc))

> sammlung
  > bücher
    > buch
      > title
        > Das leere Haus
      > autor
        > Blackwood


## Vokabularien in XML

Spannen Sie mit Ihrem Nachbarn zusammen und legen Sie sich auf ein Themenbereich fest, z.B. Adressen, Bücher, oder Personen. Überlegen Sie sich dann einzeln ein XML Vokabular für den gewählten Themenbereich. Welche Elemente benötigt man um den Themenbereich zu beschreiben? 

Im folgenden Block schreiben Sie dann ein beispielhaftes XML Dokument. Diskutieren Sie danach mit Ihrem Nachbarn Ihr gewähltes Vokabular und das Beispiel. Bestimmt gibt es Unterschiede! Haben die beiden erstellten Vokabulare unterschiedliche Terme? Wurden diese als *Tag* oder *Attribut* modelliert? 

Diskutieren Sie mit Ihrem Nachbarn die Vor- und Nachteile der Vokabularien und versuchen Sie sich zu einigen.

**Hinweis:** Die Übung können Sie auch von zuhause ausführen, indem Sie mit Kommiliton*innen über Email kommunizieren. Arbeitskollegen sitzen nicht immer im gleichen Raum!

**My vocabulary for Buchsammlung**

<bücher>
<buch></buch>
<autor></autor>
<verlag></verlag>
<erscheinungsjahr></erscheinungsjahr>
<isbn></isbn>
</bücher>

#Vokabular wurde in diesem Fall nur als tag modelliert und nicht als Attribut
#Fokus auf Kleinschreibung

## XML in der Programmierung

XML Daten können programmatisch aus den verschiedesten Sourcen gelesen werden. String Variablen hatten wir in den Übungen schon mehrmals. XML Daten können selbstverständlich auch aus Dateien oder dem Internet gelesen werden. Das folgende Beispiel liest die `example.xml` Datei welche im gleichen Verzeichnis wie dieses Notebook liegt.

In [26]:
from lxml import etree as et

doc = et.parse('example.xml')

print(et.tostring(doc, pretty_print=True).decode('utf-8'))

<discography>
    <albums>
        <album>
            <title>The Dark Side of the Moon</title>
            <released day="16" month="March" year="1973"/>
        </album>
        <album>
            <title>The Wall</title>
            <released>
                <day>30</day> 
                <month>November</month>
                <year>1979</year>
            </released>
        </album>
    </albums>
</discography>



In der Vorlesung haben wir gesehen wie man XML auch programmatisch schreiben kann. Probieren Sie es hier aus indem Sie das Beispiel entsprechend dem vorherigen XML Dokument vervollständigen.

In [36]:
from lxml import etree as et

discography = et.Element('discography')
albums = et.SubElement(discography, 'albums')
album_1 = et.SubElement(albums, 'album')
album_1_title = et.SubElement(album_1, 'title')
album_1_title.text = 'The Dark Side of the Moon'
album_1_released = et.SubElement(album_1, 'released')
album_1_released.set('day', '16')
album_1_released.set('month', 'March')
album_1_released.set('year', '1973')
album_2 = et.SubElement(albums, 'album')
album_2_title = et.SubElement(album_2, 'title')
album_2_title.text = 'The Wall'
released = et.SubElement(album_2, 'released')
album_2_day = et.SubElement(released, 'day')
album_2_day.text = '30'
album_2_month = et.SubElement(released, 'month')
album_2_month.text = 'November'
album_2_year = et.SubElement(released, 'year')
album_2_year.text = '1973'

# Complete the example to match the previous XML document

print(et.tostring(discography, pretty_print=True).decode('utf-8'))

<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <released day="16" month="March" year="1973"/>
    </album>
    <album>
      <title>The Wall</title>
      <released>
        <day>30</day>
        <month>November</month>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>



Schreiben Sie ihre discographie in eine Datei. Benennen Sie diese `discography.xml`. 

Schauen Sie im Verzeichnis nach ob die Datei korrekt gespeichert wurde.

In [37]:
from lxml import etree as et

t = et.ElementTree(discography)
# Edit the file name accordingly
t.write(file='test.xml', pretty_print=True)

Im nächsten Beispiel travesieren wir unser XML Dokument rekursiv indem die gefundenen Element expandiert werden.

In [38]:
def expand(element):
    for child in element:
        if len(child) or child.text == None:
            print('{}'.format(child.tag))
        else:
            print('{}: {}'.format(child.tag, child.text))
        expand(child)
        
expand(discography)

albums
album
title: The Dark Side of the Moon
released
album
title: The Wall
released
day: 30
month: November
year: 1973


Das letzte Beispiel liest nun ein XML Dokument von einem Web Service und sucht nach einem bestimmten Element, wobei der Textinhalt ausgeschrieben wird. Dies ist die DOI `10.1594/PANGAEA.858171`.

Was geschieht in diesem Programmcode eigentlich? Benutzen Sie `print()` um das XML Dokument anzuschauen.

Was ist eine DOI? Fragen Sie Ihren Nachbarn oder suchen Sie im Internet danach.

Was ist [PANGAEA](https://pangaea.de)? Suchen Sie nach der DOI in PANGAEA. Was erhalten Sie?

Bilden Sie die `url` so, dass Sie diese in einem Browser ausführen können. Was erhalten Sie? Schauen Sie sich auch den `source` der Seite an.

In [42]:
import requests
from lxml import etree as et

url = '{}?verb={}&metadataPrefix={}&identifier={}'.format(
    'http://ws.pangaea.de/oai/provider',
    'GetRecord', 
    'datacite3', 
    'oai:pangaea.de:doi:10.1594/PANGAEA.858171'
)
    
r = requests.get(url)

x = et.XML(bytes(bytearray(r.text, 'utf-8')))

print(et.tostring(x, pretty_print=True).decode('utf-8'))

# der Programmcode liest ein Dokument aus, welches über einen DOI auf einer Website ermittelt worden ist und gibt diesen in einer XML Struktur wieder.

# url: https://doi.pangaea.de/10.1594/PANGAEA.858171  ; es handelt sich um ein Abstract einer wissenschaftlichen Arbeit

# Was ist eine DOI? Antwort: Digital Object Identifier ; identifiziert ein Dokument 

# Was ist PANGAEA? Antwort: Data Publisher for Earth & Environmental Science. Speichert und archiviert Daten und Informationen und macht sie auffindbar über einen DOI.

print(x.find('.//{http://datacite.org/schema/kernel-3}identifier[@identifierType="DOI"]').text)

<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2018-03-18T12:54:13Z</responseDate>
  <request verb="GetRecord" metadataPrefix="datacite3" identifier="oai:pangaea.de:doi:10.1594/PANGAEA.858171">http://ws.pangaea.de/oai/provider</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:pangaea.de:doi:10.1594/PANGAEA.858171</identifier>
        <datestamp>2017-08-05T11:05:08Z</datestamp>
        <setSpec>citable</setSpec>
        <setSpec>citableWithChilds</setSpec>
        <setSpec>supplement</setSpec>
      </header>
      <metadata>
        <resource xmlns="http://datacite.org/schema/kernel-3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://datacite.org/schema/kernel-3 http://schema.datacite.org/meta/kernel-3/metadata.xsd">
          <identifier identifie