# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [1]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [3]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: Ein absoluter Lokalisierungspfad mit einem Schritt mit Achse child und Knotentest discography. Der XPath liefert eine Liste [] mit einem Element, nähmlich den Knoten discography selbst.

/child::discography
  -> [<Element discography at 0x7f81f16d34c8>]



In [5]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung: Gleich wie oben, allerdings in verkürzter Form (die child Achse ist unterlassen). Der XPath liefert hier nicht eine Liste sondern den Tag (Element Name) des nullten Elements in der Liste. Wichtig: die adressierung des nullten Elements in der Liste und davon der Tag ([0].tag) ist nicht Teil von XPath sondern eine Anweisung in Python.
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: Die resultierende Liste ist leer weil der Knotentest fehlschlägt. Es handelt sich um einen absoluten Lokalisierungspfad der also beim Wurzelknoten beginnt. Es gibt kein Kind albums.

/discography
  -> discography

/child::*
  -> [<Element discography at 0x7f81f16d34c8>]

/discography/*
  -> [<Element albums at 0x7f81f16e2088>, <Element singles at 0x7f81f16e20c8>]

/albums
  -> []



In [7]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: Ein absoluter Lokalisierungspfad mit drei Schritten. Jeder Schritt ist in Richtung der Kinder und jeder Knotentest gelingt. Das Resultat ist eine Liste die (Referenzen auf) die beiden album Elemente enthält. 
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung: Gleich wie oben, allerdings wird mittels Python Anweisung das erste Element aus der resultierenden Liste adressiert und davon den Tag (Element Name) ausgegeben.
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x7f81f16d3a08>, <Element album at 0x7f81f16e2608>]

/discography/albums/album
  -> [<Element album at 0x7f81f16e2648>, <Element album at 0x7f81f16e2688>]

/discography/albums/album/.
  -> [<Element album at 0x7f81f16e2648>, <Element album at 0x7f81f16e2688>]

/discography/albums/album
  -> <Element album at 0x7f81f16e2648>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [9]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung: Ein relativer Lokalisierungspfad der aus dem Kontextknoten ausgeht, hier ist das der Knoten discography. Der Lokalisierungspfad besteht aus zwei Schritten. Der erste ist die verkürzte Form des Kontextknotens selsbt (also discography). Der zweite Schritt ist über die Kinder des Kontextknotens mit Knotentest singles. Es resultiert eine Liste mit einem Element, nähmlich der Knoten singles.  
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x7f81f16e2608>]

singles
  -> [<Element singles at 0x7f81f16e2848>]

./singles
  -> [<Element singles at 0x7f81f16e2608>]

albums/album
  -> [<Element album at 0x7f81f16e2608>, <Element album at 0x7f81f16e2848>]



In [11]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: // ist die verkürzte Form für die Menge welche den Kontextknoten und alle Nachkommen enthält. Diese Menge enthält somit alle Knoten. Der Knotentest ist für Knoten day. Es resultiert somit eine Liste aller day Elemente. Aus dieser Liste wird das erste Element adressiert und der Text (Element Inhalt) wird ausgegeben. Wichtig: <day>16</day> ist das nullte Element, <day>30</day> ist das erste Element in der resultierenden Liste. 
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung: Es fehlt hier die Adressierung aller Knoten mittels //. Somit resultiert hier eine leere Liste.

//singles
  -> [<Element singles at 0x7f81f16e2388>]

//album
  -> [<Element album at 0x7f81f16e2388>, <Element album at 0x7f81f16e26c8>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [14]:
p(e('descendant::*')) # Erklärung: Alle Nachkommen des Kontextknotens (hier discography). Der Kontextknoten selbst ist nicht in der resultierenden Liste.
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: Relativer Lokalisierungspfad mit vier Schritten für das zweite album Element und davon das title Kindelement, wovon wir den Inhalt haben möchten (text()). Es resultiert eine Liste mit dem Knoteninhalt (The Wall). Wichtig, in XPath beginnt die Indexierung mit 1, 2, ... und in Python beginnt diese mit 0, 1, ... Dies erklärt warum hier die Indexe 1 und 2 stehen und nicht 0 und 1.

descendant::*
  -> [<Element albums at 0x7f81f16e2148>, <Element album at 0x7f81f16e28c8>, <Element title at 0x7f81f16e2848>, <Element label at 0x7f81f16e2808>, <Element released at 0x7f81f16e2d48>, <Element day at 0x7f81f16e2a48>, <Element month at 0x7f81f16e2388>, <Element year at 0x7f81f16e2988>, <Element album at 0x7f81f16e26c8>, <Element title at 0x7f81f16e2a08>, <Element label at 0x7f81f16e2a88>, <Element released at 0x7f81f16e2cc8>, <Element day at 0x7f81f16e2c48>, <Element month at 0x7f81f16e2888>, <Element year at 0x7f81f16e2948>, <Element singles at 0x7f81f16e2ac8>, <Element single at 0x7f81f16e2b08>, <Element author at 0x7f81f16e2b48>, <Element firstname at 0x7f81f16e2b88>, <Element lastname at 0x7f81f16e2bc8>, <Element title at 0x7f81f16e2d88>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [21]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: Absoluter Lokalisierungspfad für alle Kinderknoten des Wurzelknotens im ersten Schritt. Der zweite Schritt ist in Richtung der Kinder und tested auf albums. Dann geht es wieder in Richtung der Kinder mit Knotentest auf album. Hier wird das erste Element album aus der Liste adressiert. Für dieses Element geht es weiter in Richtung der Kinder und getested wird auf das Element title. Wieder in Richtung der Kinder wird nun der Textinhalt adressiertung und als Element einer Liste zurückgegeben. 
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: Ähnlich wie vorhin, allerdings wird im ersten Schritt eine Menge zurückgegeben die bereits alle Nachkommen des Wurzelknotens enthält. Auf dieser Menge wird nun der Rest des Lokalisierungspfades ausgewertet. Die resultierende Menge ist gleich, allerdings wird hier noch das nullte Element der Liste adressiert. Es wird also keine Liste zurückgegeben sondern direkt der Inhalt des nullten Elementes der Liste (die Zeichenfolge 'The Dark Side of the Moon')
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Es gibt kein zweites single Element, somit ist die resultierende Menge leer.

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [25]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: Absoluter Lokalisierungspfad der über drei Schritte die Menge adressiert die alle album Element enthält von dort allerdings wieder zurück zum Elternknoten wandert (..). 
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: Adressiert wird zunächst das erste album und danach das released Element. Dieses hat zwei vorhergende Geschwister, title und label. Die resultierende Liste enthält die Inhalte dieser beiden Knoten, der Titel und das Label des ersten albums.
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung: Aus der Menge aller Knoten (//) wird das erste album adressiert. Im zweiten Schritt wandert man zurück zum Elternknoten (albums). Der nächste Schritt ist nun wieder in Richtung der Kinder und der Knotentest adressiert das zweite album. Davon wird der Knoteninhalt (text()) des Kindeknoten title ausgegeben, und zwar als Element der resultierenden Liste.
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x7f81f16e46c8>, <Element album at 0x7f81f16e44c8>]

/discography/albums/album/..
  -> [<Element albums at 0x7f81f16e4648>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x7f81f16e46c8>, <Element released at 0x7f81f16e4648>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x7f81f16e46c8>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x7f81f16e46c8>, <Element label at 0x7f81f16e4648>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [27]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung: Die resultierende Liste enthält (Referenzen auf) die Kinderknoten des ersten album. Das sind nicht nur Kinderelemente, sondern auch Kommentare und sogar Zeilenumbrüche.

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x7f81f16e46c8>, '\n      ', <Element label at 0x7f81f16e4208>, '\n      ', <Element released at 0x7f81f16e4448>, '\n    ']



In [32]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung: Es resultiert zunächst die Menge der title Knoten aller album. Das Prädikat filtriert hier auf die title Knoten die ein Attribut released haben mit Attributwert 1979. 
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung: Ein Vereinigungsmenge zweier Lokalisierungspfade.
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung: Kaskadierendes Prädikat. Zuerst wird aus der Menge aller Knoten die Nachkommen des Kontextknoten sind (also alle Knoten ausser discography, der Kontextknoten selbst) wird auf die Knoten firstname gefiltert und davon (mittels kaskadierendem Prädikat) die firstname Knoten welche ein Attribut name haben mit Attributwert Roger waters. Für diese Menge wird nun in Richtung der Elternknoten navigiert und auf single Knoten getested. Dies ergibt eine Menge mit einem Knoten als Element der Menge und davon wird der Inhalt des Kindknotens title ausgegeben.

/discography/albums/album/title[@released]
  -> [<Element title at 0x7f81f16d3b08>, <Element title at 0x7f81f16e47c8>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x7f81f16e47c8>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [35]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: Beispiel der Anwendung einer Funktion. Ausgegeben wird die Anzahl Elemente in der resultierenden Menge, also die beiden album Knoten. 
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung: Der Textinhalt des Titel aller Alben die in Position grösser als 1 in der Menge indexiert sind. Das ist dann das zweite Album (The Wall). Da es nicht mehr aus zwei gibt ist es das einzige resultierende Album.
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Die Titel welche mit 'The D' beginnen.
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung: Die Titel der Alben die nicht im Jahr 1979 herausgegeben wurden.

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [36]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x7f820c9e2c08>]
[<Element {http://discography.org}discography at 0x7f820c9e2c08>]
[<Element {http://albums.org}albums at 0x7f81f16e2f88>]
[<Element {http://albums.org}albums at 0x7f81f16e21c8>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [52]:
from lxml import etree as et

d = et.fromstring("""
<addresses>
<address>
<streetname>Lange Laube</streetname>
<streetnumber>43</streetnumber>
<zip>30178</zip>
<city>Hannover</city>
</address>
<address>
<streetname>Tintentrift</streetname>
<streetnumber>4b</streetnumber>
<city>Hannover</city>
<zip>30177</zip>
</address>
</addresses>
""")

# Meine XPath Abfragen ... 
print(d.xpath('//zip[text()="30177"]/../streetname/text()')[0])
print(d.xpath('//address[contains(streetname, "n")]/streetname/text()'))

Tintentrift
['Lange Laube', 'Tintentrift']
