# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [1]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [3]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: Vom Kontextknoten (Stamm) ausgehend, wird das erset Child-Element gewählt

/child::discography
  -> [<Element discography at 0x28a50a6e908>]



In [2]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung: Wählt den Kontextknoten selbst an sich aus (self)
p(e('/child::*')) # Erklärung: Wählt erstes Kindelement vom Stamm aus, in diesem Fall den Kontextknoten 'discography' selbst
p(e('/discography/*')) # Erklärung: Wählt alle Kind-Elemente vom Kontextknoten 'discography' aus
p(e('/albums')) # Erklärung: Es wird nichts ausgewählt, da der Weg nicht vollständig angegeben wurde. 'discography/albums/*' wäre der Weg

/discography
  -> discography

/child::*
  -> [<Element discography at 0x1b6bbf7fec8>]

/discography/*
  -> [<Element albums at 0x1b6badd6b88>, <Element singles at 0x1b6bbfae388>]

/albums
  -> []



In [3]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: Weil das '/' genauso wie 'child::' das nächste Kind-Element auswählt
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung: '0' wählte alle Elemente aus, '1' nur das Erste. Indexierung in xPath beginnt mit der 1
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x1b6bbeea388>, <Element album at 0x1b6bbfae608>]

/discography/albums/album
  -> [<Element album at 0x1b6bbfae608>, <Element album at 0x1b6bbfae648>]

/discography/albums/album/.
  -> [<Element album at 0x1b6bbfae608>, <Element album at 0x1b6bbfae648>]

/discography/albums/album
  -> <Element album at 0x1b6bbf7ff88>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [4]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung: der '.' ist die verkürzte Form von 'self::node()' und wählt daher dieselben Singles aus
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x1b6bbfae508>]

singles
  -> [<Element singles at 0x1b6bbfae508>]

./singles
  -> [<Element singles at 0x1b6bbfae508>]

albums/album
  -> [<Element album at 0x1b6badd6b88>, <Element album at 0x1b6bbfae508>]



In [5]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: Wählt den zugehörigen Text des ersten Veröffentlichungsdatums aus
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung: '//' ist die verkürzte Form von 'descendant-or-self::node()'. Das '//' fehlt hier, weshalb kein vollständig korrekter Pfad ausgewählt werden kann. Die Attribute können somit nicht abgerufen werden

//singles
  -> [<Element singles at 0x1b6bbfaed48>]

//album
  -> [<Element album at 0x1b6bbeea348>, <Element album at 0x1b6bbfaed48>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [6]:
p(e('descendant::*')) # Erklärung: Wählt alle Folge-Elemente des Kontextknotens aus
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: Wählt den Text des Titles des 2. Album aus

descendant::*
  -> [<Element albums at 0x1b6bbfae388>, <Element album at 0x1b6bbfaee08>, <Element title at 0x1b6bbfaee48>, <Element label at 0x1b6bbfaee88>, <Element released at 0x1b6bbfaeec8>, <Element day at 0x1b6bbfaef48>, <Element month at 0x1b6bbfaef88>, <Element year at 0x1b6bbfaefc8>, <Element album at 0x1b6bbfb5048>, <Element title at 0x1b6bbfaef08>, <Element label at 0x1b6bbfb5088>, <Element released at 0x1b6bbfb50c8>, <Element day at 0x1b6bbfb5108>, <Element month at 0x1b6bbfb5148>, <Element year at 0x1b6bbfb5188>, <Element singles at 0x1b6bbfb51c8>, <Element single at 0x1b6bbfb5208>, <Element author at 0x1b6bbfb5248>, <Element firstname at 0x1b6bbfb5288>, <Element lastname at 0x1b6bbfb52c8>, <Element title at 0x1b6bbfb5308>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [7]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: Wählt Albumstitel des ersten Albums aus
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: 'descendant::*' wählt die nachfolgenden Elemente aus und daraus das erste Album plus Titeltext
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Es gibt anscheinend nur eine Single, weshalb die Ausgabe leer bleibt

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [10]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: '..' ist die verkürzte Form von 'parent::node()' und wählt somit das Eltern-Element aus
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: Durch das '/text()' werden nicht nur die Elemente an sich ausgewählt, sondern auch noch der Text ausgegeben.
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung: 'descendant-or-self::node()' am Anfang sorgt für einen vollständigen Pfad, weshalb im nachfolgenden xPath kein Titeltext ausgewählt werden konnte.
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x1b6bbfaefc8>, <Element album at 0x1b6bbfaef08>]

/discography/albums/album/..
  -> [<Element albums at 0x1b6bbfaef08>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x1b6bbfaef08>, <Element released at 0x1b6bbfaefc8>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x1b6badd6408>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x1b6badd6408>, <Element label at 0x1b6bbfaef08>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [11]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung: 'child::node()' wählt jeden Knoten aus, der kein Attribut, Namespace oder Dokumenten-Knoten ist. Es werden Arbeitsanweisungen, Kommentare und Text-Knoten ausgewählt

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x1b6bbfaefc8>, '\n      ', <Element label at 0x1b6bbfaed48>, '\n      ', <Element released at 0x1b6bbfaef88>, '\n    ']



In [12]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung: '@released="1979"' ist ein Attribut und nur Alben aus dem Jahr 1979 werden ausgewählt
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung: Wählt zunächst Songtitel aus dem Jahr 1979 aus und gibt dazu Alben an, die am 30. veröffentlicht wurden
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung: Wählt den Titel des Sängers 'Roger Waters' aus

/discography/albums/album/title[@released]
  -> [<Element title at 0x1b6bbf7ff88>, <Element title at 0x1b6bbfaeb08>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x1b6bbf7ff88>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [13]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: Zählt die Anzahl an Elementen im Element 'album'
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung: Wählt den Albumtitel an Position '>1' aus, also ab dem 2. Album
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Wählt das Album aus, in dem der Titel mit 'The D' beginnt
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung: Wählt das Album aus, das nicht im Jahr '1979' veröffentlicht wurde

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [14]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x1b6bbfae5c8>]
[<Element {http://discography.org}discography at 0x1b6bbfae5c8>]
[<Element {http://albums.org}albums at 0x1b6bbfba048>]
[<Element {http://albums.org}albums at 0x1b6bbfaeac8>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [16]:
from lxml import etree as et

d = et.fromstring("""
<einkaufsliste>
  <lebensmittel>
    <essen>
        <kaesebroetchen></kaesebroetchen>
        <wurstbroetchen></wurstbroetchen>
    </essen>
    <trinken>
        <wasser></wasser>
        <apfelsaft></apfelsaft>
    </trinken>
  </lebensmittel
</einkaufsliste>""")

# Meine XPath Abfragen ...       FUNKTIONIERT NICHT?!?!?
print(d.xpath('...'))

XMLSyntaxError: expected '>', line 13, column 1 (<string>, line 13)