# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [5]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [6]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: discography ist das child-Element des Wurzelknotens. 

/child::discography
  -> [<Element discography at 0x10d568e88>]



In [7]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung: die Anweisung .tag gibt die tag-Bezeichnung des discography-Elements wieder. 
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: da nach dem Wurzelknoten, das discography-Element folgt, kann folgendermaßen nichts ausgegeben werden. Richtig wäre ein doppelter Schrägstrich.

/discography
  -> discography

/child::*
  -> [<Element discography at 0x10d568e88>]

/discography/*
  -> [<Element albums at 0x10d587a08>, <Element singles at 0x10d5879c8>]

/albums
  -> []



In [8]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: da man bei der Verkürzung der absoluten Angabe das child: auch weglassen kann. 
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung: die Bezeichnung .tag gibt die jeweilige Tag-Bezeichnung aus. [1] markiert das erste album, bei aufzählung von 0
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x10d5878c8>, <Element album at 0x10d587b08>]

/discography/albums/album
  -> [<Element album at 0x10d587b08>, <Element album at 0x10d587b48>]

/discography/albums/album/.
  -> [<Element album at 0x10d587b48>, <Element album at 0x10d5878c8>]

/discography/albums/album
  -> <Element album at 0x10d5878c8>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [7]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung: "./" weißt auf die self-achse hin, die sich hier vor dem Element singles befindet. Mit dem Schrägstrich wird auf die child-Achse singles hingewiesen. Es handelt sich dabei um einen relativen Pfad.
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x111165e08>]

singles
  -> [<Element singles at 0x111165e08>]

./singles
  -> [<Element singles at 0x111165e08>]

albums/album
  -> [<Element album at 0x111165e08>, <Element album at 0x111165f88>]



In [4]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: gibt den Text des day-Elements aus, wobei die 1 den released day von The Wall markiert (bei Aufzählung von 0, wobei [0] 16 ausgeben würde, also von Dark Side of the Moon).
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung: hier wird auf kein Pfad hingewiesen. Deshalb erscheint auch kein Resultat. Pfadhinweise durch /

//singles
  -> [<Element singles at 0x10b145948>]

//album
  -> [<Element album at 0x10b145948>, <Element album at 0x10b157108>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [7]:
p(e('descendant::*')) # Erklärung: mit dem Sternchen werden alle folgenden Elemente ausgewählt. descendant wählt alle Nachfahren aus, die an dem Elternelement discography knüpfen,jedoch nicht discography selbst. Geht vom Wurzelknoten aus
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: [0] entfernt in diesem Fall anscheinend Klammern und Gänsefüße.

descendant::*
  -> [<Element albums at 0x10b157a88>, <Element album at 0x10b1583c8>, <Element title at 0x10b1582c8>, <Element label at 0x10b158408>, <Element released at 0x10b158448>, <Element day at 0x10b158788>, <Element month at 0x10b1584c8>, <Element year at 0x10b158508>, <Element album at 0x10b158548>, <Element title at 0x10b158488>, <Element label at 0x10b158588>, <Element released at 0x10b1585c8>, <Element day at 0x10b158608>, <Element month at 0x10b158648>, <Element year at 0x10b1587c8>, <Element singles at 0x10b158688>, <Element single at 0x10b158808>, <Element author at 0x10b1586c8>, <Element firstname at 0x10b158848>, <Element lastname at 0x10b158888>, <Element title at 0x10b1588c8>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [10]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: der erste Schrägstrich markiert den Wurzelknoten. Das darauffolgende Sternchen selektiert alle folgenden Strukturen, wird wieder eingegrenzt durch den nächsten Schrägstrich. Die Bezeichnung [0] wurde nicht ergänzt, sodass die Ausgabe mit Klammern und Gänsefüßen angezeigt wird.
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: mit descendant wählt man zwar alle Nachfahren aus, jedoch schränkt man dies durch die folgenden Schrägstriche wieder ein, die das Gesuchte konkretisieren. Ersetzt in diesem Fall discography und albums. 
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: [2] hier ungültig, da keine zweite Single hinterlegt ist

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [11]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: die Abkürzung .. steht für parent ::node()und wechselt zum Elternelement des ausgewählten Pfades album, also albums
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: unterscheidet sich von dem davor, dadurch das der Text des Elements angegeben werden soll und nicht das Element selber.
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung: hier wird zuerst in album 1 (dark side of the moon) navgiert, zurück (parent::node)zu albums, dann in album 2 (the wall) und Textausgabe des title-tags
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x111165408>, <Element album at 0x111165e08>]

/discography/albums/album/..
  -> [<Element albums at 0x111165e08>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x10f126988>, <Element released at 0x111165e08>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x111165e08>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x111165e08>, <Element label at 0x111165408>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [12]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung: alle Elemente und Kommentare die unter album 1 zu finden sind werden angezeigt. es wird in album 1 navgiert und folgend alle Kinderelemente angezeigt.

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x11116a048>, '\n      ', <Element label at 0x11116a188>, '\n      ', <Element released at 0x11116a3c8>, '\n    ']



In [13]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung: Selektiert das Element title, welches das Attribut released=1979 besitzt
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung: Selektiert das album, das 1979 erscheienen ist sowie jenes das 1973 erschienen ist
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung:

/discography/albums/album/title[@released]
  -> [<Element title at 0x10d721608>, <Element title at 0x111165c08>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x10f0aeb08>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [14]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: Zählt mithilfe der Funktion count alle album-elemente des Elements albums.
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung:Da das Album "The Wall" in der Reihenfolge nach "The Dark Side of the Moon" auftaucht (welches im Pfad den 1.Platz belegt), wird der Text "The Wall" selektiert.
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Selektiert die Alben, die mit "The D" beginnen.
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung: Selektiert die Alben, die nicht 1979 erscheinen sind.

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [15]:
from lxml import etree as et

d = ("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

AttributeError: 'str' object has no attribute 'xpath'

Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [12]:
from lxml import etree as et

doc = et.fromstring("""
<buchsammlung>
  <buecher>
    <buch>
      <titel>Das leere Haus</titel>
      <autor>Blackwood</autor>
    </buch>
    <buch>
      <titel>Das Totenschiff</titel>
      <autor>Traven</autor>
    </buch>
  </buecher>
</buchsammlung>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))


In [13]:
p(e('//buch'))

//buch
  -> [<Element buch at 0x10b15e948>, <Element buch at 0x10b15eac8>]



In [14]:
p(e('//autor'))

//autor
  -> [<Element autor at 0x10b158708>, <Element autor at 0x10b15e8c8>]



In [21]:
p(e('//titel')[0].text)

//titel
  -> Das leere Haus



In [22]:
p(e('//titel')[1].text)

//titel
  -> Das Totenschiff



In [24]:
p(e('//buch[1]/child::node()'))

//buch[1]/child::node()
  -> ['\n      ', <Element titel at 0x10b15e548>, '\n      ', <Element autor at 0x10b15e508>, '\n    ']



In [25]:
p(e('/child::buchsammlung'))

/child::buchsammlung
  -> [<Element buchsammlung at 0x10b158cc8>]



In [31]:
p(e('./buecher'))

./buecher
  -> [<Element buecher at 0x1091128c8>]

