# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [1]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [2]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: discography ist der Wurzelknoten und wird mit einem / impliziert

/child::discography
  -> [<Element discography at 0x13814ec5f08>]



In [3]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung:die Kurzform von child:: ist es einfach wegzulassen daher haben wir das selbe Ergebnis
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: albums ist nicht der Wurzelknoten weshalb hier nix angezeigt wird

/discography
  -> discography

/child::*
  -> [<Element discography at 0x13814ec5f08>]

/discography/*
  -> [<Element albums at 0x13814ef04c8>, <Element singles at 0x13814ef00c8>]

/albums
  -> []



In [4]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: die Kurzform von child:: ist es einfach wegzulassen daher haben wir das selbe Ergebnis
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung:Hier ist discography richtig geschrieben darunter nicht weshalb darunter auch nix gefunden wird
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x13814ef0808>, <Element album at 0x13814ef08c8>]

/discography/albums/album
  -> [<Element album at 0x13814ef08c8>, <Element album at 0x13814ef0948>]

/discography/albums/album/.
  -> [<Element album at 0x13814ef0948>, <Element album at 0x13814ef0808>]

/discography/albums/album
  -> <Element album at 0x13814ef0808>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [5]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung:Der Punkt gibt die self- Achse an weshalb hier die singles angezeigt werden
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x13814ef0b08>]

singles
  -> [<Element singles at 0x13813e1ec08>]

./singles
  -> [<Element singles at 0x13813e1ec08>]

albums/album
  -> [<Element album at 0x13813e1ec08>, <Element album at 0x13814ef0b08>]



In [6]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung:Mit dem text() wird der Knotentyp text adressiert in dem Fall das was in day steht
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung:indem nichts davor steht haben wir quasi ein child:: davor stehen indem Fall brauchen wir aber ein self

//singles
  -> [<Element singles at 0x13814ef07c8>]

//album
  -> [<Element album at 0x13814ef07c8>, <Element album at 0x13814ef01c8>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [7]:
p(e('descendant::*')) # Erklärung:Es werden uns alle möglichen Nachkommen angezeigt also alles außer der Wurzelknoten discography
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung:Es werden alle möglichen Nachkommen aus album 2 dem title und davon der Textknoten angezeigt. In dem Fall ist das nur eine Lösung

descendant::*
  -> [<Element albums at 0x13814ef0a48>, <Element album at 0x13814ef04c8>, <Element title at 0x13814ef0848>, <Element label at 0x13814ef0e48>, <Element released at 0x13814ef0f48>, <Element day at 0x13814ef8088>, <Element month at 0x13814ef80c8>, <Element year at 0x13814ef8108>, <Element album at 0x13814ef8148>, <Element title at 0x13814ef8048>, <Element label at 0x13814ef8188>, <Element released at 0x13814ef81c8>, <Element day at 0x13814ef8208>, <Element month at 0x13814ef8248>, <Element year at 0x13814ef8288>, <Element singles at 0x13814ef82c8>, <Element single at 0x13814ef8308>, <Element author at 0x13814ef8348>, <Element firstname at 0x13814ef8388>, <Element lastname at 0x13814ef83c8>, <Element title at 0x13814ef8408>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [8]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: Einfache Pfadbeschreibung durch child:: auf den Textknoten des ersten album
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: genau das selbe nur am Anfang durch descendant
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Es gibt keine 2. Single daher läuft dies hier ins leere

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [9]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung:mit dem Doppelpunkt am Ende werden die parents gesucht dies ist bei album = albums
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung:Die Vorgänger Geschwister von released in album 1 sind title und lable. Es wird wieder der Text angezeigt 
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung: Das Elternteil von album 1 ist albums, es hat aber kein Textknoten, weshalb nur der 2. Befehl angezeigt wird
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x13814ef0508>, <Element album at 0x13814ef0848>]

/discography/albums/album/..
  -> [<Element albums at 0x13814ec5f48>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x13814ec5f48>, <Element released at 0x13813d0cb48>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x13814ec5f48>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x13814ec5f48>, <Element label at 0x13813d0cb48>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [10]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung:Es werden mit child::node() alle Knotentyen nach album 1 angezeigt außer Atribute

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x13814ef0588>, '\n      ', <Element label at 0x13814ef0ec8>, '\n      ', <Element released at 0x13814ef0f48>, '\n    ']



In [11]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung:zeigt mir alle title in album an (egal welches album) die als Atribut released="1979" haben
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung:weißt mithilfe der Atribut einschränkung wieder auf 2 verschieden title hin die damit gesucht werden. Hier werden sie noch mit dem Textknoten ausgespuckt
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung:unser Start wird bei firstname festgelegt und von dort gehen wir zum title von single

/discography/albums/album/title[@released]
  -> [<Element title at 0x13813d19b88>, <Element title at 0x13814ef0548>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x13814ef0548>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [12]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: count ist eine Funktion und zählt wie oft das Element album in albums vorkommt
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung:Die Position soll größer als 1 sein also in dem Fall haben wir nur 2 also ist die Postion 2 also der title das 2. album
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: start with verrät uns womit etwas anfangen soll xpath guckt dann was passt
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung:mit not können wir etwas ausschließen

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [13]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x13814e2c048>]
[<Element {http://discography.org}discography at 0x13814e2c048>]
[<Element {http://albums.org}albums at 0x13814efc048>]
[<Element {http://albums.org}albums at 0x13814ef0a48>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [None]:
from lxml import etree as et

d = et.fromstring("""
<!-- Mein XML Dokument -->
""")

# Meine XPath Abfragen ... 
print(d.xpath('...'))