# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [1]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [2]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: Das Child Element ist hier discography.

/child::discography
  -> [<Element discography at 0x1b6873f7ec8>]



In [3]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung:Der erste Strich referenziert den Wurzelknoten, es resultiert eine Zielmenge. 
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung:Lokalisierungspfad albums

/discography
  -> discography

/child::*
  -> [<Element discography at 0x1b6873f7ec8>]

/discography/*
  -> [<Element albums at 0x1b6873f7f88>, <Element singles at 0x1b687421688>]

/albums
  -> []



In [4]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung:Es handelt sich hierbei um einen absoluten Lokalisierungspfad 
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung:Kaskadierendes Prädikat
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x1b687421808>, <Element album at 0x1b6874211c8>]

/discography/albums/album
  -> [<Element album at 0x1b6874211c8>, <Element album at 0x1b687421908>]

/discography/albums/album/.
  -> [<Element album at 0x1b687421908>, <Element album at 0x1b687421808>]

/discography/albums/album
  -> <Element album at 0x1b687421808>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [6]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung:self::node und der erste strich referenziert den Wurzelknoten.
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x1b687421e48>]

singles
  -> [<Element singles at 0x1b687421e48>]

./singles
  -> [<Element singles at 0x1b6873f7f88>]

albums/album
  -> [<Element album at 0x1b6873f7f88>, <Element album at 0x1b687421e48>]



In [7]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung:descendant-or-self::node, Nachkommen des Kontextknotens
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung:Das ist eine verkürzte Form, die Ausführliche Form lautet: Attribute und der Stern kennzeichnet Null oder mehrmals.

//singles
  -> [<Element singles at 0x1b687421fc8>]

//album
  -> [<Element album at 0x1b687360348>, <Element album at 0x1b687421fc8>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [9]:
p(e('descendant::*')) # Erklärung: Alle oder Null Nachkommen des Kontextknotens, Elemente werden angezeit.
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung:Nachkommen des Kontextknotens werden von element album 2 angezeigt.

descendant::*
  -> [<Element albums at 0x1b687421608>, <Element album at 0x1b687421448>, <Element title at 0x1b687421fc8>, <Element label at 0x1b687421a08>, <Element released at 0x1b687421e48>, <Element day at 0x1b68742e048>, <Element month at 0x1b68742e088>, <Element year at 0x1b68742e0c8>, <Element album at 0x1b68742e108>, <Element title at 0x1b687421a48>, <Element label at 0x1b68742e148>, <Element released at 0x1b68742e188>, <Element day at 0x1b68742e1c8>, <Element month at 0x1b68742e208>, <Element year at 0x1b68742e248>, <Element singles at 0x1b68742e288>, <Element single at 0x1b68742e2c8>, <Element author at 0x1b68742e308>, <Element firstname at 0x1b68742e348>, <Element lastname at 0x1b68742e388>, <Element title at 0x1b68742e3c8>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [11]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung:Im root element albums, im parent element 1, wird der Titel gesucht:die ist das Kindelement child des Kontextknotens.
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: Nachkommen des Kontextknotens aus album 1 wird das child element gesucht.
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Alle Nachkommen aus parent element aus single 2 werden gesucht.

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [13]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung:parent::node, der erste Schrägstrich referenziert den Wurzelknoten.
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung:Hier werden alle child elemente aus album 1 angezeigt. 
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung:aus album zwei wird von den parent elementen aufgelistet.
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x1b6874320c8>, <Element album at 0x1b687432108>]

/discography/albums/album/..
  -> [<Element albums at 0x1b6874320c8>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x1b6873f7f88>, <Element released at 0x1b687421dc8>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x1b6873f7f88>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x1b6873f7f88>, <Element label at 0x1b687421dc8>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [14]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung:child element aus album 1 wird angezeigt.

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x1b687421ec8>, '\n      ', <Element label at 0x1b687432088>, '\n      ', <Element released at 0x1b687432148>, '\n    ']



In [15]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung:Dies ist ein Prädikate Beispiel, hier wird das Ergebnis eingeschränkt.
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung:Hier werden erneut die Ergebnisse gefiltert. Hier werden die child elemente angezeigt.
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung:Mit hilfe der Attributen werden wichtige Ergebnisse sichtbar.

/discography/albums/album/title[@released]
  -> [<Element title at 0x1b687421d48>, <Element title at 0x1b6874217c8>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x1b687421d48>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [16]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung:Wie viele man davon hat.
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung:Hier wird der name des Albums angezeigt.
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung:Hier wird nach einem Album gesucht, dass mit The D anfängt.
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung:Hier wird nach einem Album aus 1979 gesucht.

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [17]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x1b686245cc8>]
[<Element {http://discography.org}discography at 0x1b686245cc8>]
[<Element {http://albums.org}albums at 0x1b687432048>]
[<Element {http://albums.org}albums at 0x1b687360288>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [20]:
from lxml import etree as et

d = et.fromstring("""
<discography>
    <albums>
        <album>
            <name>Merkur</name>
            <author>Will Smith</author>
        </album>
    </albums>
</discography>
""")

# Meine XPath Abfragen ... 
print(d.xpath('/child::*'))
print(d.xpath('count(albums)'))

[<Element discography at 0x1b687432148>]
1.0
