# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [26]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [5]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung Liefert zurück an welcher Speicherstelle der Datensatz liegt

/child::discography
  -> [<Element discography at 0x1201dbc6a88>]



In [6]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung: liefert die den nullten Tag unter discography
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: Ohne Parents keine Ergebnisse denn der Pfad ist absout.

/discography
  -> discography

/child::*
  -> [<Element discography at 0x24b646a9c48>]

/discography/*
  -> [<Element albums at 0x24b6484d108>, <Element singles at 0x24b6484d488>]

/albums
  -> []



In [7]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: Liefert wieiele Elemente in dem Verzeichnis liegen
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0]) 
p(e('/discography/albums/album')[1].tag) # Erklärung:Liefert mir den Tag Nr. 1 des angeforderten Objekts
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x24b64639f88>, <Element album at 0x24b6484d648>]

/discography/albums/album
  -> [<Element album at 0x24b6484d6c8>, <Element album at 0x24b6484d708>]

/discography/albums/album/.
  -> [<Element album at 0x24b6484d648>, <Element album at 0x24b6484d6c8>]

/discography/albums/album
  -> <Element album at 0x24b6484d648>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [8]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung:
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x24b646a5d08>]

singles
  -> [<Element singles at 0x24b646a5d08>]

./singles
  -> [<Element singles at 0x24b646a5d08>]

albums/album
  -> [<Element album at 0x24b64847a88>, <Element album at 0x24b6484d8c8>]



In [10]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: zeigt den Inhalt des Elements Day[1]=30; Day[0]=16
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung:Die Pfandangabe ist eine Andere. Der erste findet auf der Achse 3??? statt. Der zweite im Root(Wurzelknoten).

//singles
  -> [<Element singles at 0x2876f954288>]

//album
  -> [<Element album at 0x2876f954288>, <Element album at 0x2876f9542c8>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [11]:
p(e('descendant::*')) # Erklärung: Anforderung: Liefere mir alle(*) Nachkommen.
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: Liefere mir den nullten(ersten) Eintrag aus dem angegebenen Pfad.

descendant::*
  -> [<Element albums at 0x2876f954248>, <Element album at 0x2876f954148>, <Element title at 0x2876f954348>, <Element label at 0x2876f954388>, <Element released at 0x2876f9543c8>, <Element day at 0x2876f954448>, <Element month at 0x2876f954488>, <Element year at 0x2876f9544c8>, <Element album at 0x2876f954508>, <Element title at 0x2876f954408>, <Element label at 0x2876f954548>, <Element released at 0x2876f954588>, <Element day at 0x2876f9545c8>, <Element month at 0x2876f954608>, <Element year at 0x2876f954648>, <Element singles at 0x2876f954688>, <Element single at 0x2876f9546c8>, <Element author at 0x2876f954708>, <Element firstname at 0x2876f954748>, <Element lastname at 0x2876f954788>, <Element title at 0x2876f9547c8>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [12]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: 
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: 
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Liefert keine Ausgabe, da es kein 2. Element gibt.

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [13]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: Liefert das Elternelement meines Ausgangspunktes.
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: Liefert die Werte des Vorgängerzwilling(Ebenenbezogen)
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung:Liefert nur den Titel des 2.Aufrufs
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x2876f954748>, <Element album at 0x2876f954888>]

/discography/albums/album/..
  -> [<Element albums at 0x2876f954888>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x2876f954888>, <Element released at 0x2876f954748>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x2876f954888>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x2876f7e6a08>, <Element label at 0x2876f954888>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [21]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung: Gibt alles aus was in Album[1] hinterlegt ist

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x2876f954988>, '\n      ', <Element label at 0x2876f954a08>, '\n      ', <Element released at 0x2876f954a48>, '\n    ']



In [22]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung: Gibt mir die Speicherstelle des Datensatzes bei dem released=1979 ist.
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung: gibt mir den Titel aus, bei dem released=1979 ist, und den Titel bei der Wert vom Day=30 ist, aus.
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung: Liefert vom Datensatz name=Roger Waters, das Elternteil/title als Text.

/discography/albums/album/title[@released]
  -> [<Element title at 0x2876f954088>, <Element title at 0x2876f954548>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x2876f954088>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [27]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung:Zählt die Einträge mit dem Tag "Album"
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung:Liefert mir alle Album Tag´s nach 1 z.B. Album [2]
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Liefert mir alles Alben die mit "The D" beginnen (SQL like)
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung: Liefert mit den Titel der Alben bei den das Atribut released nicht 1979 ist.

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [28]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x2876f9545c8>]
[<Element {http://discography.org}discography at 0x2876f9545c8>]
[<Element {http://albums.org}albums at 0x2876f96e108>]
[<Element {http://albums.org}albums at 0x2876f967fc8>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [None]:
from lxml import etree as et

d = et.fromstring("""
<!-- Mein XML Dokument -->
""")

# Meine XPath Abfragen ... 
print(d.xpath('...'))