# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [2]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [2]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung: das child - Element ist hier 'discography'

/child::discography
  -> [<Element discography at 0x2567045ff48>]



In [3]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung: Hier wird der nullte Knotenpunkt aus dem child - ELement mit dem Namen 'discography'
                            # lokalisiert, dies sind Prädikate und werden in eckigen Klammern geschrieben.
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: Das Element 'albums' ist kein child - Element, als erstes muss immer das child - Element angegeben werden!
                # Hier wird nichts angegeben, denn es ist kein child - Element mit dem Namen 'albums' vorhanden

/discography
  -> discography

/child::*
  -> [<Element discography at 0x2567045ff48>]

/discography/*
  -> [<Element albums at 0x2567047e6c8>, <Element singles at 0x2567047e688>]

/albums
  -> []



In [4]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Man kann Lokalisierungspfade auf zwei unterschiedlichen Wegen angeben, der zweite Path ist nur die verkürzte Version von dem 
# ausführlichem ersten Path.
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: siehe oben, verkürzte Version wobei die einzelnen Knoten mit einem '/' getrennt werden
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung: Hier wird nach dem ersten Knotenpunkt von dem tag 'album' lokalisiert
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x2566f3bcb88>, <Element album at 0x2567047e908>]

/discography/albums/album
  -> [<Element album at 0x2567047e948>, <Element album at 0x2567047e988>]

/discography/albums/album/.
  -> [<Element album at 0x2566f3bcb88>, <Element album at 0x2567047e988>]

/discography/albums/album
  -> <Element album at 0x2567047e988>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [6]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung: Hier wird nach dem Kontextknoten 'singles' selber lokalisiert,
# unabhängig der child - Elemente
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x2567047ef88>]

singles
  -> [<Element singles at 0x2567047ef88>]

./singles
  -> [<Element singles at 0x2566f3fc4c8>]

albums/album
  -> [<Element album at 0x2566f3bcc08>, <Element album at 0x2566f3fc4c8>]



In [5]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: Der erste Knotenpunkt in Text-form wird lokalisiert,
# hier '30'. Der nullte wäre hier '16'
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
# Im vorherigen XPath werden alle Attribute selbst als Knotenpunkt oder als Nachkommen des child - Elements lokalisiert. 
p(e('@*')) # Erklärung: Hier werden zwar auch alle Attribute lokalisiert, jedoch wird nicht definiert in welchem Strang

//singles
  -> [<Element singles at 0x2567047edc8>]

//album
  -> [<Element album at 0x2567047edc8>, <Element album at 0x2567047ee08>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [7]:
p(e('descendant::*')) # Erklärung: Alle Nachkommen des child - Elements werden lokalisiert
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: Das nullte 'text' Element, des Vorfahren 'title',
                                               # des zweiten Vorfahren 'album'

descendant::*
  -> [<Element albums at 0x2567047e648>, <Element album at 0x2567047e6c8>, <Element title at 0x2567047eb88>, <Element label at 0x2567047ee48>, <Element released at 0x2567047e208>, <Element day at 0x2567049a088>, <Element month at 0x2567049a0c8>, <Element year at 0x2567049a108>, <Element album at 0x2567049a148>, <Element title at 0x2567049a048>, <Element label at 0x2567049a188>, <Element released at 0x2567049a1c8>, <Element day at 0x2567049a208>, <Element month at 0x2567049a248>, <Element year at 0x2567049a288>, <Element singles at 0x2567049a2c8>, <Element single at 0x2567049a308>, <Element author at 0x2567049a348>, <Element firstname at 0x2567049a388>, <Element lastname at 0x2567049a3c8>, <Element title at 0x2567049a408>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [8]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: Das 1. 'album' - Element wird angeschaut,
# davon der 'title' und dann alle child - Textknoten
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: Hier gucken wir uns erst alle Nach-
# kommen des self - Knoten an und dann die Schritte der 1. Abfrage
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: Es gibt keinen zweiten 'single' - Tag in allen Nachkommen

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [9]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: Die zwei '..' geben an, das nach dem Eltern - Knoten lokalisiert wird 
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: Die vorgängigen
# Geschwister des Schwester Knoten 'released' deren text - Inhalt wurden lokalisiert
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung: Zu erst schauen wir uns album auf der 
# 1. Position an, davon der Eltern - Knoten also 'albums' dann gehen wir zum 'album' auf der 2. Position
# und hier werden die text - Inhalte vom 'title' lokalisiert
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x2567047ee48>, <Element album at 0x2567047e208>]

/discography/albums/album/..
  -> [<Element albums at 0x2566ce66888>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x2566ce66888>, <Element released at 0x2567047ee48>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x2566ce66888>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x2566ce66888>, <Element label at 0x2567047ee48>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [7]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung: Alle child - Knoten des parent - Knoten 'album', sind hier der Kommentar, 'title'
                                 # 'label' und das Element 'released'

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x277aac1f388>, '\n      ', <Element label at 0x277aac1f348>, '\n      ', <Element released at 0x277aac1f408>, '\n    ']



In [8]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung: Hier wurde die Position von 'title' lokalisiert welcher
                                                          # 1979 veröffentlicht wurde
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung: Hier wurden zwei Lokalisie-
# rungspfade mit einander verknüpft: der erste führt zum Textpfeld des 'title' welches 1973 veröffentlicht wurde und der andere
# 'title' welcher am 30. Tag eines Monats veröffentlicht wurde             
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung: Es wurde nach dem Inhalt vom 'title'
# Tag lokalisiert, mit dem Prädikat das ein Vorname gegeben ist und der Name 'Roger Waters' ist

/discography/albums/album/title[@released]
  -> [<Element title at 0x277aabff788>, <Element title at 0x277aabffec8>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x277aabff788>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [9]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: Es wurden alle 'album' - tag innerhalb des 'albums' - tag gezählt
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung: Hier wurde der text vom 'title' lokalisiert, wo die Position größer 1 liegt
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Der Inhalt des 'title' - tag soll mit 'The D' beginnen,
# es wurden somit alle 'title' ausgegeben die dem Prädikat unterliegen
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung: Es wurden die 'title' lokalisiert, welche NICHT
# im Jahr 1979 veröffentlicht wurden, zudem wurde auch nach dem Eltern - Knoten lokalisiert, deshalb wurde der obere 'title' aus-
# gegeben und nicht der untere

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [6]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x277aaa8cd08>]
[<Element {http://discography.org}discography at 0x277aaa8cd08>]
[<Element {http://albums.org}albums at 0x277aac1f108>]
[<Element {http://albums.org}albums at 0x277aaa8ccc8>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [36]:
from lxml import etree as et

d = et.fromstring("""
<discography>
    <albums>
        <album>
            <title>The Dark Side of the Moon</title>
            <released year="1973" month="March" day="16"/>
        </album>
        <album>
            <title>The Wall</title>
            <released>
                <day>30</day>
                <month>November</month>
                <year>1979</year>
            </released>
        </album>
    </albums>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

# Meine XPath Abfragen ...
print(d.xpath('/discography/albums/album/title/text()'))
print(d.xpath('//album[2]/released/month/text()'))
print(d.xpath('//albums/album'))

['The Dark Side of the Moon', 'The Wall']
['November']
[<Element album at 0x277aac2ce08>, <Element album at 0x277aac2cfc8>]
