# XPath

XPath ist eine Sprache zur Verarbeitung von XML Dokumenten. Man kann damit auf Teile eines XML Dokuments zugreifen, durch Elemente und Attribute navigieren, Elemente und Inhalte selektieren, wie auch einfache Operationen auf Inhalten durchführen. In dieser Übung lernen wir XPath anhand praktischen Beispiele besser kennen.

Schauen Sie sich die folgenden Beispiele an. 

Dort wo `# Erklärung:` steht, schreiben Sie Ihre Erklärung für das Resultat.

In [1]:
from lxml import etree as et

doc = et.fromstring("""
<discography>
  <albums>
    <album>
      <!-- The 26th best-selling album of all time -->
      <title released="1973">The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
    <album>
      <!-- The 5th best-selling album of all time -->
      <title released="1979">The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <day>30</day>
        <month>11</month>
        <year>1979</year> 
      </released>
    </album>
  </albums>
  <singles>
    <single>
      <author name="Roger Waters">
        <firstname>Roger</firstname>
        <lastname>Waters</lastname>
      </author>
      <title released="1992">What God Wants, Part 1</title>
    </single>
  </singles>
</discography>
""")

def e(p):
    print('{}'.format(p))
    return doc.xpath(p)

def p(s):
    print('  -> {}\n'.format(s))

In [2]:
# Jede Zeile ist ein XPath welcher auf dem obigen XML Dokument evaluiert wird. 
# Das Resultat wird nach Ausführung unten angezeigt.
p(e('/child::discography')) # Erklärung

/child::discography
  -> [<Element discography at 0x1127b9e08>]



In [3]:
# Hier werden vier XPath evaluiert mit entsprechend vier Resultate
p(e('/discography')[0].tag) # Erklärung:hier wird der Wurzelknoten adressiert
p(e('/child::*'))
p(e('/discography/*'))
p(e('/albums')) # Erklärung: hier wird der Elementknoten albums adressiert

/discography
  -> discography

/child::*
  -> [<Element discography at 0x1127b9e08>]

/discography/*
  -> [<Element albums at 0x1127d3548>, <Element singles at 0x1127d34c8>]

/albums
  -> []



In [4]:
p(e('/child::discography/child::albums/child::album'))
# Warum ergibt dies das gleiche Resultat wie der vorherige XPath?
# Schauen Sie nicht auf die 0x... Nummern.
p(e('/discography/albums/album')) # Erklärung: Zur Adressierung des Elements album können per Schrägstrich alle übergeordneten Elemente angegeben werden
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album')[0])
p(e('/discography/albums/album')[1].tag) # Erklärung:[1] adressiert das erste Kindelement von album, .tag adressiert den aktuellen Knoten, in dem Fall album
p(e('/discographie/albums/album'))

/child::discography/child::albums/child::album
  -> [<Element album at 0x1127d30c8>, <Element album at 0x1127d3808>]

/discography/albums/album
  -> [<Element album at 0x1127d3808>, <Element album at 0x1127d3848>]

/discography/albums/album/.
  -> [<Element album at 0x1127d3848>, <Element album at 0x1127d30c8>]

/discography/albums/album
  -> <Element album at 0x1127d30c8>

/discography/albums/album
  -> album

/discographie/albums/album
  -> []



In [5]:
p(e('child::singles'))
p(e('singles'))
p(e('./singles')) # Erklärung:adressiert den aktuellen Knoten
p(e('albums/album'))

child::singles
  -> [<Element singles at 0x1127d34c8>]

singles
  -> [<Element singles at 0x1127d34c8>]

./singles
  -> [<Element singles at 0x1127d3588>]

albums/album
  -> [<Element album at 0x1127d3588>, <Element album at 0x1127d34c8>]



In [6]:
p(e('//singles'))
p(e('//album'))
p(e('//day')[1].text) # Erklärung: // sucht auf allen untergeordneten Hierarchien Ebenen bei day; [1].text adressiert das erste Kindelement mit Textinhalt, in dem Fall 30
p(e('//day/text()'))
p(e('//@released'))
p(e('//@*'))
# Inwiefern ist der folgende XPath anders als der vorherige? 
p(e('@*')) # Erklärung: der XPath besteht nur aus Zeichen

//singles
  -> [<Element singles at 0x1127d3ec8>]

//album
  -> [<Element album at 0x1127d3f08>, <Element album at 0x1127d3f48>]

//day
  -> 30

//day/text()
  -> ['16', '30']

//@released
  -> ['1973', '1979', '1992']

//@*
  -> ['1973', '1979', 'Roger Waters', '1992']

@*
  -> []



In [7]:
p(e('descendant::*')) # Erklärung:adressiert alle Elemente unterhalb der Wurzel
p(e('descendant::*/album[1]/title')[0].text)
p(e('descendant::*/album[2]/title/text()'))
p(e('descendant::*/album[2]/title/text()')[0]) # Erklärung: durch [0] wird The Wall ohne Anführungszeichen und eckigen Klammern ausgegeben

descendant::*
  -> [<Element albums at 0x1127d3d88>, <Element album at 0x1127d3f88>, <Element title at 0x1127d3e88>, <Element label at 0x1127d3fc8>, <Element released at 0x1127da048>, <Element day at 0x1127da0c8>, <Element month at 0x1127da108>, <Element year at 0x1127da148>, <Element album at 0x1127da188>, <Element title at 0x1127da088>, <Element label at 0x1127da1c8>, <Element released at 0x1127da208>, <Element day at 0x1127da248>, <Element month at 0x1127da288>, <Element year at 0x1127da2c8>, <Element singles at 0x1127da308>, <Element single at 0x1127da348>, <Element author at 0x1127da388>, <Element firstname at 0x1127da3c8>, <Element lastname at 0x1127da408>, <Element title at 0x1127da448>]

descendant::*/album[1]/title
  -> The Dark Side of the Moon

descendant::*/album[2]/title/text()
  -> ['The Wall']

descendant::*/album[2]/title/text()
  -> The Wall



In [8]:
p(e('/*/albums/album[1]/title/child::text()')) # Erklärung: * wählt auf der nächstunteren Hierarchie Ebene aus; das Erste Element von album; Kindelemnt von title der Text
p(e('/descendant::*/album[1]/title/child::text()')[0]) # Erklärung: Kindelement von title, erste album Element
p(e('/descendant::*/singles/single[1]/title/text()'))
p(e('/descendant::*/singles/single[2]/title/text()')) # Erklärung: single hat kein text 

/*/albums/album[1]/title/child::text()
  -> ['The Dark Side of the Moon']

/descendant::*/album[1]/title/child::text()
  -> The Dark Side of the Moon

/descendant::*/singles/single[1]/title/text()
  -> ['What God Wants, Part 1']

/descendant::*/singles/single[2]/title/text()
  -> []



In [9]:
p(e('/discography/albums/album/.'))
p(e('/discography/albums/album/..')) # Erklärung: .. adressiert den Elternknoten des aktuellen Knotens
p(e('/discography/albums/album[1]/title/following-sibling::*'))
p(e('/discography/albums/album[1]/label/following-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*'))
p(e('/discography/albums/album[1]/released/preceding-sibling::*/text()')) # Erklärung: 
p(e('//album[1]/parent::node()/album[2]/title/text()')) # Erklärung:
p(e('album[1]/parent::node()/album[2]/title/text()'))

/discography/albums/album/.
  -> [<Element album at 0x1127d3b08>, <Element album at 0x1127d3a08>]

/discography/albums/album/..
  -> [<Element albums at 0x1127d3e88>]

/discography/albums/album[1]/title/following-sibling::*
  -> [<Element label at 0x1127d3e88>, <Element released at 0x1127d3b08>]

/discography/albums/album[1]/label/following-sibling::*
  -> [<Element released at 0x1127d3e88>]

/discography/albums/album[1]/released/preceding-sibling::*
  -> [<Element title at 0x1127d3a08>, <Element label at 0x1127d3e88>]

/discography/albums/album[1]/released/preceding-sibling::*/text()
  -> ['The Dark Side of the Moon', 'Harvest, EMI']

//album[1]/parent::node()/album[2]/title/text()
  -> ['The Wall']

album[1]/parent::node()/album[2]/title/text()
  -> []



In [11]:
p(e('//album/title/text()'))
p(e('//album/title/child::text()'))
p(e('//album/comment()'))
p(e('//album[1]/child::node()')) # Erklärung:adressiert zunächst das erste Kindelement des Typs album, Knotenmenge Kindelemente

//album/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/title/child::text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album/comment()
  -> [<!-- The 26th best-selling album of all time -->, <!-- The 5th best-selling album of all time -->]

//album[1]/child::node()
  -> ['\n      ', <!-- The 26th best-selling album of all time -->, '\n      ', <Element title at 0x1127b9fc8>, '\n      ', <Element label at 0x1127d3f88>, '\n      ', <Element released at 0x1127d9088>, '\n    ']



In [12]:
p(e('/discography/albums/album/title[@released]'))
p(e('/discography/albums/album/title[@released="1979"]')) # Erklärung:adressiert das Element title, wenn das Attribut released den Wert 1979 hat
p(e('/discography/albums/album/title[@released="1979"]/text()'))
p(e('/discography/albums/album/title[@released=1979]/text()'))
p(e('//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()')) # Erklärung:Vereinigungsmenge von text des title Elements mit released=1973 und released Element mit day=30
p(e('descendant::*[firstname]/@name'))
p(e('descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()')) # Erklärung:Wo name Roger Waters Elternelement Single 

/discography/albums/album/title[@released]
  -> [<Element title at 0x1127d3748>, <Element title at 0x1127d3f08>]

/discography/albums/album/title[@released="1979"]
  -> [<Element title at 0x1127d3f08>]

/discography/albums/album/title[@released="1979"]/text()
  -> ['The Wall']

/discography/albums/album/title[@released=1979]/text()
  -> ['The Wall']

//album/title[@released=1973]/text() | //album/released[day=30]/../title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

descendant::*[firstname]/@name
  -> ['Roger Waters']

descendant::*[firstname][@name="Roger Waters"]/parent::single/title/text()
  -> ['What God Wants, Part 1']



In [14]:
p(e('count(albums)'))
p(e('count(albums/album)')) # Erklärung: Ermittelt, wieviele Knoten auf der Ebene unterhalb des Knoten-Sets enthalten sind
p(e('//album[position()=1]/title/text()'))
p(e('//album[1]/title/text()'))
p(e('//album[position()>1]/title/text()')) # Erklärung:adressiert alle außer dem ersten Kindelement des Typs album; text des title-Elements
p(e('//album[position()>=1]/title/text()'))
p(e('//album[last()]/title/text()'))
p(e('//album[starts-with(title, "The D")]/title/text()')) # Erklärung: Findet heraus, ob am Beginn einer Zeichenkette die Teilzeichenkette "The D" vorkommt
p(e('//album[contains(title, "Wall")]/title/text()'))
p(e('//album/released[not(year=1979)]/parent::node()/title/text()')) # Erklärung:Nicht Jahr 1979, Elternelement von released, Knotenmenge text des title Elements

count(albums)
  -> 1.0

count(albums/album)
  -> 2.0

//album[position()=1]/title/text()
  -> ['The Dark Side of the Moon']

//album[1]/title/text()
  -> ['The Dark Side of the Moon']

//album[position()>1]/title/text()
  -> ['The Wall']

//album[position()>=1]/title/text()
  -> ['The Dark Side of the Moon', 'The Wall']

//album[last()]/title/text()
  -> ['The Wall']

//album[starts-with(title, "The D")]/title/text()
  -> ['The Dark Side of the Moon']

//album[contains(title, "Wall")]/title/text()
  -> ['The Wall']

//album/released[not(year=1979)]/parent::node()/title/text()
  -> ['The Dark Side of the Moon']



Und zum Schluss, ein Beispiel mit Namensräumen.

In [15]:
from lxml import etree as et

d = et.fromstring("""
<disc:discography xmlns:disc="http://discography.org" xmlns:alb="http://albums.org" xmlns="http://default.org">
<alb:albums>
<alb:album title="The Dark Side of the Moon" alb:year="1973"/>
</alb:albums>
</disc:discography>
""")

print(d.xpath('/disc:discography', namespaces={'disc': 'http://discography.org'}))
print(d.xpath('/*[local-name() = "discography"]'))
print(d.xpath('/disc:discography/alb:albums', namespaces={'disc': 'http://discography.org', 'alb': 'http://albums.org'}))
print(d.xpath('/*[local-name() = "discography"]/*[local-name() = "albums"]'))

[<Element {http://discography.org}discography at 0x1127d3b88>]
[<Element {http://discography.org}discography at 0x1127d3b88>]
[<Element {http://albums.org}albums at 0x1127d9048>]
[<Element {http://albums.org}albums at 0x1107a5388>]


Denken Sie sich nun ein eigenes XML Dokument aus und testen Sie Ihre XPath Abfragen.

In [None]:
from lxml import etree as et

d = et.fromstring("""
<!-- Mein XML Dokument -->
""")

# Meine XPath Abfragen ... 
print(d.xpath('...'))