## Einführung in das Programmieren in Python
# Externe Module
# XML bearbeiten mit lxml

### Begriffe

* **Objekt** oder **Instanz**  (z.B. `"Hallo"`)
   * in Python ist _alles_ ein Objekt
* **Attribute** oder **Eigenschaften** (oder **Felder**)
   * Zugriff per `objekt.feld`
   * les- und ggf. schreibbar
* **Methoden**
   * Funktionen, die Teil eines Objekts sind und mit dem Objekt arbeiten

### Klassen

* Der _Datentyp_ eines Objekts ist seine **Klasse**
* Klasse = »Bauplan« für die Objekte, definiert die Methoden (und Eigenschaften)

In [1]:
class Obst:
    
    def __init__(self, name, erntemonate):
        """
        Erzeugt eine neue Obstsorte `name`. `erntemonate` ist eine Liste der Monate à la ['Jan', 'Feb'], 
        die die Erntezeit repräsentiert.
        """
        self.name = name
        self.erntemonate = erntemonate
        
    def verfuegbar(self, monat):
        """Ist das Obst in Monat `monat` (z.B. 'Jan') verfügbar?"""
        return monat in self.erntemonate

aprikosen = Obst("Aprikosen", ["Jul", "Aug"])
brombeeren = Obst("Brombeeren", ["Jul","Aug", "Sep"])
erdbeeren = Obst("Erdbeeren", ["Mai","Jun", "Jul"])

### Vererbung

Eine Klasse kann eine _Superklasse_ (_Oberklasse_) haben, deren Eigenschaften sie erbt.

In [2]:
class Lagerobst(Obst):
    def __init__(self, name, erntemonate, lagermonate):
        super().__init__(name, erntemonate)
        self.lagermonate = lagermonate
        
    def verfuegbar(self, monat):
        return super().verfuegbar(monat) or self.gelagert()
    
    # eine Möglichkeit:
    def gelagert(self, monat):
        return monat in lagermonate

### [Besondere Attribute und Methoden](https://docs.python.org/3.4/reference/datamodel.html#special-method-names)

* `__doc__` = Docstring
* `__dict__` = alle Eigenschaften eines Objekts als Dictionary

#### `__repr__` und `__str__`

* `__str__()` liefert die "schöne" Repräsentation des Objekts, verwendet in `str()`, `print()`
* `__repr__()` liefert die "maschinenlesbare" Repräsentation:

     * möglichst ein Python-Ausdruck zur Erzeugung
     * oder `< nützliche Beschreibung >`

### Iterables und Iteratoren

* `for`-Schleifen und dergleichen funktionieren nicht nur mit Listen
* Oberbegriff __Iterables__
* Protokoll:

    * Iterable ist ein Objekt, dass die Methode `__iter__()` anbietet
    * `__iter__` liefert einen __Iterator__
    * ein __Iterator__ ist ein Objekt mit der Methode __next()__
    * __next()__ liefet jeweils den nächsten Eintrag des Iterables
    * am Ende der Liste: `raise StopIteration()`  

In [80]:
lst = [1, 2, 3]
it = iter(lst)    # Kapselt lst.__iter__()
print(it)
print(next(it), next(it), next(it))  # next(it) kapselt it.__next__()

<list_iterator object at 0x7f2c5c27c208>
1 2 3


In [81]:
next(it)

StopIteration: 

<h3 style="color:green;">Aufgabe</h3>

Ergänzen Sie `Text` so, dass Sie bei einer Benutzung in einer for-Schleife über die Wörter iterieren.

In [None]:
class Text:
    def __init__(self, text):
        self.text = text
    def length(self):
        return len(self.text)
    def words(self):
        return self.text.split()

In [84]:
class Text:
    def __init__(self, text):
        self.text = text
    def length(self):
        return len(self.text)
    def words(self):
        return self.text.split()
    def __iter__(self):
        return iter(self.words())
    
for w in Text("Hallo sonnige Welt"):
    print(w)

Hallo
sonnige
Welt


In [88]:
class Text:
    def __init__(self, text):
        self.text = text
    def length(self):
        return len(self.text)
    def words(self):
        return self.text.split()
    def __iter__(self):
        class TextIterator:
            def __init__(self, text):
                self.wordlist = text.words()
                self.pos = -1
            def __next__(self):
                self.pos += 1
                if self.pos >= len(self.wordlist):
                    raise StopIteration()
                else:
                    return self.wordlist[self.pos]
        return TextIterator(self)
                
for w in Text("Hallo sonnige Welt"):
    print(w)

Hallo
sonnige
Welt


### Generatoren / Generator-Funktionen

* Funktionen / Methoden, die das Schlüsselwort `yield` enthalten
* die Funktion liefert einen _Generator_, ein Iterable

In [99]:
def my_range(stop):
    i = 0
    print("Gleich geht's los:")
    while i < stop:
        print("Jetzt kommt", i)
        yield i
        i += 1
        print("Erhöhe auf", i)
        
gen = my_range(3)
print("Die Funktion lieferte einen Generator:", gen)

for number in gen:
    print("Jetzt ist", number, "angekommen")

Die Funktion lieferte einen Generator: <generator object my_range at 0x7f2c5c28c828>
Gleich geht's los:
Jetzt kommt 0
Jetzt ist 0 angekommen
Erhöhe auf 1
Jetzt kommt 1
Jetzt ist 1 angekommen
Erhöhe auf 2
Jetzt kommt 2
Jetzt ist 2 angekommen
Erhöhe auf 3


### `yield` macht iterieren einfach

Schreiben Sie `Text.__iter__()` als Generator-Funktion (mit `yield Eintrag`).

In [104]:
class Text:
    def __init__(self, text):
        self.text = text
    def length(self):
        return len(self.text)
    def words(self):
        return self.text.split()
    def __iter__(self):
        for word in self.words():
            yield word        

# Externe Module

* Der [Python Package Index](http://pypi.python.org/) ist das zentrale Verzeichnis der meisten Module
* z.B. Requests <https://pypi.python.org/pypi/requests/>
* Installation mit `pip` (das manchmal auch `pip3` heißt für Python 3)

```bash
pip install --help | more
pip search <something>
pip install <paketname>

pip install requests
```

In [5]:
import requests
r = requests.get('http://www.textgridrep.de/')

In [6]:
r.headers

{'Date': 'Wed, 21 Jan 2015 08:39:48 GMT', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Last-Modified': 'Fri, 31 Jan 2014 10:34:10 GMT', 'Connection': 'keep-alive', 'Server': 'nginx/1.2.1', 'Transfer-Encoding': 'chunked'}

```bash
pip freeze > requirements.txt
pip -r requirements.txt
```

## Beispiel für externe Module: `lxml`

* <http://lxml.de/>
* "pythonic" libxml/libxslt-Binding
* effiziente und beliebte Lösung zum Parsen (und Serialisieren) XML und HTML

```bash
pip3 install lxml     # oder, wenn pip nicht pip3 heißt,
pip install lxml
```

In [23]:
from lxml import etree
root = etree.Element("root")
root.append(etree.Element("child", interesting="totally"))
root.append(etree.Element("other-child"))
print(etree.tostring(root, pretty_print=True, encoding="unicode"))

<root>
  <child interesting="totally"/>
  <other-child/>
</root>



In [24]:
# Abkürzung für Subelemente
child3 = etree.SubElement(root, "child", n="3")
print(etree.tostring(root, pretty_print=True, encoding="unicode"))

<root>
  <child interesting="totally"/>
  <other-child/>
  <child n="3"/>
</root>



In [28]:
child3.text = "Ich bin ein Textinhalt"
child3.tail = "... und dies kommt nach dem dritten Kind."
print(etree.tostring(root, pretty_print=True, encoding="unicode"))

<root><child interesting="totally"/><other-child/><child n="3">Ich bin ein Textinhalt</child>... und dies kommt nach dem dritten Kind.</root>



#### Elemente sind Sequenzen

In [30]:
for child in root:
    print(child.tag)

child
other-child
child


In [43]:
# Iterieren über den ganzen baum:
for elem in root.iter():
    print(elem.tag, "\tElternknoten: ", elem.getparent())

root 	Elternknoten:  None
child 	Elternknoten:  <Element root at 0x7fd9680ca2c8>
other-child 	Elternknoten:  <Element root at 0x7fd9680ca2c8>
child 	Elternknoten:  <Element root at 0x7fd9680ca2c8>


#### Attribute sind Dictionaries

In [37]:
child3.attrib

{'n': '3'}

### XML parsen


* aus Strings: `etree.fromstring(), etree.XML()`
* aus Dateien: `etree.parse()`

In [59]:
elem = etree.XML("<root foo='bar'><child/><child>Text!</child></root>")
elem

<Element root at 0x7fd9680e6ac8>

In [47]:
doc = etree.parse('gernhardt.xml')
doc

<lxml.etree._ElementTree at 0x7fd9680e1248>

In [55]:
print(etree.tostring(doc, encoding="unicode"))

<?xml-model href="poem.rnc" type="application/relax-ng-compact-syntax"?><doc type="poem">
    <author>Robert Gernhardt</author>
    <title>Trost und Rat</title>
    <lg>
        <l>Ja wer wird denn gleich verzweifeln,</l>
        <l>weil er klein und laut und dumm ist?</l>
        <l>Jedes Leben endet. Leb so,</l>
        <l>daß du, wenn dein Leben um ist</l>
    </lg>
    <!-- Noch ne Strophe: -->
    <lg>
        <l>von dir sagen kannst: Na wenn schon!</l>
        <l>Ist mein Leben jetzt auch um, </l>
        <l>habe ich doch was geleistet:</l>
        <l>ich war klein <hi rend="spaced">und</hi> laut <hi rend="spaced">und</hi> dumm</l>
    </lg>
</doc>


### ElementTree

* `ElementTree` repräsentiert ein ganzes XML-Dokument
* z.B. Kommentare, Processing Instructions vor dem Rootelement; DTD-Info
* Convenience-Funktionen: write, relaxng, ...

In [64]:
et = etree.ElementTree(root)
et.write('et.xml')

### XPath

lxml unterstützt XPath (1.0):

In [69]:
doc.xpath("//l")

[<Element l at 0x7fd968774a88>,
 <Element l at 0x7fd9680f1dc8>,
 <Element l at 0x7fd9680f1f08>,
 <Element l at 0x7fd9680f1f48>,
 <Element l at 0x7fd9680f1d48>,
 <Element l at 0x7fd968169988>,
 <Element l at 0x7fd9681690c8>,
 <Element l at 0x7fd9681699c8>]

In [76]:
doc.xpath("//l/text()")

['Ja wer wird denn gleich verzweifeln,',
 'weil er klein und laut und dumm ist?',
 'Jedes Leben endet. Leb so,',
 'daß du, wenn dein Leben um ist',
 'von dir sagen kannst: Na wenn schon!',
 'Ist mein Leben jetzt auch um, ',
 'habe ich doch was geleistet:',
 'ich war klein ',
 ' laut ',
 ' dumm']

In [75]:
for elem in doc.xpath("//l"):
    print("".join(elem.xpath('descendant::text()')))

Ja wer wird denn gleich verzweifeln,
weil er klein und laut und dumm ist?
Jedes Leben endet. Leb so,
daß du, wenn dein Leben um ist
von dir sagen kannst: Na wenn schon!
Ist mein Leben jetzt auch um, 
habe ich doch was geleistet:
ich war klein und laut und dumm


### LXML kann noch viel mehr:

* validieren mit Relax NG
* transformieren mit XSLT (1.0)
* Canonical XML (C14n)
* Objekt-Binding: XML-Dokument in Python-Objektstruktur verwandeln
* HTML parsen, auch realweltlich
* <http://lxml.de/>