### Programmieren in Python

## Comprehensions & Co

### Übungsaufgabe

Eine einfache Möglichkeit, eine Textdatei einzulesen, bietet das `Path`-Objekt aus dem Modul `pathlib`. Das müssen wir zunächst importieren, um es benutzen zu können:

In [1]:
from pathlib import Path

`Path`-Objekte repräsentieren Datei- oder Ordnernamen und verfügen über zahlreiche Methoden zum Handling, z.B. eine zum Einlesen einer Textdatei:

In [2]:
text = Path('Fontane-Theodor_Effi Briest.txt').read_text(encoding='utf-8')

Erzeugen Sie eine Worthäufigkeitstabelle für 'Effi Briest'. 

Zerlegen Sie dazu zunächst den Text an Leerraum in Tokens und entfernen Sie von jedem Token noch außen anklebende Satzzeichen (`.,:;»«!?/()`). Recherchieren Sie ggf. benötigte Methoden von `str`. Erzeugen Sie dann eine geeignete Datenstruktur, füllen Sie sie und beantworten Sie mit dem Ergebnis, wie häufig die Wortformen _und_ und _Innstetten_ vorkommen.

#### Beispiellösung

In [3]:
from pathlib import Path
text = Path('Fontane-Theodor_Effi Briest.txt').read_text(encoding='utf-8')
freqs = {}
for token in text.split():
    cleaned_token = token.strip('.,:;»«!?/()')
    if token in freqs:
        freqs[token] += 1
    else:
        freqs[token] = 1
        
print(freqs['und'], 'und, ', freqs['Innstetten'], 'Innstetten')

3407 und,  251 Innstetten


### Zahlensequenzen: Range und Enumerate

Häufig benötigt man eine Sequenz von Zahlen.

* _Fragen Sie 10 Wörter ab_ 
* _Führen Sie eine Berechnung mit den 100, 200, …, 2000 häufigsten Wörtern durch_

```python
range(stop)                  # → 0, 1, 2, ..., stop-1
range(start, stop[, step])   # → start, start+step, start+2*step, …, größter Wert < stop
```

In [4]:
print(range(17))

range(0, 17)


In [5]:
print(list(range(17)))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]


### enumerate

`enumerate(Liste [, start=0])` gibt für jedes Listenelement ein Tupel aus Index und Listenelement zurück.

In [6]:
platzierung = ['Müller', 'Meier', 'Lehmann', 'Krause']
list(enumerate(platzierung))

[(0, 'Müller'), (1, 'Meier'), (2, 'Lehmann'), (3, 'Krause')]

#### Aufgabe

Die Liste beschreibe die Rangliste bei einem Wettbewerb. Geben Sie jeden Platz mit dem entsprechenden Namen aus:

    1. Platz: Müller
    2. Platz: Meier       usw.

Implementieren Sie das zweimal, einmal mit `range`, einmal mit `enumerate`.

#### Aufgabe

Die Liste beschreibe die Rangliste bei einem Wettbewerb. Geben Sie jeden Platz mit dem entsprechenden Namen aus:

    1. Platz: Müller
    2. Platz: Meier      usw.

Implementieren Sie das zweimal, einmal mit `range`, einmal mit `enumerate`.

In [7]:
for platz in range(len(platzierung)):
    print(f"{platz+1}. Platz: {platzierung[platz]}")

1. Platz: Müller
2. Platz: Meier
3. Platz: Lehmann
4. Platz: Krause


In [8]:
for platz, name in enumerate(platzierung, start=1):
    print(f"{platz}. Platz: {name}")

1. Platz: Müller
2. Platz: Meier
3. Platz: Lehmann
4. Platz: Krause


### Comprehensions

* Häufige Aufgabe: Transformationen einer Liste etc.
* Beispiel: Menge aller Quadratzahlen zu Basen < 10
* Schreibweise aus der Mathematik: $Q = \{ n^2 \mid n \in \mathbb{N} \}$

In [9]:
zahlen = list(range(10))
print(zahlen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [10]:
quadratzahlen = [n**2 for n in range(10)]
print(quadratzahlen)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


### List Comprehensions

> _neue Liste_ = `[` _Ausdruck mit Laufvariable_ `for` _Laufvariable_ `in` _Sequenz_ `]`

erzeugt eine neue Liste, bei der jedes Element der ursprünglichen Sequenz entsprechend des Ausdrucks verwandelt wurde.

Statt

In [11]:
clean_tokens = []
for token in text.split():
    clean_tokens.append(token.strip('.,:;!?»«()'))

in einer Zeile:

In [12]:
clean_tokens = [token.strip('.,:;!=«»()') for token in text.split()]

### Übung

Sei `sentence = 'Dies ist ein schnöder Test'.split()` eine Sequenz von Wörtern. Erzeugen Sie eine Liste der Wortlängen.

In [13]:
sentence = 'Dies ist ein schnöder Test'.split()
wordlengths = [len(word) for word in sentence]
print(wordlengths)

[4, 3, 3, 8, 4]


### Filter

Mit `if Bedingung` können Sie in einer List Comprehension nur diejenigen Elemente übernehmen, für die die Bedingung gilt. z.B. nur Quadratzahlen von _geraden_ Zahlen:

In [14]:
print([n**2 for n in range(20) if n % 2 == 0])

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324]


__Aufgabe__ Erzeugen Sie eine Liste aller Tokens in Effi Briest, die einen Bindestrich enthalten.

In [15]:
print([token for token in clean_tokens if '-' in token])

['Hohen-Cremmen', 'Park-', 'Hohen-Cremmener', 'Heil-', 'zwei-', 'Hohen-Cremmen', 'Hohen-Crem', 'Haus-', 'Familien-Du', 'Pfarr-', 'Ausstattungs-und', 'Wirtschafts-', 'scherz-', 'Alexander-Regiment', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Fritz-Reuter-Passion', '-zu', 'Leinen-', 'Trommel-', 'Respekts-', 'Hohen-Cremmer', 'Strumpfband-Austanzens', 'St.-Privat-Panoramas', 'Klein-Tantow', 'Klein-Tantow', 'See-', 'Maschinen-', 'Hohen-Cremmen', 'St.-Privat-Panorama', 'Wohn-', 'Morgen-', 'Hohen-Cremmen', 'Hohen-Cremmener', 'Hohen-Cremmen', 'zurück-', 'Aus-', 'Vorder-', 'Hohen-Cremmen', 'Morgen-', 'Preziosa-Name', 'Hohen-Cremmen', 'Napoleons-Neffe', 'Umgangs-', 'Tanganjika-See', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Hohen-Cremmner', 'Hohen-Cremmner', 'Baldrian-', 'Sofa-Ehrenplatz', 'Einrichtungs-und', 'Trippelli-Abend', 'Hohen-Cremmen', 'Puls-', 'zwei-', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Alten-Weiber-Unsinn', 'Sich-behaglich-Fühlen', 'Ausrufungs-', 'durch-', 'Hohen-Cremmen', 'Wagner-Schwärmer', 'Tripp

#### List Comprehensions: Mehrere Iterationen

Eine List Comprehension kann mehrere for-Klauseln enthalten:

In [16]:
poem = ["Meine Ruh' ist hin",
        "Mein Herz ist schwer",
        "Ich finde sie nimmer",
        "Und nimmermehr"]
word_lengths = [len(word) for verse in poem 
                          for word in verse.split()]
word_lengths

[5, 4, 3, 3, 4, 4, 3, 6, 3, 5, 3, 6, 3, 10]

### Dictionary- und Set Comprehensions

Dictionaries und Mengen können analog erzeugt werden:

In [17]:
word_lengths = {word: len(word) for word in "Ich bin ein Satz".split()}

In [18]:
distinct_words = {word.strip('.,:;!?»«()') for word in text.lower().split()}

### Funktionen für _Iterables_

* Alles, was in einer for-Schleife verwendet werden kann, heißt _Iterable_ (= Listen, Mengen, Tupel, Dictionaries (Keys), …)
* Eine Reihe von eingebauten Funktionen können Listen(artiges) zusammenfassen:


| Funktion | Beschreibung   |
| :------------------------ | :------------------------------------ |
| `sum(iterable, start=0)` | Summe, verknüpft die Elemente mit `+`  |
| `min(iterable, [default=obj, key=function])` | liefert das kleinste Element |
| `max(iterable, [default=obj, key=function])` | liefert das größte Element |
| `any(iterable)` | `True` gdw. mindestens ein Element trueish ist |
| `all(iterable)` | `True` gdw. alle Elemente trueish sind |

### Neue Listen aus _Iterables_

* Eine Reihe von eingebauten Funktionen erzeugt neue Listen aus Iterables:

| Funktion | Beschreibung |
| :------- | :----------  |
| `list(iterable)`  | erzeugt eine Liste |
| `sorted(iterable, [key=function])` | erzeugt eine sortierte Liste |
| `reversed(iterable)` | dreht die Reihenfolge um | 

### Aufgabe

Gegeben sei eine Tabelle mit absoluten Worthäufigkeiten, z.B. `freqs = {"dies": 2, "ist": 2, "ein": 1, "beispiel": 2, "kein": 1}`. Erzeugen Sie daraus eine Tabelle mit relativen Worthäufigkeiten (also: Welcher Anteil der Wörter im Text ist _dies_?).

In [19]:
freqs = {"dies": 2, "ist": 2, "ein": 1, "beispiel": 2, "kein": 1}
n_words = sum(freqs.values())
rel_freqs = {word: freq / n_words for word, freq in freqs.items()}
print(rel_freqs)

{'dies': 0.25, 'ist': 0.25, 'ein': 0.125, 'beispiel': 0.25, 'kein': 0.125}


### `collections`-Modul

Weitere Datenstrukturen gibt’s im Modul [`collections`](https://docs.python.org/3/library/collections.html)

In [20]:
import collections

freqs = collections.defaultdict(int)
freqs['und'] += 1

In [1]:
from collections import Counter
freqs = Counter("to be or not to be".split())
freqs.most_common()

[('to', 2), ('be', 2), ('or', 1), ('not', 1)]

### Hausaufgabe

In dieser Aufgabe erheben Sie Daten (in diesem Falle die schon öfters geübten Worthäufigkeiten), bearbeiten die dann weiter und rechnen einfache statistische Werte darauf aus. Lassen Sie sich nicht von der mathematischen Notation irritieren: Sowas werden Sie in der Literatur öfters finden ☺.

Für die folgende Aufgabe arbeiten Sie nach Möglichkeit mit Comprehensions. Verwenden Sie nach Bedarf Variablen für zusätzliche sinnvolle Zwischenergebnisse, Ihre Abgabe sollte jedoch mindestens das Ergebnis jeder Teilaufgabe in einer Variablen festhalten. Bitte verwenden Sie sprechende Variablennamen, die sich an den [Python-Konventionen](https://www.python.org/dev/peps/pep-0008/) orientieren (kleinbuchstaben mit `_` als Worttrenner)

1. Erstellen Sie eine Tabelle der absoluten Worthäufigkeiten der angehängten Textdatei. Dazu zerlegen Sie die Textdatei in Tokens, entfernen den Tokens anhaftende Satzzeichen, und zählen, wie oft jede unterschiedliche Wortform _(Type)_ vorkommt. Ob Sie das Zählen selbst übernehmen oder passende Strukturen aus der Standardbibliothek zuhilfenehmen ist Ihnen überlassen.
2. Ermitteln Sie die Anzahl der Tokens  und die der Types (= der _unterschiedlichen_ Tokens). 
3. Erzeugen Sie eine Tabelle der _relativen_ Häufigkeiten. Selbstkontrolle: `sum(rel_freqs.values())` muss `1.0` sein.
4. Berechnen Sie das arithmetische Mittel der relativen Worthäufigkeiten: $\mu = \frac{1}{n} \sum_{i=1}^n f_i$ für die relativen Häufigkeiten $f_1, \dotsc, f_n$ ($n$ ist die Anzahl der unterschiedlichen Wortformen aus Aufgabe 1.)
5. Berechnen Sie die (korrigierte) Stichprobenvarianz. Sie ist die mittlere quadratische Abweichung der Werte vom Mittelwert: $\sigma^2 = \frac{1}{n-1} \sum_{i=1}^n (f_i - \mu)^2$. Durch das Quadrieren der einzelnen Summanden wird man das Vorzeichen los, man teilt die Summe meist durch die Anzahl der Werte - 1 ($n-1$), da durch die Verwendung des Mittelwerts ein Freiheitsgrad verlorengeht.
6. Ein sprechenderer Wert als die Varianz ist die _Standardabweichung_, das ist einfach die Quadratwurzel aus der Varianz: $\sigma = \sqrt{\sigma^2}$. Die Standardabweichung ist in der selben Dimension wie die einzelnen Werte oder das arithmetische Mittel. Berechnen Sie sie. Sie können dazu die Funktion `sqrt` aus dem Modul `math` der Standardbibliothek importieren.

Geben Sie Mittelwert und Standardabweichung aus.


> __Zum Summenzeichen $\sum$__: Wenn $\mathbf{x} = (x_1, x_2, \dotsc, x_n)$ eine Liste von $n$ Werten ist, dann ist $\sum_{i = 1}^n x_i$ einfach die Summe dieser Werte, d.h. $x_1 + x_2 + \dotsm + x_n$. Also z.B. $\mathbf{x} = (5, 7, 2, 9)$, dann ist $n = 4$ und $\sum_{i = 1}^{n} x_i = 5 + 7 + 2 + 9 = 23$. Hinter dem Summenzeichen können auch z.B. Formeln stehen: z.B. heißt $\sum_{i=1}^{n} \frac{1}{x_i}$, dass Sie für jedes $x_i$ zunächst $\frac{1}{x_i}$  ausrechnen und die Ergebnisse dann aufsummieren, im Beispiel: $\frac{1}{5} + \frac{1}{7} + \frac{1}{2} + \frac{1}{9}$.
>
> Eine solche Summe können Sie als `for`-Schleife implementieren oder eleganter als Comprehension mit `sum`, z.B. hier für $\sum \frac{1}{x_i}$ `result = sum([1/x_i for x_i in x])`.

Reichen Sie über die Abgabe-Funktion in WueCampus ein fehlerfreies, lauffähiges Python-Skript ein, das die Aufgaben löst (und nichts sonst). Das Ergebnis jeder Teilaufgabe sollte in einer Variablen stehen. Verwenden Sie sprechende Variablennamen. Schreiben Sie bei Rückfragen an mich, oder benutzen Sie das Diskussionsforum im WueCampus-Kursraum. 

Sie können alternativ auch ein Jupyter-Notebook abgeben. Achten Sie darauf, dass das Notebook durchläuft – Rufen Sie aus dem Menü _Kernel_ die Option _Restart and run all_ auf und schauen Sie, dass keine Fehler dabei auftreten.

Wenn Sie die Aufgabe in einer Kleingruppe lösen wollen, gehen Sie am besten wie folgt vor:

1. jede\*r versucht zunächst, die Aufgabe allein zu lösen
2. Sie besprechen gemeinsam die Probleme und entwickeln eine gemeinsame Lösung
3. Danach programmiert jede\*r nochmal individuell die Lösung nach, ohne dabei die gemeinsame Lösung anzuschauen

Bitte geben Sie keine »verschleierten« Gruppenlösungen ab (Variablen umbenennen etc.), das merk ich eh.

Viel Erfolg!

### Generator Comprehensions

* Eine List Comprehension wie z.B. `[x**2 for x in range(10)]` erzeugt eine ausformulierte Liste.
* `range(100000000)` erzeugt _keine_ ausformulierte Liste, erst bei der Iteration oder bei `list(range(10000000))` werden die Items erzeugt.
* Oft ist es gar nicht notwendig, alles auszuformulieren.

_Sei `text` ein String. Gibt es darin ein Wort, das länger als 20 Zeichen ist?_

In [22]:
any([len(token) > 20 for token in clean_tokens])

True

… führt dazu, dass zunächst für _jedes_ Wort `len(token) > 20` ausgerechnet wird, diese Liste der `False`- und `True`-Werte wird `any` übergeben und von any durchgegangen wird, bis das erste `True` gefunden wird.

In [23]:
(len(token) > 20 for token in clean_tokens)

<generator object <genexpr> at 0x7fa83a641c80>

__generator expressions__: Analog zu `range`, `len(token) > 20` wird erst ausgerechnet, wenn es (bei der Iteration) abgerufen wird.

In [24]:
any((len(token) > 20 for token in clean_tokens))

True

Oft kann man die runden Klammern weglassen:

In [25]:
any(len(token) > 20 for token in clean_tokens)

True