### Python: Auffrischung
## Datenstrukturen

### Übungsaufgaben

1. Finden Sie wenigstens drei Manipulationen, die Sie mit einem String machen können, und drei Dinge, die Sie von einem String abfragen können, und finden probieren Sie sie aus.
2. Was machen die String-Methoden `split` und `trim`? Lesen Sie die Hilfe und probieren Sie die Funktionen aus.

### Mehr zu Strings

* Stringliterale: Vorn und hinten die gleichen Anführungszeichen, kein Zeilenumbruch im Literal

In [14]:
s = 'Test'
t = "Test"
s == t

True

* Mehrzeilige Literale mit je drei `"""` oder `'''` an Anfang und Ende

In [16]:
hilfe = """
Betriebsanleitung
=================

Drücken Sie auf 'Ein', um das Gerät einzuschalten.
"""
print(hilfe)


Betriebsanleitung

Drücken Sie auf 'Ein', um das Gerät einzuschalten.



* Besondere Zeichenkombinationen in Strings mit Backslash: z.B. `\n` neue Zeile, `\\` Backslash, 

In [22]:
print("Unicode-Zeichen: vierstellig (BMP) \u262e,\n     achtstellig (darüber hinaus) \U0001F984")

Unicode-Zeichen: vierstellig (BMP) ☮,
     achtstellig (darüber hinaus) 🦄


* _Raw Strings_, wenn `\` keine Sonderbedeutung haben soll: `path = r"C:\Windows"`
* _Byte Strings_ für Binärdaten: `b"PK"` = 2 Bytes (später bei Dateien)

* Strings sind unveränderlich, Operationen erzeugen immer neue Strings
* Einzelne Zeichen: `text[4]` liefert das 5. Zeichen (Zählung ab 0), `text[-1]` das letzte, `len(text)` die Länge des Strings
* Teilstrings: `text[start:ende]`, ggf. mit Schrittweite `text[start:ende:step]`, `start`, `ende`, `:schrittweite` darf entfallen:

In [27]:
text = "Hallo Welt"
print(text[0])
print(text[:4])
print(text[0:5:2])
print(text[:-3])

H
Hall
Hlo
Hallo W


__ÜA__: Wie können Sie einen String umdrehen? `"Hallo" → "ollaH"`?

In [2]:
"Hallo"[::-1]

'ollaH'

### Format Strings

Es gibt eine kleine Subsprache, um Werte in Strings einzusetzen:

In [40]:
print("Die Länge des Strings »{0}« beträgt {1} Zeichen.".format(text, len(text)))

Die Länge des Strings »Hallo Welt« beträgt 10 Zeichen.


Man kann das Format auch näher beschreiben:

In [3]:
print("⅓ = {0:010.4f}".format(50 + 1/3)) # f = fließkommazahl, 010 = 10 stellen, mit führenden nullen, .4 = vier nachkommastellen

⅓ = 00050.3333


In Stringliteralen mit führendem `f` (f-strings) kann man (seit Python 3.6) Pythonausdrücke einbetten:

In [59]:
print(f"Die Länge von »{text}« beträgt {len(text):4d} Zeichen.")

Die Länge von »Hallo Welt« beträgt   10 Zeichen.


### Listen

* Eine _Liste_ verwaltet eine flexible Menge von (meist gleichartigen) Einträgen
* Die Einträge können über den _Listenindex_, ihre Position in der Liste, angesprochen werden

In [31]:
autoren = ['Goethe', 'Kafka', 'Grass', 'Jelinek']
print(autoren[1])

Kafka


In [33]:
autoren.append('Schalanski')
autoren[0] = 'Schiller'
print(autoren, len(autoren))
print('Stanišić' in autoren)

['Schiller', 'Kafka', 'Grass', 'Jelinek', 'Schalanski', 'Schalanski'] 6
False


### Übungsaufgaben

1. Wie heißt der Datentyp von Listen?
2. Was passiert, wenn Sie eine String in eine Liste umwandeln?
3. Erzeugen Sie aus einem vom Benutzer eingegebenen Satz eine Liste von Wörtern, getrennt an Leerzeichen.
4. Wie finden Sie heraus, an wievielter Position in der Liste 'Jelinek' steht?
5. Fügen Sie 'Anakreon' _am Anfang_ der einer Liste ein.

### Dictionaries

* Listen repräsentieren Daten in einer festen, ununterbrochenen Reihenfolge, die durch ihre Position in der Liste einzeln angesprochen werden können
* Dictionaries repräsentieren ebenfalls Daten, allerdings als _Key-Value-Paare_: Ein Wert (Value) wird durch einen Schlüssel (Key) identifiziert.

In [2]:
durchwahlen = {'Jannidis': '80079',
               'Vitt': '80078',
               'Technischer Betrieb': '84444'}
print(durchwahlen['Vitt'])
durchwahlen['Gersitz'] = '88421'
print(durchwahlen)

80078
{'Jannidis': '80079', 'Vitt': '80078', 'Technischer Betrieb': '84444', 'Gersitz': '88421'}


Die Dictionary-Methoden `keys()` und `values()` liefern jeweils nur die Schlüssel und die Werte zurück:

In [3]:
print(durchwahlen.keys())
print(durchwahlen.values())
print(durchwahlen.items())

dict_keys(['Jannidis', 'Vitt', 'Technischer Betrieb', 'Gersitz'])
dict_values(['80079', '80078', '84444', '88421'])
dict_items([('Jannidis', '80079'), ('Vitt', '80078'), ('Technischer Betrieb', '84444'), ('Gersitz', '88421')])


`items()` liefert alle Schlüssel-Wert-_Paare_ als Liste von Tupeln.

### Tupel

* _Tupel_ sind unveränderliche Listen

In [7]:
t = ('Vitt', 80079)             # \
t = tuple(['Vitt', 80079])      #   äquivalent
t = 'Vitt', 80079               # /

* in der Praxis:
  * Liste für Sequenz gleichartiger Objekte
  * Tupel: Position im Tupel bestimmt Typ / Semantik

#### Unpacking

Man kann Tupel auf der linken Seite einer Zuweisung verwenden:

In [13]:
t = 'Vitt', 80079
name, nummer = t

In [14]:
durchwahlen.items()

dict_items([('Jannidis', '80079'), ('Vitt', '80078'), ('Technischer Betrieb', '84444'), ('Gersitz', '88421')])

In [15]:
for name, nummer in durchwahlen.items():       # ← Tuple unpacking
    print(f'{name} ist unter {nummer} zu erreichen.')

Jannidis ist unter 80079 zu erreichen.
Vitt ist unter 80078 zu erreichen.
Technischer Betrieb ist unter 84444 zu erreichen.
Gersitz ist unter 88421 zu erreichen.


### Mengen

* Mengen (`set`) enthalten gleiche Elemente max. einmal

In [18]:
kleine_primzahlen = {1, 2, 3, 5, 7, 9, 7}
print(kleine_primzahlen)

{1, 2, 3, 5, 7, 9}


In [25]:
gerade_zahlen = {2,4,6,8,10}

print(kleine_primzahlen.intersection(gerade_zahlen))

{2}


### Mengenoperationen

* Elementbeziehung ($x \in A$, `x in A`)
* Schnittmenge ($A \cap B$, `A.intersection(B)`, `A & B`)
* Vereinigungsmenge ($A \cup B$, `A.union(B)`, `A | B`)
* Mengendifferenz ($A \setminus B$, `A.difference(B)`, `A - B`)
* Symmetrische Differenz ($A \mathop{\Delta} B$, `A.symmetric_difference(B)`)

* `frozenset()` für unveränderliche Mengen

### Welche Datenstruktur nehme ich?

* Listen (`list`) für Sequenzen gleichartiger Objekte, die per Index oder primär sequentiell angesprochen werden. `in` ist teuer.
* Mengen (`set`, `frozenset`), wenn es vor allem auf Enthaltensein ankommt, Wiederholungen nicht vorkommen und die Reihenfolge nicht wichtig ist. `in` ist billig.
* Tupel für unveränderliche Listen und kurze Datensequenzen, bei denen die Position die Semantik bestimmt.
* Dictionaries (`dict`) für key-value-Paare. `in` bezieht sich auf den Wert und ist billig.

### Wie funktionieren Dictionaries und Mengen?

* In Listen und Tupel werden die Werte einfach hintereinandergespeichert. `in` erfordert im ungünstigsten Fall, alle Werte durchzuschauen.
* Bei Dictionaries und Mengen soll der Zugriff über den Key effizient sein ($\mathcal{O}(1)$) → vgl. z.B. ≈ 11945 unterschiedliche Wortformen allein für Effi Briest
* __Hashtable__: Idee: Wir berechnen die Position des Eintrags aus dem Key (hier: Wortform, z.B. _Reim_)

* __Hashfunktion__:
   * bildet Key auf eine Zahl ab
   * zwei Objekte sind gleich (`==`) → ihr Hashwert ist auch gleich
   * z.B. Quersumme der Buchstaben

![](img/hashtable-1.png)

![](img/hashtable-2.png)

![](img/hashtable-3.png)

### Übungsaufgabe

Eine einfache Möglichkeit, eine Textdatei einzulesen, bietet das `Path`-Objekt aus dem Modul `pathlib`. Das müssen wir zunächst importieren, um es benutzen zu können:

In [29]:
from pathlib import Path

`Path`-Objekte repräsentieren Datei- oder Ordnernamen und verfügen über zahlreiche Methoden zum Handling, z.B. eine zum Einlesen einer Textdatei:

In [32]:
text = Path('Fontane-Theodor_Effi Briest.txt').read_text(encoding='utf-8')

Erzeugen Sie eine Worthäufigkeitstabelle für 'Effi Briest'. 

Zerlegen Sie dazu zunächst den Text an Leerraum in Tokens und entfernen Sie von jedem Token noch außen anklebende Satzzeichen (`.,:;»«!?/()`). Recherchieren Sie ggf. benötigte Methoden von `str`. Erzeugen Sie dann eine geeignete Datenstruktur, füllen Sie sie und beantworten Sie mit dem Ergebnis, wie häufig die Wortformen _und_ und _Innstetten_ vorkommen.

#### Beispiellösung

In [37]:
from pathlib import Path
text = Path('Fontane-Theodor_Effi Briest.txt').read_text(encoding='utf-8')
freqs = {}
for token in text.split():
    cleaned_token = token.strip('.,:;»«!?/()')
    if token in freqs:
        freqs[token] += 1
    else:
        freqs[token] = 1
        
print(freqs['und'], 'und, ', freqs['Innstetten'], 'Innstetten')

3407 und,  251 Innstetten


### Umgang mit Datenstrukturen: Aggregatoren, Comprehensions

* Häufige Aufgabe: Transformationen einer Liste etc.
* Beispiel: Menge aller Quadratzahlen zu Basen < 10
* Schreibweise aus der Mathematik: $Q = \{ n^2 \mid n \in \mathbb{N} \}$

In [4]:
zahlen = list(range(10))
print(zahlen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [6]:
quadratzahlen = [n**2 for n in range(10)]
print(quadratzahlen)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


### List Comprehensions

> _neue Liste_ = `[` _Ausdruck mit Laufvariable_ `for` _Laufvariable_ `in` _Sequenz_ `]`

erzeugt eine neue Liste, bei der jedes Element der ursprünglichen Sequenz entsprechend des Ausdrucks verwandelt wurde.

Statt

In [43]:
clean_tokens = []
for token in text.split():
    clean_tokens.append(token.strip('.,:;!?»«()'))

in einer Zeile:

In [45]:
clean_tokens = [token.strip('.,:;!=«»()') for token in text.split()]

### Übung

Sei `sentence = 'Dies ist ein schnöder Test'.split()` eine Sequenz von Wörtern. Erzeugen Sie eine Liste der Wortlängen.

In [7]:
sentence = 'Dies ist ein schnöder Test'.split()
wordlengths = [len(word) for word in sentence]
print(wordlengths)

[4, 3, 3, 8, 4]


### Filter

Mit `if Bedingung` können Sie in einer List Comprehension nur diejenigen Elemente übernehmen, für die die Bedingung gilt. z.B. nur Quadratzahlen von _geraden_ Zahlen:

In [47]:
print([n**2 for n in range(20) if n % 2 == 0])

[0, 4, 16, 36, 64, 100, 144, 196, 256, 324]


__Aufgabe__ Erzeugen Sie eine Liste aller Tokens in Effi Briest, die einen Bindestrich enthalten.

In [50]:
print([token for token in clean_tokens if '-' in token])

['Hohen-Cremmen', 'Park-', 'Hohen-Cremmener', 'Heil-', 'zwei-', 'Hohen-Cremmen', 'Hohen-Crem', 'Haus-', 'Familien-Du', 'Pfarr-', 'Ausstattungs-und', 'Wirtschafts-', 'scherz-', 'Alexander-Regiment', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Fritz-Reuter-Passion', '-zu', 'Leinen-', 'Trommel-', 'Respekts-', 'Hohen-Cremmer', 'Strumpfband-Austanzens', 'St.-Privat-Panoramas', 'Klein-Tantow', 'Klein-Tantow', 'See-', 'Maschinen-', 'Hohen-Cremmen', 'St.-Privat-Panorama', 'Wohn-', 'Morgen-', 'Hohen-Cremmen', 'Hohen-Cremmener', 'Hohen-Cremmen', 'zurück-', 'Aus-', 'Vorder-', 'Hohen-Cremmen', 'Morgen-', 'Preziosa-Name', 'Hohen-Cremmen', 'Napoleons-Neffe', 'Umgangs-', 'Tanganjika-See', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Hohen-Cremmner', 'Hohen-Cremmner', 'Baldrian-', 'Sofa-Ehrenplatz', 'Einrichtungs-und', 'Trippelli-Abend', 'Hohen-Cremmen', 'Puls-', 'zwei-', 'Hohen-Cremmen', 'Hohen-Cremmen', 'Alten-Weiber-Unsinn', 'Sich-behaglich-Fühlen', 'Ausrufungs-', 'durch-', 'Hohen-Cremmen', 'Wagner-Schwärmer', 'Tripp

#### List Comprehensions: Mehrere Iterationen

Eine List Comprehension kann mehrere for-Klauseln enthalten:

In [66]:
poem = ["Meine Ruh' ist hin",
        "Mein Herz ist schwer",
        "Ich finde sie nimmer",
        "Und nimmermehr"]
word_lengths = [len(word) for verse in poem 
                          for word in verse.split()]
word_lengths

[5, 4, 3, 3, 4, 4, 3, 6, 3, 5, 3, 6, 3, 10]

### Dictionary- und Set Comprehensions

Dictionaries und Mengen können analog erzeugt werden:

In [69]:
word_lengths = {word: len(word) for word in "Ich bin ein Satz".split()}

{'Ich': 3, 'bin': 3, 'ein': 3, 'Satz': 4}

In [72]:
distinct_words = {word.strip('.,:;!?»«()') for word in text.lower().split()}

### Funktionen für _Iterables_

* Alles, was in einer for-Schleife verwendet werden kann, heißt _Iterable_ (= Listen, Mengen, Tupel, Dictionaries (Keys), …)
* Eine Reihe von eingebauten Funktionen können Listen(artiges) zusammenfassen:


| Funktion | Beschreibung   |
| :------------------------ | :------------------------------------ |
| `sum(iterable, start=0)` | Summe, verknüpft die Elemente mit `+`  |
| `min(iterable, [default=obj, key=function])` | liefert das kleinste Element |
| `max(iterable, [default=obj, key=function])` | liefert das größte Element |
| `any(iterable)` | `True` gdw. mindestens ein Element trueish ist |
| `all(iterable)` | `True` gdw. alle Elemente trueish sind |

* Eine Reihe von eingebauten Funktionen erzeugt neue Listen aus Iterables:

| Funktion | Beschreibung |
| :------- | :----------  |
| `list(iterable)`  | erzeugt eine Liste |
| `sorted(iterable, [key=function])` | erzeugt eine sortierte Liste |
| `reversed(iterable)` | dreht die Reihenfolge um | 

### Aufgabe

Gegeben sei eine Tabelle mit absoluten Worthäufigkeiten, z.B. `freqs = {"dies": 2, "ist": 2, "ein": 1, "beispiel": 2, "kein": 1}`. Erzeugen Sie daraus eine Tabelle mit relativen Worthäufigkeiten (also: Welcher Anteil der Wörter im Text ist _dies_?

In [85]:
freqs = {"dies": 2, "ist": 2, "ein": 1, "beispiel": 2, "kein": 1}
n_words = sum(freqs.values())
rel_freqs = {word: freq / n_words for word, freq in freqs.items()}
print(rel_freqs)

{'dies': 0.25, 'ist': 0.25, 'ein': 0.125, 'beispiel': 0.25, 'kein': 0.125}


### `collections`-Modul

Weitere Datenstrukturen gibt’s im Modul [`collections`](https://docs.python.org/3/library/collections.html)

In [86]:
import collections

freqs = collections.defaultdict(int)
freqs['und'] += 1

In [87]:
from collections import Counter, ChainMap
freqs = Counter("to be or not to be".split())
freqs.most_common()

[('to', 2), ('be', 2), ('or', 1), ('not', 1)]