_Einführung in Python, Clemens Brunner, 6.12.2018_

# 8 - Dictionaries, Module und Packages
## Dictionaries
Der Datentyp Dictionary ist ein sogenannter Mapping-Datentyp. Man kann sich ein Dictionary wie ein Sprachwörterbuch vorstellen. Wenn man die Übersetzung zu einem bestimmten Wort wissen möchte, schlägt man unter dem gesuchten Wort (hier Key genannt) nach und findet dort die Übersetzung (hier als Value bezeichnet). In Python definiert man ein `dict` mit geschwungenen Klammern und trennt die Einträge wie bei Listen mit Kommas. Jeder Eintrag besteht aus einem Key und einem Value, welche durch einen Doppelpunkt voneinander getrennt sind.

Folgendes Beispiel zeigt ein `dict` mit drei Einträgen:

In [1]:
d = {"Haus": "house", "Schlange": "snake", "Katze": "cat"}

Alternativ kann man auch die `dict`-Funktion benutzen. Mit Keyword-Argumenten kann man so das Dictionary initialisieren:

In [2]:
d = dict(Haus="house", Schlange="snake", Katze="cat")

Man beachte, dass die Keyword-Argumente Argumente sind und dementsprechend ohne Anführungszeichen geschrieben werden müssen. Diese werden dann aber in Strings umgewandelt und als Keys im Dictionary verwendet.

Einzelne Elemente kann man wieder mit Indizierung herausgreifen - anstelle eines numerischen Index (wie bei Listen) gibt man aber nun den jeweiligen Key als Index an:

In [3]:
d["Haus"]

'house'

In [4]:
d["Schlange"]

'snake'

Ein Dictionary ist also gewissermaßen eine verallgemeinerte Liste. Ein wichtiger Unterschied zu Listen ist, dass die Reihenfolge der Einträge in Dictionaries keine Rolle spielt. D.h. man kann bei einem Dictionary nicht vom 1. Element, vom 2. Element usw. sprechen - bei Listen hingegen schon.

In [5]:
d

{'Haus': 'house', 'Schlange': 'snake', 'Katze': 'cat'}

Genau wie in Listen kann man in Dictionaries Elemente mit unterschiedlichen Datentypen speichern. Eine Einschränkung gibt es aber für die Keys: diese müssen immutable sein (daher kann man z.B. keine Listen als Keys verwenden). Neue Elemente fügt man einfach durch Angabe von Key und Value zu einem bestehenden Dictionary hinzu.

In [6]:
d[23] = "tt"
d[1] = 3.14
d["L"] = [1, 2, 3]
d

{'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 23: 'tt',
 1: 3.14,
 'L': [1, 2, 3]}

Gibt man einen Key an, der im Wörterbuch nicht existiert, erhält man eine Fehlermeldung.

In [7]:
d[0]

KeyError: 0

### Arbeiten  mit Dictionaries

Die Länge eines Dictionaries, also die Anzahl der Einträge, bekommt man wieder mit der Funktion `len`:

In [8]:
len(d)

6

Die Keys bekommt man mit der Methode `keys`, die Values mit der Methode `values`:

In [9]:
d.keys()

dict_keys(['Haus', 'Schlange', 'Katze', 23, 1, 'L'])

In [10]:
d.values()

dict_values(['house', 'snake', 'cat', 'tt', 3.14, [1, 2, 3]])

Beides, also Keys und Values, bekommt man mit der Methode `items`.

In [11]:
d.items()

dict_items([('Haus', 'house'), ('Schlange', 'snake'), ('Katze', 'cat'), (23, 'tt'), (1, 3.14), ('L', [1, 2, 3])])

Ob ein Wert als Key vorkommt, kann man mit `in` überprüfen:

In [12]:
"Katze" in d

True

In [13]:
"cat" in d

False

Wenn man wissen möchte, ob ein Wert als Value vorkommt, verwendet man die `values`-Methode:

In [14]:
"cat" in d.values()

True

Selbstverständlich kann man über ein Dictionary auch iterieren - in diesem Fall wird über alle Keys iteriert.

In [15]:
for k in d:
    print(k)

Haus
Schlange
Katze
23
1
L


Auf die entsprechenden Values greift man dann einfach durch Indizieren zu:

In [16]:
for k in d:
    print(k, ":", d[k])

Haus : house
Schlange : snake
Katze : cat
23 : tt
1 : 3.14
L : [1, 2, 3]


Eleganter funktioniert das mit der Methode `items`. Diese erzeugt eine Liste von Tupeln, welche die Key/Value-Paare enthalten:

In [17]:
d.items()

dict_items([('Haus', 'house'), ('Schlange', 'snake'), ('Katze', 'cat'), (23, 'tt'), (1, 3.14), ('L', [1, 2, 3])])

Damit kann man in einer Schleife sowohl auf die Keys als auch auf die Values zugreifen.

In [18]:
for k, v in d.items():
    print(k, ":", v)

Haus : house
Schlange : snake
Katze : cat
23 : tt
1 : 3.14
L : [1, 2, 3]


Die gleichzeitige Zuweisung von Werten an die Namen `k` und `v` bezeichnet man in Python als Unpacking - nachdem `d.items()` jeweils ein Tupel bestehend aus zwei Elementen erzeugt, kann man diese zwei Elemente direkt zwei Namen zuweisen. Ein anderes Beispiel dafür ist:

In [19]:
a, b = 15, 23

In [20]:
a

15

In [21]:
b

23

So kann man in einer Zeile mehrere Namen mit Werten versehen. Im übrigen kann man in Python damit auch effizient Werte vertauschen. Möchte man nun die Werte von `a` und `b` vertauschen, kann man dies so schreiben:

In [22]:
a, b = b, a

In [23]:
a, b

(23, 15)

In [24]:
a

23

In [25]:
b

15

Möchte man wie oben gezeigt den Fehler bei Verwendung eines nicht existierenden Keys vermeiden, so kann man stattdessen die Methode `get` verwenden. Diese Methode hat zwei Argumente: das erste Argument ist der Key, und das zweite Argument ist ein Standardwert, der zurückgegeben wird falls der angegebene Key im Dictionary nicht existiert:

In [26]:
d

{'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 23: 'tt',
 1: 3.14,
 'L': [1, 2, 3]}

In [27]:
d["psy"]  # Fehler, Key "psy" existiert nicht

KeyError: 'psy'

In [28]:
d.get("psy", 0)  # Key "psy" exisitiert nicht, also wird 0 zurückgegeben

0

In [29]:
d.get("Schlange", "Tier")  # Key "Schlange" exisitiert

'snake'

In [30]:
d.get("snake", "Schlange")

'Schlange'

Zu beachten ist, dass in den Fällen, wo Standardwerte zurückgegeben werden, diese Einträge nicht automatisch im Dictionary erzeugt werden:

In [31]:
d

{'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 23: 'tt',
 1: 3.14,
 'L': [1, 2, 3]}

Möchte man diese neuen Einträge gleich dem Dictionary hinzufügen, verwendet man die Methode `setdefault`:

In [32]:
d.setdefault("X", 42)

42

In [33]:
d

{'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 23: 'tt',
 1: 3.14,
 'L': [1, 2, 3],
 'X': 42}

In [34]:
d.setdefault("X", 100)

42

In [35]:
d

{'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 23: 'tt',
 1: 3.14,
 'L': [1, 2, 3],
 'X': 42}

## Module und Packages
Wenn man in einer interaktiven Python-Sitzung (also z.B. in der IPython-Console in Spyder) programmiert, dann gehen alle Definitionen (Namen, Funktionen) beim Beenden der Sitzung verloren. Daher ist es sinnvoll, Code in einem Script zu speichern (ein Script ist eine Textdatei mit der Endung `.py`, welche Python-Code enthält). Dieses Script kann man dann beliebig oft ausführen.

Wenn ein Programm umfangreicher wird, möchte man vielleicht Code auf unterschiedliche Dateien aufteilen. Es wäre dann sehr umständlich, eine benötigte Funktion in jeder Datei neu zu definieren. In Python kann man daher Code in sogenannte Module auslagern. Module sind Textdateien mit der Endung `.py` (d.h. technisch gesehen gibt es keinen Unterschied zwischen Scripts und Modulen). Module enthalten normalerweise hauptsächlich Definitionen von Funktionen und anderen Objekten. Diese Definitionen können dann einfach in anderen Dateien (Scripts oder Module) mit dem Befehl `import` importiert werden.


### Beispiel
Als Beispiel definieren wir die Funktion `mean` in dem Modul `stuff.py`:

```Python
def mean(values):
    s = 0
    for v in values:
        s += v
    return s / len(values)
```

Zu beachten ist, dass sich das Modul `stuff.py` im aktuellen Arbeitsverzeichnis befinden sollte - ansonsten kann Python es nicht finden. Wenn wir diese Funktion nun in einem Script verwenden wollen, können wir den gesamten Inhalt von `stuff.py` importieren:

In [36]:
import stuff

Nach diesem Befehl steht ein Objekt namens `stuff` zur Verfügung, mit dem man alle dort definierten Funktionen verwenden kann:

In [37]:
stuff.mean([1, 2, 3, 4, 5, 6])

3.5

Wenn man gezielt spezifische Funktionen aus einem Modul importieren möchte, kann man dies so tun:

In [38]:
from stuff import mean

Dann ist diese importierte Funktion direkt verfügbar (also ohne vorher `stuff.` schreiben zu müssen):

In [39]:
mean([1, 2, 3, 4, 5, 6])

3.5

Alternativ kann man gezielt ein Modul oder eine Funktion unter einem anderen Namen importieren:

In [40]:
import stuff as st  # Modul ist als st bekannt

In [41]:
st.mean([1, 2, 3, 4, 5, 6])

3.5

In [42]:
from stuff import mean as m  # Funktion mean aus stuff ist als m bekannt

In [43]:
m([10, 11, 12, 13])

11.5

### Eigenschaften
Mit diesem Mechanismus kann man Python um zusätzliche Funktionalität erweitern. Dies ist eines der mächtigsten Konzepte von Python, da es eine sehr große Anzahl an Modulen bzw. Paketen (eine Sammlung von Modulen) gibt.

Um zu sehen, was alles in einem Modul definiert ist, kann man die Funktion `dir` verwenden:

In [44]:
dir(stuff)

['__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'mean']

Namen, die mit zwei Unterstrichen `__` beginnen und enden sind für den internen Gebrauch gedacht, d.h. normalerweise verwendet man solche Namen nicht. Im Beispiel des Moduls `stuff` sieht man, dass nur ein Name zur Verwendung gedacht ist, nämlich `mean`.

Innerhalb eines Moduls ist dessen Name in der Variable `__name__` zugänglich (dieser Name entspricht dem Dateinamen).

In [45]:
stuff.__name__

'stuff'

Ein Modul kann auch ganz normal als Script ausgeführt werden (d.h. nicht mit `import` importiert werden). Der Wert von `__name__` ist dann allerdings `__main__`. Dies kann man benutzen, um bestimmten Code nur auszuführen, wenn das Modul als Script ausgeführt wird, nicht aber, wenn es normal als Modul importiert wird. D.h. im Modul könnte sich folgender Code befinden:

```Python
if __name__ == "__main__":
    print("This code does not run when you import the module.")
    print("You will only see these lines if you run it as a script.")
```

Praktisch ist dieses Verhalten, wenn man Code zum Testen eines Moduls integrieren will. Diese Tests werden dann bei normaler Verwendung mit `import` ignoriert, aber wenn man das Modul direkt ausführt, werden diese Tests ausgeführt.

Ein Modul wird aus Effizienzgründen nur ein einziges Mal importiert - jeder erneute `import`-Befehl hat deswegen keine Auswirkung! Dies bedeutet, dass man ein geändertes Modul nur durch einen Neustart des Python-Interpreters importieren kann. Alternativ kann man auch, wenn es sich um ein einzelnes Modul handelt welches man gerade testen möchte, die Funktion `reload` aus dem Modul `importlib` verwenden (im folgenden Beispiel wird das Modul `stuff` erneut importiert):

```Python
import importlib
importlib.reload(stuff)
```

Ohne Argumente listet die Funktion `dir` alle Namen auf, die in der aktuellen Sitzung definiert sind:

In [43]:
dir()

['In',
 'Out',
 '_',
 '_10',
 '_11',
 '_12',
 '_13',
 '_16',
 '_19',
 '_2',
 '_20',
 '_22',
 '_23',
 '_25',
 '_26',
 '_27',
 '_28',
 '_29',
 '_3',
 '_30',
 '_31',
 '_32',
 '_34',
 '_36',
 '_38',
 '_4',
 '_40',
 '_41',
 '_42',
 '_5',
 '_7',
 '_8',
 '_9',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i10',
 '_i11',
 '_i12',
 '_i13',
 '_i14',
 '_i15',
 '_i16',
 '_i17',
 '_i18',
 '_i19',
 '_i2',
 '_i20',
 '_i21',
 '_i22',
 '_i23',
 '_i24',
 '_i25',
 '_i26',
 '_i27',
 '_i28',
 '_i29',
 '_i3',
 '_i30',
 '_i31',
 '_i32',
 '_i33',
 '_i34',
 '_i35',
 '_i36',
 '_i37',
 '_i38',
 '_i39',
 '_i4',
 '_i40',
 '_i41',
 '_i42',
 '_i43',
 '_i5',
 '_i6',
 '_i7',
 '_i8',
 '_i9',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 'a',
 'b',
 'd',
 'exit',
 'get_ipython',
 'k',
 'm',
 'mean',
 'quit',
 'st',
 'stuff',
 'v']

Wie man sieht, gibt es auch eine Menge an internen Namen, die mit einem Unterstrich beginnen. Gemeinsam mit Namen, die mit zwei Unterstrichen beginnen (und manchmal auch enden) bilden diese Namen "private" interne Variablen, die man normalerweise nicht direkt benötigt. Die Builtins werden mit `dir()` aufgrund einer besseren Übersichtlichkeit nicht aufgelistet, diese erhält man wie wir bereits wissen mit dem Befehl `dir(__builtins__)`.

### Standardmodule
Python kommt mit einer großen Anzahl an Standardmodulen. Dies wird als Standard Library bezeichnet und ist Teil jeder Python-Distribution. Neben Modulen enthält die Standard Library auch eingebaute (built-in) Funktionen, Typen und Konstanten. Eine Liste aller Module in der Standard Library gibt es in der [offiziellen Dokumentation](https://docs.python.org/3/library/index.html).

Beispielsweise gibt es seit Python 3.4 ein `statistics`-Modul, welches unsere oben definierte Funktion `mean` bereits mitbringt.

In [46]:
import statistics

statistics.mean([1, 2, 3, 4, 5, 6])

3.5

Das Modul `random` beinhaltet einige Funktionen zur Generierung von Zufallszahlen.

In [47]:
import random

a = random.randint(0, 10)  # Zufallszahl
a

7

In [48]:
x = ["Das", "ist", "eine", "Liste", "mit", "ein", "paar", "Elementen"]
random.choice(x)  # Element zufällig auswählen

'Das'

In [49]:
random.shuffle(x)  # Liste mischen
x

['eine', 'mit', 'paar', 'ein', 'Elementen', 'Das', 'Liste', 'ist']

In [50]:
random.normalvariate(10, 4)  # Sample aus einer Normalverteilung

8.561489160893062

Bei Zufallszahlen ist es oft gewünscht, reproduzierbare Ergebnisse zu erhalten, d.h. man möchte bei jedem Ausführen eines Scripts dieselben Zufallszahlen erhalten. Dies erreicht man durch Initialisieren des Zufallgenerators mit einer beliebigen Zahl, z.B.:

In [51]:
random.seed(1)

Dies sollte einmalig vor der Verwendung von Zufallszahlen stehen.

Das Modul `math` definiert gebräuchliche mathematische Funktionen und Konstanten.

In [52]:
import math

math.pi  # Pi

3.141592653589793

In [53]:
math.e  # Eulersche Zahl

2.718281828459045

In [54]:
math.sqrt(16)  # Wurzel

4.0

### Packages


Eine Ansammlung von Modulen kann in ein Package verpackt werden. Ein Package besteht im Prinzip aus einzelnen Modulen, die in Unterverzeichnissen organisiert sind. Am besten kann dies durch ein Beispiel veranschaulicht werden. Sehen wir uns ein (fiktives) Package namens `sound` an, welches folgende Datei- und Verzeichnisstruktur aufweist:

    sound/                          Top-level package
          __init__.py               Initialize the sound package
          formats/                  Subpackage for file format conversions
                  __init__.py
                  wavread.py
                  wavwrite.py
                  aiffread.py
                  aiffwrite.py
                  auread.py
                  auwrite.py
                  ...
          effects/                  Subpackage for sound effects
                  __init__.py
                  echo.py
                  surround.py
                  reverse.py
                  ...
          filters/                  Subpackage for filters
                  __init__.py
                  equalizer.py
                  vocoder.py
                  karaoke.py
                  ...

Damit Python weiß, dass es sich bei einem Verzeichnis um ein Package handelt, muss die Datei `__init__.py` in diesem Verzeichnis vorhanden sein (diese Datei ist im einfachsten Fall einfach leer).

Individuelle Module aus dem Package können nun wie folgt importiert werden:

```Python
import sound.effects.echo
```

Eine Funktion aus diesem Modul kann man nun verwenden, indem man den gesamten Namen angibt, also z.B.

```Python
sound.effects.echo.echofilter(input, output, delay=0.7, atten=4)
```

Alternativ kann das Modul so importiert werden:

```Python
from sound.effects import echo
```

Dies ermöglicht es, auf eine Funktion zuzugreifen, ohne den kompletten Namen anzugeben:

```Python
echo.echofilter(input, output, delay=0.7, atten=4)
```

Schließlich kann man auch die gewünschte Funktion direkt aus dem Modul importieren:

```Python
from sound.effects.echo import echofilter
```

Die Funktion kann dann direkt verwendet werden:

```Python
echofilter(input, output, delay=0.7, atten=4)
```

Eine weitere Möglichkeit besteht darin, dass man einzelne importierte Funktionen umbenennt (z.B. um lange Funktionsnamen abzukürzen):

```Python
from sound.effects.echo import echofilter as ef
```

Nun ist also die Funktion `echofilter` mit `ef` ansprechbar und wird so verwendet:

```Python
ef(input, output, delay=0.7, atten=4)
```

Für viele gängige Module/Packages haben sich Abkürzungen etabliert:

```Python
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt
```

## Hausübung
Geben Sie diese Hausübung als Python-Script in Moodle ab. Verwenden Sie für den Namen Ihrer Datei bitte folgendes Schema:

*Nachname1*_*Nachname2*-HUE08.py

### Übung 1
Beschreiben Sie kurz, was geschieht, wenn Sie das Modul `math` wie folgt importieren:

```
import math
```

Wie können Sie herausfinden, welche Funktionen/Konstanten dieses Modul bereitstellt? Wie können Sie z.B. auf die Kreiszahl $\pi$ zugreifen?

### Übung 2
Importieren Sie die Funktion zur Berechnung der Varianz aus dem Modul `statistics` unter dem Namen `var`. Als Beispiel sollten Sie dann folgende Berechnung durchführen:

```
var([13, 27.75, 11.56, 22, 17, 32.22, 26.7])
```

Wie lautet das Ergebnis?

### Übung 3
Erstellen Sie ein Modul namens `textutils` und schreiben Sie darin eine Funktion namens `is_palindrome`, welche überprüft, ob es sich beim übergebenen String um ein Palindrom handelt. Falls ja, soll die Funktion `True` zurückgeben, sonst `False`. Ignorieren Sie auch die Groß-/Kleinschreibung bei der Überprüfung.

### Übung 4
Verwenden Sie die im Modul `textutils` definierte Funktion `is_palindrome` mit zwei von Ihnen gewählten Beispiel-Strings.

### Übung 5
Das Package `scipy` beinhaltet viele Funktionen für diverse wissenschaftliche Berechnungen. Unter anderem gibt es auch ein eigenes Subpackage `stats`. Suchen Sie die Funktion, welche den Pearson-Korrelationskoeffizienten berechnet (z.B. auf der SciPy-Website) und importieren Sie diese Funktion. Verwenden Sie dann die Funktion, um die Korrelation zwischen den folgenden beiden Werten (gegeben als Listen) zu berechnen:

```
x = [1, 2, 3, 4]
y = [11, 7, 9, 3]
```

Wie lautet das Ergebnis (Korrelationskoeffizient $r$ und $p$-Wert)?

### Übung 6
Erstellen Sie ein Dictionary `a`, welches drei Einträge hat und Übersetzungen der Wörter "eins", "zwei" und "drei" auf Englisch beinhalten soll. Wie können Sie die Übersetzung von "zwei" dann aus `a` anzeigen lassen?

### Übung 7
Fügen Sie dem Dictionary `a` aus der vorigen Übung einen neuen Eintrag ("vier" - "four") hinzu und geben Sie das gesamte Dictionary am Bildschirm aus.

### Übung 8
Was passiert, wenn Sie im Dictionary `a` auf den nicht existierenden Key `"zehn"` zugreifen wollen? Welche zwei Alternativen gibt es, um für nicht existierende Keys einen Standardwert (z.B. `"undefiniert"`) zurückzugeben? Was ist der Unterschied zwischen diesen beiden Möglichkeiten? Geben Sie in Ihrer Antwort auch den konkreten Code für die drei Zugriffsmöglichkeiten auf das Element von `a` an!

---
![](cc_license.png)

Diese Unterlagen sind lizenziert unter einer [Creative Commons Namensnennung - Nicht-kommerziell - Weitergabe unter gleichen Bedingungen 4.0 International Lizenz](http://creativecommons.org/licenses/by-nc-sa/4.0/).