_Einführung in Python, Clemens Brunner, 15.12.2016_

# 7 - Dictionaries, Module und Packages
## Dictionaries
Ein Dictionary ordnet Keys bestimmten Values zu. Man kann sich ein Dictionary wie ein Sprachwörterbuch vorstellen. Wenn man die Übersetzung zu einem bestimmten Wort wissen möchte, schlägt man unter dem gesuchten Wort nach und findet dort die Übersetzung. In Python definiert man ein `dict` mit geschwungenen Klammern und trennt die Einträge wie bei Listen mit Kommas. Jeder Eintrag besteht aus einem Key und einem Value, welche durch einen Doppelpunkt voneinander getrennt sind.

Folgendes Beispiel zeigt ein `dict` mit drei Einträgen:

In [1]:
d = {"Haus": "house", "Schlange": "snake", "Katze": "cat"}

Einzelne Elemente kann man wieder mit Indizierung herausgreifen - anstelle eines numerischen Index (wie bei Listen) gibt man aber nun den jeweiligen Key als Index an:

In [2]:
d["Haus"]

'house'

In [3]:
d["Schlange"]

'snake'

Ein Dictionary ist also gewissermaßen eine verallgemeinerte Liste. Ein wichtiger Unterschied zu Listen ist, dass die Reihenfolge der Einträge in Dictionaries nicht definiert ist, in Listen aber schon. Wenn man das `dict` am Bildschirm ausgibt, wird die Reihenfolge der Elemente im Allgemeinen nicht der Reihenfolge entsprechen, in denen die Elemente eingegeben wurden.

In [4]:
d

{'Haus': 'house', 'Katze': 'cat', 'Schlange': 'snake'}

Genau wie in Listen kann man in Dictionaries Elemente mit unterschiedlichen Datentypen speichern. Eine Einschränkung gibt es aber für die Keys: diese müssen immutable sein (daher kann man z.B. keine Listen als Keys verwenden). Neue Elemente fügt man einfach durch Angabe von Key und Value zu einem bestehenden Dictionary hinzu.

In [5]:
d[23] = "tt"
d[1] = 3.14
d["L"] = [1, 2, 3]
d

{1: 3.14,
 23: 'tt',
 'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 'L': [1, 2, 3]}

Gibt man einen Key an, der im Wörterbuch nicht existiert, erhält man eine Fehlermeldung.

In [6]:
d[0]

KeyError: 0

### Arbeiten  mit Dictionaries

Die Länge eines Dictionaries, also die Anzahl der Einträge, bekommt man wieder mit der Funktion `len`:

In [7]:
len(d)

6

Die Keys bekommt man mit der Methode `keys`, die Values mit der Methode `values`:

In [8]:
d.keys()

dict_keys([1, 23, 'Haus', 'Schlange', 'Katze', 'L'])

In [9]:
d.values()

dict_values([3.14, 'tt', 'house', 'snake', 'cat', [1, 2, 3]])

Beides, also Keys und Values, bekommt man mit der Methode `items`.

In [10]:
d.items()

dict_items([(1, 3.14), (23, 'tt'), ('Haus', 'house'), ('Schlange', 'snake'), ('Katze', 'cat'), ('L', [1, 2, 3])])

Ob ein Wert als Key vorkommt, kann man mit `in` überprüfen:

In [11]:
"Katze" in d

True

In [12]:
"cat" in d

False

Wenn man wissen möchte, ob ein Wert als Value vorkommt, verwendet man die `values`-Methode:

In [13]:
"cat" in d.values()

True

Selbstverständlich kann man über ein Dictionary auch iterieren - in diesem Fall wird über alle Keys iteriert.

In [14]:
for k in d:
    print(k)

1
23
Haus
Schlange
Katze
L


Auf die entsprechenden Values greift man dann einfach durch Indizieren zu:

In [15]:
for k in d:
    print(k, ":", d[k])

1 : 3.14
23 : tt
Haus : house
Schlange : snake
Katze : cat
L : [1, 2, 3]


Eleganter funktioniert das mit der Methode `items`. Diese erzeugt eine Liste von Tupeln, welche die Key/Value-Paare enthalten:

In [16]:
d.items()

dict_items([(1, 3.14), (23, 'tt'), ('Haus', 'house'), ('Schlange', 'snake'), ('Katze', 'cat'), ('L', [1, 2, 3])])

Damit kann man in einer Schleife sowohl auf die Keys als auch auf die Values zugreifen.

In [17]:
for k, v in d.items():
    print(k, ":", v)

1 : 3.14
23 : tt
Haus : house
Schlange : snake
Katze : cat
L : [1, 2, 3]


Möchte man wie oben gezeigt den Fehler vermeiden, wenn man einen nicht existierenden Key verwendet, so kann man stattdessen die Methode `get` verwenden. Diese Methode hat zwei Argumente: das erste Argument ist der Key, und das zweite Argument ist ein Standardwert, der zurückgegeben wird falls der angegebene Key im Dictionary nicht existiert:

In [18]:
d["psy"]  # Fehler, Key "psy" existiert nicht

KeyError: 'psy'

In [19]:
d.get("psy", 0)  # Key "psy" exisitiert nicht, also wird 0 zurückgegeben

0

In [20]:
d.get("Schlange", "Tier")

'snake'

In [21]:
d.get("snake", "Schlange")

'Schlange'

Zu beachten ist, dass in den Fällen, wo Standardwerte zurückgegeben werden, diese Einträge nicht automatisch im Dictionary erzeugt werden:

In [22]:
d

{1: 3.14,
 23: 'tt',
 'Haus': 'house',
 'Schlange': 'snake',
 'Katze': 'cat',
 'L': [1, 2, 3]}

Möchte man diese neuen Einträge gleich dem Dictionary hinzufügen, verwendet man die Methode `setdefault`:

In [23]:
d.setdefault("X", 42)

42

In [24]:
d

{1: 3.14,
 23: 'tt',
 'Haus': 'house',
 'Schlange': 'snake',
 'X': 42,
 'Katze': 'cat',
 'L': [1, 2, 3]}

In [25]:
d.setdefault("X", 100)

42

In [26]:
d

{1: 3.14,
 23: 'tt',
 'Haus': 'house',
 'Schlange': 'snake',
 'X': 42,
 'Katze': 'cat',
 'L': [1, 2, 3]}

## Module und Packages
Wenn man in einer interaktiven Python-Sitzung (also z.B. in der IPython-Console in Spyder) programmiert, dann gehen alle Definitionen (Variablen, Funktionen) beim Beenden der Sitzung verloren. Daher ist es sinnvoll, Code in einem Script zu speichern (ein Script ist eine Textdatei mit der Endung `.py`, welche Python-Code enthält). Dieses Script kann man dann beliebig oft ausführen.

Wenn ein Programm umfangreicher wird, möchte man vielleicht Code auf unterschiedliche Dateien aufteilen. Es wäre dann sehr umständlich, eine benötigte Funktion in jeder Datei neu zu definieren. In Python kann man daher Code in sogenannte Module auslagern. Module sind ganz normale Textdateien mit der Endung `.py` (d.h. technisch gesehen gibt es keinen Unterschied zwischen Scripts und Modulen). Module enthalten normalerweise hauptsächlich Definitionen von Funktionen und Variablen. Diese Definitionen können dann einfach in andere Dateien (Scripts oder Module) mit dem Befehl `import` importiert werden.


### Beispiel
Als Beispiel definieren wir die Funktion `mean` in dem Modul `stuff.py`:

```
def mean(values):
    s = 0
    for v in values:
        s += v
    return s / len(values)
```

Wenn wir diese Funktion nun in einem Script verwenden wollen, können wir den gesamten Inhalt von `stuff.py` importieren:

In [27]:
import stuff

Nach diesem Import steht ein Objekt namens `stuff` zur Verfügung, mit dem man alle dort definierten Funktionen ansprechen kann:

In [28]:
stuff.mean([1, 2, 3, 4, 5, 6])

3.5

Wenn man gezielt spezifische Funktionen aus einem Modul importieren möchte, kann man dies so tun:

In [29]:
from stuff import mean

Dann ist diese importierte Funktion direkt verfügbar:

In [30]:
mean([1, 2, 3, 4, 5, 6])

3.5

Alternativ kann man gezielt ein Modul oder eine Funktion unter einem anderen Namen importieren:

In [31]:
import stuff as st  # Modul ist als st bekannt

In [32]:
st.mean([1, 2, 3, 4, 5, 6])

3.5

In [33]:
from stuff import mean as m  # Funktion mean aus stuff ist als m bekannt

In [34]:
m([10, 11, 12, 13])

11.5

### Eigenschaften
Mit diesem Mechanismus kann man Python um zusätzliche Funktionalität erweitern. Dies ist eines der mächtigsten Konzepte von Python, da es eine sehr große Anzahl an Modulen bzw. Paketen (eine Sammlung von Modulen) gibt.

Um zu sehen, was alles in einem Modul definiert ist, kann man die Funktion `dir` verwenden:

In [35]:
dir(stuff)

['__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'mean']

Namen, die mit zwei Unterstrichen `__` beginnen und enden sind für den internen Gebrauch gedacht, d.h. normalerweise verwendet man solche Namen nicht. Im Beispiel des Moduls `stuff` sieht man, dass nur ein Name zur Verwendung gedacht ist, nämlich `mean`.

Innerhalb eines Moduls ist dessen Name in der Variable `__name__` zugänglich (dieser Name entspricht dem Dateinamen).

In [36]:
stuff.__name__

'stuff'

Ein Modul kann auch ganz normal als Script ausgeführt werden (d.h. nicht mit `import` importiert werden). Der Wert von `__name__` ist dann allerdings `__main__`. Dies kann man benutzen, um bestimmten Code nur auszuführen, wenn das Modul als Script ausgeführt wird, nicht aber, wenn es normal als Modul importiert wird. D.h. im Modul könnte sich folgender Code befinden:

```
if __name__ == "__main__":
    print("This code does not run when you import the module.")
    print("You will only see these lines if you run it as a script.")
```

Praktisch ist dieses Verhalten, wenn man Code zum Testen eines Moduls integrieren will. Diese Tests werden dann bei normaler Verwendung mit `import` ignoriert, aber wenn man das Modul direkt ausführt, werden diese Tests ausgeführt.

Ein Modul wird aus Effizienzgründen nur ein einziges Mal importiert - jeder erneute `import`-Befehl hat deswegen keine Auswirkung! Dies bedeutet, dass man ein geändertes Modul nur durch einen Neustart des Python-Interpreters importieren kann. Alternativ kann man auch, wenn es sich um ein einzelnes Modul handelt welches man gerade testen möchte, die Funktion `reload` aus dem Modul `importlib` verwenden (im folgenden Beispiel wird das Modul `stuff` erneut importiert):

```
import importlib
importlib.reload(stuff)
```

Ohne Argumente listet die Funktion `dir` alle Namen (also Variablen, Module, Funktionen, usw.), die im Moment definiert sind, auf:

In [37]:
dir()

['In',
 'Out',
 '_',
 '_10',
 '_11',
 '_12',
 '_13',
 '_16',
 '_19',
 '_2',
 '_20',
 '_21',
 '_22',
 '_23',
 '_24',
 '_25',
 '_26',
 '_28',
 '_3',
 '_30',
 '_32',
 '_34',
 '_35',
 '_36',
 '_4',
 '_5',
 '_7',
 '_8',
 '_9',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i10',
 '_i11',
 '_i12',
 '_i13',
 '_i14',
 '_i15',
 '_i16',
 '_i17',
 '_i18',
 '_i19',
 '_i2',
 '_i20',
 '_i21',
 '_i22',
 '_i23',
 '_i24',
 '_i25',
 '_i26',
 '_i27',
 '_i28',
 '_i29',
 '_i3',
 '_i30',
 '_i31',
 '_i32',
 '_i33',
 '_i34',
 '_i35',
 '_i36',
 '_i37',
 '_i4',
 '_i5',
 '_i6',
 '_i7',
 '_i8',
 '_i9',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 '_sh',
 'd',
 'exit',
 'get_ipython',
 'k',
 'm',
 'mean',
 'quit',
 'st',
 'stuff',
 'v']

Wie man sieht, gibt es auch eine Menge an internen Namen, die mit einem Unterstrich beginnen. Gemeinsam mit Namen, die mit zwei Unterstrichen beginnen (und manchmal auch enden) bilden diese Namen "private" interne Variablen, die man normalerweise nicht direkt benötigt. Die Builtins werden mit `dir()` aufgrund einer besseren Übersichtlichkeit nicht aufgelistet, diese erhält man wie wir bereits wissen mit dem Befehl `dir(__builtins__)`.

### Standardmodule
Python kommt mit einer großen Anzahl an Standardmodulen. Dies wird als Standard Library bezeichnet und ist Teil jeder Python-Distribution. Neben Modulen enthält die Standard Library auch eingebaute (built-in) Funktionen, Typen und Konstanten. Eine Liste aller Module in der Standard Library gibt es in der [offiziellen Dokumentation](https://docs.python.org/3/library/index.html).

Beispielsweise gibt es seit Python 3.4 ein `statistics`-Modul, welches unsere oben definierte Funktion `mean` bereits mitbringt.

In [38]:
import statistics

statistics.mean([1, 2, 3, 4, 5, 6])

3.5

Das Modul `random` beinhaltet einige Funktionen zur Generierung von Zufallszahlen.

In [39]:
import random

a = random.randint(0, 10)  # Zufallszahl
a

0

In [40]:
x = ["Das", "ist", "eine", "Liste", "mit", "ein", "paar", "Elementen"]
random.choice(x)  # Element zufällig auswählen

'Das'

In [41]:
random.shuffle(x)  # Liste mischen
x

['eine', 'paar', 'ist', 'ein', 'Das', 'Elementen', 'mit', 'Liste']

In [42]:
random.normalvariate(10, 4)  # Sample aus einer Normalverteilung

13.026505294329253

Das Modul `math` definiert gebräuchliche mathematische Funktionen und Konstanten.

In [43]:
import math

math.pi  # Pi

3.141592653589793

In [44]:
math.e  # Eulersche Zahl

2.718281828459045

In [45]:
math.sqrt(16)  # Wurzel

4.0

### Packages


Eine Ansammlung von Modulen kann in ein Package verpackt werden. Ein Package besteht im Prinzip aus einzelnen Modulen, die in Unterverzeichnissen organisiert sind. Am besten kann dies durch ein Beispiel veranschaulicht werden. Sehen wir uns ein (fiktives) Package namens `sound` an, welches folgende Datei- und Verzeichnisstruktur aufweist:

    sound/                          Top-level package
          __init__.py               Initialize the sound package
          formats/                  Subpackage for file format conversions
                  __init__.py
                  wavread.py
                  wavwrite.py
                  aiffread.py
                  aiffwrite.py
                  auread.py
                  auwrite.py
                  ...
          effects/                  Subpackage for sound effects
                  __init__.py
                  echo.py
                  surround.py
                  reverse.py
                  ...
          filters/                  Subpackage for filters
                  __init__.py
                  equalizer.py
                  vocoder.py
                  karaoke.py
                  ...

Damit Python weiß, dass es sich bei einem Verzeichnis um ein Package handelt, muss die Datei `__init__.py` in diesem Verzeichnis vorhanden sein (diese Datei ist im einfachsten Fall einfach leer).

Individuelle Module aus dem Package können nun wie folgt importiert werden:

```
import sound.effects.echo
```

Eine Funktion aus diesem Modul kann man nun verwenden, indem man den gesamten Namen angibt, also z.B.

```
sound.effects.echo.echofilter(input, output, delay=0.7, atten=4)
```

Alternativ kann das Modul so importiert werden:

```
from sound.effects import echo
```

Dies ermöglicht es, auf eine Funktion zuzugreifen, ohne den kompletten Namen anzugeben:

```
echo.echofilter(input, output, delay=0.7, atten=4)
```

Schließlich kann man auch die gewünschte Funktion direkt aus dem Modul importieren:

```
from sound.effects.echo import echofilter
```

Die Funktion kann dann direkt verwendet werden:

```
echofilter(input, output, delay=0.7, atten=4)
```

Eine weitere Möglichkeit besteht darin, dass man einzelne importierte Funktionen umbenennt (z.B. um lange Funktionsnamen abzukürzen):

```
from sound.effects.echo import echofilter as ef
```

Nun ist also die Funktion `echofilter` mit `ef` ansprechbar und wird so verwendet:

```
ef(input, output, delay=0.7, atten=4)
```

Für viele Module/Packages haben sich Abkürzungen etabliert:

```
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt
```

### Wichtige Packages im wissenschaftlichen Bereich
Python eignet sich hervorragend für wissenschaftliches Arbeiten (z.B. Datenanalyse, statistische Auswertungen, grafische Darstellungen). Folgende Packages haben sich dafür als praktisch herausgestellt (diese Packages werden oft unter dem Begriff [SciPy-Stack](http://www.scipy.org/about.html) zusammengefasst):

* [NumPy](http://www.numpy.org/) bietet einen hochoptimierten Datentyp für numerische Berechnungen
* [SciPy](http://www.scipy.org/scipylib/index.html) enthält Algorithmen aus verschiedenen wissenschaftlichen Disziplinen
* [Pandas](http://pandas.pydata.org/) vereinfacht die Verarbeitung von tabellarischen Daten
* [Matplotlib](http://matplotlib.org/) erstellt verschiedenste Grafiken
* [IPython](http://ipython.org/) bzw. [Jupyter](http://jupyter.org/) ermöglichen komfortables interaktives Arbeiten mit Python