# Kapitel 3: Datenstrukturen und Funktionen in Python
McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. 2. Auflage. Sebastopol, CA [u. a.]: O’Reilly.

Überarbeitet: armin.baenziger@zhaw.ch, 2. Januar 2020

- Bevor wir Add-On-Bibliotheken für die Datenmanipulation besprechen (insb. NumPy und Pandas), werden Funktionalitäten behandelt, die in der Python-Sprache fest implementiert sind und im Kurs regelmässig verwendet werden. 
- Wir beginnen mit Pythons zentralen Datenstrukturen: Tupel, Listen, Dicts und Sets. 
- Danach werden wir eigene Funktionen schreiben, um den Funktionsumfang von Python zu erweiteren.
- *Den Abschnitt "3.3 Files and the Operating System" werden wir nicht besprechen, da wir im Kurs lediglich Pandas-Funktionen für das Lesen und Schreiben von Datendateien verwenden!*


- Einiges, was in diesem Kapitel thematisiert wird, haben wir bereits im 2. Kapitel kurz besprochen. 
- Das Kapitel ist somit eine (hoffentlich gute) Mischung aus Repetition und Erweiterung des Stoffs!

In [None]:
%autosave 0

## Datenstrukturen und Sequenzen
Pythons Datenstrukturen sind einfach, aber leistungsstark. Ihre Verwendung zu meistern ist wichtig.

### Tupel (tuple)
Tupel sind **nicht modifizierbare** (*immutable*) Sequenzen von Python-Objekten mit *fester Länge*. 

In [1]:
tup = (4, 5, 6)
tup

(4, 5, 6)

In [2]:
# es geht auch ohne Klammern:
tup = 4, 5, 6
tup

(4, 5, 6)

In [3]:
# Ein Tupel kann weitere Tupel (oder andere Sequenzen) enthalten:
nested_tup = (4, 5, (5.1, 5.2), 6)
nested_tup

(4, 5, (5.1, 5.2), 6)

Mit der Funktion `tuple` können Sequenzen/Iteratoren in Tupel konvertiert werden. 

In [5]:
liste = [4, 0, 2]
tuple(liste)

(4, 0, 2)

In [6]:
tuple(range(5))

(0, 1, 2, 3, 4)

In [12]:
tup = tuple('abcd')
tup

('a', 'b', 'c', 'd')

In [11]:
x = list(range(5))
x

[0, 1, 2, 3, 4]

Auf Elemente kann mit eckigen Klammern `[]` zugegriffen werden. Wie in vielen anderen Programmiersprachen (z. B. C, C++, Java) hat das erste Element in einer Sequenz den Index 0. (Beispielsweise in *Matlab* oder *R* hat das erste Element hingegen den Index 1.)

In [None]:
tup[0]

Tupel sind nicht modifizierbar.

In [None]:
tup[0] = 'A'

Tupel können mit `+` verknüpft (engl. concatenate) werden.

In [None]:
(1, 2, 'drei') + ('vier', 'fünf')

Multiplikation eines Tupel mit einer ganzen Zahl führt - wie bei Listen oder Zeichenketten auch -  dazu, dass das Tupel vervielfacht wird.

In [None]:
(1, 2) * 3       

#### Tupel entpacken (unpacking tuples)

In [None]:
tup = (4, 5, 6)
a, b, c = tup  # a ist nun gleich 4, b=5, c=6
a * b * c

Diese Funktionalität erlaubt es auch, Variablennamen sehr einfach zu tauschen. In anderen Sprachen würde man typischerweise wie folgt vorgehen:

In [None]:
a, b = 1, 2
# a und b sollen nun getauscht werden:
tmp = a
a = b
b = tmp
print('a ist nun', a, 'und b ist nun', b)

In Python kann man das einfacher coden:

In [None]:
a, b = b, a  # wieder zurück getauscht
print('a ist nun', a, 'und b ist nun', b)

Häufig wird das Entpacken in Iterationen über Sequenzen von Tupeln oder Listen gebraucht.

In [None]:
seq = [(6, 7), (1, 5), (3, 1)] # Liste mit drei Tupel 
for a, b in seq:
    print(b-a)

#### Tupel-Methoden
Da Tupel nicht modifizierbar sind, gibt es nur wenige Methoden auf Tupel. Sehr nützlich ist aber `count` (auch auf Listen anwendbar), welche zählt, wie oft ein bestimmter Wert in einem Tupel vorkommt.

In [13]:
a = (1, 2, 2, 3, 2)
a.count(2)

3

**Kontrollfragen:**

In [14]:
# Gegeben:
tup1 = ('Altdorf', 'Baden', 'Winterthur')
tup2 = ('a', ('b', 'c'), 'd')
print('tup1:', tup1)
print('tup2:', tup2)

tup1: ('Altdorf', 'Baden', 'Winterthur')
tup2: ('a', ('b', 'c'), 'd')


In [15]:
# Frage 1: Was ist der Output?
tup1[1]

'Baden'

In [16]:
# Frage 2: Was ist der Output?
tup2[1]

('b', 'c')

In [17]:
# Frage 3: Was könnte wohl nun der Output sein?
tup2[1][0]

'b'

In [18]:
# Frage 3: Was könnte wohl nun der Output sein?
tup1[2][0]

'W'

### Listen (list)
Listen sind im Gegensatz zu Tupel **modifizierbare** (*mutable*) Sequenzen von Python-Objekten mit *variabler Länge*. 

- Erzeugung einer Liste mit eckiger Klammer:

In [None]:
list_1 = [2, 3, 7, 6]
list_1

- Erzeugung einer Liste aus einem anderen Objekt mit der Funktion `list`:

In [None]:
tupel  = ('eins', 2, 'drei')
list_2 = list(tupel)
list_2

In [None]:
list_2[1] = 'zwei'  # Listen sind modifizierbar.
list_2

In [None]:
iterator = range(10)
iterator   
# nur ein "Platzhalter" für die ganzen Zahlen von 0 bis (aber ohne) 10

In [None]:
list(iterator)   # Nun haben wir eine Liste.

#### Elemente hinzufügen und entfernen
- Element können mit der Methode `append` am Ende der Liste hinzugefügt werden:

In [None]:
list_2.append('vier')
list_2

Mit `pop` können wir Elemente aus Listen entfernen. Per Default wird das letzte Element gelöscht.

In [None]:
list_2.pop()
list_2

Mit `in` kann überprüft werden, ob ein Wert in einer Liste vorkommt.

In [None]:
'fünf' in list_2

In [None]:
'fünf' not in list_2

Mit `+` können zwei Listen verkettet werden.

In [None]:
a = [0, 1]
b = [2, 3, 4]
c = a + b
c

#### Sortieren
Listen können mit der `sort`-Methode "in-place" (ohne ein neues Objekt zu kreieren) sortiert werden.

In [None]:
a = [7, 2, 5, 1]
a.sort()
a

Man kann `sort` einige Argumente übergeben. Beispiele:
- Absteigende Sortierung:

In [None]:
a.sort(reverse=True)
a

#### Slicing
Aus den meisten Sequenz-Typen kann man Ausschnitte durch die "Slice-Notation" auswählen. Die grundsätzliche Form lautet `Sequenz[start:stop]`, wobei das Element an der Stelle `stop` nicht mehr zählt.

In [None]:
seq = [7, 1, 0, 6, -1, 3]
seq[1:4]

Man kann Slices auch zuweisen:

In [None]:
seq[1:2] = [99, 999]  # Ein Wert wird durch zwei Werte ersetzt!
seq       # Man beachte: Die Liste enthält nun ein Element mehr.

Dies ist nicht identisch mit folgender Syntax, welche eine *verschachtelte* Liste erstellt:

In [None]:
seq[1] = [9999, 99999]
seq

Man kann `start` oder `stop` weglassen, womit dann entweder der Anfang oder das Ende der Sequenz verwendet werden.

In [None]:
seq = list('abcdefgh')  
seq

In [None]:
seq[:3]     

In [None]:
seq[3:] 

Negative Indizes slicen die Sequenz vom Ende her.

In [None]:
seq[-2:]

In [None]:
seq[-3:-1]

Nach einem zweiten Doppelpunkt kann ein `step` eingegeben werden, z. B. um jedes zweite Element zu nehmen.

In [None]:
seq[1:6:2]

In [None]:
seq[::2]

Mit folgendem Trick kann man die *Reihenfolge* einer Liste oder eines Tupels umdrehen:

In [None]:
seq[::-1]

**Kontrollfragen:**

In [None]:
# Gegeben:
liste = list('ABCDE')
liste

In [None]:
# Frage 1: Was ist der Output?
liste[-1]

In [None]:
# Frage 2: Was ist der Output?
liste[1:3]

In [None]:
# Frage 3: Wie kann der String 'F' der Liste hinzugefügt werden?


In [None]:
# Frage 4: Ersetzen Sie in "liste" den ersten Buchstaben durch "a":


In [None]:
# Frage 5: Was ist der Output?
liste[:2] = ['x', 'y']
liste

### Zwei Sequenz-Funktionen in Python

#### sorted
Die `sorted`-Funktion gibt eine neue sortierte Liste aus den Elementen einer beliebigen Sequenz zurück:

In [19]:
sorted([7, 1, 2, 6, 0, 3, 2])

[0, 1, 2, 2, 3, 6, 7]

In [20]:
sorted('Thomas Muster')

[' ', 'M', 'T', 'a', 'e', 'h', 'm', 'o', 'r', 's', 's', 't', 'u']

- Die `sorted`-**Funktion** akzeptiert dieselben Argumente wie die `sort`-**Methode** auf Listen.
- Die `sort`-Methode ist im Gegensatz zur `sorted`-Funktion "in-place" (Objekt wird permanent verändert):

In [None]:
a = [2, 1, 5]
print(sorted(a))
print(a)     # a ist unverändert geblieben

In [None]:
a.sort()
print(a)     # a ist permanent verändert (sortiert)

**Kontrollfragen:**

In [None]:
# Gegeben:
liste = [5, 6, -4]
liste

In [None]:
# Frage 1: Was ist der Output?
sorted(liste)

In [None]:
# Frage 2: Was ist der Output?
liste

In [None]:
# Frage 3: Was ist der Output?
liste.sort()
liste

#### reversed
- `reversed` iteriert über die Elemente einer Sequenz in umgekehrter Reihenfolge.
- `reversed` ist ein *Iterator*, so dass er nicht die umgekehrte Sequenz erzeugt, bis er materialisiert wird (z. B. mit `list` oder einer `for`-Schleife).

In [None]:
a = [2, 5, 1, 3]
reversed(a)          # Iterator ist angelegt.

In [None]:
list(reversed(a))   # Mit tuple() gäbe es ein Tupel.

### dict
- `dict` ist eine weitere wichtige Datenstruktur in Python. 
- Es handelt sich um eine flexible Kollektion von Schlüssel-Werte-Paaren. 
- `dict`-Objekte können mit geschweiften Klammern `{}` und Doppelpunkten, welche Schlüssel und Werte trennen, erstellt werden.

In [21]:
dict1 = {'a' : 'Anna', 'b' : 'Benno'}
dict1

{'a': 'Anna', 'b': 'Benno'}

In [22]:
dict1['a']  # Wert mit Schlüssel a auslesen.

'Anna'

In [23]:
# Werte (values) dürfen auch Listen (oder andere Sequenzen) sein:
dict1
dict1['c'] = ['Claude', 'Claudia']
dict1

{'a': 'Anna', 'b': 'Benno', 'c': ['Claude', 'Claudia']}

In [24]:
dict1['c']

['Claude', 'Claudia']

In [25]:
dict1['c'][0]

'Claude'

In [None]:
'b' in dict1    # Prüft, ob der Schlüssel b in d1 enthalten ist.

Löschen mit `del` oder `pop`:

In [27]:
dict2 = dict1.copy()  # Kopie von dict1 erstellen.

In [28]:
del dict2['b']
dict2

{'a': 'Anna', 'c': ['Claude', 'Claudia']}

Schlüssel und Werte können mit den Methoden `keys` und `values` ausgelesen werden. 

In [29]:
dict1.keys()           # Typ "dict_keys"

dict_keys(['a', 'b', 'c'])

In [30]:
list(dict1.keys())     # Keys als Liste

['a', 'b', 'c']

In [31]:
dict1.values()         # Typ "dict_values"

dict_values(['Anna', 'Benno', ['Claude', 'Claudia']])

In [32]:
list(dict1.values())   # Werte als Liste

['Anna', 'Benno', ['Claude', 'Claudia']]

**Kontrollfragen:**

In [33]:
# Gegeben:
Loehne = {'K1': 4500, 'K2': 5750, 'K3': 7000}
Loehne

{'K1': 4500, 'K2': 5750, 'K3': 7000}

In [34]:
# Frage 1: Was ist der Output?
Loehne['K2']

5750

In [35]:
# Frage 2: Was ist der Output?
list(Loehne.values())

[4500, 5750, 7000]

### set
- Ein `set` (Menge) ist eine ungeordnete Kollektion von *unterschiedlichen* Elementen. 
- Zwei Möglichkeiten, wie ein `set` erstellt werden kann:

In [36]:
# Möglichkeit 1:
{2, 2, 2, 1, 3, 3}   # Es gibt nur drei unterschiedliche Elemente!

{1, 2, 3}

In [37]:
# Möglichkeit 2:
tup = (2, 2, 2, 1, 3, 3)   # Liste ginge auch!
set(tup)

{1, 2, 3}

Mit `set()` lassen sich beispielsweise alle unterschiedlichen Elemente in einer Sequenz auflisten: 

In [38]:
waschmittel = ['Omo', 'Ariel', 'Omo', 'Dash', 'Ariel']
set(waschmittel)

{'Ariel', 'Dash', 'Omo'}

Oder es lässt sich die Anzahl unterschiedlicher Elemente ermitteln:

In [39]:
len(set(waschmittel))

3

### List-Comprehensions
- **List-Comprehension** ist ein geschätztes Feature von Python, mit dem eine neue Liste dadurch erstellt wird, dass man die Elemente einer bestehenden Kollektion durch einen Filter auswählt. 
- List-Comprehension erlaubt das mit einem Ausdruck der Form:
```python
[expr for val in collection if condition]
```
- Die Filter-Bedingung kann auch weggelasen werden.


- Beispiel 1: Konvertierung der Strings in einer Liste in *Grossbuchstaben*

In [40]:
Strings = ['Ein', 'kleiner', 'Versuch', 'in', 'Python', '.']

Vorbemerkung: Mit der Methode upper() wird ein String in Grossbuchstaben umgewandelt:

In [41]:
Strings[4].upper()

'PYTHON'

In [42]:
# Ganze Liste in Grossbuchstaben umwandeln
# Lösung mit for-Loop:
Resultat = []   # Leere Liste initialisieren

for string in Strings:
    Resultat.append(string.upper())
    
Resultat

['EIN', 'KLEINER', 'VERSUCH', 'IN', 'PYTHON', '.']

In [43]:
# Lösung mit List-Comprehension:
[string.upper() for string in Strings]

['EIN', 'KLEINER', 'VERSUCH', 'IN', 'PYTHON', '.']

- Beispiel 2: Auswahl von Strings mit Mindestlänge 3 und gleichzeitige Konvertierung in Grossbuchstaben

In [44]:
[string.upper() for string in Strings if len(string) >= 3]

['EIN', 'KLEINER', 'VERSUCH', 'PYTHON']

**Kontrollfragen:**

In [45]:
# Gegeben:
Orte = ['Basel', 'Winterthur', 'Zug', 'Zürich']
Orte

['Basel', 'Winterthur', 'Zug', 'Zürich']

In [46]:
# Frage 1: Was ist der Output?
[len(ort) for ort in Orte]

[5, 10, 3, 6]

In [47]:
# Frage 2: Was ist der Output?
[len(ort) for ort in Orte if ort[0]=='Z']

[3, 6]

In [50]:
# Frage 3: Erstellen Sie aus "Orte" eine Liste, welche je die ersten
# Buchstaben der Ortschaften enthält. Verwenden Sie hierzu eine List-
# Comprehension.
list(set([x[0] for x in Orte]))

['Z', 'B', 'W']

Es gibt auch Set- und Dict-Comprehensions, auf die wir aber nicht näher eingehen.

## Funktionen
Funktionen sind die primäre und wichtigste Methode, um Code in Python zu organsieren und wiederzuverwenden.
- Falls gleicher oder ähnlicher Code mehr als einmal gebraucht wird, kann es lohnenswert sein, eine (wiederverwendbare) Funktion zu schreiben.
- Funktionen machen den Code lesbarer, weil dadurch einer Gruppe von Python-Befehlen einen Namen gegeben wird.
- Funktionen werden mit dem Schlüsselwort `def` eingeleitet.

In [None]:
def celsius(fahrenheit):
    return (fahrenheit-32)*5/9

In [None]:
celsius(100)

Eine Funktion kann auch mehrere Argumente haben:

In [None]:
def Summe(x, y):
    return x+y

Summe(2,5)

Man kann einer Funktion auch Default-Werte übergeben:

In [None]:
def eine_Funktion(x, y, z=1):  # z=1, falls z nicht übergeben wird.
    return (x + y) * z

In [None]:
eine_Funktion(2, 3, 4)         # Argumentübergabe durch Position

In [None]:
eine_Funktion(4, 3, 2)        # Argumentübergabe durch Position

In [None]:
eine_Funktion(z=4, y=3, x=2)  # Argumentübergabe durch Namen
# So ist die Reihenfolge irrelevant.

In [None]:
eine_Funktion(2, 3)          # Jetzt gilt der Default z=1

Man kann Funktionen auch verschachteln:

In [None]:
Summe(Summe(1,2), Summe(3,4))

In [None]:
Summe(celsius(100), celsius(90))

Hinweis: Schlüsselwort-Argumente (hier `z = 1`) müssen Positions-Argumente (hier `x, y`) *folgen*, also am Ende stehen.

**Kontrollfragen:**

In [None]:
# Frage 1: Schreiben Sie die Funktion fahrenheit(), 
# welche Grad Celsius in Grad Fahrenheit umwandelt.


In [None]:
# Frage 2: Was muss der Ouput sein?
fahrenheit(celsius(30))

### Mehrere Funktionswerte zurückgeben
In Python können sehr einfach mehrere Werte durch eine Funktion zurückgegeben werden.

In [None]:
def nonsense():
    a = 5
    b = 6
    c = '7'
    return a, b, c

x, y, z = nonsense()
x + y + int(z) 

Eigentlich wird lediglich ein Tupel durch die Funktion zurückgegeben, welches dann entpackt wird. Hier die Verdeutlichung:

In [None]:
nonsense()

Es ist auch möglich ein `dict` zurückzugeben:

In [None]:
def add_mult(x1, x2):
    return { 'Summe': (x1 + x2), 'Produkt': (x1*x2) }

In [None]:
add_mult(2, 3)

### Funktionen sind Objekte
Da Python-Funktionen Objekte sind, können viele Konstrukte leicht ausgedrückt werden, die in anderen Sprachen schwierig sind:

In [None]:
x = [1, 1, 4, 5, 5, 9]
[min(x), max(x)]       # Liste mit Minimum und Maximum von x

## Dateien und Betriebssystem
Wir werden im Kurs lediglich Pandas-Funktionen für das Lesen und Schreiben von Datendateien verwenden und besprechen diesen Abschnitt im Lehrmittel somit nicht.

## Fazit
- Sie sind nun mit einigen wichtigen Grundlagen der Python-Sprache vertraut. 
- Im nächsten Kapitel werden wir die Bibliothek *NumPy* kennenlernen.
- Wir werden sehen, dass man in NumPy mathematische Funktionen auf ganze Arrays anwenden kann, ohne Schleifen schreiben zu müssen.