# Kapitel 5: Einführung in Pandas


McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. 2. Auflage. Sebastopol, CA [u. a.]: O’Reilly.

Überarbeitet: armin.baenziger@zhaw.ch, 10. März 2020

- **Pandas** wird im weiteren Verlauf des Kurses die zentrale Bibliothek sein. 
- Pandas enthält Datenstrukturen und Tools zur Datenbearbeitung, die in Python für eine schnelle und einfache Datenbereinigung und -analyse sorgen.  
- Pandas verwendet wesentliche Teile von NumPys idiomatischem array-based Computing, insbesondere Array-basierte Funktionen und eine *Präferenz für die Datenverarbeitung ohne `for`-Schleifen*. 
- Während Pandas viele Codierungs-Idiome von NumPy verwendet, ist der grösste Unterschied, dass Pandas für die Arbeit mit *tabellarischen* oder *heterogenen* Daten entwickelt wurde. 
- Seit dem Open-Source-Projekt im Jahr 2010 ist Pandas zu einer grossen Bibliothek gereift, die in einer Vielzahl von Anwendungsfällen in der Praxis anwendbar ist.
- Pandas leitet sich überigens aus dem Wort "panel data" ab (https://de.wikipedia.org/wiki/Paneldaten). 

In [1]:
%autosave 0

Autosave disabled


In [2]:
# Wichtige Bibliotheken mit üblichen Abkürzungen laden:
import numpy as np
import pandas as pd   # Usanz ist, pandas mit pd abzukürzen

## Einführung Pandas-Datenstrukturen
Die zwei wichtigsten Datenstrukturen in Pandas sind **Series** und **DataFrames**.

### Series
Eine *Series* setzt sich aus einem eindimensionalen *Werte-Array* und einem *Index* zusammen. Wenn man den Index nicht explizit bestimmt, ist dieser wie `range(n)`.

In [3]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Man kann Werte-Array und Index mit den Attributen `values` und `index` separat erhalten.

In [4]:
obj.values        # Werte-NumPy-Array der Series obj

array([ 4,  7, -5,  3], dtype=int64)

In [5]:
obj.index        #  Index der Series obj (Sequenz)

RangeIndex(start=0, stop=4, step=1)

In [6]:
list(obj.index)  # Mit der Funktion list() erhält man die explizite Liste

[0, 1, 2, 3]

Die Auswahl von Objekten in einer *Series* geschieht über den Index.

In [7]:
obj[0]

4

In [8]:
obj[2] 

-5

In [9]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [10]:
obj[1:3]    
# Slicing-Regel obj[Start:Stop] 
# Ab Start bis zum letzten Wert vor Stop

1    7
2   -5
dtype: int64

In [11]:
obj[:2]   # Erste zwei Werte.

0    4
1    7
dtype: int64

In [12]:
obj[2:]   # Ab Posisiton 2 (dritter Wert) bis Ende.

2   -5
3    3
dtype: int64

**Kontrollfrage:**

In [13]:
# Aufgabe: Slicen Sie die ersten drei Werte aus der Series `obj`.
obj[:3]

0    4
1    7
2   -5
dtype: int64

#### Labels
Oft möchte man die Werte einer *Series* mit einem *Label* identifizieren.

In [37]:
obj2 = pd.Series([4, 7, -5], index=['Anna', 'Berta', 'Claudia'])
obj2

Anna       4
Berta      7
Claudia   -5
dtype: int64

In [25]:
obj2['Berta']         # Wert, der zu "Berta" gehört.

7

In [45]:
obj2['Berta'] = 6    # Wert zuweisen
obj2

Anna       4
Berta      6
Claudia   -5
dtype: int64

In [30]:
# Mehrere Werte (in gewünschter Reihenfolge) ausgeben:
obj2[['Berta', 'Anna', 'Berta']]

Berta    6
Anna     4
Berta    6
dtype: object

In [32]:
obj2

Anna        4
Berta       6
Claudia    -5
dtype: object

In [31]:
# Welche Werte sind positiv?
obj2 > 0

Anna        True
Berta       True
Claudia    False
dtype: bool

In [None]:
# Positive Werte auswählen:
obj2[obj2 > 0]

In [33]:
# Alle Werte verdoppeln:
obj2 * 2    # Wie bei NumPy. Index-Link bleibt bestehen.

Anna         8
Berta       12
Claudia    -10
dtype: object

In [38]:
obj2

Anna       4
Berta      7
Claudia   -5
dtype: int64

In [39]:
# Man kann auch NumPy-Funktion auf Series anwenden:
np.exp(obj2)    # Exponentialfunktion aus NumPy-Bibliohek

Anna         54.598150
Berta      1096.633158
Claudia       0.006738
dtype: float64

In [40]:
'Anna' in obj2   # Prüfen, ob ein Index-Wert existiert.

True

In [41]:
'Anne' in obj2

False

**Kontrollfragen:**

In [46]:
# Gegeben:
obj2

Anna       4
Berta      6
Claudia   -5
dtype: int64

In [43]:
# Frage 1: Was ist der Output?
obj2['Claudia']

-5

In [44]:
# Frage 2: Was ist der Output?
np.abs(obj2['Claudia'])

5

In [47]:
obj2!=6

Anna        True
Berta      False
Claudia     True
dtype: bool

In [48]:
# Frage 3: Was ist der Output?
obj2[obj2!=6]

Anna       4
Claudia   -5
dtype: int64

Ein *Dict* kann man sehr einfach in eine *Series* umwandeln. 

In [49]:
flaeche_dict = {'GR': 7105, 'BE': 5959, 
                'VS': 5225, 'VD': 3212}
flaeche_dict

{'GR': 7105, 'BE': 5959, 'VS': 5225, 'VD': 3212}

In [50]:
flaeche = pd.Series(flaeche_dict)
flaeche    # Dict-Key wird zu Index

GR    7105
BE    5959
VS    5225
VD    3212
dtype: int64

In [51]:
# Eigene Anordnung von Index mit entsprechenden Werten, falls
# diese im Dict vorhanden sind (Fehlwert, wenn der Index nicht 
# im Dict ist):
flaeche2 = pd.Series(flaeche_dict, 
                     index=['BE', 'GR', 'TI', 'VD', 'ZH'])
flaeche2

BE    5959.0
GR    7105.0
TI       NaN
VD    3212.0
ZH       NaN
dtype: float64

- Falls vorhanden, werden die Werte den Indizes zugeordnet. Ansonsten gibt es Fehldaten (missing data), welche mit `NaN` gekennzeichnet sind. 
- Die Funktionen/Methoden `isnull` und `notnull` werden in Pandas verwendet, um Fehldaten aufzuspüren.

In [52]:
flaeche2.isnull()

BE    False
GR    False
TI     True
VD    False
ZH     True
dtype: bool

In [53]:
flaeche2.notnull()

BE     True
GR     True
TI    False
VD     True
ZH    False
dtype: bool

In [54]:
flaeche2

BE    5959.0
GR    7105.0
TI       NaN
VD    3212.0
ZH       NaN
dtype: float64

In [56]:
# Wie viele Fehlwerte gibt es in flaeche2?
flaeche2.isnull().sum()

2

In [57]:
flaeche2

BE    5959.0
GR    7105.0
TI       NaN
VD    3212.0
ZH       NaN
dtype: float64

**Kontrollfrage:**

In [58]:
# Frage: Was ist wohl der Output?
flaeche2[flaeche2.notnull()]

BE    5959.0
GR    7105.0
VD    3212.0
dtype: float64

Fehldaten werden in Kapitel 7 ausführlicher behandelt.

**Matching**

Eine sehr nützliche Eigenschaft von *Series* ist, dass bei arithmetischen Operationen ein Matching bezüglich dem Index geschieht. Beispiel:

In [59]:
# Erste Series für Beispiel:
bevoelkerung2017 = {'BE': 1031126, 'GR': 197888, 'TI':  353709,
                    'VD':  793129, 'VS': 341463, 'ZH': 1504346}
bevoelkerung2017 = pd.Series(bevoelkerung2017)
bevoelkerung2017

BE    1031126
GR     197888
TI     353709
VD     793129
VS     341463
ZH    1504346
dtype: int64

In [60]:
# Zweite Series für Beispiel:
bevoelkerung2018 = {'VD': 799145, 'BE': 1034977, 'VS': 343955,
                    'TI': 353343, 'ZH': 1520968, 'GR': 198379}
bevoelkerung2018 = pd.Series(bevoelkerung2018)
bevoelkerung2018

VD     799145
BE    1034977
VS     343955
TI     353343
ZH    1520968
GR     198379
dtype: int64

Beachten Sie, dass die *Reihenfolge* der Kantone in den zwei Series unterschiedlich ist!

In [61]:
delta = bevoelkerung2018 - bevoelkerung2017  
delta
# Werte mit gleichem Index werden verrechnet! Sehr gut!

BE     3851
GR      491
TI     -366
VD     6016
VS     2492
ZH    16622
dtype: int64

In [62]:
# Relative Veränderung:
delta / bevoelkerung2017

BE    0.003735
GR    0.002481
TI   -0.001035
VD    0.007585
VS    0.007298
ZH    0.011049
dtype: float64

Die ständige Wohnbevölkerung hat beispielsweise im Kanton Zürich um 1.1% zugenommen zwischen 2017 und 2018.

Der Series-Index kann verändert werden:

In [64]:
# Gegeben:
s = delta[:3].copy()
s.index = ['Bern', 'Graubünden', 'Tessin']
s

Bern          3851
Graubünden     491
Tessin        -366
dtype: int64

Wir werden "sicherere" Verfahren kennenlernen, den Index zu verändern!

### DataFrame
- Ein *DataFrame* ist eine Datentabelle, welche eine Sammlung von Spalten (Variablen) aufweist, bei der im Gegensatz zu einem Numpy-Array jede Spalte einen *unterschiedlichen Datentypen* aufweisen kann. Innerhalb einer Spalte ist der Datentyp aber homogen. 
- Das DataFrame hat sowohl einen *Zeilen-* als auch einen *Spaltenindex*. 
- Es gibt viele Möglichkeiten, ein DataFrame zu erstellen. Häufig verwendet man einen Dict von *gleichlangen* Listen oder NumPy-Arrays. Im Lehrmittel finden Sie eine komplette Liste mit möglichen Inputs für den DataFrame-Konstruktor.
- *Üblicherweise werden DataFrames aber aus importieren Daten erzeugt, wie wir noch sehen werden.*

In [65]:
daten = {'Stadt': ['Biel', 'Biel', 'Biel', 
                   'Thun', 'Thun', 'Thun'],
        'Jahr': [2016, 2017, 2018]*2,
        'ALQ': [5.1, 5.0, 3.9, 2.6, 2.6, 2.0]}
daten   # ein Dict

{'Stadt': ['Biel', 'Biel', 'Biel', 'Thun', 'Thun', 'Thun'],
 'Jahr': [2016, 2017, 2018, 2016, 2017, 2018],
 'ALQ': [5.1, 5.0, 3.9, 2.6, 2.6, 2.0]}

In [66]:
df = pd.DataFrame(daten)  # df ist unser erstes DataFrame
df

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


Ein DataFrame kann mit einer Excel-Tabelle verglichen werden.

In [67]:
df.head()   # Anzeige der ersten 5 Zeilen (Default).
# Hier nicht sehr nützlich, da der Datensatz nur 6 Zeilen enthält.

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6


In [68]:
df.head(3)  # Anzeige der ersten 3 Zeilen.

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9


In [69]:
df[:3]      # So ginge es auch.

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9


In [70]:
df.tail()   # Anzeige der letzten 5 Zeilen (Default).

Unnamed: 0,Stadt,Jahr,ALQ
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


In [71]:
df[-5:]     # So ginge es auch.

Unnamed: 0,Stadt,Jahr,ALQ
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


**Wichtig:** Wie wählen wir Spalten (Variablen) aus?

In [72]:
df['Stadt']   # Ausgabe einer Spalte mit der "Dict-Notation"

0    Biel
1    Biel
2    Biel
3    Thun
4    Thun
5    Thun
Name: Stadt, dtype: object

In [73]:
df.Stadt # Ausgabe einer Spalte durch Attribut (Tab-Ergänzung möglich!)
# Manchmal praktisch, aber mit eingeschränkter Funktionalität (siehe
# weiter unten).

0    Biel
1    Biel
2    Biel
3    Thun
4    Thun
5    Thun
Name: Stadt, dtype: object

**Kontrollfragen:**

In [74]:
# Gegeben:
df

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


In [75]:
# Aufgabe 1: Wählen Sie die ALQ aus df aus.
df['ALQ']

0    5.1
1    5.0
2    3.9
3    2.6
4    2.6
5    2.0
Name: ALQ, dtype: float64

In [76]:
df.ALQ

0    5.1
1    5.0
2    3.9
3    2.6
4    2.6
5    2.0
Name: ALQ, dtype: float64

In [78]:
df

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


In [79]:
# Aufgabe 2: Was ist der Output?
df.tail(1)

Unnamed: 0,Stadt,Jahr,ALQ
5,Thun,2018,2.0


Das Attribut `columns` liefert die Spaltenüberschriften im DataFrame:

In [80]:
df.columns

Index(['Stadt', 'Jahr', 'ALQ'], dtype='object')

Die Spaltenüberschriften können nachträglich verändert werden.

In [81]:
# Spaltennamen (Variablennamen) ändern: Möglichkeit 1
df.columns = ['Stadt', 'Jahr', 'Arbeitslosenquote']
df

Unnamed: 0,Stadt,Jahr,Arbeitslosenquote
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


In [86]:
# Spaltennamen (Variablennamen) ändern: Möglichkeit 2
df.rename(columns = {'Arbeitslosenquote': 'ALQ'}, inplace=True)  
# mit inplace=True sind die Änderungen permament
df

Unnamed: 0,Stadt,Jahr,ALQ
0,Biel,2016,5.1
1,Biel,2017,5.0
2,Biel,2018,3.9
3,Thun,2016,2.6
4,Thun,2017,2.6
5,Thun,2018,2.0


Die zweite Möglichkeit ist der ersten vorzuziehen. Warum?

In [87]:
# Zeilenindex ändern:
df.index = df.Jahr
df

Unnamed: 0_level_0,Stadt,Jahr,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,Biel,2016,5.1
2017,Biel,2017,5.0
2018,Biel,2018,3.9
2016,Thun,2016,2.6
2017,Thun,2017,2.6
2018,Thun,2018,2.0


Die Variable `Jahr` ist nun redundant und kann gelöscht werden. (Wir werden später eine elegantere Möglichkeit kennenlernen, einen Index zu setzen.)

In [90]:
del df['Jahr']    # Löschen der Spalte Jahr. 
# del df.Jahr ginge übrigens nicht!

In [91]:
df

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2017,Biel,5.0
2018,Biel,3.9
2016,Thun,2.6
2017,Thun,2.6
2018,Thun,2.0


- Das Jahr ist nun keine Spalte (Variable) mehr und wird mit `df.index` angesprochen.
- Wir werden später eine bessere Möglichkeit kennenlernen, Spalten (und Zeilen) zu löschen.    

Zeilen können mit `loc` über den Index*label* und mit `iloc` über die Index*position* angesprochen werden. Beispiele:

In [92]:
df.loc[2016]          # Auswahl über ZeilenLABEL

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6


In [93]:
# Mehrere Labels können als Liste übergeben werden:
df.loc[[2016, 2018]]

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6
2018,Biel,3.9
2018,Thun,2.0


In [94]:
df.iloc[0]            # Auswahl über ZeilenPOSITION

Stadt    Biel
ALQ       5.1
Name: 2016, dtype: object

In [95]:
df.iloc[[0, 3]]

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6


**Kontrollfragen:**

In [96]:
# Gegeben:
df

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2017,Biel,5.0
2018,Biel,3.9
2016,Thun,2.6
2017,Thun,2.6
2018,Thun,2.0


In [97]:
# Frage 1: Was ist der Output?
df.loc[2018]

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2018,Biel,3.9
2018,Thun,2.0


In [98]:
# Frage 2: Was ist der Output?
df.iloc[[2, 5]]

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2018,Biel,3.9
2018,Thun,2.0


In [99]:
df

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2017,Biel,5.0
2018,Biel,3.9
2016,Thun,2.6
2017,Thun,2.6
2018,Thun,2.0


In [100]:
# Frage 3: Was ist wohl der Output?
df.loc[2018, 'ALQ']

Jahr
2018    3.9
2018    2.0
Name: ALQ, dtype: float64

**Spalten/Variblen hinzufügen:**

In [101]:
# Ausgangslage:
df

Unnamed: 0_level_0,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2017,Biel,5.0
2018,Biel,3.9
2016,Thun,2.6
2017,Thun,2.6
2018,Thun,2.0


In [102]:
df['Bevoelkerung'] = [54456, 54640, None, 43568, 43743, None] 
# Länge muss konform sein (korrekte Länge haben)
df

Unnamed: 0_level_0,Stadt,ALQ,Bevoelkerung
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,Biel,5.1,54456.0
2017,Biel,5.0,54640.0
2018,Biel,3.9,
2016,Thun,2.6,43568.0
2017,Thun,2.6,43743.0
2018,Thun,2.0,


In [104]:
frame = pd.DataFrame()
frame['x'] = [1, 3, 3]
frame['y'] = list('ABC')
frame

Unnamed: 0,x,y
0,1,A
1,3,B
2,3,C


In [105]:
# Generierung einer Variablen aus einer anderen:
df['ALQhoch'] = df.ALQ >= 5
df

Unnamed: 0_level_0,Stadt,ALQ,Bevoelkerung,ALQhoch
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,Biel,5.1,54456.0,True
2017,Biel,5.0,54640.0,True
2018,Biel,3.9,,False
2016,Thun,2.6,43568.0,False
2017,Thun,2.6,43743.0,False
2018,Thun,2.0,,False


Beachten Sie, dass für die Erstellung einer neuen Spalte/Variable auf der rechten Seite die Dict-Notation stehen muss (`df.ALQhoch = df.ALQ >= 5` hätte nicht funktioniert).

**Kontrollfrage:**

In [106]:
# Aufgabe: Generieren Sie die Variable ALQtief, welche True
# ist, falls die ALQ höchstens 3 Prozent ist.
df['ALQtief'] = df.ALQ <=3
df

Unnamed: 0_level_0,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


***Exkurs***: Es ist auch möglich, dem Index und den Spalten eine Überschrift zu geben:

In [107]:
df.index.name = 'Jahr'        # existiert hier so schon
df.columns.name = 'Variablen'
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


### Achsen (Zeilen oder Spalten) löschen: `drop`-Methode
#### Series

In [113]:
serie = flaeche.copy()   # Kopie erstellen
serie

GR    7105
BE    5959
VS    5225
VD    3212
dtype: int64

In [114]:
serie.drop('BE')

GR    7105
VS    5225
VD    3212
dtype: int64

In [115]:
serie       # BE wurde nicht permanent gelöscht!

GR    7105
BE    5959
VS    5225
VD    3212
dtype: int64

In [116]:
serie.drop('BE', inplace=True) # Jetzt ist BE permanent gelöscht!
serie    

GR    7105
VS    5225
VD    3212
dtype: int64

In [117]:
serie.drop(['GR', 'VD']) # mehrere Einträge löschen

VS    5225
dtype: int64

In [118]:
serie

GR    7105
VS    5225
VD    3212
dtype: int64

#### DataFrame

In [119]:
# Ausgangslage
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [120]:
df.drop(2017) # Zeilen löschen (mit inplace=True permanent)

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2018,Thun,2.0,,False,True


In [121]:
df.drop('Bevoelkerung', axis=1)

Variablen,Stadt,ALQ,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,Biel,5.1,True,False
2017,Biel,5.0,True,False
2018,Biel,3.9,False,False
2016,Thun,2.6,False,True
2017,Thun,2.6,False,True
2018,Thun,2.0,False,True


Mit `axis=0` (Default) sind Zeilen gemeint und mit `axis=1` Spalten. Alternativ kann man statt `axis=1` auch `axis='columns'` verwenden.

In [122]:
df.drop(['ALQtief'], axis='columns') # Alternative zu axis=1

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016,Biel,5.1,54456.0,True
2017,Biel,5.0,54640.0,True
2018,Biel,3.9,,False
2016,Thun,2.6,43568.0,False
2017,Thun,2.6,43743.0,False
2018,Thun,2.0,,False


Alternativ kann man eine Spalte mit `del` (permanent) löschen. Wie wir weiter oben gesehen haben.

**Kontrollfragen:**

In [125]:
# Aufgabe 1: Fügen Sie df die Spalte "i" mit den Werten 
# 1 bis 6 hinzu.
df['i'] = range(1, 7) 
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief,i
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016,Biel,5.1,54456.0,True,False,1
2017,Biel,5.0,54640.0,True,False,2
2018,Biel,3.9,,False,False,3
2016,Thun,2.6,43568.0,False,True,4
2017,Thun,2.6,43743.0,False,True,5
2018,Thun,2.0,,False,True,6


In [126]:
df.loc[2016, 'i'] = 1.1 

In [127]:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief,i
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016,Biel,5.1,54456.0,True,False,1.1
2017,Biel,5.0,54640.0,True,False,2.0
2018,Biel,3.9,,False,False,3.0
2016,Thun,2.6,43568.0,False,True,1.1
2017,Thun,2.6,43743.0,False,True,5.0
2018,Thun,2.0,,False,True,6.0


In [131]:
# Aufgabe 2: Löschen Sie die Variable "i" wieder mit der 
# `drop`-Methode permanent.
df.drop('i', axis=1, inplace=True)

In [132]:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


### (Nochmals) Indexierung, Selektion und Filtering
#### Series

In [133]:
flaeche       # gegeben

GR    7105
BE    5959
VS    5225
VD    3212
dtype: int64

In [134]:
flaeche[1:3]  # slicen

BE    5959
VS    5225
dtype: int64

##### *Slicing* mit Labels funktioniert anders als das übliche Python-Slicing: *Endpunkte sind inklusiv*.

In [135]:
flaeche['BE':'VS']

BE    5959
VS    5225
dtype: int64

#### DataFrames

In [136]:
df  # gegeben

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [137]:
df[:2]    # Erste zwei Zeilen wählen.

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False


In [139]:
df.Stadt=='Thun'

Jahr
2016    False
2017    False
2018    False
2016     True
2017     True
2018     True
Name: Stadt, dtype: bool

In [140]:
df[df.Stadt=='Thun']  # Nur Daten von Thun selektieren

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


Beachten Sie, dass in der eckigen Klammer nochmals angegeben werden muss, aus welchem Dataframe die Variable "Stadt" stammt. 

**Exkurs**: Alternativ könnte man die Methode `query` verwenden.

In [None]:
df.query("Stadt=='Thun'")

#### Selektion mit loc und iloc
Für die Selektion von Zeilen und Spalten aus DataFrames stehen in Pandas die zwei Methoden `loc` (Achsenlabels) und `iloc` (Position in Achse) zur Verfügung.

In [141]:
# Ausgangslage:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [142]:
df.loc[2016]   # wie zuvor gesehen

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2016,Thun,2.6,43568.0,False,True


In [143]:
# Auswahl von Zeilen und Spalten über Label:
df.loc[2016, 'ALQ']

Jahr
2016    5.1
2016    2.6
Name: ALQ, dtype: float64

In [144]:
df.loc[2016, ['Stadt', 'ALQ']]

Variablen,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6


In [145]:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [146]:
# Lösung über Positionen in den Indizes:
df.iloc[[0,3], [0,1]]

Variablen,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6


In [147]:
df.iloc[2]      # Ergebnis ist eine Series

Variablen
Stadt            Biel
ALQ               3.9
Bevoelkerung      NaN
ALQhoch         False
ALQtief         False
Name: 2018, dtype: object

In [148]:
df.iloc[[2]]   # Ergebnis ist ein DataFrame

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018,Biel,3.9,,False,False


**`loc` und `iloc` funktionieren auch mit Slices:**

In [150]:
df  # zur Erinnerung

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [151]:
df.iloc[3:, :2] 
# df ab Zeilenposition 3 und Spalten bis unter Position 2.

Variablen,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Thun,2.6
2017,Thun,2.6
2018,Thun,2.0


**Kontrollfragen:**

In [152]:
# Gegeben:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [153]:
# Frage 1: Was ist der Output?
df.loc[2016, 'Stadt':'ALQ']

Variablen,Stadt,ALQ
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1
2016,Biel,5.1
2016,Thun,2.6


In [154]:
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
Jahr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,Biel,5.1,54456.0,True,False
2017,Biel,5.0,54640.0,True,False
2018,Biel,3.9,,False,False
2016,Thun,2.6,43568.0,False,True
2017,Thun,2.6,43743.0,False,True
2018,Thun,2.0,,False,True


In [155]:
# Frage 2: Was ist der Output?
df.iloc[2, -2:]

Variablen
ALQhoch    False
ALQtief    False
Name: 2018, dtype: object

### Funktionen auf Spalten, Zeilen oder alle Elemente anwenden
NumPy ufuncs (element-wise array methods) funktionieren auch mit Pandas-Objekten. 

In [156]:
# Beispieldaten:
df2 = pd.DataFrame({'X': [-4, 3, 0],
                    'Y': [2, -1, 5]}, 
                    index=list('abc'))
df2

Unnamed: 0,X,Y
a,-4,2
b,3,-1
c,0,5


In [157]:
df2.max(axis=0) # Maximum pro Spalte (entlang Zeilen)

X    3
Y    5
dtype: int64

In [158]:
df2.max()       # axis=0 ist der Default, es geht also ohne!

X    3
Y    5
dtype: int64

In [159]:
# Exkurs:
df2.max(axis=1) # Maximum pro Zeile (entlang Spalten)

a    2
b    3
c    5
dtype: int64

In [160]:
df2

Unnamed: 0,X,Y
a,-4,2
b,3,-1
c,0,5


In [161]:
df2.mean()     # Arithmetisches Mittel pro Spalte

X   -0.333333
Y    2.000000
dtype: float64

In [163]:
df2.sum().sum()

5

In [164]:
df2.std()     # Standardabweichung pro Spalte

X    3.511885
Y    3.000000
dtype: float64

Es ist auch möglich, NumPy-Funktionen auf Spalten anzuwenden:

In [165]:
np.abs(df2)   # Absolutwerte/Beträge

Unnamed: 0,X,Y
a,4,2
b,3,1
c,0,5


**Kontrollfragen:**

In [166]:
# Gegeben:
df2

Unnamed: 0,X,Y
a,-4,2
b,3,-1
c,0,5


In [167]:
# Frage 1: Was ist der Output?
df2.median()

X    0.0
Y    2.0
dtype: float64

In [168]:
# Frage 2: Was ist der Output?
df2['Y'].sum()

6

In [174]:
df.index = [1, 2, 3, 4, 5, 6]
df

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
1,Biel,5.1,54456.0,True,False
2,Biel,5.0,54640.0,True,False
3,Biel,3.9,,False,False
4,Thun,2.6,43568.0,False,True
5,Thun,2.6,43743.0,False,True
6,Thun,2.0,,False,True


In [175]:
df.rename(index={3: 1999})

Variablen,Stadt,ALQ,Bevoelkerung,ALQhoch,ALQtief
1,Biel,5.1,54456.0,True,False
2,Biel,5.0,54640.0,True,False
1999,Biel,3.9,,False,False
4,Thun,2.6,43568.0,False,True
5,Thun,2.6,43743.0,False,True
6,Thun,2.0,,False,True


#### Mit der Methode `apply` kann man eine (eigene) *Funktion* auf jede Spalte (oder Zeile) anwenden.

In [None]:
# Definition einer eigenen Funktion:
def spannweite(x): 
    return x.max() - x.min()

In [None]:
# Mit apply eigene Funktion auf DataFrame-Spalten anwenden:
df2.apply(spannweite) 

**Kontrollfragen:**

In [None]:
# Aufgabe 1: Schreiben Sie die Funktion schiefemass(werte), 
# welche die Differenz  mean(werte) - median(werte)  zurückgibt. 


In [None]:
# Aufgabe 2: Wenden Sie die eben definierte Funktion schiefemass()
# auf die Spalten von df2 an.


### Sortieren
Indizes werden mit der Methode `sort_index` sortiert.

In [None]:
flaeche   # Beispiel einer Series

In [None]:
flaeche.sort_index()    # permanent mit inplace=True

In [None]:
# Beispiel eines DataFrame:
df.sort_index()   # Zeilenindex sortieren (Default)

In [None]:
df.sort_index(axis=1)  # Spaltenüberschriften sortieren

In [None]:
df.sort_index(ascending=False)  # Index absteigend sortieren

**Werte** werden mit **`sort_values`** sortiert.

Bei Series:

In [None]:
flaeche.sort_values()

Bei DataFrames:

In [None]:
# DataFrame nach Werten der Spalte "Bevoelkerung" sortieren:
df.sort_values(by='Bevoelkerung') 
# Fehlwerte (NaN) werden ans Ende sortiert.

In [None]:
# Zuerst nach Spalte "Stadt", dann "ALQ" sortieren
df.sort_values(by=['Stadt', 'ALQ'])

**Kontrollfrage:**

In [None]:
# Gegeben:
df2

In [None]:
# Aufgabe: Sortieren Sie das DataFrame df2 nach der Variable Y.


## Daten zusammenfassen / deskriptive Statistiken
Pandas-Objekte sind mit vielen **mathematischen und statistischen Methoden** versehen. Die meisten davon sind sogenannte "Reductions" bzw. zusammenfassende Statistiken, welche aus einer Series oder Spalte/Zeile eines DataFrame einen einzigen Wert extrahieren. Wir haben bereits einige davon oben gesehen, z. B. `sum()` oder `max()`.  

In [None]:
# Ausgangslage: Beispieldaten erstellen
np.random.seed(777)
data = np.random.randint(-2, 3, size=(4,3))
df3 = pd.DataFrame(data, columns=list('ABC'))
df3['D'] = df3.A >= 0
df3['E'] = list('cbba') 
df3

In [None]:
df3.sum()

Hinweise: 
- Die Summe in Spalte `D` entspricht der Anzahl `True`.
- Die Summe in Spalte `E` ist hier nicht sinnvoll!

Eine Stärke von Pandas ist der Umgang mit Fehlwerten (`NaN`). Um dies zu demonstrieren, setzen wir zwei Fehlwerte in den Datensatz.

In [None]:
# Zwei Fehlwerte (NaN) erzeugen:
df3.iloc[1,2] = None    # entweder None
df3.iloc[2,3] = np.nan  # oder mit np.nan
df3

- Beachten Sie, dass durch das Einsetzen eines Fehlwertes in Spalte `D` `True` zu 1 und `False` zu 0 wurde.
- `NaN` werden bei Berechnungen "übersprungen" (skipped), ausser alle Werte in der Spalte (oder Zeile) sind `NaN`. Mit der Option `skipna = False` kann man diesen Default übersteuern. Beispiele:

In [None]:
df3.mean()     # Spaltenmittelwerte, NaN nicht berücksichtigen

In [None]:
df3.mean(skipna=False)  # NaN, falls mind. 1 NaN in der Spalte

Des Weiteren gibt es Methoden, welche akkumulieren.

In [None]:
df3.cumsum()   # Die Spaltenwerte werden aufkummuliert.

Schliesslich gibt es Methoden, die mehrere Statistiken liefern. Eine wichtige ist `describe`.

In [None]:
# Output der Methode describe bei metrischen Daten:
df3.describe()

**Eläuterungen:**  
`count`: Anzahl Werte pro Spalte (ohne NaN)  
`mean`: Arithmetische Mittelwerte pro Spalte  
`std`: Standardabweichungen pro Spalte  
`min`: Minimum pro Spalte  
`25%`: Erstes Quartil  
`50%`: Zweites Quartil = Median  
`75%`: Drittes Quartil  
`max`: Maximum pro Spalte  

In [None]:
# Output der Methode describe bei nicht metrischen Daten:
df3['E'].describe()  

**Eläuterungen:**  
`count`: Anzahl Werte (ohne NaN)  
`unique`: Anzahl unterschiedlicher Werte  
`top`: Modus  
`freq`: Häufigkeit des Modus

### Kovarianz und Korrelation
Kovarianz und Korrelation werden aus Daten*paaren* berechnet.

In [None]:
# Beispieldaten mit Aktienkursen aus dem Verzeichnis examples laden 
# (Genauere Erklärungen dazu folgen im nächsten Kapitel):
price = pd.read_pickle('../examples/yahoo_price.pkl')
price.head()

Falls die Daten nicht geladen werden, stimmt der Pfad oben nicht.  
`../examples/yahoo_price.pkl` bedeutet, dass Python zuerst ein Verzeichnis höher geht (..) und dann in das Verzeichnis `examples` wechselt, in dem die Datei `yahoo_price.pkl` liegen sollte. Details folgen später ...

**Methode `pct_change`:**  
Mit der Methode (Abkürzung für *percentage change*) können relative Veränderungen pro Spalte berechnet werden.

In [None]:
returns = price.pct_change()
returns.head()
# In der ersten Zeile stehen NaN, da die Renditen zum Vortag nicht 
# berechnet werden können.

In [None]:
# Kovarianz der Renditen zwischen Microsoft (MSFT) und IBM:
returns['MSFT'].cov(returns['IBM'])   

In [None]:
# Korrelation der Renditen zwischen Microsoft (MSFT) und IBM:
returns['MSFT'].corr(returns['IBM'])  

In [None]:
returns.MSFT.corr(returns.IBM)   # alternative Schreibweise

Mit den DataFrame-Methoden `cov` und `corr` erhält man die ganze Kovarianz- bzw. Korrelationsmatrix.

In [None]:
returns.corr()

**Erläuterung:**
Die Korrelation der Renditen zwischen Google (`GOOG`) und Microsoft (`MSFT`) beträgt 0.465919. Die anderen Werte sind gleich zu lesen.

In [None]:
# Nur Korrelationen aller Aktien mit GOOG berechnen:
returns.corrwith(returns.GOOG)

Die Korrelation von Google (GOOG) mit sich selber ist natürlich 1.

**Kontrollfragen:**

In [None]:
# Gegeben:
returns.corr()

In [None]:
# Frage 1: Was ist der Output?
returns.AAPL.corr(returns.IBM)

In [None]:
# Gegeben:
Kurse = pd.DataFrame({'KursA': [100, 120, 150],
                      'KursB': [100, 90, 100]},
                     index = [2016, 2017, 2018])
Kurse

In [None]:
# Frage: Was ist der Output?
Kurse.pct_change()

### Unikate, Häufigkeiten und Zugehörigkeiten

In [None]:
obj = pd.Series(list('abbcbac'))
obj

In [None]:
obj.unique()          # unterschiedliche Werte

In [None]:
len(obj.unique())    # Anzahl unterschiedlicher Werte

In [None]:
obj.nunique()        # einfacher mit Pandas nunique()

In [None]:
obj.value_counts()    # Häufigkeitsverteilung: WICHTIGE Funktion!

In [None]:
obj.value_counts(normalize=True)   # relative Häufigkeitsverteilung

Per Default sortiert Pandas nach absteigender Häufigkeit. Manchmal möchte man aber nach dem Index sortieren. Zwei mögliche Lösungen dafür:

In [None]:
# Möglichkeit 1: Argument sort=False setzen
obj.value_counts(sort=False)

In [None]:
# Möglichkeit 2: Nachträglich den Index sortieren
obj.value_counts().sort_index()

**Kontrollfragen:**

In [None]:
# Gegeben: 
np.random.seed(543)
# 100 Würfe mit fairem Würfel simulieren:
augen = pd.Series(np.random.randint(1,7,100))
augen.head()  # die ersten 5 Realisationen

In [None]:
# Aufgabe 1: Erstellen Sie die absolute Häufigkeitsverteilung von "augen".


In [None]:
# Aufgabe 2: Erstellen Sie die relative Häufigkeitsverteilung von "augen". 
# Sortieren Sie nach dem Index (nicht nach der Häufigkeit).


## Fazit
- In diesem Kapitel haben wir einige Grundlagen von Pandas erarbeitet, die wir im Verlauf des Kurses immer wieder nutzen werden.
- Im nächsten Kapitel diskutieren wir Tools zum Lesen und Schreiben von Daten in Pandas.