## Datenanalyse II: Pandas ##

### Series 

Pandas stellt dem Anwender zwei Datenobjekte zur Verfügung, die das Verarbeiten von Vektoren und Matrizen sehr einfach machen: __Series__ und __DataFrame__. Series ist eine eindimensionale Datenstruktur, die Daten jedes Typs enthalten kann (int, str, float, object usw.). Die Feldinformationen über die Series werden als __Index__ bezeichnet und bei der Erzeugung oder danach angegeben:

`s = pd.Series(data, index=index)`

data kann ein Python-Dictionary, eine Python-Liste, ein numpy-Array oder ein einzelner Wert _(scalar)_ sein.

In [136]:
# generisches import statement
import pandas as pd

# Erzeugen einer Series, Feldbezeichner werden über index gesetzt
d = [1,2,3,4,5]
s = pd.Series(d, index=["a","b","c","d","e"])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

Beim Erzeugen aus einem Dictionary wird der Index automatisch erzeugt, und zwar aus den sortierten Keys des Dictionaries:

In [137]:
#hier werden die Feldbezeichner als keys verwendet
d = dict(a=1,b=2,c=3,d=4,e=5)
s = pd.Series(d)
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

Wenn man keinen Index angibt und auch die Eingabedaten keinen Index hergeben, wird ein automatischer Integer-Index erzeugt:

In [138]:
import numpy as np
d = np.array([1,2,3,4,5])
s = pd.Series(d)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Wie Sie sehen, hat eine Serie immer einen Datentyp. Wenn Sie Daten mit verschiedenen Datentypen in eine Serie aufnehmen, versucht die Bibliothek damit intelligent umzugehen:

In [139]:
#kleinster gemeinsamer Nenner = float
a = [3,3.1]
d = pd.Series(a)
d

0    3.0
1    3.1
dtype: float64

In [140]:
#kleinster gemeinsamer Nenner: Objekt
#Achtung - damit sie können sie viele Operationen nicht mehr oder nicht sinnvoll oder nur langsam ausführen!
a = ["a",3,4.2]
d = pd.Series(a)
d

0      a
1      3
2    4.2
dtype: object

Noch mehr Metadaten: Sie können die Daten auch insgesamt benennen. Hier nennen wir sie 'count':

In [141]:
d = [1,2,3,4,5]
s = pd.Series(d, name="count", index=["a","b","c","d","e"])
s

a    1
b    2
c    3
d    4
e    5
Name: count, dtype: int64

#### Serien - Daten auswählen

Das Auswählen von Daten (Slicen) funktioniert erst einmal ebenso wie bei numpy, d.h. wir können einfach mit der Position auf die Daten zugreifen:

In [144]:
s[:3]

a    1
b    2
c    3
Name: count, dtype: int64

Außerdem können wir aber auch den Index dafür verwenden:

In [145]:
s["a"]

1

In [146]:
s["a":"c"]

a    1
b    2
c    3
Name: count, dtype: int64

Aber was passiert mit einem Integer-Index?

In [147]:
s1 = pd.Series([0.0,1.1,2.2,3.3], index=[2,3,5,7])
s2 = pd.Series([0.0,1.1,2.2,3.3], index=list("abcd"))
print(s1, s2, sep='\n')

2    0.0
3    1.1
5    2.2
7    3.3
dtype: float64
a    0.0
b    1.1
c    2.2
d    3.3
dtype: float64


In [148]:
print(s1[2], s2[2])

0.0 2.2


Um eindeutig zu machen, ob der Zugriff per explizitem Index oder nummerischer Position erfolgt, gibt es die **_Indexer_-Eigenschaften**:

* `s.loc[slice]` greift mit dem expliziten Index zu
* `s.iloc[slice]` greift mit dem impliziten Integer-Index zu
* `s.ix[slice]` erlaubt gemischten Zugriff: Index-Basiert mit Fallback auf Integer-basiert, außer der Index ist Integer-basiert

In [149]:
print(".loc:", s1.loc[2], "iloc:", s2.iloc[2], "ix:", s2.ix[2])

.loc: 0.0 iloc: 2.2 ix: 2.2


In [150]:
s1.loc[2], s2.loc['a']

(0.0, 0.0)

Man kann – wie bei Numpy – auch boolesche Vektoren oder _fancy indexing_ verwenden:

In [151]:
s > 3

a    False
b    False
c    False
d     True
e     True
Name: count, dtype: bool

In [152]:
s[s > 3]

d    4
e    5
Name: count, dtype: int64

In [153]:
s.iloc[[4,2,0]]

e    5
c    3
a    1
Name: count, dtype: int64

#### Index

Der Index hat einen eigenen Datentyp:

In [154]:
print(s1.index, s2.index)

Int64Index([2, 3, 5, 7], dtype='int64') Index(['a', 'b', 'c', 'd'], dtype='object')


In [155]:
j = pd.Index([3,4,5,6])
j[2]

5

Indizes sind _unveränderlich_:

In [156]:
j[2] = 5

TypeError: Index does not support mutable operations

#### Aufgabe

Erzeugen Sie eine pd.Series() mit den absoluten Worthäufigkeiten aus _Effi Briest_. (Verwenden Sie den Code aus der Hausaufgabe zum Wörterzählen)

#### Serien verwenden

Serien verhalten sich wie mathematische Vektoren, d.h. man kann sie mit Skalaren (= einfache Zahlen) oder anderen Vektoren, die die gleiche Länge haben, multiplizieren.

In [164]:
#die Metadaten bleiben in der Ausgabe erhalten! 
s * 3

a     3
b     6
c     9
d    12
e    15
Name: count, dtype: int64

In [165]:
#Normalisierung
s / s.sum()

a    0.066667
b    0.133333
c    0.200000
d    0.266667
e    0.333333
Name: count, dtype: float64

In [166]:
#Multiplikation gleichlanger Vektoren
a = pd.Series([2,3,1,5,5])
b = pd.Series([3,2,1,2,3])
a * b

0     6
1     6
2     1
3    10
4    15
dtype: int64

In [167]:
#ACHTUNG
s * a

a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
dtype: float64

In [168]:
#nur die Daten mit den gleichen Metadaten werden wie erwartet verarbeitet
c = pd.Series([2,5,1,3,5],["a","b","c","d","e"])
d * c

a     2
b    10
c     3
d    12
e    25
dtype: int64

In [169]:
d + c

a     3
b     7
c     4
d     7
e    10
dtype: int64

Außerdem können wir die statistischen Methoden aus numpy verwenden oder auch Pandas eigene

In [171]:
print(np.mean(s))
s.mean()

3.0


3.0

### DataFrame

Ein DataFrame ist eine zweidimensionale Datenstruktur mit Spalten, die unterschiedliche Datentypen haben können.

#### DataFrames erstellen

Es mehrere Wege ein DataFrame zu erstellen. 

In [172]:
#aus einem zwei dimensionalen array oder einer vergleichbaren numpy-Datenstruktur
#Zeilen (=index) und Spalten (=columns) Informationen werden dann über entsprechende Parameter gesetzt
data = pd.DataFrame([[2,6,3,4],[3,3,1,7]],index=["text 1", "text 2"], columns=["a","b","c","d"])
data

Unnamed: 0,a,b,c,d
text 1,2,6,3,4
text 2,3,3,1,7


In [173]:
#aus einer Liste von dictionaries
data = pd.DataFrame([dict(a=2,b=6,c=3,d=4),dict(a=2,b=6,c=3,d=4)],index=["text 1", "text 2"])
data

Unnamed: 0,a,b,c,d
text 1,2,6,3,4
text 2,2,6,3,4


In [174]:
import pandas as pd
#1. aus Serien
a = pd.Series([2,6,3,4],["a", "b", "c", "d"], name="text 1")
b = pd.Series([3,3,1,7],["a", "b", "c", "d"], name="text 2")
c = pd.Series([1,7,2,2],["a", "b", "c", "d"], name="text 3")
data = pd.DataFrame([a,b,c])
data

Unnamed: 0,a,b,c,d
text 1,2,6,3,4
text 2,3,3,1,7
text 3,1,7,2,2


Beim Erstellen des DataFrames aus Serien kann man die besondere Leistungsfähigkeit der Metadaten für seine Zwecke nutzen. Im folgenden haben einige Serien nicht Instanzen aller Felder; achten Sie darauf, wie pandas damit umgeht:

In [202]:
a = pd.Series([2,6,4],["a","c","d"], name="text 1")
b = pd.Series([3,1,7],["a","b","e"], name="text 2")
c = pd.Series([1,7,2,2],["b","c","d","e"], name="text 3")
data = pd.DataFrame([a,b,c])
data

Unnamed: 0,a,b,c,d,e
text 1,2.0,,6.0,4.0,
text 2,3.0,1.0,,,7.0
text 3,,1.0,7.0,2.0,2.0


#### Aufgabe

Tokenisieren Sie 4 beliebige Erzähltexte, zählen Sie die Worte und erzeugen Sie daraus ein DataFrame, dass als Spaltennamen die Worte und als Zeilennamen die Dateinamen (=Textnamen) hat.

#### DataFrames – Daten auswählen

DataFrame kann man als __Dictionary von Spalten__ interpretieren. Jede Spalte ist eine _Series_. Man kann den key zur Auswahl der Spalte oder auch zur Erzeugung verwenden. 

In [176]:
data

Unnamed: 0,a,b,c,d,e
text 1,2.0,,6.0,4.0,
text 2,3.0,1.0,,,7.0
text 3,,1.0,7.0,2.0,2.0


In [177]:
data["a"]

text 1    2.0
text 2    3.0
text 3    NaN
Name: a, dtype: float64

Alternativ ist für vorhandene Spalten auch eine Attributschreibweise möglich, wenn das nicht mit eingebauten Attributen/Methoden von DataFrame kollidiert:

In [178]:
data.a

text 1    2.0
text 2    3.0
text 3    NaN
Name: a, dtype: float64

Auch neue Spalten können so hinzugefügt werden:

In [204]:
data["f"] = pd.Series({"text 1": 5, "text 2": 6})
data

Unnamed: 0,a,b,c,d,e,f
text 1,2.0,,6.0,4.0,,5.0
text 2,3.0,1.0,,,7.0,6.0
text 3,,1.0,7.0,2.0,2.0,


#### Zugriff mit den Indexern loc, iloc, ix

Wie bei Series stehen die Indexer-Attribute zur Verfügung:

* __loc__ für den Zugriff über den expliziten Index
* __iloc__ für den Zugriff über die (Integer-) Position
* __ix__ für den gemischten Zugriff

Wie von 2D-Arrays gewohnt, werden die beiden Achsen beim Selektieren mit `,` getrennt und eine ganze Achse mit `:` selektiert:

In [180]:
data.loc["text 1","a"]

2.0

In [181]:
data.loc["text 1","c":"e"]

c    6.0
d    4.0
e    NaN
Name: text 1, dtype: float64

In [182]:
# Doppelpunkt = ganze Spalte
data.loc[:,"a":"d"]

Unnamed: 0,a,b,c,d
text 1,2.0,,6.0,4.0
text 2,3.0,1.0,,
text 3,,1.0,7.0,2.0


In [183]:
data.iloc[:,0]

text 1    2.0
text 2    3.0
text 3    NaN
Name: a, dtype: float64

In [184]:
data.shape

(3, 6)

In [185]:
data.iloc[:,0]

text 1    2.0
text 2    3.0
text 3    NaN
Name: a, dtype: float64

In [186]:
data.iloc[2]

a    NaN
b    1.0
c    7.0
d    2.0
e    2.0
f    NaN
Name: text 3, dtype: float64

In [187]:
data.iloc[1:3,2:3]

Unnamed: 0,c
text 2,
text 3,7.0


In [188]:
# Auswahl mittels Positionsindex sowie durch range : und Position
data.ix["text 1":"text 2",2]

text 1    6.0
text 2    NaN
Name: c, dtype: float64

#### Fancy Indexing

Die von `numpy` bekannten erweiterten Zugriffsmöglichkeiten – Zugriff mit booleschen Arrays und mit Indexlisten – werden von den Indexern ebenfalls unterstützt:

In [189]:
data.ix[[0,2],["a","d"]]

Unnamed: 0,a,d
text 1,2.0,4.0
text 3,,2.0


Liefere von Texten, bei denen f >= 5 ist, die Spalten f, a, und b:

In [190]:
data.loc[data.f >= 5,['f', 'a', 'b']]

Unnamed: 0,f,a,b
text 1,5.0,2.0,
text 2,6.0,3.0,1.0


#### Aufgaben

Erzeugen Sei folgendes Dataframe: 3 Zeilen (label: text 1, usw) sowie 7 Spalten (labels a, b, usw) mit beliebigen Werten. Selektieren Sie nun: <br/>
<ul>
<li>den ersten Eintrag in der ersten Spalte.</li>
<li>alle Einträge von text 1</li>
<li>die Einträge von text 2 in den Spalten b, d</li>
</ul>

#### Mit DataFrames arbeiten 

Pandas-Datenstrukturen unterstützen NumPy-Funktionalität. Die aus NumPy bekannten __ufuncs__ stehen auch für DataFrames und Series zur Verfügung – sie berücksichtigen dabei aber die Indizes.

In [191]:
data.a + data.f

text 1    7.0
text 2    9.0
text 3    NaN
dtype: float64

Wenn wir mit DataFrames arbeiten, müssen wir uns wieder die Axen-Orientierung vor Augen halten, die wir schon aus numpy kennen: <img src="files/images/numpy_array.png" width=400/> 

Wenn wir Methoden und Funktionen broadcasten (funktioniert mit den pandas eigenen Methoden sowie mit numpy Methoden), müssen wir die Achsenorientierung beachten. Der Default-Wert ist zumeist axis=0:

In [192]:
data

Unnamed: 0,a,b,c,d,e,f
text 1,2.0,,6.0,4.0,,5.0
text 2,3.0,1.0,,,7.0,6.0
text 3,,1.0,7.0,2.0,2.0,


In [205]:
#identisch mit data.mean(axis=0)
data.mean()

a    2.5
b    1.0
c    6.5
d    3.0
e    4.5
f    5.5
dtype: float64

In [206]:
data.mean(axis=1)

text 1    4.25
text 2    4.25
text 3    3.00
dtype: float64

Man kann für `axis=` in DataFrames auch `"rows"` bzw. `"columns"` schreiben:

In [207]:
data.mean(axis='columns')

text 1    4.25
text 2    4.25
text 3    3.00
dtype: float64

In [208]:
data["a"].mean()

2.5

In [209]:
data.loc["text 2"].mean()

4.25

Oft ist es sinnvoll, fehlende Werte durch einen Wert zu ersetzen, z.B. 0 (man kann auch einen beliebigen anderen Wert nehmen, der sinnvoll ist):

In [210]:
data = data.fillna(0)
data

Unnamed: 0,a,b,c,d,e,f
text 1,2.0,0.0,6.0,4.0,0.0,5.0
text 2,3.0,1.0,0.0,0.0,7.0,6.0
text 3,0.0,1.0,7.0,2.0,2.0,0.0


#### Löschen von Daten

In [211]:
data2 = data.drop("a", axis=1)
data2

Unnamed: 0,b,c,d,e,f
text 1,0.0,6.0,4.0,0.0,5.0
text 2,1.0,0.0,0.0,7.0,6.0
text 3,1.0,7.0,2.0,2.0,0.0


Broadcasting ist ausgesprochen mächtig und erlaubt es komplexe Vorgänge sehr kompakt auszudrücken. Wenn wir unsere Daten __standardisieren__ wollen, d.h. sie sollen den Mittelwert 0 haben und eine Standardabweichung von 1, dann muss man von jedem Datenpunkt den Mittelwert abziehen und das Ergebnis durch die Standardabweichung teilen. Das kann man nun so ausdrücken: 

In [213]:
z = (data - data.mean()) / data.std()
z

Unnamed: 0,a,b,c,d,e,f
text 1,0.218218,-1.154701,0.440225,1.0,-0.83205,0.414781
text 2,0.872872,0.57735,-1.144586,-1.0,1.1094,0.725866
text 3,-1.091089,0.57735,0.704361,0.0,-0.27735,-1.140647


Man kann sich die wichtigsten statistischen Beschreibungen für Daten ausgeben lassen (geht auch für Serien):

In [214]:
data.describe()

Unnamed: 0,a,b,c,d,e,f
count,3.0,3.0,3.0,3.0,3.0,3.0
mean,1.666667,0.666667,4.333333,2.0,3.0,3.666667
std,1.527525,0.57735,3.785939,2.0,3.605551,3.21455
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,0.5,3.0,1.0,1.0,2.5
50%,2.0,1.0,6.0,2.0,2.0,5.0
75%,2.5,1.0,6.5,3.0,4.5,5.5
max,3.0,1.0,7.0,4.0,7.0,6.0


#### DataFrames speichern und lesen

In [215]:
data.to_csv("df.csv")

In [216]:
print(open("df.csv").read())

,a,b,c,d,e,f
text 1,2.0,0.0,6.0,4.0,0.0,5.0
text 2,3.0,1.0,0.0,0.0,7.0,6.0
text 3,0.0,1.0,7.0,2.0,2.0,0.0



In [217]:
data = pd.read_csv("df.csv", index_col=0)
data

Unnamed: 0,a,b,c,d,e,f
text 1,2.0,0.0,6.0,4.0,0.0,5.0
text 2,3.0,1.0,0.0,0.0,7.0,6.0
text 3,0.0,1.0,7.0,2.0,2.0,0.0


### Serien und DataFrames sortieren 

In Serien und DataFrames kann man entweder die Daten oder den Index sortieren. Beginnen wir mit Serien und dem Sortieren von Daten. Seit pandas 0.17 lassen die üblichen Sortiermethoden die Datenstruktur per default unverändert, es sei denn, man gibt `inplace=True` an.

Verwendet wird das besonders bei großen Datenmengen sehr effektive quicksort, aber Sie können den Algorithmus selbst setzen. Außerdem können Sie bestimmen, ob aufsteigend sortiert werden soll oder nicht.

In [221]:
import pandas as pd
s = pd.Series([3,1,6,2,8,3])
byval = s.sort_values()
byval

1    1
3    2
0    3
5    3
2    6
4    8
dtype: int64

In [222]:
s.sort_values(ascending=False, kind="mergesort")

4    8
2    6
5    3
0    3
3    2
1    1
dtype: int64

Mit der Methode s.head(n) können wir uns die ersten n Werte der Serie ausgeben lassen:

In [225]:
s.sort_values().head(4)

1    1
3    2
0    3
5    3
dtype: int64

Falls es nur darum geht, die n größten oder kleinsten Werte zu erhalten, müssen wir die Serie gar nicht sortieren, sondern können die Methoden s.nsmallest(n) oder s.slargest(n) verwenden:

In [226]:
s.nlargest(4)

4    8
2    6
0    3
5    3
dtype: int64

Mit der Methode sort_index können wir den Index sortieren. Hier wird immer die sortierte Serie als Ergebnis zurückgegeben. Wir können ebenfalls das keyword 'ascending' verwenden. 

In [229]:
byval.sort_index()

0    3
1    1
2    6
3    2
4    8
5    3
dtype: int64

Diese Methode können wir auch mit DataFrames verwenden, um nach Zeilen- und Spaltenlabels sortieren zu lassen. Voreingestellt ist das Sortieren der Zeilenlabels (index). Erst einmal brauchen wir ein Dataframe:

In [237]:
df = pd.read_csv("df2.csv", index_col=0)
df

Unnamed: 0,b,f,d,e,a,c
text 1,0,5,4,0,2,6
text 3,1,0,2,2,0,7
text 2,1,6,0,7,3,0


Jetzt sortieren wir es aufgrund des Index (Achtung: Hier wird nicht inplace sortiert, sondern ein neuer DataFrame zurückgegeben):

In [238]:
df.sort_index()

Unnamed: 0,b,f,d,e,a,c
text 1,0,5,4,0,2,6
text 2,1,6,0,7,3,0
text 3,1,0,2,2,0,7


Durch das Hinzufügen der Axeninformation können wir nach Spaltennamen sortieren:

In [241]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,f,e,d,c,b,a
text 1,5,0,4,6,0,2
text 3,0,2,2,7,1,0
text 2,6,7,0,0,1,3


Entlang der Achse 0 kann man mittels des kewords 'by' auch aufgrund einer beliebigen Spalte des DataFrames sortieren lassen. Achtung: Sie können nur nach Spalten sortieren lassen. 

In [247]:
data.sort_values(by="a")

Unnamed: 0,a,b,c,d,e,f
text 3,0.0,1.0,7.0,2.0,2.0,0.0
text 1,2.0,0.0,6.0,4.0,0.0,5.0
text 2,3.0,1.0,0.0,0.0,7.0,6.0


Sie können auch mehrere Spalten als Schlüssel verwenden, dann wird bei gleichen Werten in der ersten Spalte nach den Werten in der zweiten Spalte sortiert:

In [249]:
df.sort_values(by=["e","c"])

Unnamed: 0,b,f,d,e,a,c
text 1,0,5,4,0,2,6
text 3,1,0,2,2,0,7
text 2,1,6,0,7,3,0


z.B. Series haben auch noch die Methode `argsort`, die gar nicht sortiert, sondern nur die richtige Reihenfolge zurückgibt:

In [253]:
data

Unnamed: 0,a,b,c,d,e,f
text 1,2.0,0.0,6.0,4.0,0.0,5.0
text 2,3.0,1.0,0.0,0.0,7.0,6.0
text 3,0.0,1.0,7.0,2.0,2.0,0.0


In [254]:
data.a.argsort()

text 1    2
text 2    0
text 3    1
Name: a, dtype: int64

#### Aufgabe

Sortieren Sie Ihren Dataframe mit den Erzähltexthäufigkeiten nach Worthäufigkeit im Gesamtkorpus, absteigend. Welche Möglichkeiten gibt es? 

### Weitere Themen

* Mehrdimensionale Datenstrukturen simulieren mit MultiIndexes
* (_Panel_ und _Panel4D_ – wird selten verwendet)
* Aggregieren und Gruppieren von Daten
* Umformen und Kombinieren von Daten


### Literatur

Neben den Tutorials in der Pandas-Dokumentation gibt es dieses Video, das besonders für diejenigen interessant sein wird, die sich schon ganz gut mit SQL auskennen: <a href="https://www.youtube.com/watch?v=1uVWjdAbgBg">Greg Reda - Translating SQL to pandas. And back</a><br/>
<a href="https://drive.google.com/folderview?id=0ByIrJAE4KMTtaGhRcXkxNHhmY2M&usp=sharing">Pandas Cheat Sheet</a> by Marc Graph

Jake VanderPlas, _Python Data Science Handbook_. Tools and Techniques for Developers. O'Reilly, early release