<a href="https://datamics.com/de/courses/"><img src=../../DATA/bg_datamics_top.png></a>

<em text-align:center>© Datamics</em>
# Data Frames

Data Frames sind das Steckenpferd von Pandas und wurden direkt durch die Programmiersprache R inspiriert. Wir können uns Data Frames als eine Vielzahl von Series vorstellen, die zusammengefügt wurden, um sich den selben Index zu teilen.

Nutzen wir Pandas, um das Konzept kennenzulernen!

In [1]:
import numpy as np
import pandas as pd

In [2]:
from numpy.random import randn
np.random.seed(101)

In [3]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [4]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## Auswahl und Indexierung

Lass uns jetzt die vielen Wege lernen, um Daten aus einem Data Frame abzufragen.

In [5]:
df["W"]

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [6]:
# Eine Liste von Spaltennamen übergeben
df[["W","Z"]]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [7]:
# SQL Syntax funktioniert auch, wird aber nicht empfohlen
df.W

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

Data Frame Spalten sind Series

In [8]:
type(df["W"])

pandas.core.series.Series

### Eine neue Spalte erstellen

In [9]:
df["neu"] = df["W"] + df["Y"]

In [10]:
df

Unnamed: 0,W,X,Y,Z,neu
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


### Spalten entfernen

In [11]:
df.drop('neu',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [12]:
# Nicht vorhanden (en. inplace) sofern nicht spezifiziert!
df

Unnamed: 0,W,X,Y,Z,neu
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [13]:
df.drop('neu',axis=1,inplace=True)

In [14]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


So können wir auch Zeilen löschen:

In [15]:
df.drop('E',axis=0)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057


### Zeilen auswählen

In [16]:
df.loc['A']

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

Oder ausgewählt anhand der Position:

In [17]:
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

### Subsets von Zeilen und Spalten wählen

In [18]:
df.loc['B','Y']

-0.8480769834036315

In [19]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Bedingte Auswahl

Ein wichtiges Feature von Pandas ist die bedingte Auswahl von Werten durch die Klammernotation ähnlich zu NumPy:

In [20]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [21]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [22]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [23]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [24]:
df[df['W']>0]['Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [25]:
df[df['W']>0][['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


Für zwei Bedingungen können wir | oder & nutzen:

In [26]:
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


## Mehr Index Details

Jetzt können wir einige weiter Indexierungsfeatures diskutieren. Dazu gehören die Möglichkeiten einen Index zurückzusetzen oder zu ändern. Wir sprechen außerdem über die Indexhierarchie.

In [27]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [28]:
# Auf Standardindex zurücksetzen
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


In [29]:
neuind = 'BY BW HH BB NW'.split()

In [30]:
df["Staaten"] = neuind

In [31]:
df

Unnamed: 0,W,X,Y,Z,Staaten
A,2.70685,0.628133,0.907969,0.503826,BY
B,0.651118,-0.319318,-0.848077,0.605965,BW
C,-2.018168,0.740122,0.528813,-0.589001,HH
D,0.188695,-0.758872,-0.933237,0.955057,BB
E,0.190794,1.978757,2.605967,0.683509,NW


In [32]:
df.set_index('Staaten')

Unnamed: 0_level_0,W,X,Y,Z
Staaten,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BY,2.70685,0.628133,0.907969,0.503826
BW,0.651118,-0.319318,-0.848077,0.605965
HH,-2.018168,0.740122,0.528813,-0.589001
BB,0.188695,-0.758872,-0.933237,0.955057
NW,0.190794,1.978757,2.605967,0.683509


In [33]:
df

Unnamed: 0,W,X,Y,Z,Staaten
A,2.70685,0.628133,0.907969,0.503826,BY
B,0.651118,-0.319318,-0.848077,0.605965,BW
C,-2.018168,0.740122,0.528813,-0.589001,HH
D,0.188695,-0.758872,-0.933237,0.955057,BB
E,0.190794,1.978757,2.605967,0.683509,NW


In [34]:
df.set_index('Staaten',inplace=True)

In [35]:
df

Unnamed: 0_level_0,W,X,Y,Z
Staaten,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BY,2.70685,0.628133,0.907969,0.503826
BW,0.651118,-0.319318,-0.848077,0.605965
HH,-2.018168,0.740122,0.528813,-0.589001
BB,0.188695,-0.758872,-0.933237,0.955057
NW,0.190794,1.978757,2.605967,0.683509


## Multi-Index und Index Hierarchie

Schauen wir uns nun an, wie man mit Multi-Index arbeitet. Dazu erstellen wir ein Beispiel für einen multi-indexierten Data Frame an:

In [36]:
# Index Level
außen = ['G1','G1','G1','G2','G2','G2']
innen = [1,2,3,1,2,3]
hier_index = list(zip(außen,innen))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [37]:
hier_index

MultiIndex(levels=[['G1', 'G2'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [38]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Jetzt können wir Indexieren! Für die Index Hierarchie nutzen wir `df.loc[]`. Wenn die Hierarchie auf der Spalten-Achse liegen würde, dann würden wir die reguläre Klammernotation `df[]` nutzen. Eine Ebene des Index aufzurufen gibt den Unter-Data Frame zurück:

In [39]:
df.loc['G1']

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [40]:
df.loc['G1'].loc[1]

A    0.302665
B    1.693723
Name: 1, dtype: float64

In [41]:
df.index.names

FrozenList([None, None])

In [42]:
df.index.names = ['Gruppe','Num']

In [43]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Gruppe,Num,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


In [44]:
df.xs('G1')

Unnamed: 0_level_0,A,B
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [45]:
df.xs(['G1',1])

A    0.302665
B    1.693723
Name: (G1, 1), dtype: float64

In [46]:
df.xs(1,level='Num')

Unnamed: 0_level_0,A,B
Gruppe,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


# Gut gemacht!