# Pandas
erlaubt schnelle Analysen u. Datenbereinigung

In [2]:
import numpy as np
import pandas as pd

## Series/Serien
* ähnlich numpy array, jedoch mit Achsenbeschriftung mögl.
* Zugriff über Zahlen und Strings mögl.
* nicht nur Zahlen sondern auch Strings im Array mögl.

In [14]:
achsenbeschriftung = ["a","b","c"]
daten = [10,20,30]
numpy_array = np.array(daten)
dictonary = {"a":10,"b":20,"c":30}

In [15]:
pd.Series(data=daten) #pandas Liste mit automatischem Key

0    10
1    20
2    30
dtype: int64

In [16]:
pd.Series(data=daten, index=achsenbeschriftung)

a    10
b    20
c    30
dtype: int64

In [17]:
pd.Series(daten, achsenbeschriftung) #Reihenfolge beachten

a    10
b    20
c    30
dtype: int64

In [18]:
pd.Series(dictonary)

a    10
b    20
c    30
dtype: int64

In [19]:
ser1 = pd.Series([1,2,3,4], index=["USA","Deutschland","Polen","Japan"])
ser2 = pd.Series([5,6,7,8], index=["USA","Deutschland","Italien","Japan"])

In [20]:
ser1["USA"] #schnelles suche eines El. / ähnlich Hashtabelle

1

In [21]:
ser1+ser2

Deutschland     8.0
Italien         NaN
Japan          12.0
Polen           NaN
USA             6.0
dtype: float64

## Dataframes
* vielzahl von Series die zusammengefügt wurden um Index/Spalte zu teilen

In [3]:
from numpy.random import randn #import von rand, schnellerer Zugriff anstatt ständig zu zugreifen
#randn --> Standartnormalverteilte Zufallszahlen

In [4]:
np.random.seed(101) #für Pseudozufallszahlen brauch man immer einen Startwert

In [9]:
"""
+------------+---------+--------+
|            |  A      |  B     |
+------------+---------+---------
|      0     | 0.626386| 1.52325|<----axis=1-----
+------------+---------+--------+
             |         |
             | axis=0  |
             ↓         ↓
"""        

'\n+------------+---------+--------+\n|            |  A      |  B     |\n+------------+---------+---------\n|      0     | 0.626386| 1.52325|----axis=1----->\n+------------+---------+--------+\n             |         |\n             | axis=0  |\n             ↓         ↓\n'

### Data Frame erstellen

In [5]:
df = pd.DataFrame(randn(5,4), index='A B C D E'.split(), columns =' W X Y Z'.split())
#5 Zeilen, 4 Spalten, split = String nach Leerzeichen trennen in Array (ähnlich JS)
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [7]:
df.info() #Informationen über das DF

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 4 columns):
W    5 non-null float64
X    5 non-null float64
Y    5 non-null float64
Z    5 non-null float64
dtypes: float64(4)
memory usage: 200.0+ bytes


In [8]:
df.shape #5Zeilen und 4 Spalten

(5, 4)

In [25]:
df["W"] #komplette Spalte

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [26]:
df[["Z","W","Y"]]

Unnamed: 0,Z,W,Y
A,0.503826,2.70685,0.907969
B,0.605965,0.651118,-0.848077
C,-0.589001,-2.018168,0.528813
D,0.955057,0.188695,-0.933237
E,0.683509,0.190794,2.605967


### Spalte/Index anfügen

In [31]:
df["neu"] = df["Y"] + df["Z"] 
#einfügen einer neuen Spalte/ mit dem Index/Spaltenname neu und weisen der die addierten Werte von Y und Z zu
df

Unnamed: 0,W,X,Y,Z,neu
A,2.70685,0.628133,0.907969,0.503826,1.411795
B,0.651118,-0.319318,-0.848077,0.605965,-0.242112
C,-2.018168,0.740122,0.528813,-0.589001,-0.060187
D,0.188695,-0.758872,-0.933237,0.955057,0.021819
E,0.190794,1.978757,2.605967,0.683509,3.289476


### Spalte/Index entfernen

In [40]:
df.drop('neu', axis=1) #Spalte entfernen (axis = 1), Zeile -> axis = 0

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [43]:
df.drop('neu', axis=1, inplace=True) #Spalte für immer entfernen

### Zeilen selektieren

In [45]:
df.loc['A'] #Zeilen ausgeben

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

In [46]:
df.iloc[2] #Zeilen ausgeben mit Index der Zeile (Zeile C)

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

In [48]:
df.loc['B','Y'] #einen genauen Wert ausgeben

-0.8480769834036315

In [49]:
df.loc[['A','B'],['W','Y']] #Teilwerte ausgeben

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Selektion

In [54]:
df[['W','X']]>0

Unnamed: 0,W,X
A,True,True
B,True,False
C,False,True
D,True,False
E,True,True


In [52]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [57]:
df[df['W']>0] #Zeile C wird nicht mit ausgegeben, weil der Wert < 0 ist

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [61]:
df[df['W']>0][['Y','Z']] #Ausgabe der Spalten Y und Z (['Y'] -> für nur einen Wert) ohne Zeile C

Unnamed: 0,Y,Z
A,0.907969,0.503826
B,-0.848077,0.605965
D,-0.933237,0.955057
E,2.605967,0.683509


In [67]:
df[ (df['W'] > 0) & (df['X'] > 1 ) ] #2 Bedingungen mit & -> UND verknüpft

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


In [68]:
df[ (df['W'] > 0) | (df['X'] > 1 ) ] # mit | -> ODER verknüpft

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [74]:
df.reset_index() #Index wird zurück gesetzt als Spalte u. Standartindex wird gesetzt

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


In [89]:
neu_index = 'DD H GC MW Z'.split()
df["Kennzeichen"] = neu_index #die Spalte mit dem index Kennzeichen wird hinzugefügt

In [91]:
df.set_index('Kennzeichen',inplace = True) # der Index wird neu gesetzt/ überschrieben, inplace = wirklich überschreiben

In [90]:
df

Unnamed: 0_level_0,W,X,Y,Z,Kennzeichen
Kennzeichen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
DD,2.70685,0.628133,0.907969,0.503826,DD
H,0.651118,-0.319318,-0.848077,0.605965,H
GC,-2.018168,0.740122,0.528813,-0.589001,GC
MW,0.188695,-0.758872,-0.933237,0.955057,MW
Z,0.190794,1.978757,2.605967,0.683509,Z


### hierarchischer Index

In [97]:
aussen_index = ['G1', 'G1', 'G1', 'G2', 'G2', 'G2']
innen_index = [1,2,3,1,2,3]
hierarchischer_index = list(zip(aussen_index, innen_index)) #zip fügt 2 Listen zusammen
hierarchischer_index

[('G1', 1), ('G1', 2), ('G1', 3), ('G2', 1), ('G2', 2), ('G2', 3)]

In [99]:
hierarchischer_index = pd.MultiIndex.from_tuples(hierarchischer_index)
hierarchischer_index

MultiIndex(levels=[['G1', 'G2'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [103]:
df = pd.DataFrame(np.random.randn(6,2), index = hierarchischer_index, columns = ['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,-0.497104,-0.75407
G1,2,-0.943406,0.484752
G1,3,-0.116773,1.901755
G2,1,0.238127,1.996652
G2,2,-0.993263,0.1968
G2,3,-1.136645,0.000366


In [109]:
df.loc['G1'].loc[2]

A   -0.943406
B    0.484752
Name: 2, dtype: float64

In [115]:
df['A'].loc['G1'].loc[1] #einzelnen Wert ausgeben

-0.49710402288933153

In [118]:
df.index.names = ['Gruppe','Num'] #dem Index einen Namen zuweisen
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Gruppe,Num,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,-0.497104,-0.75407
G1,2,-0.943406,0.484752
G1,3,-0.116773,1.901755
G2,1,0.238127,1.996652
G2,2,-0.993263,0.1968
G2,3,-1.136645,0.000366


In [120]:
df.xs('G1') #Zugriff auf Reihen oder Spalten -> ähnlich loc

Unnamed: 0_level_0,A,B
Num,Unnamed: 1_level_1,Unnamed: 2_level_1
1,-0.497104,-0.75407
2,-0.943406,0.484752
3,-0.116773,1.901755


In [130]:
df.xs(['G1',1])['B']

-0.7540697010400628

In [131]:
df.xs(1, level='Num') #Zeile mit dem Index 1

Unnamed: 0_level_0,A,B
Gruppe,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,-0.497104,-0.75407
G2,0.238127,1.996652


## Missing Data und Imputation
* fehlende Daten sollen umgangen werden

### Eleminierungsverfahren / Complete-Case Analysis
* Missing-Data Technik
* Datensätze bei dennen eine oder mehrere Erhebungsmerkmale fehlende Werte aufweisen, werden aus der Matrix gestrichen

Nachteile: 
* zur Folge Informationsverlust
* Verfälschung der Stichprobe mögl.

In [136]:
df = pd.DataFrame({'A':[1, 2, np.nan],'B':[5, np.nan, np.nan], 'C':[1,2,3]})
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [137]:
df.dropna() #erhalte nur Zeilen ohne NULL Werte

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [140]:
df.dropna(axis=1) #man kann mit axis angeben ob x oder y Achse

Unnamed: 0,C
0,1
1,2
2,3


In [145]:
df.dropna(thresh=2) #alle Zeilen filtern die weniger als 2 Null-Werte haben

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


### Implementation
fehlende Werte auffüllen

In [146]:
df.fillna(value="Füllwert") #alle Nullwerte auffüllen

Unnamed: 0,A,B,C
0,1,5,1
1,2,Füllwert,2
2,Füllwert,Füllwert,3


In [147]:
df['A'].fillna(value=df['A'].mean()) # der Null-Wert wird durch den MW der Spalte ersetzt

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64