# Einführung in Pandas

## Datenstrukturen
### Series

Eine Series ist ein eindimensionales Array mit einem Index.

In [34]:
import pandas as pd
import numpy as np

obj = pd.Series([4,7,-5,3])
obj # links sieht man den Index, rechts die Werte

0    4
1    7
2   -5
3    3
dtype: int64

In [14]:
obj2 = pd.Series([4,7,-5,3], index=['d', 'b', 'a', 'c' ])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [15]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [16]:
obj2['a']

-5

In [9]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [21]:
obj2[obj2 > 0] # filtern
obj2 * 2       # multiplizieren

d     8
b    14
a   -10
c     6
dtype: int64

## DataFrame
Ein DataFrame ist eine tabellarische Datenstruktur, die **unterschiedliche** Datentypen haben können. Ein DataFrame besitzt sowohl einen Zeilenindex als auch einen Spaltenindex.

![Title](img/dataframe.png)

In [22]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000,2001,2002, 2001,2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [25]:
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [26]:
df['state'] # Spalte extrahieren


0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

In [27]:
df.year # Andere Möglichkeit, eine Spalte zu extrahieren

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

In [29]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
frame2 # Zeilenindex gesetzt und Spalte hinzugefügt, ohne Werte

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [32]:
frame2.loc['three'] # Zeile auswählen

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [33]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [37]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


Zuweisen von Series wird automatisch an die DataFrames angepasst. Im Gegensatz dazu müssen Arrays oder Listen genau zum DataFrame passen.

In [38]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

In [41]:
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


Erzeugen einer nicht existierenden Spalte erzeugen eine neue. Die Anweiseung del löscht eine Spalte.

In [45]:
frame2['eastern'] = frame2.state == 'Ohio' # das entspricht: Wenn Spalte state in der Zeile n = Ohio, dann wahr, ansonsten falsch
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [47]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Erzeugen eines DataFrame aus verschachtelten Dictionary aus Dioctionaries.

In [48]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}} 

In [49]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Transponieren

In [50]:
frame3.T # Tauscht die Achsen aus

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [51]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [55]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]} # Dictionary on Series --> Slicing gibt eine Series zurück
pd.DataFrame(pdata) # funktioniert auch...

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


### Index

In pandas enthalten Indexe die Achsenbeschriftungen und andere Metadaten vor. Bei der Erstellung einer Series oder DataFrame werden Indexe erzeugt. Diese sind unveränderlihc und können **nicht** bearbeitet werden!

In [56]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
index[1:]

Index(['b', 'c'], dtype='object')

In [57]:
index[1] = 'd'

TypeError: Index does not support mutable operations

### Wichtige Funktionen

Hierzu zählen 
- Neuindizierung
- Einträge von einer Achse löschen
- Inidizieren, selektieren und filtern


In [58]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [59]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [60]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3
obj3.reindex(range(6), method='ffill') # sehr cool, damit kann man einfach Spalten auffüllen lassen. Vorwärts ffill, rückwärts bfill

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

reindex kann etweder Zeilen, Spalten oder beides neu indizieren.

In [62]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [63]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [64]:
frame.loc[['a', 'b', 'c', 'd'], states] # die Methode is deprecated.

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### Einträge löschen

In [73]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj
new_obj = obj.drop('c')
new_obj
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [74]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [76]:
data.drop('two', axis=1) # zwei Achsen löschen
data.drop(['two', 'four'], axis='columns') 

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [77]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### Indizieren, selektieren und filtern

In [79]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj
obj['b']
obj[1]
obj[2:4]
obj[['b', 'a', 'd']]
obj[[1, 3]]
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [80]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [81]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [82]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data
data['two']
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [83]:
data[:2]
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [84]:
data < 5
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Selektionstechniken

- numpy-Notation
- iloc
- loc
- at
- Attribute-Access-Operator


In [2]:
import pandas as pd
df = pd.DataFrame({'Name' : ["Peter", "Karla", "Anne", "Nino", "Andrzej"],
                   'Alter': [34, 53, 16, 22, 61],
                   'Nationalität': ["deutsch", "schweizerisch", "deutsch", "italienisch", "polnisch"],
                   'Gehalt': [3400, 4000, 0, 2100, 2300]}, 
                  index = ['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'],
                 columns = ['Name', 'Alter', 'Nationalität', 'Gehalt'])
df

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-111,Anne,16,deutsch,0
ID-997,Nino,22,italienisch,2100
ID-707,Andrzej,61,polnisch,2300


### Selektion mit Numpy-Notation


- Sollen Spalten ausgewählt werden, müssen dem Indexing-Operator die entsprechenden Label übergeben werden.
- Sollen Zeilen ausgewählt werden, wird innerhalb des Indexing-Operators mit dem Slicing-Operator (der Doppelpunkt) gearbeitet.
- Soll ein Subset mit Zeilen und Spalten erstellt werden, geschieht dies sequentiell, indem der Indexing-Operator jeweils für Zeilen und Spalten verwendet wird.
- Eine Indizierung erzeugt einen View aus den originalen Daten.
- Zuweisungen unter Zuhilfenahme von numpy-Indizierungen sollten vermieden werden. Für Zuweisungen .loc und .iloc verwenden.
- Die Indizierung einer Spalte returniert eine Series.
- Wird dem Indexing-Operator eine Liste übergeben, wird ein DataFrame returniert.
- Der Slicing-Operator definiert einen Bereich in der Form: [von:bis:Schrittweite]


In [11]:
# Auswahl von Spalten
df['Name'] # Rückgabeobjekt ist eine Series.
# df[['Name']] # Rückgabe ist ein DataFrame 

ID-123      Peter
ID-462      Karla
ID-111       Anne
ID-997       Nino
ID-707    Andrzej
Name: Name, dtype: object

In [26]:
# Auswahl von Zeilen --> Bei der Zeilenindizierung wird immer der Slicing-Operator verwendet.
# df[1:2] # Rückgabe ist die erste Zeile mit dem Indexwert 1.
# df[0:5:2] # Jede zweite Zeile im Bereich 0 bis 5 wählen.
# df[:3] # Die Zeilen mit Integerindex 0 und 1 werden angezeigt.
# df[-2:] # Letzten beiden Zeilen anzeigen lassen.
 df[::-1] # Sortierung umdrehen.

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-462,Karla,53,schweizerisch,4000
ID-111,Anne,16,deutsch,0


In [29]:
# Sowohl Zeilen als auch Spalten selektieren
#df['Name'][4] # Rückgabe ist ein einzelner Wert gleichen Typs der Spalte, aus der er stammt.
df['Name'][2:4] # Rückgabe ist eine Series.
#df[['Name','Nationalität']][2:4] # Rückgabe ist ein DataFrame.

ID-111    Anne
ID-997    Nino
Name: Name, dtype: object

In [10]:
# Eine Zuweisung in dieser Notation sollte vermieden werden (siehe Warnung). Bei Zuweisungen loc und iloc verwenden.
df['Name'][2] = "Annemarie"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [15]:
# Indizierung mit Masken
# df[[True,False,True,False,False]] # Bei der Indizierung mit booleschen Werten werden Zeilen indiziert.
df[df['Alter'] > 30] #  Anwenden eines Filters

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-462,Karla,53,schweizerisch,4000
ID-707,Andrzej,61,polnisch,2300


In [16]:
# Kurze Zusammenfassung:
df[[1,2]] # Integerwerte indizieren die Zeilen
df[[True,False,True,False,False]] # Boolesche Werte indizieren Zeilen
df[['Name','Gehalt']] # Column-Labels indizieren die Spalten
df['ID-111'] # Indizierung über Zeilenlabel returniert einen Key-Error. Dies liegt daran, dass Zeilennamen in numpy arrays nicht implementiert sind.

KeyError: "None of [Int64Index([1, 2], dtype='int64')] are in the [columns]"

### iloc, loc

![title](img/slicingOperator.jpg)

#### loc

In [33]:
# Zeilenindizierung
df.loc['ID-123'] # Rückgabeobjekt bei einer Zeile ist eine Series
df.loc[['ID-123']] # Analog zur numpy-Indizierung: Wird eine Liste übergeben, wird ein DataFrame returniert
df.loc[['ID-123'],:] # Gleiche Abfrage wie eine Zeile zuvor, aber expliziter und daher (wie ich finde) stilistisch schöner
df.loc[['ID-123','ID-111'],:] # Rückgabe ist ein DataFrame mit 2 Zeilen

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400
ID-111,Anne,16,deutsch,0


In [39]:
# Spaltenindizierung
df.loc[:,'Name'] # Rückgabe ist eine Series
df.loc[:,['Name']] # Rückgabe ist ein DataFrame
df.loc[:,'Name':'Nationalität'] # Spannweitenindizierung auch über die Label möglich. Rückgabe ist ein DataFrame (wie obige Zeile)

Unnamed: 0,Name,Alter,Nationalität
ID-123,Peter,34,deutsch
ID-462,Karla,53,schweizerisch
ID-111,Anne,16,deutsch
ID-997,Nino,22,italienisch
ID-707,Andrzej,61,polnisch


In [70]:
# Indiziere Zeile und Spalte
df.loc['ID-123','Name'] # Rückgabe ist der *type* der entsprechenden Zelle
#df.loc[['ID-123','ID-111'],'Name'] # Rückgabe ist eine Series
#df.loc[['ID-123','ID-111'],['Name']] # Rückgabe ein ein DataFrame

#df.loc[:'ID-111',] # Alle Zeilen bis einschließlich dem explizit gesuchten Fall

#df.loc[['ID-123','ID-111'],'Name':'Alter'] # Hier wird eine Range angegeben: Von Name bis Alter
df.loc[['ID-123', 'ID-462'],['Name', 'Alter']]


Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53


In [48]:
# Indizierung mit Maske
df.loc[df['Name'] == 'Peter',:]

Unnamed: 0,Name,Alter,Nationalität,Gehalt
ID-123,Peter,34,deutsch,3400


Für den Fall, dass eine Ausschluss-Indizierung vorgenommen werden soll, existiert sowohl für Index- als auch für Spaltenlabel die Methode difference. Ausschluss-Indizierung meint: Alle Zeilen/Spalten nur nicht Zeile/Spalte x.

In [50]:
df.index.difference(['ID-123'])
df.columns.difference(['Name'])

# Beispiel:
df.loc[df.index.difference(['ID-123']), df.columns.difference(['Name'])]

Unnamed: 0,Alter,Gehalt,Nationalität
ID-111,16,0,deutsch
ID-462,53,4000,schweizerisch
ID-707,61,2300,polnisch
ID-997,22,2100,italienisch


#### iloc

In [65]:
# ----- Zeilenindizierung
df.iloc[1,] # --> Rückgabewert ist eine Series
df.iloc[1,:] # --> Gleicher Ausdruck wie obige Zeile, aber explizite Schreibweise 

df.iloc[1:2,:] # --> Wird in der Zeilenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein DataFrame 
df.iloc[[1,2,3],:] # --> Wird in der Zeilenindizierung eine Liste übergeben, ist der Rückgabewert ebenfalls immer ein DataFrame

# ----- Spaltenindizierung
df.iloc[:,1] # --> Rückgabewert ist eine Series
df.iloc[:,0:1] # --> Wird in der Spaltenindizierung der Slicing-Operator verwendet, ist der Rückgabewert immer ein dataframe
df.iloc[:,[0,1]] # --> Wird in der Spaltenindizierung eine Liste übergeben, ist der Rückgabewert immer ein dataframe

#df.iloc[[1,-1],[2,3]] # --> Kombiniert
#df.iloc[-1,::-1] # Letzte Zeile ausgewählt, Reihenfolge der Spalten umgedreht; Rückgabewert ist eine Series
#df.iloc[0:5:2,:] # Gewohnte Zeilenindizierung aus numpy: Zeile 0 bis (exklusive) Zeile 5 mit Schrittweite 2 auswählen.

# Indizierungen mit Masken sind nur über .loc verfügbar.

Unnamed: 0,Name,Alter
ID-123,Peter,34
ID-462,Karla,53
ID-111,Anne,16
ID-997,Nino,22
ID-707,Andrzej,61


### at
Access a single value for a row/column label pair.

In [34]:
# .at erwartet Labels - analog zu .loc
df.at['ID-111','Name']

# Wenn dennoch über Integers abgefragt werden soll, kann dies auf diesem Weg erfolgen:
df.at[df.index[2],df.columns[0]]


'Anne'

## Gemischtwarenladen

Recht häufig kommt es bei der Auswahl von Zeilen und Spalten vor, dass eine Mischform von Integer- und Labelindizierung vorgenommen werden soll. Beispielsweise sollen die Zeilen über ihre Position ausgewählt werden und die Spalten über ihr Label. Um solch eine Mischform in der Indizierung zu nutzen, kann .iloc in Kombination mit der Utility-Methode get_loc() verwendet werden. Die Methode get_loc() existiert sowohl für den Zeilen- als auch für den Spaltenindex.

![title](img/mixing_indexing.jpg)

In [35]:
df.iloc[df.index.get_loc('ID-111'), 0] # Gemischte Indizierung: Zeilenlabel und Spalteninteger
df.iloc[0,df.columns.get_loc('Name')] # Gemischte Indizierung: Zeileninteger und Spaltenlabel

# Den Methoden get_loc() für Index und Spalten kann keine Liste von Werten übergeben werden. Für die Suche nach mehreren Positionen kann folgende Technik verwendet werden: 
label = ['ID-123', 'ID-111']
integerLocations = [df.index.get_loc(i) for i in label]
df.iloc[integerLocations, 0]

ID-123    Peter
ID-111     Anne
Name: Name, dtype: object

Eine weitere Möglichkeit Integer- und Labelindizierung zu kombinieren, besteht durch das Aneinanderhängen von .loc und .iloc:

In [36]:
df.loc[:,['Name','Gehalt']].iloc[0:2,:]
df.iloc[0:2,:].loc[:,['Name','Gehalt']]


Unnamed: 0,Name,Gehalt
ID-123,Peter,3400
ID-462,Karla,4000


Eine weitere Methode um auf DataFrames zu indizieren, ist der in Python standardmäßig implementierte Access-Operator (.). Da es sich bei den Spalten eines DataFrames um Attribute handelt, können diese entsprechend über den gewohnten Attribute-Access mit df.ColumnName abgerufen werden. Auch hierbei handelt es sich um eine Indizierungstechnik: Wir filtern Daten über die explizite Ansprache der einzelner Spalten. Der Attribute-Access sollte allerdings nur dazu verwendet werden, Subsets aus dem DataFrame abzufragen. Für Zuweisungen sollen .iloc und .loc verwendet werden.

In [37]:
df.Name # --> Rückgabewert ist ein Series

ID-123      Peter
ID-462      Karla
ID-111       Anne
ID-997       Nino
ID-707    Andrzej
Name: Name, dtype: object

Welche dieser Methoden ist zu bevorzugen?
Grundsätzlich sind die Properties .iloc und .loc gegenüber den anderen Verfahren zu bevorzugen – auch wenn man bei dieser Aussage Einschräkungen machen muss.


## Über einen DataFrame iterieren

In [74]:
for index, row in df.iterrows():
    print(row['Name'], row['Alter'])

Peter 34
Karla 53
Anne 16
Nino 22
Andrzej 61


In [75]:
list(df)

['Name', 'Alter', 'Nationalität', 'Gehalt']

In [76]:
df.index.values

array(['ID-123', 'ID-462', 'ID-111', 'ID-997', 'ID-707'], dtype=object)