# Dataframes Handling

**Inhalt:** Ein bessere Gefühl dafür erhalten, wie Dataframes aufgebaut sind und wie man damit umgeht

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Verschiedene Konstruktur-Methoden für Dataframes kennenlernen
- Wie Series und Dataframes zusammenspielen
- Der Index und verschiedene Arten, ihn zu referenzieren
- Spalten und Zeilen hinzufügen und löschen
- Aufmerksamkeit schärfen für Dinge wie `inplace=True`

## Vorbereitung

In [1]:
import pandas as pd

## Dataframes konstruieren

Man kann Daten nicht nur aus Dateien in ein Dataframe laden, sondern auch aus anderen Datenstrukturen. Es gibt gefühlt 1000 Arten, ein Dataframe zu konstruieren.

Einige Beispiele dazu finden sich hier: https://pandas.pydata.org/pandas-docs/stable/dsintro.html

Eine Referenz zur Funktion `DataFrame()` findet sich hier: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html. An diesem Ort sind übrigens auch alle Methoden verzeichnet, die auf DataFrame-Objekte angewandt werden können.

Wir schauen uns hier eine kleine Auswahl davon an.

### Dataframe aus Dictionaries erstellen

Daten können aus verschiedenen Quellen kommen. Aus Dateien, oder zB auch von gescrapten Webseiten.

Nehmen wir mal an, wir haben Daten von einer Social Media Seite zusammengestellt, und sie liegen nun Form von Dictionaries vor.

Wie können wir damit in Pandas arbeiten?

In [2]:
person1 = {'Name': 'Peter', 'Groesse': 180, 'Alter': 30}
person2 = {'Name': 'Paul', 'Groesse': 176, 'Alter': 44}
person3 = {'Name': 'Maria', 'Groesse': 165, 'Alter': 25}
person1

{'Alter': 30, 'Groesse': 180, 'Name': 'Peter'}

Schritt 1: Wir machen daraus eine "Liste von Dictionaries":

In [3]:
l = [person1, person2, person3]
l

[{'Alter': 30, 'Groesse': 180, 'Name': 'Peter'},
 {'Alter': 44, 'Groesse': 176, 'Name': 'Paul'},
 {'Alter': 25, 'Groesse': 165, 'Name': 'Maria'}]

Schritt 2: Wir machen aus der Liste ein Dataframe:

In [4]:
df = pd.DataFrame(l)

Die einzelnen Einträge in der Liste sind nun die *Zeilen* in der Tabelle:

In [5]:
df

Unnamed: 0,Alter,Groesse,Name
0,30,180,Peter
1,44,176,Paul
2,25,165,Maria


### Dataframe aus Listen erstellen

Vielleicht sind wir aber auch auf anderem Weg an diese Daten gekommen.

Und wir haben nun eine Liste von Personen sowie von deren Attributen, statt ein Dictionary.

In [6]:
namen = ['Peter', 'Paul', 'Maria']
groesse = [180, 176, 165]
alter = [30, 44, 25]

Schritt 1: Wir machen ein "Dictionary von Listen" daraus. 

In [7]:
d = {'Name': namen, 'Groesse': groesse, 'Alter': alter}
d

{'Alter': [30, 44, 25],
 'Groesse': [180, 176, 165],
 'Name': ['Peter', 'Paul', 'Maria']}

Schritt 2: Wir machen aus dem Dictionary ein Dataframe

In [8]:
df = pd.DataFrame(d)

Die einzelnen Einträge im Dictionary sind nun die *Spalten* in unserer Tabelle:

In [9]:
df

Unnamed: 0,Name,Groesse,Alter
0,Peter,180,30
1,Paul,176,44
2,Maria,165,25


**Note:** Wichtig ist nicht unbedingt, diese Techniken auswendig zu können. Sondern einfach zu wissen: `DataFrame()` ist eine sehr vielseitige Funktion, man kann fast alles darin reinfüttern.

Falls das Resultat nicht so herauskommt, wie gewünscht, ist die Chance gross, dass sich eine andere Variante findet, wie man aus irgendwelchen Datenstrukturen ein Dataframe erhält. Es gibt zB auch:

- pd.DataFrame.from_dict()
- pd.DataFrame.from_records()
- pd.DataFrame.from_items()

Im Zweifelsfall: Dokumentation konsultieren, Beispiele anschauen, ausprobieren!

Dataframes kann man auch aus Serien generieren.

### Serien

Was sind schon wieder Serien? Ach ja: Es ist das, was herauskommt, wenn man einzelne Spalten eines Dataframes herauszieht.

In [10]:
df['Name']

0    Peter
1     Paul
2    Maria
Name: Name, dtype: object

Serien sind ganz einfach gesagt eine Art von indexierten Listen.

Wir kann sie ähnlich wie Dataframes auch from Scratch konstruieren – mittels `pd.Series()`

In [11]:
s = pd.Series(['Peter', 'Paul', 'Maria'])
s

0    Peter
1     Paul
2    Maria
dtype: object

Der Index muss übrigens nicht zwingend aus einer Zahlenreihe bestehen.

In [12]:
s = pd.Series(['Peter', 'Paul', 'Maria'], index=['a', 'b', 'c'])
s

a    Peter
b     Paul
c    Maria
dtype: object

Series sind ähnlich wie Listen, aber auch ähnlich wie Dictionaries. Man kann basierend auf dem Index zB einzelne Elemente aufrufen

In [13]:
s['a']

'Peter'

... oder auch andere, lustige Auswahloperationen machen

In [14]:
s['b':]

b     Paul
c    Maria
dtype: object

Eine Reihe von Serien zu einem Dataframe zusammenzufügen, funktioniert sehr ähnlich wie mit Listen.

### Dataframe aus Series erstellen

Nehmen wir also an, unsere Daten liegen in Form von Listen vor:

In [15]:
s_name = pd.Series(['Peter', 'Paul', 'Maria'])
s_groesse= pd.Series([180, 176, 165])
s_alter= pd.Series([30, 44, 25])

In [16]:
s_name

0    Peter
1     Paul
2    Maria
dtype: object

In [17]:
s_groesse

0    180
1    176
2    165
dtype: int64

In [18]:
s_alter

0    30
1    44
2    25
dtype: int64

Um die drei Serien zu einem Dataframe zu machen, gehen wir ähnlich vor wie zuvor.

Schirtt 1: Wir basteln einen Dictionary aus den Serien:

In [19]:
d = {"Name": s_name, "Groesse": s_groesse, "Alter": s_alter}
d

{'Alter': 0    30
 1    44
 2    25
 dtype: int64, 'Groesse': 0    180
 1    176
 2    165
 dtype: int64, 'Name': 0    Peter
 1     Paul
 2    Maria
 dtype: object}

Schritt 2: Wir kontstruieren aus dem Dictionary ein Dataframe

In [20]:
pd.DataFrame(d)

Unnamed: 0,Name,Groesse,Alter
0,Peter,180,30
1,Paul,176,44
2,Maria,165,25


### Dataframes aus mühsamen Strukturen erstellen

Nehmen wir mal an, unsere Daten liegen in einer etwas merkwürdigen Form vor (merkwürdig zB deshalb, weil man normalerweise den Inhalt eines Datenfeldes ("Peter") nicht als Variablennamen verwenden würde):

In [21]:
Peter = {'Groesse': 180, 'Alter': 30}
Paul = {'Groesse': 176, 'Alter': 44}
Maria = {'Groesse': 165, 'Alter': 25}

In [22]:
Peter

{'Alter': 30, 'Groesse': 180}

Eine Variante, um ein Dataframe zu erstellen, könnte so funktionieren:

In [23]:
df = pd.DataFrame([Peter, Paul, Maria], index=['Peter', 'Paul', 'Maria'])
df

Unnamed: 0,Alter,Groesse
Peter,30,180
Paul,44,176
Maria,25,165


Wir haben nun eine etwas anders aufgebaute Tabelle. Die Index-Spalte besteht nicht mehr aus Zahlen, sondern aus den Werten in einer bestimmten Spalte.

Wir schauen uns nun die Index-Spalte etwas genauer an.


### Mit dem Index arbeiten

Wir haben bereits kennengelernt, wie man die Werte einer einzelnen Spalte herausziehen kann:

In [24]:
df['Alter']

Peter    30
Paul     44
Maria    25
Name: Alter, dtype: int64

Mit einzelnen Zeilen funktioniert es ähnlich, allerdings brauchen wir dazu noch eine spezielle Syntax: `df.loc[]`

In [25]:
df.loc['Peter']

Alter       30
Groesse    180
Name: Peter, dtype: int64

`df.loc['Peter']` funktioniert, weil es eine Zeile gibt, die den Indexwert "Peter" hat.

Falls nötig, können wir eine bestimmte Zeile aber auch jederzeit mit einem Integer-Zahlenwert referenzieren.

Dafür gibt es die Syntax `df.iloc[]` - die Zählung startet bei null, nicht bei eins.

In [26]:
df.iloc[0]

Alter       30
Groesse    180
Name: Peter, dtype: int64

Wollen wir nur bestimmte Spaltenwerte anzeigen, funktioniert das so:

In [27]:
df.loc['Peter', 'Alter']

30

Diese Syntax dient übrigens auch dazu, Werte zu überschreiben:

In [28]:
df.loc['Peter', 'Alter'] = 60

Peter ist nun nicht mehr 30, sondern 60 Jahre alt.

In [29]:
df

Unnamed: 0,Alter,Groesse
Peter,60,180
Paul,44,176
Maria,25,165


**Achtung:** Das hier funktioniert übrigens nicht: (Warum nicht?)

In [30]:
df[df['Alter'] == 60]['Alter'] = 30

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [31]:
df

Unnamed: 0,Alter,Groesse
Peter,60,180
Paul,44,176
Maria,25,165


Im allgemeinen ist es allerdings unschön, bestimmte Datenfelder als Index zu verwenden - könnte ja sein, dass zwei Leute Peter heissen, das gäbe an irgendeinem Punkt ziemlich sicher einen Fehler.

Um das zu ändern, gibt es eine einfache Funktion: `reset_index()`

Nun haben wir einen neuen Index (**fett**), und die Namen wurden in eine separate Spalte kopiert.

In [32]:
df = df.reset_index()
df

Unnamed: 0,index,Alter,Groesse
0,Peter,60,180
1,Paul,44,176
2,Maria,25,165


Das Problem ist, die Spalte mit den Namen heisst jetzt "index"...

Um das zu ändern, benutzen wir `df.rename()` und geben einen Dictionary mit auf den Weg, der die zu ändernden Spaltennamen beinhaltet.

In [33]:
df.rename(columns={'index': 'Name'})

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176
2,Maria,25,165


**Achtung:** Wie die meisten Funktionen bei Pandas, ändert `df.rename()` nicht das Dataframe selbst, sondern spuckt ein neues Dataframe aus.

Um die Änderung zu speichern, haben wir zwei Optionen:

a) Wir speichern das retournierte Dataframe unter demselben oder unter einem neuen Namen (`df2`) ab:

In [34]:
df_2 = df.rename(columns={'index': 'Name'})
df_2

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176
2,Maria,25,165


b) Wir verwenden das Argument `inplace=True`, das so viel bedeutet wie: "mach das gleich an Ort und Stelle".

In [35]:
df.rename(columns={'index': 'Name'}, inplace=True)
df

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176
2,Maria,25,165


`inplace=True` funktioniert übrigens auch mit einigen anderen Funktionen, z.B. auch mit `df.reset_index()`

In [36]:
df.reset_index(inplace=True)

In [37]:
df

Unnamed: 0,index,Name,Alter,Groesse
0,0,Peter,60,180
1,1,Paul,44,176
2,2,Maria,25,165


Oops! Nun haben wir bereits eine Spalte zu viel drin, die wir gar nicht wollen.

Macht nix, wir werfen sie einfach wieder raus. Und zwar mit `pop()`

In [38]:
df.pop('index')

0    0
1    1
2    2
Name: index, dtype: int64

In [39]:
df

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176
2,Maria,25,165


**Note:** Anders als zuvor hat `df.pop()` gleich an Ort und Stelle die Spalte rausgeworfen, statt ein neues Dataframe auszuspucken. Das Default-Verhalten ist über Pandas hinweg nicht ganz konsistent: Manchmal gilt `inplace=True` automatisch, manchmal nicht.

Wir können übrigens auch einzelne Zeilen rauswerfen, basierend auf dem Index der Zeile:

In [40]:
df.drop([2], inplace=True)
df

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176


Falls wir den Index nicht kennen, suchen wir ihn, und zwar mit dem Attribut `.index`

In [41]:
df.drop(df[df['Name'] == 'Paul'].index, inplace=True)
df

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180


Zu viel gelöscht? Egal, fügen wir die Zeile einfach wieder hinzu, und zwar mit `df.append()`

In [42]:
Paul = pd.Series({'Alter': 44, 'Groesse': 176, 'Name': 'Paul'})

In [43]:
Paul

Alter        44
Groesse     176
Name       Paul
dtype: object

In [44]:
df = df.append(Paul, ignore_index=True)
df

Unnamed: 0,Name,Alter,Groesse
0,Peter,60,180
1,Paul,44,176


Und zu guter letzt, falls wir doch wieder die Namen als Index wollen: `df.set_index()`

In [45]:
df.set_index('Name', inplace=True)

In [46]:
df

Unnamed: 0_level_0,Alter,Groesse
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Peter,60,180
Paul,44,176


**Achtung:** Was nicht funktioniert, ist diese Zeile hier: (warum?)

In [47]:
#df2 = df.set_index('Alter', inplace=True)

**Note:** Die Index-Spalte hat jetzt einen ganz bestimmten Namen: "Name". Wir können diesen Namen auch löschen, und zwar mit `df.rename_axis()`:

In [56]:
df.rename_axis(None, inplace=True)

In [57]:
df

Unnamed: 0,Alter,Groesse
Peter,60,180
Paul,44,176


## Schluss

Es ist nicht wichtig, dass ihr jede dieser Funktionen auswendig könnt und genau wisst, wie man sie anwenden muss, ob inplace=True oder nicht.

Wichtig ist aber:

- Seid euch bewusst, dass es für fast alles, was man mit einem Dataframe anstellen will, in Pandas eine Funktion gibt
- Falls ihr den Namen der gesuchten Funktion nicht kennt: Googelt einfach. Die Chance ist gross, dass ihr schnell fündig werdet
- In der Dokumentation (zB über Google auffindbar: "Pandas set index") steht immer, welche Argumente eine Funktion nimmt
- Sonst einfach ausprobieren. Falls irgendwas komplett falsch läuft, einfach den Kernel nochmals starten und alles nochmal ausführen