# Dataframes Handling

**Inhalt:** Ein bessere Gefühl dafür erhalten, wie Dataframes aufgebaut sind und wie man damit umgeht

**Nötige Skills:** Erste Schritte mit Pandas

**Lernziele:**
- Verschiedene Konstruktur-Methoden für Dataframes kennenlernen
- Wie Series und Dataframes zusammenspielen
- Der Index und verschiedene Arten, ihn zu referenzieren
- Spalten und Zeilen hinzufügen und löschen
- Aufmerksamkeit schärfen für Dinge wie `inplace=True`

## Vorbereitung

In [None]:
import pandas as pd

## Dataframes konstruieren

Man kann Daten nicht nur aus Dateien in ein Dataframe laden, sondern auch aus anderen Datenstrukturen. Es gibt gefühlt 1000 Arten, ein Dataframe zu konstruieren.

Einige Beispiele dazu finden sich hier: https://pandas.pydata.org/pandas-docs/stable/dsintro.html

Eine Referenz zur Funktion `DataFrame()` findet sich hier: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html. An diesem Ort sind übrigens auch alle Methoden verzeichnet, die auf DataFrame-Objekte angewandt werden können.

Wir schauen uns hier eine kleine Auswahl davon an.

### Dataframe aus Dictionaries erstellen

Daten können aus verschiedenen Quellen kommen. Aus Dateien, oder zB auch von gescrapten Webseiten.

Nehmen wir mal an, wir haben Daten von einer Social Media Seite zusammengestellt, und sie liegen nun Form von Dictionaries vor.

Wie können wir damit in Pandas arbeiten?

In [None]:
person1 = {'Name': 'Peter', 'Groesse': 180, 'Alter': 30}
person2 = {'Name': 'Paul', 'Groesse': 176, 'Alter': 44}
person3 = {'Name': 'Maria', 'Groesse': 165, 'Alter': 25}
person1

Schritt 1: Wir machen daraus eine "Liste von Dictionaries":

In [None]:
l = [person1, person2, person3]
l

Schritt 2: Wir machen aus der Liste ein Dataframe:

In [None]:
df = pd.DataFrame(l)

Die einzelnen Einträge in der Liste sind nun die *Zeilen* in der Tabelle:

In [None]:
df

### Dataframe aus Listen erstellen

Vielleicht sind wir aber auch auf anderem Weg an diese Daten gekommen.

Und wir haben nun eine Liste von Personen sowie von deren Attributen, statt ein Dictionary.

In [None]:
namen = ['Peter', 'Paul', 'Maria']
groesse = [180, 176, 165]
alter = [30, 44, 25]

Schritt 1: Wir machen ein "Dictionary von Listen" daraus. 

In [None]:
d = {'Name': namen, 'Groesse': groesse, 'Alter': alter}
d

Schritt 2: Wir machen aus dem Dictionary ein Dataframe

In [None]:
df = pd.DataFrame(d)

Die einzelnen Einträge im Dictionary sind nun die *Spalten* in unserer Tabelle:

In [None]:
df

**Note:** Wichtig ist nicht unbedingt, diese Techniken auswendig zu können. Sondern einfach zu wissen: `DataFrame()` ist eine sehr vielseitige Funktion, man kann fast alles darin reinfüttern.

Falls das Resultat nicht so herauskommt, wie gewünscht, ist die Chance gross, dass sich eine andere Variante findet, wie man aus irgendwelchen Datenstrukturen ein Dataframe erhält. Es gibt zB auch:

- pd.DataFrame.from_dict()
- pd.DataFrame.from_records()
- pd.DataFrame.from_items()

Im Zweifelsfall: Dokumentation konsultieren, Beispiele anschauen, ausprobieren!

Dataframes kann man auch aus Serien generieren.

### Serien

Was sind schon wieder Serien? Ach ja: Es ist das, was herauskommt, wenn man einzelne Spalten eines Dataframes herauszieht.

In [None]:
df['Name']

Serien sind ganz einfach gesagt eine Art von indexierten Listen.

Wir kann sie ähnlich wie Dataframes auch from Scratch konstruieren – mittels `pd.Series()`

In [None]:
s = pd.Series(['Peter', 'Paul', 'Maria'])
s

Der Index muss übrigens nicht zwingend aus einer Zahlenreihe bestehen.

In [None]:
s = pd.Series(['Peter', 'Paul', 'Maria'], index=['a', 'b', 'c'])
s

Series sind ähnlich wie Listen, aber auch ähnlich wie Dictionaries. Man kann basierend auf dem Index zB einzelne Elemente aufrufen

In [None]:
s['a']

... oder auch andere, lustige Auswahloperationen machen

In [None]:
s['b':]

Eine Reihe von Serien zu einem Dataframe zusammenzufügen, funktioniert sehr ähnlich wie mit Listen.

### Dataframe aus Series erstellen

Nehmen wir also an, unsere Daten liegen in Form von Listen vor:

In [None]:
s_name = pd.Series(['Peter', 'Paul', 'Maria'])
s_groesse= pd.Series([180, 176, 165])
s_alter= pd.Series([30, 44, 25])

In [None]:
s_name

In [None]:
s_groesse

In [None]:
s_alter

Um die drei Serien zu einem Dataframe zu machen, gehen wir ähnlich vor wie zuvor.

Schirtt 1: Wir basteln einen Dictionary aus den Serien:

In [None]:
d = {"Name": s_name, "Groesse": s_groesse, "Alter": s_alter}
d

Schritt 2: Wir kontstruieren aus dem Dictionary ein Dataframe

In [None]:
pd.DataFrame(d)

### Dataframes aus mühsamen Strukturen erstellen

Nehmen wir mal an, unsere Daten liegen in einer etwas merkwürdigen Form vor (merkwürdig zB deshalb, weil man normalerweise den Inhalt eines Datenfeldes ("Peter") nicht als Variablennamen verwenden würde):

In [None]:
Peter = {'Groesse': 180, 'Alter': 30}
Paul = {'Groesse': 176, 'Alter': 44}
Maria = {'Groesse': 165, 'Alter': 25}

In [None]:
Peter

Eine Variante, um ein Dataframe zu erstellen, könnte so funktionieren:

In [None]:
df = pd.DataFrame([Peter, Paul, Maria], index=['Peter', 'Paul', 'Maria'])
df

Wir haben nun eine etwas anders aufgebaute Tabelle. Die Index-Spalte besteht nicht mehr aus Zahlen, sondern aus den Werten in einer bestimmten Spalte.

Wir schauen uns nun die Index-Spalte etwas genauer an.


### Mit dem Index arbeiten

Wir haben bereits kennengelernt, wie man die Werte einer einzelnen Spalte herausziehen kann:

In [None]:
df['Alter']

Mit einzelnen Zeilen funktioniert es ähnlich, allerdings brauchen wir dazu noch eine spezielle Syntax: `df.loc[]`

In [None]:
df.loc['Peter']

`df.loc['Peter']` funktioniert, weil es eine Zeile gibt, die den Indexwert "Peter" hat.

Falls nötig, können wir eine bestimmte Zeile aber auch jederzeit mit einem Integer-Zahlenwert referenzieren.

Dafür gibt es die Syntax `df.iloc[]` - die Zählung startet bei null, nicht bei eins.

In [None]:
df.iloc[0]

Wollen wir nur bestimmte Spaltenwerte anzeigen, funktioniert das so:

In [None]:
df.loc['Peter', 'Alter']

Diese Syntax dient übrigens auch dazu, Werte zu überschreiben:

In [None]:
df.loc['Peter', 'Alter'] = 60

Peter ist nun nicht mehr 30, sondern 60 Jahre alt.

In [None]:
df

**Achtung:** Das hier funktioniert übrigens nicht: (Warum nicht?)

In [None]:
df[df['Alter'] == 60]['Alter'] = 30

In [None]:
df

Im allgemeinen ist es allerdings unschön, bestimmte Datenfelder als Index zu verwenden - könnte ja sein, dass zwei Leute Peter heissen, das gäbe an irgendeinem Punkt ziemlich sicher einen Fehler.

Um das zu ändern, gibt es eine einfache Funktion: `reset_index()`

Nun haben wir einen neuen Index (**fett**), und die Namen wurden in eine separate Spalte kopiert.

In [None]:
df = df.reset_index()
df

Das Problem ist, die Spalte mit den Namen heisst jetzt "index"...

Um das zu ändern, benutzen wir `df.rename()` und geben einen Dictionary mit auf den Weg, der die zu ändernden Spaltennamen beinhaltet.

In [None]:
df.rename(columns={'index': 'Name'})

**Achtung:** Wie die meisten Funktionen bei Pandas, ändert `df.rename()` nicht das Dataframe selbst, sondern spuckt ein neues Dataframe aus.

Um die Änderung zu speichern, haben wir zwei Optionen:

a) Wir speichern das retournierte Dataframe unter demselben oder unter einem neuen Namen (`df2`) ab:

In [None]:
df_2 = df.rename(columns={'index': 'Name'})
df_2

b) Wir verwenden das Argument `inplace=True`, das so viel bedeutet wie: "mach das gleich an Ort und Stelle".

In [None]:
df.rename(columns={'index': 'Name'}, inplace=True)
df

`inplace=True` funktioniert übrigens auch mit einigen anderen Funktionen, z.B. auch mit `df.reset_index()`

In [None]:
df.reset_index(inplace=True)

In [None]:
df

Oops! Nun haben wir bereits eine Spalte zu viel drin, die wir gar nicht wollen.

Macht nix, wir werfen sie einfach wieder raus. Und zwar mit `pop()`

In [None]:
df.pop('index')

In [None]:
df

**Note:** Anders als zuvor hat `df.pop()` gleich an Ort und Stelle die Spalte rausgeworfen, statt ein neues Dataframe auszuspucken. Das Default-Verhalten ist über Pandas hinweg nicht ganz konsistent: Manchmal gilt `inplace=True` automatisch, manchmal nicht.

Wir können übrigens mit `drop()` auch einzelne Zeilen rauswerfen, basierend auf dem Index der Zeile:

In [None]:
df.drop([2], inplace=True)
df

Falls wir den Index nicht kennen, suchen wir ihn, und zwar mit dem Attribut `.index`

In [None]:
df.drop(df[df['Name'] == 'Paul'].index, inplace=True)
df

Zu viel gelöscht? Egal, fügen wir die Zeile einfach wieder hinzu, und zwar mit `df.append()`

In [None]:
Paul = pd.Series({'Alter': 44, 'Groesse': 176, 'Name': 'Paul'})

In [None]:
Paul

In [None]:
df = df.append(Paul, ignore_index=True)
df

Und zu guter letzt, falls wir doch wieder die Namen als Index wollen: `df.set_index()`

In [None]:
df.set_index('Name', inplace=True)

In [None]:
df

**Achtung:** Was nicht funktioniert, ist diese Zeile hier: (warum?)

In [None]:
#df2 = df.set_index('Alter', inplace=True)

**Note:** Die Index-Spalte hat jetzt einen ganz bestimmten Namen: "Name". Wir können diesen Namen auch löschen, und zwar mit `df.rename_axis()`:

In [None]:
df.rename_axis(None, inplace=True)

In [None]:
df

## Schluss

Es ist nicht wichtig, dass ihr jede dieser Funktionen auswendig könnt und genau wisst, wie man sie anwenden muss, ob inplace=True oder nicht.

Wichtig ist aber:

- Seid euch bewusst, dass es für fast alles, was man mit einem Dataframe anstellen will, in Pandas eine Funktion gibt
- Falls ihr den Namen der gesuchten Funktion nicht kennt: Googelt einfach. Die Chance ist gross, dass ihr schnell fündig werdet
- In der Dokumentation (zB über Google auffindbar: "Pandas set index") steht immer, welche Argumente eine Funktion nimmt
- Sonst einfach ausprobieren. Falls irgendwas komplett falsch läuft, einfach den Kernel nochmals starten und alles nochmal ausführen