# Pandas Teil 2

In diesem Teil sollen noch einige weitere Features von Pandas besprochen werden, darunter hauptsächlich die Fähigkeiten von Pandas rund um das Gruppieren von Daten

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Fehlende Werte

Pandas hat eine Reihe von nützlichen Features zum Umgang mit fehlenden Werten - in Python werden diese meist als NaN codiert:

In [None]:
# Kombinieren von Datensätzen - Umgang mit fehlenden Werten
df1 = pd.DataFrame({'A': [1., np.nan, 3., 5., np.nan],
                    'B': [np.nan, 2., 3., np.nan, 6.]})

df2 = pd.DataFrame({'A': [5., 2., 4., np.nan, 3., 7.],
                    'B': [np.nan, np.nan, 3., 4., 6., 8.]})

print(df1)
print(df2)

In [None]:
# Zeilen mit fehlenden Werten wegwerfen

In [None]:
# Zeilen auffüllen mit anderem Wert

In [None]:
# Fehlende Werte interpolieren

In [None]:
# fehlende Werte aus anderer Tabelle auffüllen

## Daten gruppieren

Das Gruppieren von Daten in Pandas ist einfach zu verstehen, wenn man schon Gruppierungen in SQL gesehen hat. Zeilen werden bei der Gruppierung aufgrund eines Gruppenkriteriums zusammengefasst (z.B. gleiche Werte in einer bestimmten Spalte), und für die anderen Spalten wird eine Aggregatsfunktion angegeben, die vorgibt, wie die zusammengruppierten Werte zusammengefasst (= _aggregiert_) werden.

Beispiele:

In [None]:
df = pd.DataFrame({
    "projekt": [1,1,2,2,2],
    "art": ["Telefon", "Reise", "Telefon", "Reise", "Büromaterial"],
    "betrag": [50, 129, 34, 340, 12.99]
})
df

Verschiedene Schreibweisen der Aggregation:

Wir können dem Gruppierungsprozess zusehen, wenn wir eigene Funktionen für Gruppierung und Aggregation übergeben:

In [None]:
def gruppierung(i):
    print("Gruppierung von Zeile", i)
    return df.loc[i].projekt

def aggregation(a):
    print("Aggregation")
    print(a)
    return np.sum(a)



Welche Funktionen sind Aggregatsfunktionen? Die Dokumentation listet sie auf:
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#aggregation

Betrachten wir das Objekt, welches wir nach dem Aufruf von `groupby` erhalten.

Dieses Objekt kann genutzt werden, um Gruppen zu durchlaufen, einzelne Gruppen zu erhalten oder verschiedene Aggregierungsfunktionen nacheinander aufzurufen:

In [None]:
# Iteration

In [None]:
# eine Gruppe holen

In [None]:
# descritive Statistik einer Gruppe

In [None]:
# Aggregation (z.B. minimum)

In [None]:
# Aggregation (z.B. max)

In [None]:
# Mehrfach-Aggregation

In [None]:
# Aggregation: Summe

In [None]:
# Gruppierung kann auch bei Plots eingesetzt werden

## pivot und melt

Betrachten wir folgende Tabelle:

In [None]:
N = 10
rng = np.arange(N)

# ein paar Sensorwerte
df = pd.DataFrame({
    "time": pd.date_range('2018-07-09 10:00', periods=N, freq='10min'),
    "sensor1": np.sin(rng/5)+0.1*np.random.randn(N),
    "sensor2": np.sin(rng/3)+0.05*np.random.randn(N),
    "sensor3": np.cos(rng/3)+0.2*np.random.randn(N)
})

df

In [None]:
df.plot(x='time', y=['sensor1', 'sensor2', 'sensor3']);

Mit `melt` können wir Spalten in Zeilen umwandeln. Der erste Parameter von `melt` ist eine Spalte oder eine Lsite von Spalten die erhalten bleiben sollen. 

Dabei wird jede Spalte, die nicht erhalten bleiben soll, in eine Liste `(variable, value)` umgewandelt.

In [None]:
df.melt('time')

Die umgekehrte Operation heisst `pivot`:

In [None]:
df.melt('time').pivot(['sensor1'])

## Pivottabellen

Jetzt da wir die Pivot-Operation kennen, können wir uns auch eine Pivot-Tabelle erzeugen - es ist im Wesentlichen eine Pivot-Operation mit einer Gruppierung und einer Aggregation - ein einfaches Beispiel mit unserer Kostentabelle:

In [None]:
df_costs = pd.DataFrame({
    "projekt": [1,1,2,2,2],
    "art": ["Telefon", "Reise", "Telefon", "Reise", "Büromaterial"],
    "betrag": [50, 129, 34, 340, 12.99]
})


Mit unserer Sensortabelle können wir ein interessanteres Beispiel machen:

## Übung

Bearbeiten Sie in 2er-Teams die Übung "Pandas Übung 2".