# Pandas

Pandas ist eine im Moment sehr beliebte Library zur Datenanalyse in Python - während NumPy eher als _low-level_ Library gilt, erlaubt Pandas das Bearbeiten von Daten auf einer höheren Abstraktionsebene. Wichtigste Datenstruktur ist dabei das _DataFrame_, welches tabellarische Daten verwaltet. Die Daten selbst werden von Pandas meist in Numpy-Arrays gespeichert.

Importieren wir zunächst pandas:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## DataFrames


Erzeugen wir zunächst ein `DataFrame`-Objekt, eine einfache Tabelle:

In [None]:
df = pd.DataFrame({
    'nr': [6,3,2,7,10,11],
    'product': ['A', 'B', 'C', 'D', 'E', 'F'],
    'quantity': np.array([34, 22, 70, 2, 0,4], dtype='uint8'),
    'price': [10.99, 12.50, 105, 9.99, 12.95, 10.00],
    'available': True
})

In [None]:
# Anzeige der Tabelle
df

Für Tabellen stehen zunächst eine Reihe von Methoden zur Verfügung, die uns etwas Information über die Tabelle lieferen:

In [None]:
# generelle Informationen für das DataFrame
df.info()

In [None]:
# Datentypen der Spalten
df.dtypes

In [None]:
# die ersten 5 Zeilen
df.head()

# oder die ersten 2 Zeilen
# df.head(2)

In [None]:
# ...letzte 5
df.tail()

In [None]:
# Spaltennamen
df.columns

In [None]:
# Größe der Tabelle
df.shape

In [None]:
# Tabelle in NumPy-Array umwandeln
df.to_numpy()

In [None]:
# Datentypen der Spalten
df.dtypes

## Zugriff auf Zeilen und Spalten
Pandas hat eine ganze Reihe von Wegen, wie Zeilen oder Spalten addressiert werden können:

In [None]:
# Zugriff eine einzelne Spalte als Attribut des DataFrames
# - nur lesend und 
# - nur wenn die Spalte einen Namen hat, der auch ein gültiger Python-Identifier ist

In [None]:
df.nr
# oder
# df.quantity
# Was ist mit df.product?

Wir erhalten hier ein `Series`-Objekt zurück - wie ein DateFrame hat ein `Series`-Objekt auch einen Index, allerdings entspricht eine `Series` einer einzelnen Datenspalte:

In [None]:
type(df.nr)

Über eckigen Klammern können wir ebenfalls Teile der Tabelle auswählen:

In [None]:
# Zugriff über Spaltennamen als String - einzelne Spalte
df['product']


In [None]:
# Zugriff über Spaltennamen als String - mehrere Spalten
df[['product', 'quantity']]

In [None]:
# mit einem Slice werden Zeilen (nach Zeilennummer) addressiert:
df[0:2]

# oder alle Zeilen rückwärts
df[::-1]

## Index

Bisher haben wir mit dem automatisch generierten Index gearbeitet, welcher die Zeilen von 0 bis n durchnummeriert hat. Häufig beinhaltet eine Spalte bereits einen eindeutigen Index, diesen können wir nutzen, hier z.B. die Produktnummer:

In [None]:
# nr-Spalte als Index setzen und danach nach nr sortieren
df_with_index = df.set_index('nr').sort_index()
df_with_index

In [None]:
# oder: inplace ändern
# df.set_index('nr', inplace=True)

DataFrames haben immer einen Index, ohne weitere Angaben ist dieser zunächst die Zeilennummerierung. Wir können jederzeit mit `set_index` neu indizieren, oder den aktuellen Index mit `reset_index` verwerden. Beide Methode liefern jeweils ein neues DataFrame zurück.

## .loc

Die Methode `loc` dient zum Indizieren von Zeilen und Spalten mit Spaltennamen und Indexwerten:

In [None]:
df_with_index.loc[3:10, ['product', 'price']]

In [None]:
# Übung: Selektieren Sie alle Zeilen mit einer nr >= 10, und die Spalten quantity und price

In [None]:
# Übung: Selektieren Sie die Zeilen mit nr == 3 und nr == 7

## .iloc

Die Methode `iloc` dient zum Indizieren von Zeilen und Spalten mit Position:

In [None]:
print(df_with_index.iloc[0, 0])
df_with_index.iloc[0:2, 0:3]

In [None]:
# Übung: Wie kann man mit `loc` oder `iloc` das gleiche Ergebnis erhalten wie mit `df['quantity']`?

# at, iat

Zugriffsmethoden, die einen einzelnen Wert zurückliefern (etwas schneller):

In [None]:
print(df.at[1, 'price'])
print(df.iat[0,0])

## Stichproben

Mit `sample` können wir Stichproben ziehen:

In [None]:
# drei zufällige Zeilen
df.sample(3)

In [None]:
# drei zufällige Spalten
df.sample(3, axis=1)

In [None]:
# 30% des Datensatzes zufällig auswählen
df.sample(frac=0.3)

## Auswahl nach Kriterien

Wie schon in Numpy können wir in Pandas ebenfalls Vergleichsoperationen auf den ganzen Datensatz oder eine Spalte ausführen, und diese boolsche Ergebnistabelle als Auswahlkriterium nutzen:

In [None]:
# welche Zeilen haben einen Preis > 15.0?
df.price > 15.0

In [None]:
# Welche Zeilen haben quantity < 10
df.quantity < 10

Diese boolschen Ergebnisse können als Index verwendet werden (boolsche Indizierung ähnlich wie Numpy):

In [None]:
# alle Zeilen mit Preis > 15.0
df[df.price > 15.0]

In [None]:
df[df.quantity < 10]

In [None]:
# oder-Verknüpfung: Alle Zeilen mit price < 10 oder quantity > 10
df[(df.price < 10) | (df.quantity > 10)]

In [None]:
# Bestimmte Produkte suchen - isin-Methode
df['product'].isin(['A', 'C', 'D'])

In [None]:
# die where-Methode - filtert auch, aber belässt die Form der Tabelle. Gefilterte Zeilen werden zu "missing values"
df.where(df.price < 10)


## Deskriptive Statistik, Aggregationen

Für Spalten, aber auch für den gesamten Datensatz gibt es viele vordefinierte Funktionen:
https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#descriptive-statistics

In [None]:
df.count()

# oder df['product'].count()

In [None]:
# Minimum / Maximum
df.min()

# df.price.min()
# df.quantity.min()
# df.max()
# df.quantity.max()

In [None]:
# Standardabweichung, Varianz
df.std()
# df.var()

In [None]:
df.mean()

In [None]:
df.sum()

In [None]:
# Beispiel: Spanne vom kleinsten zum größter Preis / Lagerbestand
dfn = df[['quantity', 'price']]
dfn.max() - dfn.min()


In [None]:
# auch auf Spalten können diese Funktionen angewendet werden
df.price.describe()

## Veränderung des Datensatzes

Viele der bisher gesehenen Auswahlmöglichkeiten erlauben auch das Schreiben, Beispiele:

In [None]:
dfc = df.copy() # Kopieren des DataFrames
dfc.loc[0,'product'] = "Changed name"
dfc['estimated_value'] = dfc.quantity * dfc.price
dfc['name_number_concatenated'] = dfc['product'] + ' ' +  dfc.nr.map(str)
dfc

In [None]:
dfc.loc[0:3, 'price'] *= 2
dfc

In [None]:
dfc['product'] = dfc['product'].str.lower()
dfc

In [None]:
dfc['before d'] = dfc['product'] < 'd'
dfc

## Pandas Plots

Mit einem Pandas-DataFrame kann man auf einfache Weise Plots erstellen - dabei ruft Pandas die verschiedenen Plots von Matplotlib auf. Erzeugen wir zunächst ein paar Testdaten:

In [None]:
# Hilfsmethode für Zeitbereiche
days = pd.date_range('2019-01-01', periods=1000)

# 4 zufällige Zeitreihen
df = pd.DataFrame(np.random.randn(1000, 4), index=days, columns=list('ABCD'))
df = df.cumsum()
df.head()


Einige Beispielaufrufe zum Plotten:

In [None]:
# Alle Spalten als Linienplot
df.plot()

In [None]:
# Alle Spalten als Linienplot mit Größenangabe
df.plot(figsize=(10,7))

In [None]:
# ... als Subplots
df.plot(figsize=(15,10), subplots=True, layout=(2,2), sharey=True, grid=True);

In [None]:
# Boxplots
ax = df.boxplot(figsize=(8,5));
ax.set_ylabel('$\\alpha$', fontsize=20)
ax.set_xlabel('Gruppe', fontsize=20)

In [None]:
# Scatterplots
df.plot(x='A', y='B', kind='scatter');
# df.plot.scatter(x='A', y='B');

In [None]:
# Histogramme
df['A'].plot.hist(bins=50)
plt.axvline(0, c='r')

## Daten einlesen

Pandas bringt bereits fertige Lese- und Schreibroutinen für viele bekannte Datenformate mit:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In unseren beiden Übungen werden wir die `read_csv` zum Einlesen von CSV-Dateien verwenden.

## Übung

Bearbeiten Sie jetzt in 2er-Teams das Notebook "Pandas Übung 1".