# Pandas

Pandas ist eine im Moment sehr beliebte Library zur Datenanalyse in Python - während NumPy eher als _low-level_ Library gilt, erlaubt Pandas das Bearbeiten von Daten auf einer höheren Abstraktionsebene. Wichtigste Datenstruktur ist dabei das _DataFrame_ welches tabellarische Daten verwaltet. Die Daten selbst werden von Pandas meist in Numpy-Arrays gespeichert.

Importieren wir zunächst pandas:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## DataFrames


Erzeugen wir zunächst ein `DataFrame`-Objekt, eine einfache Tabelle:

In [None]:
# DataFrame erzeugen...
df = pd.DataFrame({
    'nr': [6,3,2,7,10,11],
    'product': ['A', 'B', 'C', 'D', 'E', 'F'],
    'quantity': np.array([34, 22, 70, 2, 0,4], dtype='uint8'),
    'price': [10.99, 12.50, 105, 9.99, 12.95, 10.00],
    'available': True
})

In [None]:
# Anzeige der Tabelle


Für Tabellen stehen zunächst eine Reihe von Methoden zur Verfügung, die uns etwas Information über die Tabelle lieferen:

In [None]:
# generelle Informationen für das DataFrame


In [None]:
# Datentypen der Spalten


In [None]:
# die ersten 5 Zeilen


# oder die ersten 2 Zeilen


In [None]:
# ...letzte 5


In [None]:
# Spaltennamen


In [None]:
# Größe der Tabelle


In [None]:
# Tabelle in NumPy-Array umwandeln


In [None]:
# Datentypen der Spalten


## Zugriff auf Zeilen und Spalten
Pandas hat eine ganze Reihe von Wegen, wie Zeilen oder Spalten addressiert werden können:

In [None]:
# Zugriff eine einzelne Spalte als Attribut des DataFrames
# - nur lesend und 
# - nur wenn die Spalte einen Namen hat, der auch ein gültiger Python-Identifier ist

In [None]:
# Spalten nr oder quantity, oder product?

Wir erhalten hier ein `Series`-Objekt zurück - wie ein DateFrame hat ein `Series`-Objekt auch einen Index, allerdings entspricht eine `Series` einer einzelnen Datenspalte:

In [None]:
# Typ einer Spalte?


Über eckigen Klammern können wir ebenfalls Teile der Tabelle auswählen:

In [None]:
# Zugriff über Spaltennamen als String - einzelne Spalte


In [None]:
# Zugriff über Spaltennamen als String - mehrere Spalten


In [None]:
# mit einem Slice werden Zeilen (nach Zeilennummer) addressiert:

# oder alle Zeilen rückwärts


## Index

Bisher haben wir mit dem automatisch generierten Index gearbeitet, welcher die Zeilen von 0 bis n durchnummeriert hat. Häufig beinhaltet eine Spalte bereits einen eindeutigen Index, diesen können wir nutzen, hier z.B. die Produktnummer:

In [None]:
# nr-Spalte als Index setzen und danach nach nr sortieren - neues DataFrame


In [None]:
# oder: inplace ändern


DataFrames haben immer einen Index, ohne weitere Angaben ist dieser zunächst die Zeilennummerierung. Wir können jederzeit mit `set_index` neu indizieren, oder den aktuellen Index mit `reset_index` verwerden. Beide Methode liefern jeweils ein neues DataFrame zurück.

## .loc

Die Methode `loc` dient zum Indizieren von Zeilen und Spalten mit Spaltennamen und Indexwerten:

In [None]:
# loc-Beispiel


In [None]:
# Übung: Selektieren Sie alle Zeilen mit einer nr >= 10, und die Spalten quantity und price

In [None]:
# Übung: Selektieren Sie die Zeilen mit nr == 3 und nr == 7

## .iloc

Die Methode `iloc` dient zum Indizieren von Zeilen und Spalten mit Position:

In [None]:
# iloc-Beispiel

In [None]:
# Übung: Wie kann man mit `loc` oder `iloc` das gleiche Ergebnis erhalten wie mit `df['quantity']`?

# at, iat

Zugriffsmethoden, die einen einzelnen Wert zurückliefern (etwas schneller):

In [None]:
# Beispiele at, iat


## Stichproben

Mit `sample` können wir Stichproben ziehen:

In [None]:
# drei zufällige Zeilen

In [None]:
# drei zufällige Spalten

In [None]:
# 30% des Datensatzes zufällig auswählen

## Auswahl nach Kriterien

Wie schon in Numpy können wir in Pandas ebenfalls Vergleichsoperationen auf den ganzen Datensatz oder eine Spalte ausführen, und diese boolsche Ergebnistabelle als Auswahlkriterium nutzen:

In [None]:
# welche Zeilen haben einen Preis > 15.0?

In [None]:
# Welche Zeilen haben quantity < 10

Diese boolschen Ergebnisse können als Index verwendet werden (boolsche Indizierung ähnlich wie Numpy):

In [None]:
# alle Zeilen mit Preis > 15.0

In [None]:
# alle Zeilen mit quantity < 10

In [None]:
# oder-Verknüpfung: Alle Zeilen mit price < 10 oder quantity > 10

In [None]:
# Bestimmte Produkte nach Namen suchen - isin-Methode

In [None]:
# die where-Methode - filtert auch, aber belässt die Form der Tabelle. Gefilterte Zeilen werden zu "missing values"

## Deskriptive Statistik, Aggregationen

Für Spalten, aber auch für den gesamten Datensatz gibt es viele vordefinierte Funktionen:
https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#descriptive-statistics

In [None]:
# Zählen, alle Spalten oder eine Spalte


In [None]:
# Minimum / Maximum, Beispiele

In [None]:
# Standardabweichung, Varianz

In [None]:
# Mittelwert

In [None]:
# Summen

In [None]:
# Beispiel: Spanne vom kleinsten zum größter Preis / Lagerbestand

In [None]:
# Descriptive Statistik, einzelne Spalte

## Veränderung des Datensatzes

Viele der bisher gesehenen Auswahlmöglichkeiten erlauben auch das Schreiben, Beispiele:

In [None]:
# Kopieren des DataFrames

# Zelle ändern

# neue Spalte berechnen 1

# neue Spalte berechnen 2


In [None]:
# Spalte verändern, Multiplikation mit 2


In [None]:
# String-Umwandlung


In [None]:
# boolsche Spalte erzeugen


## Pandas Plots

Mit einem Pandas-DataFrame kann man auf einfache Weise Plots erstellen - dabei ruft Pandas die verschiedenen Plots von Matplotlib auf. Erzeugen wir zunächst ein paar Testdaten:

In [None]:
# Hilfsmethode für Zeitbereiche
days = pd.date_range('2019-01-01', periods=1000)

# 4 zufällige Zeitreihen
df = pd.DataFrame(np.random.randn(1000, 4), index=days, columns=list('ABCD'))
df = df.cumsum()
df.head()


Einige Beispielaufrufe zum Plotten:

In [None]:
# Alle Spalten als Linienplot

In [None]:
# Alle Spalten als Linienplot mit Größenangabe

In [None]:
# ... als Subplots

In [None]:
# Boxplots


In [None]:
# Scatterplots, zwei Varianten

In [None]:
# Histogramme

## Daten einlesen

Pandas bringt bereits fertige Lese- und Schreibroutinen für viele bekannte Datenformate mit:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In unseren beiden Übungen werden wir die `read_csv` zum Einlesen von CSV-Dateien verwenden.

## Übung

Bearbeiten Sie jetzt in 2er-Teams das Notebook "Pandas Übung 1".