# Überblick über Basis-Tools: `pandas`

`pandas` ist *die* Data-Science-Bibliothek für Python und wird *immer* mit dem Präfix `pd` importiert. Es mag wenige Ausnahmen geben, aber wir halten uns strikt daran. 

Probiere zunächst aus, ob `pandas` bei dir richtig installiert ist:

In [None]:
!pip install pandas

In [None]:
import pandas as pd

## `DataFrame` aus Array erzeugen

Das zentrale Element von `pandas` ist der sog. `DataFrame`. Du kannst dir einen `DataFrame` wie eine Art Matrix aus Daten in unterschiedlichen Formaten vorstellen. Ähnlich wie in einem Excel-Sheet haben die Spalten und Zeilen auch Namen, mit deren Hilfe sich Elemente ansprechen lassen.

Ein `DataFrame` lässt sich sehr leicht erzeugen, z.B. aus einem zweidimensionalen Array:

In [None]:
df = pd.DataFrame([[1,2], [3,4], [5,6]])

Jupyter Notebooks haben den Vorteil, dass sie einen `DataFrame` sehr gut darstellen können:

In [None]:
df

Wie du sehen kannst, haben die Spalte und Zeilen (noch) keine Namen. Das können wir leicht korrigieren:

In [None]:
df.columns = [f'Spalte {i}' for i in range(2)]
df.index = [f'Zeile {i}' for i in range(3)]
df

## Zeilen und Spalten aus `DataFrame` auswählen

Auswahl nach dem Schlüssel (`index`)

In [None]:
df.loc["Zeile 0"]

Auswahl nach der Position

In [None]:
df.iloc[1]

Auswahl einer Spalte

In [None]:
df["Spalte 1"]

## `DataFrame`-Zusammenfassung und -Statistik 

Statistische Beschreibung mit Quantilen (*five number summary*)

In [None]:
df.describe()

*Meta-Informationen* zum `DataFrame`

In [None]:
df.info()

## `DataFrame` aus `dict` erzeugen

Ein `DataFrame` kann auch aus einem Array von `dict` erzeugt werden. Die Spaltennamen werden dann gleich übernommen.

In [None]:
pd.DataFrame([{ "Spalte 0": 1, "Spalte 1": "zwei"}, { "Spalte 0": 3, "Spalte 1": "vier"}])

Sollten bestimmte Spalten nicht besetzt sein, erhalten diese den Speziellen Wert `NaN` (not a number). 

In [None]:
df = pd.DataFrame([{ "Spalte 0": 1, "Spalte 1": "zwei"}, { "Spalte 0": 3}])
df

Für die Behandlung entsprechender Zeilen und Spalten gibt es besondere Funktionen. Mithilfe von `dropna` werden die Zeilen entfern. 

In [None]:
df.dropna()

`fillna` hingegen kann Weerte ersetzen.

In [None]:
df.fillna(0)

# `pandas` ist ein Ökosystem

`pandas` kann noch deutlich mehr, als du hier gesehen hast. Sollten wir weitere Features brauchen, führen wir diese in den einzelnen Lektionen ein.