# Überblick über Basis-Tools: `pandas`

`pandas` ist *die* Data-Science-Bibliothek für Python und wird *immer* mit dem Präfix `pd` importiert. Es mag wenige Ausnahmen geben, aber wir halten uns strikt daran. 

Probiere zunächst aus, ob `pandas` bei dir richtig installiert ist:

In [None]:
pip install pandas

In [1]:
import pandas as pd

## `DataFrame` aus Array erzeugen

Das zentrale Element von `pandas` ist der sog. `DataFrame`. Du kannst dir einen `DataFrame` wie eine Art Matrix aus Daten in unterschiedlichen Formaten vorstellen. Ähnlich wie in einem Excel-Sheet haben die Spalten und Zeilen auch Namen, mit deren Hilfe sich Elemente ansprechen lassen.

Ein `DataFrame` lässt sich sehr leicht erzeugen, z.B. aus einem zweidimensionalen Array:

In [2]:
df = pd.DataFrame([[1,2], [3,4], [5,6]])

Jupyter Notebooks haben den Vorteil, dass sie einen `DataFrame` sehr gut darstellen können:

In [3]:
df

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


Wie du sehen kannst, haben die Spalte und Zeilen (noch) keine Namen. Das können wir leicht korrigieren:

In [4]:
df.columns = [f'Spalte {i}' for i in range(2)]
df.index = [f'Zeile {i}' for i in range(3)]
df

Unnamed: 0,Spalte 0,Spalte 1
Zeile 0,1,2
Zeile 1,3,4
Zeile 2,5,6


## Zeilen und Spalten aus `DataFrame` auswählen

Auswahl nach dem Schlüssel (`index`)

In [5]:
df.loc["Zeile 0"]

Spalte 0    1
Spalte 1    2
Name: Zeile 0, dtype: int64

Auswahl nach der Position

In [6]:
df.iloc[1]

Spalte 0    3
Spalte 1    4
Name: Zeile 1, dtype: int64

Auswahl einer Spalte

In [9]:
df[["Spalte 0", "Spalte 1"]]

Unnamed: 0,Spalte 0,Spalte 1
Zeile 0,1,2
Zeile 1,3,4
Zeile 2,5,6


## `DataFrame`-Zusammenfassung und -Statistik 

Statistische Beschreibung mit Quantilen (*five number summary*)

In [10]:
df.describe()

Unnamed: 0,Spalte 0,Spalte 1
count,3.0,3.0
mean,3.0,4.0
std,2.0,2.0
min,1.0,2.0
25%,2.0,3.0
50%,3.0,4.0
75%,4.0,5.0
max,5.0,6.0


*Meta-Informationen* zum `DataFrame`

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, Zeile 0 to Zeile 2
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   Spalte 0  3 non-null      int64
 1   Spalte 1  3 non-null      int64
dtypes: int64(2)
memory usage: 180.0+ bytes


In [12]:
df.dtypes

Spalte 0    int64
Spalte 1    int64
dtype: object

## `DataFrame` aus `dict` erzeugen

Ein `DataFrame` kann auch aus einem Array von `dict` erzeugt werden. Die Spaltennamen werden dann gleich übernommen.

In [13]:
pd.DataFrame([{ "Spalte 0": 1, "Spalte 1": "zwei"}, 
              { "Spalte 0": 3, "Spalte 1": "vier"}])

Unnamed: 0,Spalte 0,Spalte 1
0,1,zwei
1,3,vier


Sollten bestimmte Spalten nicht besetzt sein, erhalten diese den Speziellen Wert `NaN` (not a number). 

In [14]:
df = pd.DataFrame([{ "Spalte 0": 1, "Spalte 1": "zwei"}, 
                   { "Spalte 0": 3}])
df

Unnamed: 0,Spalte 0,Spalte 1
0,1,zwei
1,3,


Für die Behandlung entsprechender Zeilen und Spalten gibt es besondere Funktionen. Mithilfe von `dropna` werden die Zeilen entfern. 

In [15]:
df.dropna()

Unnamed: 0,Spalte 0,Spalte 1
0,1,zwei


`fillna` hingegen kann Weerte ersetzen.

In [18]:
df.fillna("")

Unnamed: 0,Spalte 0,Spalte 1
0,1,zwei
1,3,


# `pandas` ist ein Ökosystem

`pandas` kann noch deutlich mehr, als du hier gesehen hast. Sollten wir weitere Features brauchen, führen wir diese in den einzelnen Lektionen ein.