## Pandas

Während NumPy für die Arbeit mit Vektoren und Matritzen gedacht ist, ist Pandas für die Arbeit mit Tabellen gedacht. Pandas ist eine Python-Bibliothek, die auf NumPy aufbaut und die Arbeit mit Tabellen in Python erleichtert. Pandas ist eine Abkürzung für "Python Data Analysis Library" und wird in der Regel mit `pd` abgekürzt.

In [1]:
import pandas as pd

## Series

Die einfachste Datenstruktur in Pandas ist die `Series`. Eine `Series` ist eine eindimensionale Datenstruktur, die mit einem NumPy-Array vergleichbar ist. Eine `Series` kann mit der Funktion `pd.Series()` erstellt werden. Als Argument wird ein Array übergeben. Die `Series` hat einen Index, der standardmäßig mit 0 beginnt. Der Index kann mit dem Argument `index` angepasst werden. Der Index kann ein Array von Strings sein, um die Elemente der `Series` zu benennen.


In [2]:
# Erstellen einer Series
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# Erstellen einer Series mit Index
s1 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

Die `Series` hat eine Reihe von Methoden, die aufgerufen werden können. Eine Übersicht über die Methoden kann mit `help(pd.Series)` aufgerufen werden. Die wichtigsten Methoden sind:

In [4]:
# Zugriff auf den Index
s1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
# Zugriff auf die Werte
s1.values

array([1, 2, 3, 4, 5])

In [6]:
# Zugriff auf ein Element
s1['a']

1

In [7]:
# Zugriff auf mehrere Elemente
s1[['a', 'c', 'e']]

a    1
c    3
e    5
dtype: int64

In [8]:
# Zugriff auf ein Element mit dem Ganzzahl-Index
s1.iloc[0]

1

In [9]:
# Zugriff auf mehrere Elemente mit dem Index
s1.loc["a"]

1

In [10]:
s1.loc[["a", "c", "e"]]

a    1
c    3
e    5
dtype: int64

In [11]:
s1.sum()

15

In [12]:
s1.mean()

3.0

In [13]:
s1.std()

1.5811388300841898

## DataFrame

Das wichtigste Datenobjekt in Pandas ist der `DataFrame`. Ein `DataFrame` ist eine zweidimensionale Datenstruktur, die mit einer Tabelle vergleichbar ist. Ein `DataFrame` kann mit der Funktion `pd.DataFrame()` erstellt werden. Als Argument wird ein Array übergeben. Der `DataFrame` hat einen Index, der standardmäßig mit 0 beginnt. Der Index kann mit dem Argument `index` angepasst werden. Der Index kann ein Array von Strings sein, um die Zeilen des `DataFrame` zu benennen. Die Spalten des `DataFrame` können mit dem Argument `columns` benannt werden.

In [14]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 7, 9], [10, 11, 12]], columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,7,9
3,10,11,12


In [15]:
df1 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 7, 9], [10, 11, 12]],
                   index=['a', 'b', 'c', 'd'],
                   columns=['X', 'Y', 'Z']
                   )
df1

Unnamed: 0,X,Y,Z
a,1,2,3
b,4,5,6
c,7,7,9
d,10,11,12


Die `DataFrame` hat eine Reihe von Methoden, die aufgerufen werden können. Eine Übersicht über die Methoden kann mit `help(pd.DataFrame)` aufgerufen werden. Die wichtigsten Methoden sind:

In [16]:
df1["X"].sum()

22

In [17]:
df1["X"].mean()

5.5

In [18]:
df1["X"].std()

3.872983346207417

In [19]:
df1["X"].describe()

count     4.000000
mean      5.500000
std       3.872983
min       1.000000
25%       3.250000
50%       5.500000
75%       7.750000
max      10.000000
Name: X, dtype: float64

## Axes

Die `axes` eines `DataFrame` sind die Zeilen und Spalten des `DataFrame`. Die Zeilen können mit `df.index` und die Spalten mit `df.columns` abgerufen werden.
Die Eigenschaft (property) `shape` gibt die Anzahl der Zeilen und Spalten des `DataFrame` zurück.

In [20]:
df1.shape

(4, 3)

Viele Methoden können auf die Zeilen und Spalten des `DataFrame` angewendet werden.

In [21]:
df1

Unnamed: 0,X,Y,Z
a,1,2,3
b,4,5,6
c,7,7,9
d,10,11,12


In [22]:
df1.mean(axis=0)

X    5.50
Y    6.25
Z    7.50
dtype: float64

In [23]:
df1.mean(axis=1)

a     2.000000
b     5.000000
c     7.666667
d    11.000000
dtype: float64

In [24]:
df1.mean()

X    5.50
Y    6.25
Z    7.50
dtype: float64

## Neue Spalte hinzufügen

Eine neue Spalte kann zu einem `DataFrame` hinzugefügt werden, indem ein neues Array als Wert der neuen Spalte zugewiesen wird. Die neue Spalte wird automatisch an das Ende des `DataFrame` hinzugefügt.

In [25]:
df1["New"] = [1, 2, 3, 4]
df1.head()

Unnamed: 0,X,Y,Z,New
a,1,2,3,1
b,4,5,6,2
c,7,7,9,3
d,10,11,12,4


Häufig wird eine neue Spalte aus bestehenden Spalten berechnet. Dazu können die bestehenden Spalten wie normale Arrays verwendet werden. Die neue Spalte wird automatisch an das Ende des `DataFrame` hinzugefügt.

In [26]:
df1["X_min_Y"] = df1["X"] - df1["Y"]
df1.head()

Unnamed: 0,X,Y,Z,New,X_min_Y
a,1,2,3,1,-1
b,4,5,6,2,-1
c,7,7,9,3,0
d,10,11,12,4,-1


In [27]:
df1["X_2"] = 2 *df1["X"]
df1.head()

Unnamed: 0,X,Y,Z,New,X_min_Y,X_2
a,1,2,3,1,-1,2
b,4,5,6,2,-1,8
c,7,7,9,3,0,14
d,10,11,12,4,-1,20


## Selektieren von Zeilen

Häufig möchten wir nur eine Teilmenge der Zeilen eines `DataFrame` selektieren, z.B. die ersten 5 Zeilen oder die Zeilen, die eine bestimmte Bedingung erfüllen (z.B. Männer/Frauen, beschäftigt/arbeitslos, etc.).

In [28]:
# Als Beispiel wählen wir die ersten drei Zeilen

df1.iloc[0:2]

Unnamed: 0,X,Y,Z,New,X_min_Y,X_2
a,1,2,3,1,-1,2
b,4,5,6,2,-1,8


In [29]:
# Als anderes Beispiel wählen wir die Zeilen, für die X größer als 3 ist

df1[df1["X"] > 3]

Unnamed: 0,X,Y,Z,New,X_min_Y,X_2
b,4,5,6,2,-1,8
c,7,7,9,3,0,14
d,10,11,12,4,-1,20


## Selektieren von Spalten

Häufig möchten wir nur eine Teilmenge der Spalten eines `DataFrame` selektieren, z.B. die Spalten, die für eine bestimmte Analyse relevant sind.


In [30]:
df1[["X", "Y"]]

Unnamed: 0,X,Y
a,1,2
b,4,5
c,7,7
d,10,11


## GroupBy

Mit der Funktion `groupby()` können die Daten in einem `DataFrame` gruppiert werden. Die Funktion `groupby()` gibt ein `DataFrameGroupBy`-Objekt zurück. Mit diesem Objekt können verschiedene Aggregationsfunktionen aufgerufen werden. Die wichtigsten Aggregationsfunktionen sind:
- `count()`: Anzahl der Elemente
- `sum()`: Summe der Elemente
- `mean()`: Mittelwert der Elemente
- `median()`: Median der Elemente
- `min()`: Minimum der Elemente
- `max()`: Maximum der Elemente
- `std()`: Standardabweichung der Elemente
- `var()`: Varianz der Elemente
- `describe()`: Statistische Kennzahlen der Elemente
- `first()`: Erstes Element
- `last()`: Letztes Element
- `nth()`: n-tes Element

In [31]:
df2 = pd.DataFrame({
    "Name": ["Alice", "Bob", "Mallory", "Mallory", "Bob", "Mallory"],
    "Gender": ["f", "m", "f", "f", "m", "f"],
    "YearOfBirth": [1999, 1985, 1997, 1990, 1987, 1990],
}
)
df2["Age"] = 2024 - df2["YearOfBirth"]
df2.head()

Unnamed: 0,Name,Gender,YearOfBirth,Age
0,Alice,f,1999,25
1,Bob,m,1985,39
2,Mallory,f,1997,27
3,Mallory,f,1990,34
4,Bob,m,1987,37


In [32]:
df2_by_gender = df2.groupby("Gender")
df2_by_gender

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7b73d81dc790>

In [33]:
df2_by_gender["Age"].mean()

Gender
f    30.0
m    38.0
Name: Age, dtype: float64