# Einführung in die Datenstrukturen von pandas

Um mit pandas zu beginnen, solltet ihr euch zunächst mit den beiden wichtigsten Datenstrukturen vertraut machen: [Series](#Series) und [DataFrame](#DataFrame).

## Series

Eine Serie ist ein eindimensionales Array-ähnliches Objekt, das eine Folge von Werten (von ähnlichen Typen wie die NumPy-Typen) und ein zugehöriges Array von Datenbeschriftungen, genannt Index, enthält. Die einfachste Serie wird nur aus einem Array von Daten gebildet:

In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series(np.random.randn(7))
s

0   -0.268942
1   -0.976455
2   -0.348490
3    1.529497
4   -2.292933
5   -2.202590
6    0.320450
dtype: float64

Die Zeichenkettendarstellung einer interaktiv angezeigten Reihe zeigt den Index auf der linken Seite und die Werte auf der rechten Seite. Da wir keinen Index für die Daten angegeben haben, wird ein Standardindex erstellt, der aus den ganzen Zahlen `0` bis `N - 1` besteht (wobei `N` die Anzahl (_Length_) der Daten ist). Ihr könnt die Array-Darstellung und das Index-Objekt der Reihe über ihre [pandas.Series.array](https://pandas.pydata.org/docs/reference/api/pandas.Series.array.html)- bzw. [pandas.Series.index](https://pandas.pydata.org/docs/reference/api/pandas.Series.index.html)-Attribute erhalten:

In [3]:
s.array

<PandasArray>
[ -0.2689415055498734,  -0.9764553398568306, -0.34848960718971217,
   1.5294968755680594,  -2.2929333103937553,  -2.2025895219269453,
  0.32044990653516614]
Length: 7, dtype: float64

In [4]:
s.index

RangeIndex(start=0, stop=7, step=1)

Oft werdet ihr einen Index erstellen wollen, der jeden Datenpunkt mit einer Bezeichnung kennzeichnet:

In [5]:
idx = pd.date_range("2022-02-02", periods=7, freq="H")

s2 = pd.Series(np.random.randn(7), index=idx)

In [6]:
s2

2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
2022-02-02 04:00:00   -1.359819
2022-02-02 05:00:00   -0.029214
2022-02-02 06:00:00   -1.264333
Freq: H, dtype: float64

> **Siehe auch:**
> 
> [Time series / date functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html)

Im Vergleich zu NumPy-Arrays könnt ihr die Beschriftungen im Index verwenden, wenn ihr einzelne Werte oder eine Gruppe von Werten auswählen wollt:

In [7]:
s2['2022-02-02 00:00:00']

-0.27661034566794956

In [8]:
s2[['2022-02-02 00:00:00', '2022-02-02 01:00:00', '2022-02-02 02:00:00']]

2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
dtype: float64

Hier wird `['2022-02-02 00:00:00', '2022-02-02 01:00:00', '2022-02-02 02:00:00']` als eine Liste von Indizes interpretiert, auch wenn sie Strings anstelle von ganzen Zahlen enthält.

Bei der Verwendung von NumPy-Funktionen oder NumPy-ähnlichen Operationen, wie z. B. dem Filtern mit einem booleschen Array, der skalaren Multiplikation oder der Anwendung mathematischer Funktionen, bleibt die Verknüpfung zwischen Index und Wert erhalten:

In [9]:
s2[s2 > 0]

2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
Freq: H, dtype: float64

In [10]:
s2 ** 2

2022-02-02 00:00:00    0.076513
2022-02-02 01:00:00    0.053968
2022-02-02 02:00:00    0.078853
2022-02-02 03:00:00    0.977274
2022-02-02 04:00:00    1.849107
2022-02-02 05:00:00    0.000853
2022-02-02 06:00:00    1.598538
Freq: H, dtype: float64

In [11]:
import numpy as np

np.exp(s2)

2022-02-02 00:00:00    0.758350
2022-02-02 01:00:00    0.792700
2022-02-02 02:00:00    1.324199
2022-02-02 03:00:00    2.687393
2022-02-02 04:00:00    0.256707
2022-02-02 05:00:00    0.971209
2022-02-02 06:00:00    0.282428
Freq: H, dtype: float64

Ihr könnt euch eine Serie auch als ein _ordered dict_ mit fester Länge vorstellen, da sie eine Zuordnung von Indexwerten zu Datenwerten darstellt. Sie kann in vielen Kontexten verwendet werden, in denen man ein _dict_ verwenden könnte:

In [12]:
'2022-02-02 01:00:00' in s2

True

In [13]:
'2022-02-02 07:00:00' in s2

False

Wenn ihr Daten in einem Python `dict` habt, könnt ihr daraus eine Serie erstellen, indem ihr das `dict` übergebt:

In [14]:
sdata = {
    '2022-02-02 07:00:00': -2.123230,
    '2022-02-02 08:00:00':  1.306582,
    '2022-02-02 09:00:00':  0.610376
}

s3 = pd.Series(sdata)

s3

2022-02-02 07:00:00   -2.123230
2022-02-02 08:00:00    1.306582
2022-02-02 09:00:00    0.610376
dtype: float64

Wenn ihr nur ein `dict` übergebt, berücksichtigt der Index in der resultierenden Serie die Reihenfolge der Schlüssel gemäß der Schlüsselmethode des Diktats, die von der Einfügereihenfolge der Schlüssel abhängt. Ihr könnt dies außer Kraft setzen, indem ihr einen Index mit den Diktatschlüsseln in der Reihenfolge übergebt, in der sie in der resultierenden Reihe erscheinen sollen:

In [15]:
idx = pd.date_range("2022-02-02", periods=8, freq="H")

s3 = pd.Series(s2, index=idx)

s3

2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
2022-02-02 04:00:00   -1.359819
2022-02-02 05:00:00   -0.029214
2022-02-02 06:00:00   -1.264333
2022-02-02 07:00:00         NaN
Freq: H, dtype: float64

Hier wurden sieben in `s2` gefundene Werte an die entsprechenden Stellen gesetzt, aber da kein Wert für `2022-02-02 07:00:00` gefunden wurde, erscheint er als `NaN` (_not a number_), was in pandas als Markierung für fehlende oder NA-Werte gilt.

`NA` und `null` werde ich synonym verwenden, um auf fehlende Daten hinzuweisen. Die Funktionen `isna` und `notna` in pandas sollten verwendet werden, um fehlende Daten zu erkennen:

In [16]:
pd.isna(s3)

2022-02-02 00:00:00    False
2022-02-02 01:00:00    False
2022-02-02 02:00:00    False
2022-02-02 03:00:00    False
2022-02-02 04:00:00    False
2022-02-02 05:00:00    False
2022-02-02 06:00:00    False
2022-02-02 07:00:00     True
Freq: H, dtype: bool

In [17]:
pd.notna(s3)

2022-02-02 00:00:00     True
2022-02-02 01:00:00     True
2022-02-02 02:00:00     True
2022-02-02 03:00:00     True
2022-02-02 04:00:00     True
2022-02-02 05:00:00     True
2022-02-02 06:00:00     True
2022-02-02 07:00:00    False
Freq: H, dtype: bool

Series hat auch diese als Instanzmethoden:

In [18]:
s3.isna()

2022-02-02 00:00:00    False
2022-02-02 01:00:00    False
2022-02-02 02:00:00    False
2022-02-02 03:00:00    False
2022-02-02 04:00:00    False
2022-02-02 05:00:00    False
2022-02-02 06:00:00    False
2022-02-02 07:00:00     True
Freq: H, dtype: bool

Der Umgang mit fehlenden Daten wird im Abschnitt [Verwalten fehlender Daten mit pandas](clean-prep/nulls.ipynb) ausführlicher behandelt.

Eine für viele Anwendungen nützliche Funktion von Series ist die automatische Ausrichtung nach Indexbezeichnungen bei arithmetischen Operationen:

In [19]:
s2

2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
2022-02-02 04:00:00   -1.359819
2022-02-02 05:00:00   -0.029214
2022-02-02 06:00:00   -1.264333
Freq: H, dtype: float64

In [20]:
s3

2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
2022-02-02 04:00:00   -1.359819
2022-02-02 05:00:00   -0.029214
2022-02-02 06:00:00   -1.264333
2022-02-02 07:00:00         NaN
Freq: H, dtype: float64

In [21]:
s2 + s3

2022-02-02 00:00:00   -0.553221
2022-02-02 01:00:00   -0.464620
2022-02-02 02:00:00    0.561616
2022-02-02 03:00:00    1.977143
2022-02-02 04:00:00   -2.719637
2022-02-02 05:00:00   -0.058428
2022-02-02 06:00:00   -2.528666
2022-02-02 07:00:00         NaN
Freq: H, dtype: float64

Wenn ihr Erfahrung mit relationalen Datenbanken habt, ähnelt dies einem _Join_-Vorgang.

Sowohl das Series-Objekt selbst als auch sein Index haben ein `name`-Attribut, das sich in andere Bereiche der pandas-Funktionalität integrieren lässt:

In [22]:
s3.name = 'floats'
s3.index.name = 'datetime'
s3

datetime
2022-02-02 00:00:00   -0.276610
2022-02-02 01:00:00   -0.232310
2022-02-02 02:00:00    0.280808
2022-02-02 03:00:00    0.988572
2022-02-02 04:00:00   -1.359819
2022-02-02 05:00:00   -0.029214
2022-02-02 06:00:00   -1.264333
2022-02-02 07:00:00         NaN
Freq: H, Name: floats, dtype: float64