# Einführung in die Datenstrukturen von pandas

Um mit pandas zu beginnen, solltet ihr euch zunächst mit den beiden wichtigsten Datenstrukturen vertraut machen: [Series](#Series) und [DataFrame](#DataFrame).

## Series

Eine Serie ist ein eindimensionales Array-ähnliches Objekt, das eine Folge von Werten (von ähnlichen Typen wie die NumPy-Typen) und ein zugehöriges Array von Datenbeschriftungen, genannt Index, enthält. Die einfachste Serie wird nur aus einem Array von Daten gebildet:

In [1]:
import numpy as np
import pandas as pd

In [2]:
s = pd.Series(np.random.randn(7))
s

0   -1.637863
1   -1.055554
2   -1.500524
3   -0.073277
4   -0.237357
5    0.490600
6   -1.377639
dtype: float64

Die Zeichenkettendarstellung einer interaktiv angezeigten Reihe zeigt den Index auf der linken Seite und die Werte auf der rechten Seite. Da wir keinen Index für die Daten angegeben haben, wird ein Standardindex erstellt, der aus den ganzen Zahlen `0` bis `N - 1` besteht (wobei `N` die Anzahl (_Length_) der Daten ist). Ihr könnt die Array-Darstellung und das Index-Objekt der Reihe über ihre [pandas.Series.array](https://pandas.pydata.org/docs/reference/api/pandas.Series.array.html)- bzw. [pandas.Series.index](https://pandas.pydata.org/docs/reference/api/pandas.Series.index.html)-Attribute erhalten:

In [3]:
s.array

<PandasArray>
[  -1.637863033716993,   -1.055554275251534,  -1.5005235571315916,
 -0.07327675236717476,  -0.2373565617433129,  0.49059992062420527,
  -1.3776385578302792]
Length: 7, dtype: float64

In [4]:
s.index

RangeIndex(start=0, stop=7, step=1)

Oft werdet ihr einen Index erstellen wollen, der jeden Datenpunkt mit einer Bezeichnung kennzeichnet:

In [5]:
idx = pd.date_range("2022-01-31", periods=7)

s2 = pd.Series(np.random.randn(7), index=idx)

In [6]:
s2

2022-01-31   -0.751442
2022-02-01    0.816935
2022-02-02   -0.272546
2022-02-03   -0.268295
2022-02-04   -0.296728
2022-02-05    0.176255
2022-02-06   -0.322612
Freq: D, dtype: float64

> **Siehe auch:**
> 
> [Time series / date functionality](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html)

Im Vergleich zu NumPy-Arrays könnt ihr Label im Index verwenden, wenn ihr einzelne Werte oder eine Gruppe von Werten auswählen wollt:

In [7]:
s2['2022-02-02']

-0.2725463834762932

In [8]:
s2[['2022-02-02', '2022-02-03', '2022-02-04']]

2022-02-02   -0.272546
2022-02-03   -0.268295
2022-02-04   -0.296728
dtype: float64

Hier wird `['2022-02-02', '2022-02-03', '2022-02-04']` als eine Liste von Indizes interpretiert, auch wenn sie Strings anstelle von ganzen Zahlen enthält.

Bei der Verwendung von NumPy-Funktionen oder NumPy-ähnlichen Operationen, wie z. B. dem Filtern mit einem booleschen Array, der skalaren Multiplikation oder der Anwendung mathematischer Funktionen, bleibt die Verknüpfung zwischen Index und Wert erhalten:

In [9]:
s2[s2 > 0]

2022-02-01    0.816935
2022-02-05    0.176255
dtype: float64

In [10]:
s2 ** 2

2022-01-31    0.564666
2022-02-01    0.667382
2022-02-02    0.074282
2022-02-03    0.071982
2022-02-04    0.088048
2022-02-05    0.031066
2022-02-06    0.104078
Freq: D, dtype: float64

In [11]:
np.exp(s2)

2022-01-31    0.471686
2022-02-01    2.263550
2022-02-02    0.761438
2022-02-03    0.764682
2022-02-04    0.743246
2022-02-05    1.192743
2022-02-06    0.724255
Freq: D, dtype: float64

Ihr könnt euch eine Serie auch als ein _ordered dict_ mit fester Länge vorstellen, da sie eine Zuordnung von Indexwerten zu Datenwerten darstellt. Sie kann in vielen Kontexten verwendet werden, in denen man ein _dict_ verwenden könnte:

In [12]:
'2022-02-02' in s2

True

In [13]:
'2022-02-09' in s2

False

### Fehlende Daten

`NA` und `null` werde ich synonym verwenden, um auf fehlende Daten hinzuweisen. Die Funktionen `isna` und `notna` in pandas sollten verwendet werden, um fehlende Daten zu erkennen:

In [14]:
pd.isna(s2)

2022-01-31    False
2022-02-01    False
2022-02-02    False
2022-02-03    False
2022-02-04    False
2022-02-05    False
2022-02-06    False
Freq: D, dtype: bool

In [15]:
pd.notna(s2)

2022-01-31    True
2022-02-01    True
2022-02-02    True
2022-02-03    True
2022-02-04    True
2022-02-05    True
2022-02-06    True
Freq: D, dtype: bool

Series hat diese auch als Instanzmethoden:

In [16]:
s2.isna()

2022-01-31    False
2022-02-01    False
2022-02-02    False
2022-02-03    False
2022-02-04    False
2022-02-05    False
2022-02-06    False
Freq: D, dtype: bool

Der Umgang mit fehlenden Daten wird im Abschnitt [Verwalten fehlender Daten mit pandas](clean-prep/nulls.ipynb) ausführlicher behandelt.

Eine für viele Anwendungen nützliche Funktion von Series ist die automatische Ausrichtung nach Indexbezeichnungen bei arithmetischen Operationen:

In [17]:
idx = pd.date_range("2022-02-07", periods=7)

s3 = pd.Series(np.random.randn(7), index=idx)

In [18]:
s2, s3

(2022-01-31   -0.751442
 2022-02-01    0.816935
 2022-02-02   -0.272546
 2022-02-03   -0.268295
 2022-02-04   -0.296728
 2022-02-05    0.176255
 2022-02-06   -0.322612
 Freq: D, dtype: float64,
 2022-02-07   -0.029608
 2022-02-08   -0.277982
 2022-02-09    2.693057
 2022-02-10   -0.850817
 2022-02-11    0.783868
 2022-02-12   -1.137835
 2022-02-13   -0.617132
 Freq: D, dtype: float64)

In [19]:
s2 + s3

2022-01-31   NaN
2022-02-01   NaN
2022-02-02   NaN
2022-02-03   NaN
2022-02-04   NaN
2022-02-05   NaN
2022-02-06   NaN
2022-02-07   NaN
2022-02-08   NaN
2022-02-09   NaN
2022-02-10   NaN
2022-02-11   NaN
2022-02-12   NaN
2022-02-13   NaN
Freq: D, dtype: float64

Wenn ihr Erfahrung mit SQL habt, ähnelt dies einem [JOIN](https://de.wikipedia.org/wiki/Join_(SQL))-Vorgang.

Sowohl das Series-Objekt selbst als auch sein Index haben ein `name`-Attribut, das sich in andere Bereiche der pandas-Funktionalität integrieren lässt:

In [20]:
s3.name = 'floats'
s3.index.name = 'date'

s3

date
2022-02-07   -0.029608
2022-02-08   -0.277982
2022-02-09    2.693057
2022-02-10   -0.850817
2022-02-11    0.783868
2022-02-12   -1.137835
2022-02-13   -0.617132
Freq: D, Name: floats, dtype: float64

## DataFrame

Ein DataFrame stellt eine rechteckige Datentabelle dar und enthält eine geordnete, benannte Sammlung von Spalten, von denen jede einen anderen Werttyp haben kann. Der DataFrame hat sowohl einen Zeilen- als auch einen Spaltenindex.

> **Bemerkung:**
> 
> Ein DataFrame ist zwar zweidimensional, ihr könnt ihn aber auch verwenden, um mit [join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html), [combine](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.combine.html) und [Reshaping](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html) höherdimensionale Daten in einem Tabellenformat mit hierarchischer Indizierung darzustellen.

In [21]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Decimal': [0, 1, 2, 3, 4, 5],
        'Octal': ['001', '002', '003', '004', '004', '005'],
        'Key': ['NUL', 'Ctrl-A', 'Ctrl-B', 'Ctrl-C', 'Ctrl-D', 'Ctrl-E']}

df = pd.DataFrame(data)

df

Unnamed: 0,Code,Decimal,Octal,Key
0,U+0000,0,1,NUL
1,U+0001,1,2,Ctrl-A
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D
5,U+0005,5,5,Ctrl-E


Bei großen DataFrames wählt die `head`-Methode nur die ersten fünf Zeilen aus:

In [22]:
df.head()

Unnamed: 0,Code,Decimal,Octal,Key
0,U+0000,0,1,NUL
1,U+0001,1,2,Ctrl-A
2,U+0002,2,3,Ctrl-B
3,U+0003,3,4,Ctrl-C
4,U+0004,4,4,Ctrl-D


Ihr könnt auch die Reihenfolge der Spalten angeben:

In [23]:
pd.DataFrame(data, columns=['Code', 'Key'])

Unnamed: 0,Code,Key
0,U+0000,NUL
1,U+0001,Ctrl-A
2,U+0002,Ctrl-B
3,U+0003,Ctrl-C
4,U+0004,Ctrl-D
5,U+0005,Ctrl-E


Wenn ihr eine Spalte übergeben wollt, die nicht im Dict enthalten ist, wird sie ohne Werte im Ergebnis erscheinen:

In [24]:
df2 = pd.DataFrame(data, columns=['Code', 'Decimal', 'Octal', 'Description', 'Key'])

df2

Unnamed: 0,Code,Decimal,Octal,Description,Key
0,U+0000,0,1,,NUL
1,U+0001,1,2,,Ctrl-A
2,U+0002,2,3,,Ctrl-B
3,U+0003,3,4,,Ctrl-C
4,U+0004,4,4,,Ctrl-D
5,U+0005,5,5,,Ctrl-E


Ihr könnt eine Spalte in einem DataFrame mit einer Dict-ähnlichen Notation abrufen:

In [25]:
df['Code']

0    U+0000
1    U+0001
2    U+0002
3    U+0003
4    U+0004
5    U+0005
Name: Code, dtype: object

So könnt ihr auch eine Spalte zum Index machen:

In [26]:
df2 = pd.DataFrame(data,
                   columns=['Decimal', 'Octal', 'Description', 'Key'],
                   index=df['Code'])

df2

Unnamed: 0_level_0,Decimal,Octal,Description,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
U+0000,0,1,,NUL
U+0001,1,2,,Ctrl-A
U+0002,2,3,,Ctrl-B
U+0003,3,4,,Ctrl-C
U+0004,4,4,,Ctrl-D
U+0005,5,5,,Ctrl-E


Zeilen können nach Position oder Name mit dem [pandas.DataFrame.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)-Attribut abgerufen werden:

In [27]:
df2.loc['U+0001']

Decimal             1
Octal             002
Description       NaN
Key            Ctrl-A
Name: U+0001, dtype: object

Spaltenwerte können durch Zuweisung geändert werden. Zum Beispiel könnte der leeren Spalte _Description_ ein Einzelwert oder ein Array von Werten zugewiesen werden:

In [28]:
df2['Description'] = [
    'Null character',
    'Start of Heading',
    'Start of Text',
    'End-of-text character',
    'End-of-transmission character',
    'Enquiry character'
    ]

df2

Unnamed: 0_level_0,Decimal,Octal,Description,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
U+0000,0,1,Null character,NUL
U+0001,1,2,Start of Heading,Ctrl-A
U+0002,2,3,Start of Text,Ctrl-B
U+0003,3,4,End-of-text character,Ctrl-C
U+0004,4,4,End-of-transmission character,Ctrl-D
U+0005,5,5,Enquiry character,Ctrl-E


Das Zuweisen einer nicht existierenden Spalte erzeugt eine neue Spalte.

Mit [pandas.DataFrame.drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) können Spalten  entfernt und mit `pandas.DataFrame.columns` angezeigt werden:

In [29]:
df3 = df2.drop(columns=['Decimal', 'Octal'])

In [30]:
df2.columns

Index(['Decimal', 'Octal', 'Description', 'Key'], dtype='object')

In [31]:
df3.columns

Index(['Description', 'Key'], dtype='object')

Eine weitere gängige Form von Daten sind verschachtelte Dict von Dicts:

In [32]:
u = {
    'U+0006': {'Decimal': '6', 'Octal': '006', 'Description': 'Acknowledge character', 'Key': 'Ctrl-F'},
    'U+0007': {'Decimal': '7', 'Octal': '007', 'Description': 'Bell character', 'Key': 'Ctrl-G3'},
    }

df4 = pd.DataFrame(u)

df4

Unnamed: 0,U+0006,U+0007
Decimal,6,7
Octal,006,007
Description,Acknowledge character,Bell character
Key,Ctrl-F,Ctrl-G3


Ihr könnt den DataFrame transponieren, d.h. die Zeilen und Spalten vertauschen, mit einer ähnlichen Syntax wie bei einem NumPy-Array:

In [33]:
df4.T

Unnamed: 0,Decimal,Octal,Description,Key
U+0006,6,6,Acknowledge character,Ctrl-F
U+0007,7,7,Bell character,Ctrl-G3


> **Warnung:**
> 
> Beachtet, dass beim Transponieren die Datentypen der Spalten verworfen werden, wenn die Spalten nicht alle denselben Datentyp haben, so dass beim Transponieren und anschließenden Zurücktransponieren die vorherigen Typinformationen verloren gehen können. Die Spalten werden in diesem Fall zu Arrays aus reinen Python-Objekten.

Die Schlüssel in den inneren Dicts werden kombiniert, um den Index im Ergebnis zu bilden. Dies ist nicht der Fall, wenn ein expliziter Index angegeben wird:

In [34]:
df5 = pd.DataFrame(u, index=['Decimal', 'Octal', 'Key'])
df5

Unnamed: 0,U+0006,U+0007
Decimal,6,7
Octal,006,007
Key,Ctrl-F,Ctrl-G3
