# Daten auswählen und filtern

Die Indizierung von Serien `(obj[...])` funktioniert analog zur Indizierung von NumPy-Arrays, außer dass ihr Indexwerte der Serie statt nur Ganzzahlen verwenden könnt. Hier sind einige Beispiele dafür:

In [1]:
import numpy as np
import pandas as pd

In [2]:
idx = pd.date_range("2022-02-02", periods=7)
rng = np.random.default_rng()
s = pd.Series(rng.normal(size=7), index=idx)

In [3]:
s

2022-02-02    0.865586
2022-02-03   -0.032595
2022-02-04   -1.029445
2022-02-05    1.231322
2022-02-06    2.479403
2022-02-07    0.014538
2022-02-08   -0.126244
Freq: D, dtype: float64

In [4]:
s['2022-02-03']

-0.03259542129789004

In [5]:
s[1]

-0.03259542129789004

In [6]:
 s[2:4]

2022-02-04   -1.029445
2022-02-05    1.231322
Freq: D, dtype: float64

In [7]:
s[['2022-02-04', '2022-02-03', '2022-02-02']]

2022-02-04   -1.029445
2022-02-03   -0.032595
2022-02-02    0.865586
dtype: float64

In [8]:
s[[1, 3]]

2022-02-03   -0.032595
2022-02-05    1.231322
Freq: 2D, dtype: float64

In [9]:
s[s > 0]

2022-02-02    0.865586
2022-02-05    1.231322
2022-02-06    2.479403
2022-02-07    0.014538
dtype: float64

Zwar könnt ihr auf diese Weise Daten nach Label auswählen, doch die bevorzugte Methode zur Auswahl von Indexwerten ist der `loc`-Operator:

In [10]:
s.loc[['2022-02-04', '2022-02-03', '2022-02-02']]

2022-02-04   -1.029445
2022-02-03   -0.032595
2022-02-02    0.865586
dtype: float64

Der Grund für die Bevorzugung von `loc` liegt in der unterschiedlichen Behandlung von Ganzzahlen bei der Indexierung mit `[]`. Bei der regulären `[]`-basierten Indizierung werden Ganzzahlen als Label behandelt, wenn der Index Ganzzahlen enthält, so dass das Verhalten je nach Datentyp des Index unterschiedlich ist. In unserem Beispiel wird der Ausdruck `s.loc[[3, 2, 1]]` fehlschlagen, da der Index keine ganzen Zahlen enthält:

In [11]:
s.loc[[3, 2, 1]]

KeyError: "None of [Int64Index([3, 2, 1], dtype='int64')] are in the [index]"

Während der `loc`-Operator ausschließlich Label indiziert, indiziert der `iloc`-Operator ausschließlich mit ganzen Zahlen:

In [12]:
s.iloc[[3, 2, 1]]

2022-02-05    1.231322
2022-02-04   -1.029445
2022-02-03   -0.032595
Freq: -1D, dtype: float64

Ihr könnt auch mit Labels slicen, aber das funktioniert anders als das normale Python-Slicing, da der Endpunkt inklusive ist:

In [13]:
s.loc['2022-02-03':'2022-02-04']

2022-02-03   -0.032595
2022-02-04   -1.029445
Freq: D, dtype: float64

Durch die Einstellung mit diesen Methoden wird der entsprechende Abschnitt der Reihe geändert:

In [14]:
s.loc['2022-02-03':'2022-02-04'] = 0

s

2022-02-02    0.865586
2022-02-03    0.000000
2022-02-04    0.000000
2022-02-05    1.231322
2022-02-06    2.479403
2022-02-07    0.014538
2022-02-08   -0.126244
Freq: D, dtype: float64

Die Indizierung in einem DataFrame dient dazu, eine oder mehrere Spalten entweder mit einem einzelnen Wert oder einer Folge abzurufen:

In [15]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Decimal': [0, 1, 2, 3, 4, 5],
        'Octal': ['001', '002', '003', '004', '004', '005'],
        'Key': ['NUL', 'Ctrl-A', 'Ctrl-B', 'Ctrl-C', 'Ctrl-D', 'Ctrl-E']}

df = pd.DataFrame(data)
df = pd.DataFrame(data,
                  columns=['Decimal', 'Octal', 'Key'],
                  index=df['Code'])

df

Unnamed: 0_level_0,Decimal,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U+0000,0,1,NUL
U+0001,1,2,Ctrl-A
U+0002,2,3,Ctrl-B
U+0003,3,4,Ctrl-C
U+0004,4,4,Ctrl-D
U+0005,5,5,Ctrl-E


In [16]:
df['Key']

Code
U+0000       NUL
U+0001    Ctrl-A
U+0002    Ctrl-B
U+0003    Ctrl-C
U+0004    Ctrl-D
U+0005    Ctrl-E
Name: Key, dtype: object

In [17]:
df[['Decimal', 'Key']]

Unnamed: 0_level_0,Decimal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1
U+0000,0,NUL
U+0001,1,Ctrl-A
U+0002,2,Ctrl-B
U+0003,3,Ctrl-C
U+0004,4,Ctrl-D
U+0005,5,Ctrl-E


In [18]:
df[:2]

Unnamed: 0_level_0,Decimal,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U+0000,0,1,NUL
U+0001,1,2,Ctrl-A


In [19]:
df[df['Decimal'] > 2]

Unnamed: 0_level_0,Decimal,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U+0003,3,4,Ctrl-C
U+0004,4,4,Ctrl-D
U+0005,5,5,Ctrl-E


Die Zeilenauswahlsyntax `df[:2]` wird aus Gründen der Bequemlichkeit bereitgestellt. Durch die Übergabe eines einzelnen Elements oder einer Liste an den `[]`-Operator werden Spalten ausgewählt.

Ein weiterer Anwendungsfall ist die Indizierung mit einem booleschen DataFrame, der beispielsweise durch einen Skalarvergleich erzeugt wird:

In [20]:
df['Decimal'] > 2

Code
U+0000    False
U+0001    False
U+0002    False
U+0003     True
U+0004     True
U+0005     True
Name: Decimal, dtype: bool

In [21]:
df[df['Decimal'] > 2] = 'NA'

df

Unnamed: 0_level_0,Decimal,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U+0000,0.0,1.0,NUL
U+0001,1.0,2.0,Ctrl-A
U+0002,2.0,3.0,Ctrl-B
U+0003,,,
U+0004,,,
U+0005,,,


Wie Series verfügt auch DataFrame über spezielle Operatoren `loc` und `iloc` für label-basierte bzw. ganzzahlige Indizierung. Da DataFrame zweidimensional ist, könnt ihr eine Teilmenge der Zeilen und Spalten mit NumPy-ähnlicher Notation auswählen, indem ihr entweder Achsenbeschriftungen (`loc`) oder Ganzzahlen (`iloc`) verwendet.

In [22]:
df.loc['U+0002', ['Decimal', 'Key']]

Decimal         2
Key        Ctrl-B
Name: U+0002, dtype: object

In [23]:
df.iloc[[2], [1, 2]]

Unnamed: 0_level_0,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1
U+0002,3,Ctrl-B


In [24]:
df.iloc[[0, 1], [1, 2]]

Unnamed: 0_level_0,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1
U+0000,1,NUL
U+0001,2,Ctrl-A


Beide Indizierungsfunktionen arbeiten mit Slices zusätzlich zu einzelnen Label oder Listen von Label:

In [25]:
df.loc[:'U+0003', 'Key']

Code
U+0000       NUL
U+0001    Ctrl-A
U+0002    Ctrl-B
U+0003        NA
Name: Key, dtype: object

In [26]:
df.iloc[:3, :3]

Unnamed: 0_level_0,Decimal,Octal,Key
Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
U+0000,0,1,NUL
U+0001,1,2,Ctrl-A
U+0002,2,3,Ctrl-B


Es gibt also viele Möglichkeiten, die in einem pandas-Objekt enthaltenen Daten auszuwählen und neu anzuordnen. Im folgenden stelle ich für DataFrames eine kurze Zusammenfassung der meisten dieser Möglichkeiten zusammen:

Typ | Hinweis
:-- | :------
`df[LABEL]` | wählt eine einzelne Spalte oder eine Folge von Spalten aus dem DataFrame aus
`df.loc[LABEL]` | wählt eine einzelne Zeile oder eine Teilmenge von Zeilen aus dem DataFrame nach Label aus
`df.loc[:, LABEL]` | wählt eine einzelne Spalte oder eine Teilmenge von Spalten nach dem Label aus
`df.loc[LABEL1, LABEL2]` | wählt sowohl Zeilen als auch Spalten nach dem Label aus
`df.iloc[INTEGER]` | wählt eine einzelne Zeile oder eine Teilmenge von Zeilen aus dem DataFrame anhand der Ganzzahlposition aus
`df.iloc[INTEGER1, INTEGER2]` | Wählt eine einzelne Spalte oder eine Teilmenge von Spalten anhand einer ganzzahligen Position aus
`df.at[LABEL1, LABEL2]` | wählt einen Einzelwert nach Zeilen- und Spaltenbezeichnung aus
`df.iat[INTEGER1, INTEGER2]` | wählt einen Einzelwert nach Zeilen- und Spaltenposition (Ganzzahlen) aus
`reindex` NEW_INDEX | wählt Zeilen oder Spalten nach Labels aus
`get_value, set_value` | veraltet seit Version 0.21.0: Verwendet stattdessen `.at[]` oder `.iat[]`.