# Deskriptive Statistik

pandas-Objekte sind mit einer Reihe von gängigen mathematischen und statistischen Methoden ausgestattet. Die meisten von ihnen fallen in die Kategorie der Reduktionen oder zusammenfassenden Statistiken, Methoden, die einen einzelnen Wert (wie die Summe oder den Mittelwert) aus einer Serie oder einer Reihe von Werten aus den Zeilen oder Spalten eines DataFrame extrahieren. Im Vergleich zu ähnlichen Methoden, die sich bei NumPy-Arrays finden, behandeln sie auch fehlende Daten.

In [1]:
import pandas as pd
import numpy as np

rng = np.random.default_rng()
df = pd.DataFrame(rng.normal(size=(7, 3)), index=pd.date_range("2022-02-02", periods=7))
new_index = pd.date_range("2022-02-03", periods=7)
df2 = df.reindex(new_index)

df2

Unnamed: 0,0,1,2
2022-02-03,1.701297,-0.348622,-0.376042
2022-02-04,-2.121899,0.68152,-1.235787
2022-02-05,-0.95394,0.160349,-0.846359
2022-02-06,-0.156326,1.713213,-1.630941
2022-02-07,0.02931,-0.7196,-2.2369
2022-02-08,-0.07261,0.197271,1.871354
2022-02-09,,,


Der Aufruf der `pandas.DataFrame.sum`-Methode gibt eine Serie zurück, die Spaltensummen enthält:

In [2]:
df2.sum()

0   -1.574168
1    1.684131
2   -4.454675
dtype: float64

Die Übergabe von `axis='columns'` oder `axis=1` summiert stattdessen über die Spalten:

In [3]:
df2.sum(axis='columns')

2022-02-03    0.976634
2022-02-04   -2.676167
2022-02-05   -1.639950
2022-02-06   -0.074054
2022-02-07   -2.927190
2022-02-08    1.996015
2022-02-09    0.000000
Freq: D, dtype: float64

Wenn eine ganze Zeile oder Spalte alle NA-Werte enthält, ist die Summe `0`. Dies kann mit der Option `skipna` deaktiviert werden:

In [4]:
df2.sum(axis='columns', skipna=False)

2022-02-03    0.976634
2022-02-04   -2.676167
2022-02-05   -1.639950
2022-02-06   -0.074054
2022-02-07   -2.927190
2022-02-08    1.996015
2022-02-09         NaN
Freq: D, dtype: float64

Einige Aggregationen, wie z.B. `mean`, erfordern mindestens einen Nicht-`NaN`-Wert, um ein wertvolles Ergebnis zu erhalten:

In [5]:
df2.mean(axis='columns')

2022-02-03    0.325545
2022-02-04   -0.892056
2022-02-05   -0.546650
2022-02-06   -0.024685
2022-02-07   -0.975730
2022-02-08    0.665338
2022-02-09         NaN
Freq: D, dtype: float64

## Optionen für Reduktionsmethoden

Methode | Beschreibung
:------ | :-----------
`axis` | die Achse der zu reduzierenden Werte: `0` für die Zeilen des DataFrame und `1` für die Spalten
`skipna` | fehlende Werte ausschließen; standardmäßig `True`
`level` | nach Ebene gruppiert reduzieren, wenn die Achse hierarchisch indiziert ist (MultiIndex)

Einige Methoden, wie `idxmin` und `idxmax`, liefern indirekte Statistiken wie den Indexwert, bei dem der Mindest- oder Höchstwert erreicht wird:

In [6]:
df2.idxmax()

0   2022-02-03
1   2022-02-06
2   2022-02-08
dtype: datetime64[ns]

Andere Methoden sind Akkumulationen:

In [7]:
df2.cumsum()

Unnamed: 0,0,1,2
2022-02-03,1.701297,-0.348622,-0.376042
2022-02-04,-0.420602,0.332898,-1.611829
2022-02-05,-1.374542,0.493247,-2.458188
2022-02-06,-1.530868,2.206461,-4.089129
2022-02-07,-1.501557,1.48686,-6.326029
2022-02-08,-1.574168,1.684131,-4.454675
2022-02-09,,,


Eine andere Art von Methoden sind weder Reduktionen noch Akkumulationen. `describe` ist ein solches Beispiel, das mehrere zusammenfassende Statistiken auf einen Schlag erstellt:

In [8]:
df2.describe()

Unnamed: 0,0,1,2
count,6.0,6.0,6.0
mean,-0.262361,0.280689,-0.742446
std,1.258923,0.852155,1.431307
min,-2.121899,-0.7196,-2.2369
25%,-0.754536,-0.221379,-1.532153
50%,-0.114468,0.17881,-1.041073
75%,0.00383,0.560458,-0.493621
max,1.701297,1.713213,1.871354


Bei nicht-numerischen Daten erzeugt `describe` alternative zusammenfassende Statistiken:

In [9]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Octal': ['001', '002', '003', '004', '004', '005']}
df3 = pd.DataFrame(data)

df3.describe()

Unnamed: 0,Code,Octal
count,6,6
unique,6,5
top,U+0000,4
freq,1,2


Deskriptive und zusammenfassende Statistiken:

Methode | Beschreibung
:------ | :-----------
`count` | Anzahl der Nicht-NA-Werte
`describe` | Berechnung einer Reihe von zusammenfassenden Statistiken für Serien oder jede DataFrame-Spalte
`min`, `max` | Berechnung der Mindest- und Höchstwerte
`argmin`, `argmax` | Berechnung der Indexstellen (ganze Zahlen), an denen der Mindest- bzw. Höchstwert erreicht wurde
`idxmin`, `idxmax` | Berechnung der Indexbeschriftungen, an denen der Mindest- bzw. Höchstwert erreicht wurde
`quantile` | Berechnung des Stichprobenquantils im Bereich von 0 bis 1
`sum` | Summe der Werte
`mean` | Arithmetisches Mittel der Werte
`median` | Arithmetischer Median (50%-Quantil) der Werte
`mad` | Mittlere absolute Abweichung vom Mittelwert
`prod` | Produkt aller Werte
`var` | Stichprobenvarianz der Werte
`std` | Stichprobenstandardabweichung der Werte
`skew` | Stichprobenschiefe (drittes Moment) der Werte
`kurt` | Stichprobenwölbung (viertes Moment) der Werte
`cumsum` | Kumulierte Summe der Werte
`cummin`, `cummax` | Kumuliertes Minimum bzw. Maximum der Werte
`cumprod` | Kumuliertes Produkt der Werte
`diff` | Berechnung der ersten arithmetischen Differenz (nützlich für Zeitreihen)
`pct_change` | Berechnung der prozentualen Veränderungen