# Deskriptive Statistik

pandas-Objekte sind mit einer Reihe von gängigen mathematischen und statistischen Methoden ausgestattet. Die meisten von ihnen fallen in die Kategorie der Reduktionen oder zusammenfassenden Statistiken, Methoden, die einen einzelnen Wert (wie die Summe oder den Mittelwert) aus einer Serie oder einer Reihe von Werten aus den Zeilen oder Spalten eines DataFrame extrahieren. Im Vergleich zu ähnlichen Methoden, die sich bei NumPy-Arrays finden, behandeln sie auch fehlende Daten.

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(7, 3), index=pd.date_range("2022-02-02", periods=7))
new_index = pd.date_range("2022-02-03", periods=7)
df2 = df.reindex(new_index)

df2

Unnamed: 0,0,1,2
2022-02-03,0.85746,-0.661677,1.818757
2022-02-04,-1.757555,-0.504622,0.664813
2022-02-05,-1.118049,-1.350397,-1.16319
2022-02-06,-1.581088,0.712396,-0.382383
2022-02-07,-0.958651,1.587839,2.429886
2022-02-08,1.828076,0.995262,-0.08752
2022-02-09,,,


Der Aufruf der `pandas.DataFrame.sum`-Methode gibt eine Serie zurück, die Spaltensummen enthält:

In [2]:
df2.sum()

0   -2.729807
1    0.778801
2    3.280363
dtype: float64

Die Übergabe von `axis='columns'` oder `axis=1` summiert stattdessen über die Spalten:

In [3]:
df2.sum(axis='columns')

2022-02-03    2.014540
2022-02-04   -1.597365
2022-02-05   -3.631636
2022-02-06   -1.251075
2022-02-07    3.059073
2022-02-08    2.735818
2022-02-09    0.000000
Freq: D, dtype: float64

Wenn eine ganze Zeile oder Spalte alle NA-Werte enthält, ist die Summe `0`. Dies kann mit der Option `skipna` deaktiviert werden:

In [4]:
df2.sum(axis='columns', skipna=False)

2022-02-03    2.014540
2022-02-04   -1.597365
2022-02-05   -3.631636
2022-02-06   -1.251075
2022-02-07    3.059073
2022-02-08    2.735818
2022-02-09         NaN
Freq: D, dtype: float64

Einige Aggregationen, wie z.B. `mean`, erfordern mindestens einen Nicht-`NaN`-Wert, um ein wertvolles Ergebnis zu erhalten:

In [5]:
df2.mean(axis='columns')

2022-02-03    0.671513
2022-02-04   -0.532455
2022-02-05   -1.210545
2022-02-06   -0.417025
2022-02-07    1.019691
2022-02-08    0.911939
2022-02-09         NaN
Freq: D, dtype: float64

## Optionen für Reduktionsmethoden

Methode | Beschreibung
:------ | :-----------
`axis` | die Achse der zu reduzierenden Werte: `0` für die Zeilen des DataFrame und `1` für die Spalten
`skipna` | fehlende Werte ausschließen; standardmäßig `True`
`level` | nach Ebene gruppiert reduzieren, wenn die Achse hierarchisch indiziert ist (MultiIndex)

Einige Methoden, wie `idxmin` und `idxmax`, liefern indirekte Statistiken wie den Indexwert, bei dem der Mindest- oder Höchstwert erreicht wird:

In [6]:
df2.idxmax()

0   2022-02-08
1   2022-02-07
2   2022-02-07
dtype: datetime64[ns]

Andere Methoden sind Akkumulationen:

In [7]:
df2.cumsum()

Unnamed: 0,0,1,2
2022-02-03,0.85746,-0.661677,1.818757
2022-02-04,-0.900095,-1.1663,2.48357
2022-02-05,-2.018144,-2.516697,1.32038
2022-02-06,-3.599232,-1.804301,0.937998
2022-02-07,-4.557883,-0.216462,3.367883
2022-02-08,-2.729807,0.778801,3.280363
2022-02-09,,,


Eine andere Art von Methoden sind weder Reduktionen noch Akkumulationen. `describe` ist ein solches Beispiel, das mehrere zusammenfassende Statistiken auf einen Schlag erstellt:

In [8]:
df2.describe()

Unnamed: 0,0,1,2
count,6.0,6.0,6.0
mean,-0.454968,0.1298,0.546727
std,1.455542,1.134392,1.368767
min,-1.757555,-1.350397,-1.16319
25%,-1.465328,-0.622414,-0.308667
50%,-1.03835,0.103887,0.288646
75%,0.403432,0.924546,1.530271
max,1.828076,1.587839,2.429886


Bei nicht-numerischen Daten erzeugt `describe` alternative zusammenfassende Statistiken:

In [9]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Octal': ['001', '002', '003', '004', '004', '005']}
df3 = pd.DataFrame(data)

df3.describe()

Unnamed: 0,Code,Octal
count,6,6
unique,6,5
top,U+0000,4
freq,1,2


Deskriptive und zusammenfassende Statistiken:

Methode | Beschreibung
:------ | :-----------
`count` | Anzahl der Nicht-NA-Werte
`describe` | Berechnung einer Reihe von zusammenfassenden Statistiken für Serien oder jede DataFrame-Spalte
`min`, `max` | Berechnung der Mindest- und Höchstwerte
`argmin`, `argmax` | Berechnung der Indexstellen (ganze Zahlen), an denen der Mindest- bzw. Höchstwert erreicht wurde
`idxmin`, `idxmax` | Berechnung der Indexbeschriftungen, an denen der Mindest- bzw. Höchstwert erreicht wurde
`quantile` | Berechnung des Stichprobenquantils im Bereich von 0 bis 1
`sum` | Summe der Werte
`mean` | Arithmetisches Mittel der Werte
`median` | Arithmetischer Median (50%-Quantil) der Werte
`mad` | Mittlere absolute Abweichung vom Mittelwert
`prod` | Produkt aller Werte
`var` | Stichprobenvarianz der Werte
`std` | Stichprobenstandardabweichung der Werte
`skew` | Stichprobenschiefe (drittes Moment) der Werte
`kurt` | Stichprobenwölbung (viertes Moment) der Werte
`cumsum` | Kumulierte Summe der Werte
`cummin`, `cummax` | Kumuliertes Minimum bzw. Maximum der Werte
`cumprod` | Kumuliertes Produkt der Werte
`diff` | Berechnung der ersten arithmetischen Differenz (nützlich für Zeitreihen)
`pct_change` | Berechnung der prozentualen Veränderungen

## `pandas_profiling`

[pandas-profiling](https://pandas-profiling.ydata.ai/docs/master/index.html) erzeugt Profilberichte aus einem pandas DataFrame. Die Funktion `pandas df.describe()` ist praktisch, aber ein wenig einfach für die explorative Datenanalyse. pandas-profiling erweitert pandas DataFrame mit `df.profile_report()`, die automatisch einen standardisierten Bericht zum Verständnis der Daten erzeugt.

### Installation

```bash
$ pipenv install pandas_profiling[notebook]
…
✔ Success! 
Updated Pipfile.lock (cbc5f7)!
Installing dependencies from Pipfile.lock (cbc5f7)...
  🐍   ▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉ 80/80 — 00:02:26
…
$ pipenv run jupyter nbextension enable --py widgetsnbextension
Enabling notebook extension jupyter-js-widgets/extension...
      - Validating: OK
```

### Beispiel

In [10]:
from pandas_profiling import ProfileReport

profile = ProfileReport(df2, title="Pandas Profiling Report")

profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…