# Deskriptive Statistik

pandas-Objekte sind mit einer Reihe von gängigen mathematischen und statistischen Methoden ausgestattet. Die meisten von ihnen fallen in die Kategorie der Reduktionen oder zusammenfassenden Statistiken, Methoden, die einen einzelnen Wert (wie die Summe oder den Mittelwert) aus einer Serie oder einer Reihe von Werten aus den Zeilen oder Spalten eines DataFrame extrahieren. Im Vergleich zu ähnlichen Methoden, die sich bei NumPy-Arrays finden, behandeln sie auch fehlende Daten.

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(7, 3), index=pd.date_range("2022-02-02", periods=7))
new_index = pd.date_range("2022-02-03", periods=7)
df2 = df.reindex(new_index)

df2

Unnamed: 0,0,1,2
2022-02-03,0.478361,1.666738,0.805374
2022-02-04,-0.626188,1.368342,1.264037
2022-02-05,0.99524,-2.332511,0.623185
2022-02-06,-0.382947,-0.073369,1.506613
2022-02-07,-0.598176,-0.444473,1.345164
2022-02-08,-0.726857,1.307795,0.498881
2022-02-09,,,


Der Aufruf der `pandas.DataFrame.sum`-Methode gibt eine Serie zurück, die Spaltensummen enthält:

In [2]:
df2.sum()

0   -0.860567
1    1.492522
2    6.043254
dtype: float64

Die Übergabe von `axis='columns'` oder `axis=1` summiert stattdessen über die Spalten:

In [3]:
df2.sum(axis='columns')

2022-02-03    2.950473
2022-02-04    2.006191
2022-02-05   -0.714087
2022-02-06    1.050297
2022-02-07    0.302516
2022-02-08    1.079819
2022-02-09    0.000000
Freq: D, dtype: float64

Wenn eine ganze Zeile oder Spalte alle NA-Werte enthält, ist die Summe `0`. Dies kann mit der Option `skipna` deaktiviert werden:

In [4]:
df2.sum(axis='columns', skipna=False)

2022-02-03    2.950473
2022-02-04    2.006191
2022-02-05   -0.714087
2022-02-06    1.050297
2022-02-07    0.302516
2022-02-08    1.079819
2022-02-09         NaN
Freq: D, dtype: float64

Einige Aggregationen, wie z.B. `mean`, erfordern mindestens einen Nicht-`NaN`-Wert, um ein wertvolles Ergebnis zu erhalten:

In [5]:
df2.mean(axis='columns')

2022-02-03    0.983491
2022-02-04    0.668730
2022-02-05   -0.238029
2022-02-06    0.350099
2022-02-07    0.100839
2022-02-08    0.359940
2022-02-09         NaN
Freq: D, dtype: float64

## Optionen für Reduktionsmethoden

Methode | Beschreibung
:------ | :-----------
`axis` | die Achse der zu reduzierenden Werte: `0` für die Zeilen des DataFrame und `1` für die Spalten
`skipna` | fehlende Werte ausschließen; standardmäßig `True`
`level` | nach Ebene gruppiert reduzieren, wenn die Achse hierarchisch indiziert ist (MultiIndex)

Einige Methoden, wie `idxmin` und `idxmax`, liefern indirekte Statistiken wie den Indexwert, bei dem der Mindest- oder Höchstwert erreicht wird:

In [6]:
df2.idxmax()

0   2022-02-05
1   2022-02-03
2   2022-02-06
dtype: datetime64[ns]

Andere Methoden sind Akkumulationen:

In [7]:
df2.cumsum()

Unnamed: 0,0,1,2
2022-02-03,0.478361,1.666738,0.805374
2022-02-04,-0.147827,3.03508,2.069411
2022-02-05,0.847413,0.702569,2.692596
2022-02-06,0.464466,0.629199,4.199209
2022-02-07,-0.13371,0.184727,5.544373
2022-02-08,-0.860567,1.492522,6.043254
2022-02-09,,,


Eine andere Art von Methoden sind weder Reduktionen noch Akkumulationen. `describe` ist ein solches Beispiel, das mehrere zusammenfassende Statistiken auf einen Schlag erstellt:

In [8]:
df2.describe()

Unnamed: 0,0,1,2
count,6.0,6.0,6.0
mean,-0.143428,0.248754,1.007209
std,0.710042,1.525319,0.418614
min,-0.726857,-2.332511,0.498881
25%,-0.619185,-0.351697,0.668732
50%,-0.490561,0.617213,1.034705
75%,0.263034,1.353205,1.324882
max,0.99524,1.666738,1.506613


Bei nicht-numerischen Daten erzeugt `describe` alternative zusammenfassende Statistiken:

In [9]:
data = {'Code': ['U+0000', 'U+0001', 'U+0002', 'U+0003', 'U+0004', 'U+0005'],
        'Octal': ['001', '002', '003', '004', '004', '005']}
df3 = pd.DataFrame(data)

df3.describe()

Unnamed: 0,Code,Octal
count,6,6
unique,6,5
top,U+0000,4
freq,1,2


Deskriptive und zusammenfassende Statistiken:

Methode | Beschreibung
:------ | :-----------
`count` | Anzahl der Nicht-NA-Werte
`describe` | Berechnung einer Reihe von zusammenfassenden Statistiken für Serien oder jede DataFrame-Spalte
`min`, `max` | Berechnung der Mindest- und Höchstwerte
`argmin`, `argmax` | Berechnung der Indexstellen (ganze Zahlen), an denen der Mindest- bzw. Höchstwert erreicht wurde
`idxmin`, `idxmax` | Berechnung der Indexbeschriftungen, an denen der Mindest- bzw. Höchstwert erreicht wurde
`quantile` | Berechnung des Stichprobenquantils im Bereich von 0 bis 1
`sum` | Summe der Werte
`mean` | Arithmetisches Mittel der Werte
`median` | Arithmetischer Median (50%-Quantil) der Werte
`mad` | Mittlere absolute Abweichung vom Mittelwert
`prod` | Produkt aller Werte
`var` | Stichprobenvarianz der Werte
`std` | Stichprobenstandardabweichung der Werte
`skew` | Stichprobenschiefe (drittes Moment) der Werte
`kurt` | Stichprobenwölbung (viertes Moment) der Werte
`cumsum` | Kumulierte Summe der Werte
`cummin`, `cummax` | Kumuliertes Minimum bzw. Maximum der Werte
`cumprod` | Kumuliertes Produkt der Werte
`diff` | Berechnung der ersten arithmetischen Differenz (nützlich für Zeitreihen)
`pct_change` | Berechnung der prozentualen Veränderungen

## `ydata_profiling`

[ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/index.html) erzeugt Profilberichte aus einem pandas DataFrame. Die Funktion `pandas df.describe()` ist praktisch, aber ein wenig einfach für die explorative Datenanalyse. ydata-profiling erweitert pandas DataFrame mit `df.profile_report()`, die automatisch einen standardisierten Bericht zum Verständnis der Daten erzeugt.

### Installation

```bash
$ pipenv install ydata_profiling[notebook]
…
✔ Success! 
Updated Pipfile.lock (cbc5f7)!
Installing dependencies from Pipfile.lock (cbc5f7)...
  🐍   ▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉▉ 80/80 — 00:02:26
…
$ pipenv run jupyter nbextension enable --py widgetsnbextension
Enabling notebook extension jupyter-js-widgets/extension...
      - Validating: OK
```

### Beispiel

In [10]:
from ydata_profiling import ProfileReport

profile = ProfileReport(df2, title="Pandas Profiling Report")

profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

### Konfiguration für große Datensätze

Standardmäßig fasst ydata-profiling den Datensatz so zusammen, dass er die meisten Erkenntnisse für die Datenanalyse liefert. Wenn die Berechnungszeit der Profilerstellung zu einem Engpass wird, bietet ydata-profiling mehrere Alternativen, um diesen zu überwinden. Für die folgenden Beispiele lesen wir zunächst einen größeren Datensatz in pandas ein:

In [11]:
titanic = pd.read_csv(
    "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
)

#### 1. Minimaler Modus

ydata-profiling enthält eine minimale Konfigurationsdatei [config_minimal.yaml](https://github.com/ydataai/ydata-profiling/blob/master/src/ydata_profiling/config_minimal.yaml), in der die teuersten Berechnungen standardmäßig ausgeschaltet sind. Dies ist die empfohlene Ausgangsbasis für größere Datensätze.

In [12]:
profile = ProfileReport(titanic, title="Minimal Pandas Profiling Report", minimal=True)

profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

Weitere Details zu Einstellungen und Konfiguration findet ihr unter [Available settings](https://pandas-profiling.ydata.ai/docs/master/pages/advanced_usage/available_settings.html).

#### 2. Stichprobe

Eine alternative Möglichkeit bei sehr großen Datensätzen besteht darin, nur einen Teil davon für die Erstellung des Profiling-Berichts zu verwenden:

In [13]:
sample = titanic.sample(frac=0.05)

profile = ProfileReport(sample, title="Sample Pandas Profiling Report")

profile.to_widgets()

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

#### 3. Teure Berechnungen deaktivieren

Um den Rechenaufwand in großen Datensätzen zu verringern, aber dennoch einige interessante Informationen zu erhalten, können einige Berechnungen nur für bestimmte Spalten gefiltert werden:

In [14]:
profile = ProfileReport()
profile.config.interactions.targets = ["Sex", "Age"]
profile.df = titanic

profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

Die Einstellung `interactions.targets`, kann sowohl über Konfigurationsdateien wie auch über Umgebungsvariablen geändert werden; Einzelheiten hierzu findet ihr unter [Changing settings](https://pandas-profiling.ydata.ai/docs/master/pages/advanced_usage/changing_settings.html).

#### 4. Nebenläufigkeit

Aktuell wird an einem skalierbaren Spark-Backend für ydata-profiling gearbeitet, siehe [Spark Profiling Development](https://github.com/ydataai/ydata-profiling/projects/3).