In [2]:
import pandas as pd
import plotly.express as px

df = pd.DataFrame({"K√∂rpergr√∂√üe": [170, 184, 186, 180, 174, 168, 177, 171, 183, 189,
                                   167, 171, 169, 180, 172, 174, 179, 184, 186, 180,
                                   176, 180, 170, 173, 187, 175, 179, 182, 179, 180,
                                   179, 182, 173, 187, 175, 176, 181, 180, 168, 173,
                                   170, 185, 171, 178, 183, 185, 172, 177, 174, 176,
                                   162, 155, 169, 160, 170, 161, 160, 163, 164, 167,
                                   161, 167, 170, 157, 168, 161, 164, 156, 163, 162,
                                   168, 154, 166, 160, 165, 164, 159, 162, 157, 169,
                                   165, 162, 167, 166, 159, 166, 169, 162, 168, 162,
                                   169, 163, 169, 165, 161, 164, 165, 159, 165, 167],
                              "Gewicht": [55, 85, 92, 73, 77, 60, 80, 68, 88, 79,
                                          62, 74, 71, 79, 66, 69, 83, 76, 85, 72,
                                          70, 81, 64, 67, 95, 75, 86, 72, 81, 74,
                                          68, 90, 66, 82, 73, 71, 79, 77, 59, 67,
                                          64, 84, 70, 81, 91, 78, 68, 75, 69, 74,
                                          52, 44, 65, 50, 72, 55, 48, 64, 66, 58,
                                          55, 69, 75, 45, 71, 56, 62, 49, 61, 52,
                                          70, 41, 66, 48, 71, 63, 45, 58, 49, 72,
                                          67, 54, 71, 60, 50, 72, 74, 51, 69, 53,
                                          68, 55, 77, 64, 48, 70, 68, 46, 71, 72]})

# Eine Verteilung sagt uns im Kern wie unsere Daten verteilt sind.

# Beispiel 1:
# Wir haben folgende Liste gegeben:

# [1,1,1,2,3,3,3,3,4,4,5]
# Hier k√∂nnen wir nun z√§hlen wie oft eine Zahl vorkommt und uns dies in einer Tabelle notieren:

# Zahl	1	2	3	4	5
# H√§ufigkeit	3	1	4	2	1
# Diese Tabelle gibt uns nun die Verteilung der Zahlen durch ihre absoluten H√§ufigkeiten an.

# Beispiel 2:
# Jeder hat mit Sicherheit in seinem Leben bereits einen W√ºrfel üé≤üé≤üé≤ gew√ºrfelt, bspw. bei Mensch-√§ger-dich-nicht.

# Hier gehen wir meistens davon aus, dass alle Seiten die gleiche Wahrscheinlichkeit haben, also 1/6, oder ca. 16,67%.

# D.h. Wenn wir also 60 mal w√ºrfeln k√∂nnten wir erwarten, dass jede Zahl 10 mal kommt.

# W√ºrfelergebnis	1	2	3	4	5	6
# Erwartung bei 60 W√ºrfen	10	10	10	10	10	10


## HISTOGRAMM

# Ein Histogramm ist eine graphische Darstellung einer Verteilung mithilfe von S√§ulen.

# In der Regel wird dabei nicht jeder Wert selbst als S√§ule dargestellt, sondern meistens mehrere Werte als Bereich zu einer S√§ule zusammengefasst.

# So k√∂nnen wir uns bspw. die H√§ufigkeiten von 100 verschiedenen Werten trotzdem mit nur 25 S√§ulen anzeigen lassen.

# In unserem Beispiel schauen wir uns das anhand der Spalte "Gewicht" des oben definierten DataFrames an:

In [3]:
df

Unnamed: 0,K√∂rpergr√∂√üe,Gewicht
0,170,55
1,184,85
2,186,92
3,180,73
4,174,77
...,...,...
95,164,70
96,165,68
97,159,46
98,165,71


In [4]:
df.head()

Unnamed: 0,K√∂rpergr√∂√üe,Gewicht
0,170,55
1,184,85
2,186,92
3,180,73
4,174,77


# plotly.express bietet uns hierf√ºr die Funktion px.histogramm(), der wir zwei Argumente √ºbergeben m√ºssen:

# Den DataFrame/die Daten, die wir uns anschauen
# x="Gewicht" um die entsprechende Spalte anzugeben, die im Histogramm angezeigt werden soll.
# Gehen wir mit dem Mauszeigen auf eine S√§ule, dann k√∂nnen wir den Bereich sehen, den plotly hier zu einer S√§ule zusammenfasst.

# Die S√§ule ganz links bspw. umfasst das Gewicht von 40-44 und z√§hlt 2 Personen.

# Anhand dieses Histogrammes l√§sst sich bspw. sagen, dass es gewichtstechnisch viel mehr Personen um die 70kg gibt, als um die 40kg oder 90kg.

In [5]:
px.histogram(df, x='Gewicht', title='Histogramm:Gewicht')

## STREUDIAGRAMM

# Ein Streudiagramm ist ebenfalls eine graphische Darstellung einer Verteilung, bei der jedoch gleichzeitig zwei Verteilungen kombiniert betrachtet werden.

In [6]:
df.head()

Unnamed: 0,K√∂rpergr√∂√üe,Gewicht
0,170,55
1,184,85
2,186,92
3,180,73
4,174,77


# Wir haben in unserem Beispiel die Spalten "K√∂rpergr√∂√üe" und "Gewicht", bei der wir die einzelnen Eintr√§ge p√§rchenweise betrachten k√∂nnen:

# (K√∂rpergr√∂√üe | Gewicht)
# (170 | 55)
# (184 | 85)
# (186 | 92)
...
# Diese lassen sich als Punkte (x | y) in ein Koordinatensystem eintragen, wodurch wir am Ende eine Punktewolke aus allen dieser P√§rchen enrhalten: Das Streudiagramm

# Dementsprechend werden die x- und y-Achse nach diesen zwei Spalten skaliert.

# Hierf√ºr bietet uns plotly.express die Funktion px.scatter an, der wir folgende Argumente √ºbergeben m√ºssen:

# Den DataFrame/die Daten, die wir uns anschauen
# x="K√∂rpergr√∂√üe" um die entsprechende Spalte anzugeben, die im Koordinatensysem auf der x-Achse vertreten sein soll
# y="Gewicht" um die entsprechende Spalte anzugeben, die im Koordinatensysem auf der y-Achse vertreten sein soll
# So ergibt sich folgende Punktewolke, bei wir bereits sehen k√∂nnen, dass es einen Zusammenhang gibt zwischen der Gr√∂√üe und dem Gewicht:

# Gr√∂√üere Leute wiegen in der Regel mehr und auch andersherum.

In [7]:
px.scatter(df, x='K√∂rpergr√∂√üe', y='Gewicht', title='Streudiagramm: K√∂rpergr√∂√üe - Gewicht')