In [4]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(42)

# Zufallswerte aus Verteilungen sampeln
Numpy bietet einige Möglichkeiten an, aus diversen Zufallsverteilungen Zufallswerte zu erstellen (Sample). Hier sind die wichtigsten Verteilungen aufgeführt.

## Standardnormalverteilung
die Standardnormalverteilung ist eine Normalverteilung mit der Standardabweichung $\sigma=1$ und dem Mittelwert (Erwartungswert) $\mu = 0$

Dazu nutzen wir aus dem numpy Random Modul die Methode `randn`. Über die Parameter lässt sich der Shape des gewünschten Arrays definieren. 

In [1]:
# eindimensionales Array mit 10 Elementen


# zweidimensionales Array mit 2 x 5 Elementen


## Normalverteilung
Bei der Normalverteilung muss man im Gegensatz zur Standardnormalverteilung $\mu$ und $\sigma$ definieren. Die beiden benannten Argumente der Methode normal heissen `loc` (für Mittelwert) und  `scale` für Standardabweichung.

Je größer die Anzahl an Samples, desto mehr nähert sich der berechnete Mittelwert $\mu$ an.

In [2]:
mu = 2
sigma = 3


### Aufgabe
Erstelle 10 zufällige Menschengrößen. Die Größe ist normalverteilt mit dem Mittelwert 175 cm und einer Standardabweichung von 5 cm.

## Mehrdimensionale Normalverteilung
wir können für mehrere Dimensionen eine Normalverteilung angeben. Dazu müssen wir eine Kovarianz-Matrix angeben, die die Kovarianz und die Varianz für jedes Feature enthält.

### Vorgeplänkel: Kovarianmzatrix am Beispiel
Was ist die Kovarianzmatrix? 

Wir untersuchen den Zusammenhang zwischen dem Grad der Happiness, den eine Person erreicht, wenn sie eine Banane oder einen Apfel isst. 
Unsere drei Versuchsobjekte bewerten das jeweils so:

A = [1, 1], dh. gleiche, geringe Freude beim Essen von Apfel und beim Essen einer Banane    
B = [3, 0], dh. große Freude beim Essen von Apfel, keine Freude beim Essen von Banane      
C = [-1, -1], dh. keine Freude beim Essen von Apfel oder Banane (Person mag keine Früchte)     

#### Kovarianz
Sie gibt die Richtung des Zusammenhangs zwischen zwei quantitativen Merkmalen an. Die Summe der Produkte der Differenzen von x - Mittelwert und y - Mittelwert durch die Summe aller Datenpunkte. Nimmt die Kovarianz einen postiven Wert an, korrelieren die beiden Werte positiv. Ansonsten halt negativ. Wenn sie 0 ist, korrelieren die Werte überhaupt nicht.

**Formel der Kovarianz:**

$c_{XY} = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y})$    
$\overline{y}$ = Mittelwert der y-Werte     
$\overline{x}$ = Mittelwert der x-Werte  

#### Varianz
Die Varianz drückt die Streuung um den Mittelwert aus. Je höher die Varianz, desto höher die Streung (bei gleich bleibendem Mittelwert). Die Varianz ist allerdings ein quadrierter Wert, deshalb können wir ihn nicht interpretieren. Dafür eignet sich die Standardabweichung.

**Formel der Varianz:**     
$s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2$

#### Kovarian-Matrix
Eine Kovarianz-Matrix ist eine quadratische Matrix, die für jedes Feature die Kovarianz und die Varianz abbildet.

Kovarianz-Matrix für zwei Features Apples und Bananas. In den einzelnen Feldern stehen jeweils die Kovarianzen mit sich selbst und dem anderen Features.

$ M = \left( \begin{matrix} cov(A,A) & cov(A, B) \\ cov(B,A) & cov(B,B) \end{matrix} \right)$

die Kovarianz von A mit sich selbst $cov(A,A)$ kann man auch als Varianz von A ansehen. Damit wäre unsere Matrix

$ M = \left( \begin{matrix} var(A) & cov(A, B) \\ cov(B,A) & var(B) \end{matrix} \right)$

Weiterhin kann man sehen, dass cov(A,B) gleich cov(B,A), dh. die Kovarianz von A und B ist gleich der Kovarianz von B und A. Somit ist unsere Matrix symmetrisch.



**Ergebnis:**    
$var_{apple} = 8/3$   

$var_{banana} = 2/3$ 

$cov = 2/3$

die berechnete Kovarianzmatrix lautet also:  

$ M = \left( \begin{matrix} 8/3 & 2/3 \\ 2/3 & 2/3 \end{matrix} \right)$


### Interpretation der Kovarianzmatrix
Die Werte entlang der Diagonalen der Matrix sind einfach die Varianzen jedes Subjekts, zb. Varianz "Freue bei Apfel essen" ist 8/3. Dh. hohe Varianz, weiter Spread.

Die anderen Werte in der Matrix repräsentieren die Kovarianzen zwischen den verschiedenen Subjekten. 


In [3]:
samples = np.array([[1, 1], [3, 0], [-1, -1]])



NameError: name 'np' is not defined

In [5]:
import pandas as pd

df = pd.DataFrame({
    "x": [1, 3, -1],
    "y": [1, 0, -1],
})
df[["x", "y"]].cov(), np.var(X), np.var(Y)

NameError: name 'X' is not defined

### Beispiel mehrdimensionale Verteilung

In [6]:
# für beide Dimensionen soll der Mittelwert bei 0 liegen
mean = [0, 0]

# Einheitsmatrix als Kovarianzmatrix. D.h. die Varianz für Feature a und b ist 1, die Kovarianz 0
# je größer die Varianz, desto größer der Spread
# je größer die Kovarianz, desto stärker die Korrelation
cov = [
    [1, 0], 
    [0, 1],
]


## Gleichverteilung
Aus einer Gleichverteilung lassen sich Integer und Fließkommazahlen sampeln.

### gleichverteilte Floats
hier muss ein Intervall von low bis (exclusive) high angegeben werden.

### gleichverteilte Integer
hier muss ein Intervall von low bis (exclusive) high angegeben werden.

#### Aufgabe
Simuliere 10 Würfe mit einem Würfel.

In [53]:
# 10 mal würfeln
dices = np.random.randint(low=1, high=7, size=(10,))
dices

array([3, 6, 1, 6, 6, 1, 4, 4, 3, 3])

## Elemente mischen (Shuffle)
np.random.shuffle hat wie das Python-Pendant random.shuffle keinen Rückgabewert, sondern vertauscht inplace.Wir können mit `np.random.shuffle` auch `mehrdimensionale Arrays` durchmischen

In [7]:
numbers = np.arange(1, 7).reshape((3,2))

## Permuatation
Ähnlich wie shuffle, aber mit return-Wert.

In [8]:
numbers = np.arange(1, 7).reshape((3,2))


## Aus einer Menge ziehen (choices)
Zufällige Werte aus einer eindimensionalen Liste ziehen. `replace` (Zurücklegen) und `p` (Wahrscheinlichkeit für jeden Wert) sind optional. Falls `p` genutzt wird, also die Wahrscheinlichkeitsgewichtung, muss darauf geachtet werden, dass die Summe der Gewichtungen 1 ergibt und die Anzahl der Elemente der Anzahl der Choices entspricht.

In [9]:
choices = np.array([1, 4, 9, 23, 11])


## Binomialverteilung
Die Binomialverteilung ist eine der wichtigsten diskreten Verteilungen. Ein binomialverteiltes Zufallsexperiment entsteht durch `n-fache Wiederholung eines Bernoulli Experiments` (Erfolg oder Mißerfolg). Man unterscheidet also nur zwischen Erfolg und Nicht-Erfolg.

In [11]:
# Beispiel: 10 maliges Werfen einer idealen Münze

# Anzahl an Versuchen 
n = 10

# Wahrscheinlichkeit für jeden Versuch 0 <= p <= 1
p = 0.5

# wir führen Experiment 1000000 mal aus
trials = 1_000_000



### Aufgabe Binomialverteilung
Was ist die Wahrscheinlichkeit, dass beim 10 maligen Würfeln eines idealen 6-seitigen Würfels keine 6 geworfen wird? Teste mit 100_000 Versuchen.