# Kansverdelingen en Random Variabelen

In dit labo maken we kennis met de fundamenten van kansrekenen door te werken met discrete en continue random variabelen. We visualiseren verschillende kansverdelingen en berekenen kansen met behulp van Python.

**Leerdoelen:**
- Random variabelen definiëren en simuleren
- Probability Mass Functions (PMF) en Probability Density Functions (PDF) implementeren
- Discrete en continue uniforme verdelingen gebruiken
- Kansen berekenen en visualiseren

In [None]:
import numpy as np
import plotly.express as px
from scipy import stats

# Set random seed for reproducibility
rng = np.random.default_rng(42)

## Discrete Random Variabelen

### Eerlijke dobbelsteen

Een klassiek voorbeeld van een discrete random variabele is de uitkomst van een dobbelsteenworp. Bij een eerlijke dobbelsteen heeft elke waarde een gelijke kans: $P(x) = \frac{1}{6}$.

## ✍️
Implementeer de PMF voor een eerlijke dobbelsteen en visualiseer de verdeling.

## ✍️
Implementeer de PMF voor een oneerlijke dobbelsteen $(6) = 2 * P(other)$ en visualiseer de verdeling.

### Kansen berekenen met de somregel

De **somregel** stelt: $P(x \in A \cup B) = P(x \in A) + P(x \in B) - P(x \in A \cap B)$

Voor niet-overlappende gebeurtenissen volstaat het om de individuele kansen op te tellen.

## ✍️
Bereken voor de eerlijke dobbelsteen:
1. De kans op een oneven uitkomst
2. De kans op een uitkomst groter dan 4
3. De kans op een oneven uitkomst OF groter dan 4

## Continue Random Variabelen

Voor continue random variabelen gebruiken we een **Probability Density Function (PDF)** in plaats van een PMF. De PDF geeft geen directe kans, maar een kansdichtheid. We moeten integreren om de eigenlijke kans te berekenen.

### Uniforme verdeling

Een continue uniforme verdeling op interval $[a, b]$ heeft PDF:

$$
u(x; a, b) = \begin{cases}
\frac{1}{b-a} & \text{als } x \in [a,b] \\
0 & \text{anders}
\end{cases}
$$

## ✍️
Implementeer en visualiseer een uniforme verdeling op interval $[2, 8]$.

## ✍️
Bereken de kans dat $x \in [3, 5]$ voor deze uniforme verdeling. Doe dit zowel met de formule als met `scipy.stats`.

### PDF waarden kunnen groter zijn dan 1

Een belangrijke eigenschap van PDFs is dat de functiewaarde groter kan zijn dan 1, omdat het gaat om een *dichtheid* en niet om een kans.

## ✍️
Creëer een uniforme verdeling op interval $[0, 0.5]$ en toon aan dat de PDF-waarde groter is dan 1, maar de totale kans nog steeds 1 is.

## Normale verdeling (Gaussverdeling)

De normale verdeling is één van de belangrijkste continue verdelingen in statistiek en machine learning:

$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$

waarbij $\mu$ het gemiddelde en $\sigma$ de standaardafwijking voorstelt.

## ✍️
Visualiseer normale verdelingen met verschillende parameters en bereken kansen.

## ✍️
Voor een standaard normale verdeling $N(0, 1)$, bereken:
1. $P(x \leq 0)$
2. $P(-1 \leq x \leq 1)$
3. $P(x > 2)$

## Empirische vs. Theoretische Verdelingen

In de praktijk hebben we te maken met steekproeven. We kunnen de empirische verdeling visualiseren met histogrammen en vergelijken met theoretische verdelingen.

## ✍️
Trek steekproeven uit een normale verdeling en onderzoek hoe de keuze van bins de empirische verdeling beïnvloedt.

## ✍️
Onderzoek het effect van verschillende bin-groottes op de interpretatie van een histogram.

## Binomiale verdeling
De binomiale verdeling beschrijft het aantal successen in $n$ onafhankelijke experimenten met successproblabiliteit $p$.

## ✍️
Simuleer 100 worpen met een eerlijke munt ($p=0.5$, $n=100$) en visualiseer de verdeling van het aantal "kop".

In [None]:
# Hint: use rng.binomial() or stats.binom

## Exponentiële verdeling
De exponentiële verdeling modelleert de tijd tussen gebeurtenissen in een Poisson-proces (bv. tijd tussen aankomsten).

PDF: $f(x; \lambda) = \lambda e^{-\lambda x}$ voor $x \geq 0$

## ✍️
Visualiseer exponentiële verdelingen met verschillende rate parameters $\lambda \in \{0.5, 1, 2\}$ en bereken $P(X > 2)$ voor elk.

In [None]:
# Hint: use stats.expon(scale=1/lambda)

## Simulatie en wet van grote aantallen

Bij ML Principles zagen we reeds een illustratie van de _{ref}`Law of Large Numbers <target-large-numbers>`_.

## ✍️
Trek steekproeven van verschillende groottes uit een uniforme verdeling $U(0, 10)$ en bereken het steekproefgemiddelde. Toon aan dat het gemiddelde naar de theoretische verwachtingswaarde convergeert naarmate de steekproef groeit.

In [None]:
# Hint: theoretical mean = (a+b)/2 = 5