# Formules

## Kansen

### Laplace

$$P(G) = \frac{\#G}{\#U}$$
- P(G) = de kans dat G gebeurt
- \#G = het aantal gunstige uitkomsten
- \#U = het aantal mogelijke uitkomsten
<br>
<img src="1_Kansen/rescources/img/Schermafbeelding 2024-03-17 091947.png">

### De Inverse

$$P(G̅) = 1 - P(G)$$
- P(G̅) = De kans dat G niet gebeurt
- P(G) = De kans dat G gebeurt

### De productregel

#### De algemene productregel
$$P(A\ en\ B) = P(A) * P(B|A)$$
- P(A en B) = De kans dat A en B tezamen gebeuren
- P(A) = De kans dat A gebeurt
- P(A|B) = De kans dat B gebeurt als A is gebeurd
<br>
<img src="1_Kansen/rescources/img/Schermafbeelding 2024-03-17 100130.png">


#### Onafhankelijke gebeurtenissen
$$P(A\ EN\ B) = P(A) * P(B)$$
- P(A en B) = De kans dat A en B tezamen gebeuren
- P(A) = De kans dat A gebeurt
- P(B) = De kans dat B gebeurt

### De somregel
$$P(A\ ∪\ B) = P(A) + P(B) - P(A\ ∩\ B)$$
- P(A ∪ B) = De kans dat A of B optreedt
- P(A) = De kans dat A gebeurt
- P(B) = De kans dat B gebeurt
- P(A ∩ B) = De kans dat A en B tezamen gebeuren
<br>
<img src="1_Kansen/rescources/img/Schermafbeelding 2024-03-17 103055.png">

### De regel van Bayes
$$P(B|A) = \frac{P(A|B) * P(B)}{P(A)}$$
of
$$P(A|B) = \frac{P(B|A) * P(A)}{P(B)}$$

- P(A|B) = De kans dat B zich voordoet als A zich voordoet
- P(B|A) = De kans dat A zich voordoet als B zich voordoet
- P(A) = De kans dat A zich voordoet
- P(B) = De kans dat B zich voordoet

### De wet van de totale kans
$$P(A) = P(G_1) * P(A|G_1) + P(G_2) * P(A|G_2) + ... + P(G_n) * P(A|G_n)$$

- P(A) = De kans dat A zich voordoet
- P(Gₙ) = De kans dat Gₙ zich voordoet
- P(A|Gₙ) = De kans dat Gₙ zicht voordoet als A zich voordoet

## Kansverdelingen

### Gemiddelde
$$\mu = \sum_{i=1}^{n} x_i * P(x_i)$$

In [1]:
from functions.functions_Y2.Kansverdeling import *
import pandas as pd

value = range(2, 13)
prob = pd.Series([1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1]) / 36

µ = average(value, prob)
#OF
µ = (value * prob).sum()

µ

6.999999999999998

### Standaardafwijking
$$\sigma = \sqrt{\sum_{i=1}^{n} (x_i - \mu)^2 * P(x_i)}$$

In [2]:
σ = standard_deviation(value, prob)
#OF
σ = math.sqrt(((value - µ) ** 2 * prob).sum())

σ

2.41522945769824

### Binomiaalverdeling
$$P(X) = \binom{n}{x} * p^x * (1 - p)^{n - x}$$
- n = het aantal keer dat je het experiment doet
- p = De kans dat een experiment de waarde oplevert waarin je geïnteresseerd bent
- x = Het aantal keer dat je wil dat het experiment de waarde oplevert waarin je geïnteresseerd bent
- $\binom{n}{x}$ = het aantal mogelijkheden om uit $n$ waarden, er $x$ te kiezen. Oftwel $C^n_x$

In [3]:
from scipy import stats

n = 5
p = 1 / 4
x = 2
PX = stats.binom.pmf(x, n, p)

PX

0.26367187499999983

#### Verwachte waarde / Gemiddelde
$$\mu = n * p$$
- n = het aantal keer dat je het experiment doet
- p = De kans dat een experiment de waarde oplevert waarin je geïnteresseerd bent

In [4]:
µ = average(n, p, "binomial")
#OF
µ = n * p

µ

1.25

#### Standaardafwijking
$$\sigma = \sqrt{n * p * (1 - p)}$$
- n = het aantal keer dat je het experiment doet
- p = De kans dat een experiment de waarde oplevert waarin je geïnteresseerd bent

In [5]:
σ = standard_deviation(n, p, "binomial")
#OF
σ = math.sqrt(n * p * (1 - p))

σ

0.9682458365518543

### Poissonverdeling
$$ P(k) = \frac{λ^k}{k!} \cdot e^{-λ}$$
- λ = gemiddelde aantal gebeurtenissen per interval
- k = het aantal gebeurtenissen waarin je geïnteresseerd bent
- e = 2.71828

#### Verwachte waarde / Gemiddelde
$$\mu = λ$$

#### Standaardafwijking
$$\sigma = \sqrt{λ}$$

### Normaalverdeling
$$ f(x) = \frac{1}{σ \cdot \sqrt{2π}} \cdot e^{-\frac{(x-μ)^2}{2σ^2}}$$
- μ = gemiddelde
- σ = standaardafwijking
- π = 3.14159
- e = 2.71828
- x = de waarde waarin je geïnteresseerd bent

## Toetsen

In [6]:
import pandas as pd

laptops = pd.Series([41.7, 10.0, 32.4, 52.1, 23.8, 36.7, 50.4, 41.2,
                     28.3, 3.1, 79.7, 22.5, 35.2, 65.3, 54.1, 85.0,
                     72.8, 8.4, 46.6, 27.6, 39.2, 57.6, 35.0, 42.3,
                     54.5, 36.4, 13.7, 40.7, 28.3, 26.4], name='verbruik')

### Betrouwbaarheidsinterval met  95.5% betrouwbaarheid
$$μ - \frac{2σ}{\sqrt{n}} < \bar{x} < μ + \frac{2σ}{\sqrt{n}}$$
- μ = gemiddelde
- σ = standaardafwijking
- n = aantal waarnemingen
- $\bar{x}$ = steekproefgemiddelde

OF

$$ \bar{x} - \frac{2σ}{\sqrt{n}} < μ < \bar{x} + \frac{2σ}{\sqrt{n}}$$

In Python:

In [7]:
from functions.functions_Y2.Testing import *

betrouwbaarheids_interval(laptops, 0.90, t=False)

(33.69262194697507, 45.70737805302495)

### Studentverdeling

$$t = n - 1$$
- t = de t-waarde
- n = aantal waarnemingen

In python kan de t-waarde als volgt worden gebruikt voor het betrouwbaarheidsinterval:

In [8]:
betrouwbaarheids_interval(laptops, 0.90)

(33.494403197191005, 45.905596802809015)

## Associatieregels

In [9]:
import pandas as pd

verkopen = pd.DataFrame({
    'KassaTicket': [1000123, 1000123, 1000123, 1000124, 1000124, 1000125, 1000125, 1000126, 1000126, 1000127, 1000127,
                    1000128, 1000129, 1000129, 1000129, 1000130, 1000131, 1000131, 1000132],
    'Product': ['Printer', 'Cartridge', 'Balpen', 'Papier', 'Cartridge', 'Papier', 'Cartridge', 'Printer', 'Cartridge',
                'Printer', 'Cartridge', 'Balpen', 'Papier', 'Cartridge', 'Balpen', 'Cartridge', 'Printer', 'Balpen',
                'Papier']
})
verkopen.set_index('KassaTicket', inplace=True)

transacties = pd.get_dummies(verkopen, columns=['Product'], prefix='', prefix_sep='').groupby(level='KassaTicket').sum()

from mlxtend.frequent_patterns import apriori

itemsets = apriori(transacties, min_support=0.2, use_colnames=True)



### Support
$$support(A) = \frac{\#A}{N}$$
- support(A) = De relatieve frequentie van A in dataset N
- \#A = het aantal keer dat A voorkomt in dataset N
- N = de grootte van dataset N

OF

$$support(A) = P(A)$$

#### Meerdere items
$$support(A\ ∧ \ B) = \frac{\#A\ ∩\ B}{N}$$
- support(A ∧ B) = De relatieve frequentie van A en B in dataset N
- \#A ∩ B = het aantal keer dat A en B tezamen voorkomen in dataset N
- N = de grootte van dataset N

OF

$$support(A\ ∧ \ B) = P(A\ ∩\ B)$$

#### Confidence
$$confidence(A\ →\ B) = \frac{support(A\ ∧\ B)}{support(A)}$$
- confidence(A → B) = De kans dat B voorkomt als A voorkomt
- support(A ∧ B) = De relatieve frequentie van A en B in dataset N
- support(A) = De relatieve frequentie van A in dataset N

Of kan gezien worden als:
$$confidence(A\ →\ B) = P(B|A) = \frac{P(A∧B)}{P(A)}$$

Kan met volgende Pyhton code berekend worden:

In [10]:
from functions.functions_Y2.Ar import *

confidence = confidence(itemsets, 'Printer', 'Cartridge')

confidence

0.7499999999999999

#### Lift
$$lift(A\ →\ B) = \frac{confidence(A\ →\ B)}{support(B)}$$
- lift(A → B) = De mate waarin B afhankelijk is van A
- confidence(A → B) = De kans dat B voorkomt als A voorkomt
- support(B) = De relatieve frequentie van B in dataset N

In Python kan dit als volgt berekend worden:

In [11]:
lift = lift(itemsets, 'Balpen', 'Cartridge')

lift

0.7142857142857143

#### Leverage
$$leverage(A\ →\ B) = support(A\ ∧\ B) - support(A) * support(B)$$
- leverage(A → B) = De mate waarin A en B samen voorkomen
- support(A ∧ B) = De relatieve frequentie van A en B in dataset N
- support(A) = De relatieve frequentie van A in dataset N
- support(B) = De relatieve frequentie van B in dataset N

In Python kan dit als volgt berekend worden:

In [12]:
leverage = leverage(itemsets, 'Printer', 'Cartridge')

leverage

0.020000000000000018