# 1. Sannsynsrekning
For å kunne rekne med sannsyn må vi laste inn biblioteket `numpy`. Og eventuelt eit ekstra bibliotek `byg102statistikk` som inneheld ein del viktige funksjonar. I starten definerer eg nokre av dei her:

In [43]:
import numpy as np
npr = np.random.default_rng()
def fakultet(n):
    return np.prod(range(1,n+1))

Så kan vi finne for eksempel tilfeldige tal frå ei binomisk fordeling:

In [44]:
# Fem kast med terning (Yatzy)
antal = 5
n = 6
kast = npr.integers(n, size=antal) + 1
print(kast)

[1 5 6 4 1]


## 1.1 Fordelingar
Vi skal ikkje sjå på så veldig mange ulike fordelingar, men desse må du kjenne til:

### 1.1.1 Binomisk fordeling
Dette er situasjonen der du gjer $n$ identiske og uavhengige (ofte kalt IID) forsøk, og alle har sannsyn $p$ for å ha "suksess" (altå eitt av to moglege utfall). Variabelen $X$ er då "antal suksess blant dei $n$". Fordelinga har to parametre ($n$ og $p$), og variabelen sitt utfallsrom er $X\in\left\{0, 1, 2, \ldots, n\right\}$. 

### 1.1.2 Poissonfordeling
Dette er situasjonen der du observerer kor mange ganger noko skjer i løpet av eit gitt tidsintervall. Fordelinga har to parametre: $\lambda$, som er "forventa antal observasjonar per tidseining", og $t$ som er "antal tidseiningar". Variabelen $X$ er "antal suksess i tidsrommet $t$", og utfallsrommet er $X\in\left\{0, 1, 2, \ldots\right\}$ (altså kan vi observere *veldig mange* i løpet av eit tidsrom).

### 1.1.3 Geometrisk fordeling
Dette er "ventetid" i diskrete fordelingar: vi gjer eitt og same forsøk inntil vi får "suksess". Parameteren er $p$, sannsynet for "suksess". Variabelen $X$ er "antal forsøk før suksess", og utfallsrommet er $X\in\left\{0, 1, 2, \ldots\right\}$.

### 1.1.4 Normalfordeling
Dette er den aller viktigaste fordelinga. Den seier noko om risikoen for at ein observasjon skal havne utanfor eit gitt "normalområde". Den har to parametre: Den forventa verdien $\mu$ og usikkerheten $\sigma$. Variabelen $X$ er verdien av observasjonen, og utfallsrommet er $-\infty<X<\infty$. Det betyr at vi i *teorien* kan få alle moglege verdiar av $X$, men i *praksis* vil verdiane ligge innanfor det gitte normalområdet.

### 1.1.5 Kjikvadratfordeling
Denne er litt meir teoretisk, og dukker *berre* opp i kvalitetskontroll. Den seier noko om *usikkerheten* i normalfordelinga (altså kor stort "normalområdet" er). Den har ein parameter $k$, og variabelen $X$ har utfallrom $0\leq X< \infty$.

## 1.2 Formlar i sannsynsrekning
Når ein stokastisk variabel er definert, vil den alltid ha ein eller fleire *parametre*. Og det er to ting vi (ofte) vil vere interessert i:

1. Rekne ut sannsynet for at $X$ skal få ein bestemt verdi (eller ligge i eit bestemt intervall)
2. Generere ein eller fleire verdiar av $X$ (også kalt ei "simulering")

### 1.2.1 Binomisk fordeling
Formelen for sannsynet er gitt som $\displaystyle P(X=x) = \binom{n}{x}p^x(1-p)^{n-x}$, og vi definerer den slik i Python:

In [69]:
def binomial(n, p, x):
    return fakultet(n)/(fakultet(x)*fakultet(n-x))*p**x*(1-p)**(n-x)

Først definerer vi parametrane, og så kan vi finne sannsynet for at $X$ er ein gitt verdi:

In [70]:
n = 10; p = 0.5
binomial(n, p, 5)

0.24609375

Når vi skal "sample" eit tilfeldig utval må vi definere kor mange vi skal ha i utvalet (her $k$):

In [71]:
k = 10
utval = npr.binomial(n, p, k)
utval

array([5, 4, 6, 5, 6, 7, 7, 6, 6, 7], dtype=int64)

### 1.2.2 Poissonfordeling
Formelen for sannsyn er definert som $\displaystyle P(X = x) = \frac{(\lambda t)^x}{x!}e^{-\lambda t}$. Som du ser er det produktet av $\lambda$ (antal per tidseining) og $t$ (antal tidseiningar) som gir "antal i det tidsrommet vi ser på".

In [72]:
def poisson(l, t, x):
    return (l*t)**x/fakultet(x)*np.exp(-l*t)

Vi definerer parametrane og finn sannsynet for ein gitt verdi av $X$:

In [73]:
l = 4; t = 1
poisson(l, t, 2)

0.14652511110987343

Vi definerer så antal i utvalet av tilfeldige tal frå denne fordelinga:

In [76]:
k = 10
utval = npr.poisson(l*t, k)
utval

array([4, 5, 6, 4, 2, 2, 2, 8, 4, 4], dtype=int64)

### 1.2.3 Geometrisk fordeling
Formelen for sannsyn er definert som $P(X=x) = (1-p)^x\cdot p$:

In [87]:
def geometrisk(p, x):
    return (1-p)**x*p

Vi definerer $p$ og rekner ut:

In [94]:
p = 0.1
geometrisk(p, 1)

0.09000000000000001

Simulering av $k$ tilfeldige tal frå denne fordelinga:

In [91]:
k = 10
utval = npr.geometric(p, k)
utval

array([ 3,  5,  1, 10,  4,  2, 21,  7,  4, 13], dtype=int64)

### 1.2.4 Normalfordeling
I normalfordelinga er det aldri interessant å rekne sannsynet for at $x$ er lik ein gitt verdi, men alltid interessant om den er større (eller mindre) enn verdien. Korleis formelen ser ut bryr vi oss ikkje om; den vert definert i Python slik: 

In [93]:
def normal(m, s, x):
    return (1/(s*np.sqrt(2*np.pi)))*np.exp(-0.5*((x-m)/s)**2)

Vi definerer $\mu$ og $\sigma$ og rekner ut:

In [95]:
mu = 0
sigma = 1
normal(mu, sigma, 0.5)

0.3520653267642995

Simulering av $k$ tilfeldige tal frå denne fordelinga:

In [97]:
k = 10
utval = npr.normal(mu, sigma, k)
utval

array([-0.54483641, -0.42582157, -1.15447728, -0.57720092, -1.27182088,
        0.22901343,  0.22622954,  0.87822124, -1.00903745, -0.61631881])

### 1.2.5 Kjikvadratfordeling
Vi vil aldri rekne sannsyn eller simulere tal frå denne fordelinga.

# 1.3 Teori om sannsynsrekning

Den mest grunnleggande teorien om sannsynsrekning treng vi ikkje Python til. Det gjeld tema som

- definisjon av sannsyn
- definsjon av *stokastisk variabel*, *utfall* og *utfallsrom*
- uavhengige hendingar
- betinga sannsyn
- Bayes' regel