# Stokastiske Simuleringer

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

## Simuleringer av stokastiske systemer

Simuleringer av systemer med stokastiske variabler. 

1. Sett inn passende tilfeldige verdier for de stokastiske variablene

2. Regn ut de interessante egenskapene til systemet

3. Gjenta 1. & 2. **mange** ganger med nye tilfeldige verdier

4. Regn ut gjennomsnittet til egenskapene gjennom alle forsøkene

### Terninger

Du triller tre terninger.

Hva er sannsynligheten for å få minst én firer?

In [None]:
def four_from_three_dice(N):
    ...
    return 

Vi simulerer ett kast med tre terninger, og gjentar forsøket $N$ ganger. Vi kan så telle antall ganger vi fikk minst én firer og dele på antall forsøk.

Her er et forslag til løsning:

In [None]:
def four_from_three_dice(N):
    counter = 0
    for _ in range(N):
        dice = np.random.randint(1, 7, 3)
        if 4 in dice:
            counter += 1   
    return counter/N

**De store talls lov:**  Forsøket bør repeteres mange ganger.

Den teoretiske lønsingen er $p \approx 0.42130$.

In [None]:
print(f"{'N':>8}  probability\n{'='*20}")
N = 5
for _ in range(5):
    N *= 10
    print(f"{N:8d}{four_from_three_dice(N):10.5f}")
print(f"Analytic{91/216:10.5f}\n{'='*20}")

### Bursdagsproblemet
    
Velg $k$ tilfeldige personer. Hva er sannsynligheten for at noen har samme bursdag?

Antagelser:
- Alle dager er like sannsynlig
- Ignorerer skuddår

Vi skal finne svar ved å bruke en stokastisk simulering.

**Teoretisk sannsynlighet** er gitt ved

$$
    p_2 = 1 - \frac{M!}{(M - k)! M^k}
$$

hvor $M = 365$ er antall dager per år.

In [None]:
from math import factorial as fac

DAYS = 365 # days per year

def p_two(k):
    '''Probability that two or more of k people have the same birthday.'''
    return 1 - fac(DAYS)/(fac(DAYS - k)*DAYS**k)

I dette tilfellet er **bursdagene de stokastiske variablene**. Vi må derfor generere tilfeldige bursdager:

In [None]:
k = 3
birthdays = ...
print(birthdays)

Det finnes mange måter å løse dette på. Har har jeg valgt å la heltallene $[0, 364]$ representere hver av de $365$ dagene per år:

In [None]:
birthdays = np.random.randint(DAYS, size=k)
print(birthdays)

**Hvordan sjekke at noen har samme bursdag?**

Et `set` kan ikke inneholde duplikater. 

Hvis det finnes duplikater i inputarrayet, vil det tilsvarende settet være kortere! 

In [None]:
def has_duplicates(array):
    return len(array) > len(set(array))

assert has_duplicates([1, 2, 3, 2])
assert not has_duplicates([9, 6, 3, 0])

**Funksjon for å regne ut sannsynlighet for at to eller flere personer har samme bursdag:**

In [None]:
def birthday_problem(k, N=50_000):
    ...
    return 

I dette tilfellet er det kun to muligheter. Enten har noen bursdag på samme dag, eller ikke. 

Vi trekker tilfeldige bursdager og sjekker om det finnes duplikater eller ikke. Den beregnede sannsynligheten blir da antall ganger det var noen med samme bursdag delt på antall forsøk.

Slik kan det da se ut:

In [None]:
def birthday_problem(k, N=50_000):
    count = 0
    for _ in range(N):
        birthdays = np.random.randint(DAYS, size=k)
        if has_duplicates(birthdays):
            count += 1
    return count/N

Dirichlets skuffeprinsipp: $k = 366$

In [None]:
print(f"Theoretical: 1.")
print(f"Simulated:  {birthday_problem(366):.5f}.")

$k = 23$

In [None]:
print(f"Theoretical: {p_two(23):.5f}.")
print(f"Simulated:   {birthday_problem(23):.5f}.")

$k = 70$

In [None]:
print(f"Theoretical: {p_two(70):.5f}.")
print(f"Simulated:   {birthday_problem(70):.5f}.")

### DNA

Vi vil finne forekomsten av en gitt DNA-sekvens i en DNA-streng.

Antar at de fire basene A, T, C og G har lik forekomst.

Eksempel fra [Charles J. Weiss](https://pubs-acs-org.ezproxy.uio.no/doi/full/10.1021/acs.jchemed.7b00395).

In [None]:
BASES = ('A', 'T', 'C', 'G')

**Generere tilfeldige DNA-strenger:** Gitt en lengde.

Til dette kan det være lurt å vite om `string.join()`:

In [None]:
list_to_string = ''.join(['H', 'e', 'l', 'l', 'o', '.'])
print(list_to_string)

Generere stokastisk variabel `strand`:

In [None]:
def new_strand(length):
    strand = ...
    return strand

Slik kan da funksjonen se ut:

In [None]:
def new_strand(length):
    strand = np.random.choice(BASES, size=length)
    return "".join(strand)

Prøv ut funksjonen:

In [None]:
strand = new_strand(10)
print(strand)

**Telle forekomst av en gitt sekvens per DNA-streng.**

Det finnes mange måter å gjøre dette på. For å forenkle litt, bruker vi `string.count(substring)`.

In [None]:
laugh = "hahahaha"
print(f"Number of ha: {laugh.count('ha')}.")
print(f"Number of haha: {laugh.count('haha')}.")

Dette vil si at hvis vi leter etter sekvensen GATG i en DRNA-streng GATGATG, så får vi forekomst 1. Man kan tenke seg at det egentlig er 2 som er riktig forekomst her, og da kan man ikke bruke `count`-funksjonen til `string`.

Tilsvarende for sekvens i DNA-streng:

In [None]:
strand = new_strand(5)
print(strand, strand.count('T'))

**Funksjon for å estimere forekomst av en sekvens i DNA-strenger:**

In [None]:
def occurances(sequence, strand_length, strands=10_000):
    ...
    return 

Forslag til funksjon:

In [None]:
def occurances(sequence, strand_length, strands=10_000):
    counter = 0
    for _ in range(strands):
        strand = new_strand(strand_length)
        counter += strand.count(sequence)
    return counter/strands

Et stokastisk eksperiment:

In [None]:
seq = "GCAT"
length = 1000
p = occurances(seq, length)
print(f"Ocurrance of {seq} in a {length} long sequence is {p}.")

### Monty Hall-problemet

En matematisk nøtt som skapte stor debatt på 90-tallet.

Vi skal gjøre en stokastisk simulering for å finne riktig svar på nøtten.

Tenk at du er en kandidat på et game-show. Du blir presentert tre dører. Bak en dør er det en bil, bak de to andre er det geiter. Du får beskjed om å velge en dør. 

Si at du velger dør #1.

![](figures/doors.png)

Programlederen åpner dør #3 og viser at der er det en geit. Programlederen spør så om du vil bytte til dør #2 eller om du vil beholde den du valgte, (altså dør #1).

Hva lønner det seg å gjøre?

![](figures/doors_open.png)

**Trekke tilfeldig dør til både prisen og til deltakeren:** Av dør 1, 2 eller 3. 

In [None]:
choice = ...
print(f"You chose door #{choice}.")

prize = ...
print(f"You are not supposed to know, but the prize is behind door #{prize}.")

I cellen under ligger en løsning ved bruk av `randint`. Husk at intervallet er åpnet $[x_\text{min}, x_\text{max})$, så `np.random.randint(1, 4)` vil kunne gi 1, 2 eller 3.

In [None]:
choice = np.random.randint(1, 4)
print(f"You chose door #{choice}.")

prize = np.random.randint(1, 4)
print(f"You are not supposed to know, but the prize is behind door #{prize}.")

**Dør som programlederen skal åpne:**
- Kan ikke åpne døren som gjemmer en bil
- Kan ikke åpne døren deltakeren har valgt

Dette betyr at programlederen har én eller to dører å velge mellom.

**Hint:** Vi kan bruke sett!

In [None]:
primes = {1, 2, 3, 4, 5, 6, 7, 8, 9} - {1, 4, 6, 8, 9}
print(primes)

Programlederen velger tilfeldig dør:

In [None]:
doors = {1, 2, 3}
host = ...
print(f"The host chose door #{host}.")

Obs på at `numpy.random.choice` ikke kan ta inn `set` som input. Vi må derfor gjøre `possible_doors` om til en liste.

Løsningen kan da se slik ut:

In [None]:
possible_doors = list(doors - {choice, prize})
host = np.random.choice(possible_doors)
print(f"The host chose door #{host}.")

**Bytte dør?**

Hvis du vil bytte dør, så må dette bli til den døren som *ikke* var hverken din eller programlederen sitt valg.

In [None]:
switch = ...

if switch:
    final = ...
    print(f"You will switch to door #{final}.")
else:
    final = ...
    print(f"You will stick to door #{final}.")

Når vi skriver `doors - {choice, host}` vil vi få et sett med ett element. Et sett kan ikke indekseres. For å få ut elementet bruker vi `set.pop()` som fjerner og returnerer et tilfeldig element i settet. Siden settet har størrelse 1, vil vi få riktig dørnummer!

In [None]:
if switch:
    final = (doors - {choice, host}).pop()
    print(f"You will switch to door #{final}.")
else:
    final = choice
    print(f"You will stick to door #{final}.")

**Vant deltakeren?**

In [None]:
win = final == prize
print(f"{'YOU WIN!!!' if win else 'YOU LOSE.'}")
print(f"Your final answer was #{final}, the prize was behind door #{prize}.")

**Stokastisk simluering av Monty Hall:**

In [None]:
def monty_hall(switch, N=10_000):
    doors = {1, 2, 3}
    ...
    return 

Svaret ligger i gjennomsnittet av mange game-shows. Forslag til implementasjon:

In [None]:
def monty_hall(switch, N=10_000):
    doors = {1, 2, 3}
    win = 0
    for _ in range(N):
        choice, prize = np.random.randint(1, 4, size=2)
        if switch:
            host = np.random.choice(list(doors - {choice, prize}))
            choice = (doors - {choice, host}).pop()
        if choice == prize:
            win += 1
    return win/N

**Svaret på Monty Hall:** Da kan vi avgjøre om du burde bytte eller ikke!

In [None]:
print("Probability of winning:")
print(f"- Stick to first:  {monty_hall(False)}")
print(f"- Switch the door: {monty_hall(True)}")

## Simuleringer av deterministiske systemer

Man kan også bruke stokastiske simuleringer av deterministiske systemer.

### Estimere gjennomsnitt


Vi kan estimere gjennomsnittet til en funksjon på intervallet $x \in [x_\text{min}, x_\text{max}]$ som

$$
    \bar{f} \approx \frac{1}{N}\sum_{i=1}^{N} f(x_i) ,
$$

hvor $x_i \in [x_\text{min}, x_\text{max}]$ er tilfeldige tall.

In [None]:
def mean(f, x_min, x_max, N):
    ...
    return 

Forslag til implementasjon:

In [None]:
def mean(f, x_min, x_max, N):
    x = np.random.uniform(x_min, x_max, size=N)
    return np.mean(f(x))

**De store talls lov** gjelder fortsatt! 

For 

$$
    f(x) = 2x + 1
$$

på intervallet $x \in [-3, 3]$ er $\bar{f} = 1$.

In [None]:
def f(x):
    return 2*x + 1

print(f"{'N':>8}   mean\n{'='*18}")
N = 10
x_min = -3
x_max = 3
for _ in range(5):
    N *= 10
    print(f"{N:8d}{mean(f, x_min, x_max, N):9.5f}")
print(f"Analytic  1\n{'='*18}")

Stokastiske simuleringer er ikke avhengig av dimensjon på samme måte som mange *klassiske* metoder, og kan derfor være rimeligere i bruk!

## Monte Carlo-integrasjon

Integralet av $f$ over et domene $\Omega$

$$
    I = \int_\Omega f(\vec{x}) \,{\rm d}\vec{x} 
$$

er *deterministisk*.

Monte Carlo-integrasjon tilnærmer integralet på en ikke-deterministisk måte

$$
    I \approx \frac{V}{N}\sum_{i = 1}^N f(\vec{x}_i) = V \langle f \rangle,
$$

hvor $V$ er volumet til $\Omega$ og $\vec{x}_i \in \Omega$ velges med en gitt tilfeldig fordeling. 

Metoden er svært nyttig for integraler av høyere dimensjoner.

### Monte Carlo i én dimensjon

I én dimensjon er integralet løst ved

$$
    \int_{x_{min}}^{x_{max}} f(x) \, {\rm d}x \approx (x_{max} - x_{min})\bar{f}.
$$


Det er vanlig med uniform fordeling av $x_i$, men andre fordelinger brukes også når det passer seg.

In [None]:
def monte_carlo(f, x_min, x_max, N):
    ...
    return

Implementasjon av Monte Carlo integrasjon i én dimensjon:

In [None]:
def monte_carlo(f, x_min, x_max, N):
    x = np.random.uniform(x_min, x_max, size=N)
    f_ = f(x).mean()
    return (x_max - x_min)*f_

**De store talls lov** gjelder for MC, som for alle stokastiske simuleringer.

Vi skal bruke MC til å løse

$$
    \int_{0.01}^{100} \frac{1}{x} \, {\rm d}x.
$$

Eksakt løsning er $\int \frac{1}{x} \, {\rm d}x = \ln(x)$.

In [None]:
def f(x):
    return 1/x

print(f"{'N':>8}    I\n{'='*18}")
x_min = 0.01
x_max = 100
I = np.log(x_max) - np.log(x_min)
N = 10
for _ in range(5):
    N *= 10
    print(f"{N:8d}{monte_carlo(f, x_min, x_max, N):9.5f}")
print(f"Analytic  {I:.5f}\n{'='*18}")

## Oppsummering

- Stokastiske metoder kan brukes til å simulere både stokastiske og deterministiske systemer.

- Stokastiske variabler gis passende tilfeldige tall.

- Tilfeldig *prøvetaking* kan brukes for deterministiske systemer.

- Resultat som gjennomsnitt av mange simuleringer/prøver.

Neste uke skal vi gå videre til Markov-kjeder.