# Bursdagsproblemet

For én tilfeldig valgt person antar vi at alle datoer i året (365) er like sannsynlige å ha som bursdag. Vi skal trekke $n$ personer tilfeldig og regne ut sannsynligheten for at minst to av disse har bursdag på samme dag. Under de gitte antagelsene kan du regne ut dette "for hånd", men her skal vi estimere denne sannsynligheten ved å kjøre en simulering. 

I hver iterasjon i simuleringen (for-løkka) trekker vi tilfeldige tall mellom 1 og 365 for de $n$ personene. Dersom to eller flere personer ble tildelt det samme tallet, registrerer vi en "suksess" ($x = 1$). Dersom alle de $n$ personene fikk tildelt ulike bursdager, registrerer vi en "fiasko" ($x = 0$). Til slutt teller vi opp alle suksesser og deler på antall simuleringer for å få et estimat på sannsynligheten for at minst to personer i en gruppe på $n$ mennesker har bursdag på samme dag. 

In [3]:
import numpy as np

## Nyttige funksjoner

In [4]:
np.random.choice(5,3) # for å trekke tilfeldige tall

array([1, 0, 2])

In [5]:
set([1,2,4,5,2,4,2]) # returnerer kun de unike tallene 

{1, 2, 4, 5}

## Simulering 1

In [28]:
n_sim = 100000 # Antall simuleringer du vil gjøre
n = 23 # Antall personer som skal velges ut
dager = 365

x =  np.zeros(n_sim) # initialiserer x-vektor med bare 0-eller

for i in range(n_sim):
    bursdager = np.random.choice(dager, n) # trekker tilfeldige datoer
    if len(set(bursdager)) < n:  # Dersom det ikke er like mange datoer som personer
        x[i] = 1
        
estimat = sum(x)/n_sim
print(estimat)

0.50423


## Simulering 2

I simulering 1 antok vi at for en tilfeldig valgt person var alle dager i året like sannsynlige for å ha bursdag (1/365). I realiteten vet vi at noen måneder er mer "populære" enn andre. Vi har hentet data på antall fødsler i Norge per måned i 2001 (ikke et skuddår), fra SSB: https://www.ssb.no/statbank/table/05531/. Disse dataene bruker vi til å anslå sannsynlighet for å være født i de ulike månedene. Vi antar at alle dager innenfor en gitt måned er like sannsynlige. 

In [126]:
antall_fødsler = np.array([4959, 4495, 4958, 5009, 5018, 4955, 4919, 4852, 4742, 4555, 4153, 4081])
andel_fødsler = antall_fødsler/sum(antall_fødsler)

mnd_dager = [31,28,31,30,31,30,31,31,30,31,30,31]

daglig_prob = [andel_fødsler[0]/mnd_dager[0]]*mnd_dager[0] # initialisere

for i in range(1,12):
    daglig_prob = daglig_prob + [andel_fødsler[i]/mnd_dager[i]]*mnd_dager[i]
    
# set(daglig_prob) # se på daglige sannsynligheter i hver mnd
# 1/365            # sammenligne med antagelsen i simulering 1

In [127]:
n_sim = 100000 # Antall simuleringer du vil gjøre
n = 50 # Antall personer som skal velges ut
dager = 365

y = np.zeros(n_sim) # initialiserer y-vektor med bare 0-eller

for i in range(n_sim):
    bursdager = np.random.choice(dager, n, daglig_prob) # trekker tilfeldige datoer
    if len(set(bursdager)) < n:  # Dersom det ikke er like mange datoer som personer
        y[i] = 1
        
estimat = sum(y)/n_sim
print(estimat)

0.97126
