# Bursdagsparadoks

Vi bruker Python for å utforske et enkelt spørsmål om bursdager. Vi er i en gruppe av personer (f.eks. alle studenter som er med i kurset) og spør oss om hvor sannsynlig det er at to av de personer (eller flere) har bursdag på samme dag. Før vi ser på det la oss se på deres formodninger.

**Spørsmål:** Hvor mange personer trenger man før sjansen er 50% at minst to personer har bursdag på samme dag? 

In [None]:
#Plass for deres formodninger... La oss lage en liste i Python for å huske det vi har gjettet
L = []

#### Hvor mange trenger man før man finner to med bursdag samme dag?

For hvor stor er sjansen for at to personer i en tilfeldig gruppe har bursdag på samme dag? Det avhenger selvsagt av hvor stor gruppen er.

- Hvis vi har bare en person, så er sjansen selvfølgelig lik $0$.
- For to eller flere personer kan vi bruke konsepter fra siste semester for å beregne sannsynligheter, men vi må avklare noen regler før vi kan regne

##### Modellering for bursdager

Vi antar at
1. hver år har 365 dager (ingen skuddår, dvs. vi tenker ikke på folk som har bursdag på 29.02)
2. hver dag er like sannsynlig for en bursdag (dette stemmer ikke, se f.eks. denne [artikkel](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3743217/), eller spør folk som jobber på fødselavdeling i Norge i juni/juli)
3. vi er bare interessert i dagen ikke i år av bursdager.

##### **Oppgaver**

1. Forklar hva sannsynligheten er at en person har bursdag på en tilfeldig valgt dag i året. Hvilket tolkning av sannsynlighet har du brukt for det?
2. Beregn sjansen at en person har bursdag i en tilfeldig valgt dag mens en annen person ikke har bursdag på denne dagen.
3. Kan du generalisere formelen fra 2. for $k$ personer (hvor $k > 2$ er et naturlig tall)? 

**Plass for dine svar, dobbeltklikk her for å skrive noe**

## Simulering av problemen i Python

I stedet av å beregne sannsynlighet som i siste avsnitt skal vi bruke Python for å simulere problemen. Ifølge empirisk tolkning av sannsynlighet kan vi få en tilnærming til den teoretisk (kombinatorisk) sannsynlighet hvis vi simulerer problemen ofte nok.

La oss omdanne problemen litt for å få noen konkrete tall for å jobbe med. Vi antar nå at gruppen vi ser på består av to fotballlag sammen med en dommer, dvs. vi har $23$ personer i gruppen vi ser på.

Vi ser at vi har noen oppgaver vi skal løse før vi kan simulere prosessen i Python. Vi må
1. lage tilfeldige bursdager for alle $23$ personer som er med i gruppen,
2. deretter, sjekke hvis to personer har det samme bursdag og lagre resultat,
3. repeterre steg 1.-2. veldig ofte for å simulere problemen
4. beregne en tilnærming til sannsynligheten av hendelsen $A = \text{(minst) $2$ har bursdag på samme dag en gruppe av $23$}$ har bursdag på samme dag via formelen
   $$P(A) \approx \frac{\text{Antall av forsøk hvor (minst) to har bursdag på samme dag}}{\text{Antall av alle forsøk}}$$

Vi begynner ved å laste inn nødvendige biblioteker.

In [None]:
# last inn random bibliotek
import random as rdm

Vi utfører nå planen vi har lagd ut. Først å framst la oss definere en ny variabel som måler hvor mange personer er i gruppen. Deretter prøver dere å lage en kode som genererer en liste med tilfeldige bursdager for disse personer.

In [None]:
#Vi definerer noen variabler, vi legger dem i slik at vi kan (muligensvis) endre dem senere 
#Ikke endre navn til variablene men du kan endre verdien
no_pers = 5               #Variabel som måles antall av personer i gruppen
                          
no_mulige_bursdager = 365 #Hvis vi ville tilatte skuddår må den endres til 366

#Plass for din kode som lager en liste bursdager med tilfeldige tall som er bursdagene for 
#de personer som er med i gruppen, Husk at du kan bruke random bibliotek som rdm

Vi må nå sjekke hvis to tall er det samme i listen bursdag vi har laget. For dette minner vi om at <code>list</code> i Python tilatter at de samme elementer fins flere ganger. 

Det enkleste måten å finne ut hvis det fins noen elementer i en liste som fins flere ganger, er det å be Python å omdanne listen til noe som ikke har dobble elementer. I Python fins det en datatyp som oppfører seg (nesten) som en liste men ikke tilatter at man har dobble elementer, den heter <code>set</code> (engelsk for mengde). Se på neste cellen for noen eksempler:

In [None]:
mengde = {"epler", "banan", "pærer"} #Mengder lagres med krølleparenteser
print(mengde)

mengde2 = {"epler", "banan", "pærer", "epler"}
liste  = ["epler", "banan", "pærer", "epler"]
print("Set sletter elementer som fins oftere enn en gang", mengde2, "\n mens list gjør det ikke", liste)

print("\n \n Ting vi kan gjøre med mengder:")
print ("\n Vi kan omdanne list til set", set(liste))
print ("\n len() kommando fins for set og viser hvor mange elementer mengden har", len(mengde2))

Så hvis vi har en liste som vi vil sjekke om det har dobbelte elementer kan vi omdanne det til en mengde og sjekke hvis antall av elementer har forandret seg. 

**Spørsmål** Hvordan kan jeg sjekke ved å sammenligne lengden av en liste og den mengden vi lagde fra listen, hvis det fins dobbelte elementer i listen?

**Plass for dine svar, dobbeltklikk her for å skrive noe**

In [None]:
#lag Python kode som skriver ut hvis listen bursdager vi har lagd har elementer som er
#dobbelte. (Bruk vilkår for dette, koden din kan skrives inn under)

#### Lage kode som er gjenbrukbar

Vi har nå lagd kode som genererer en liste med tilfeldige bursdager for ett antall av personer og sjekker hvis det fins dobbelte dager i listen. Det er lurt å lage koden på en måte at den er gjenbrukbar, dvs. hvis vi endrer spørsmålet litt (for eksempel hvis gruppenstørrelse endrer seg), at vi kan bruke koden igjen uten at vi må gå inn i koden og endre mye. Dette kan man gjøre med en programmeringstekning som heter <code>function</code> (funksjon på norsk). 

En funksjon er en liten kodebit som likner på matematiske funksjoner. Hver funksjon returnerer en utdataverdi basert på en inngangsverdi den får. Vel, en bemerkelsesverdig forskjell er at innganger og utganger er valgfrie i Python-funksjoner (i motsetning til i matematiske funksjoner), men la oss la denne tekniske detaljen ligge til side for nå. Vi skal lære om den nå og ta en liten tur innom JuPyter notat om funksjoner for å få mer informasjon.

La meg vise et eksempel for en funksjon i Python

In [None]:
def lag_k_bursdager(k, mulige_dager=365):
    #-------------- Funksjonsdokumentasjon ------------------
    #lag_k_bursdager ta imot to variabler
    #    k              antall av bursdager som skal lages (bør være av type int)
    #    mulige_dager   antall av dager i år, standardverdi er 365 (dette er hva =365 betyr)
    #utdata: liste <<bursdager>> med k tilfeldige tall mellom 1 og mulige_dager
    # MERK: Funksjonen forventer at random bibliotek er lastet inn som rdm
    #-------------- slutt av funksjonsdokumentasjon ---------
    bursdager = []
    for _ in range(k):
        bursdager.append(rdm.randint(1,mulige_dager))
    return bursdager

Som vi ser hvis vi kjører kodecellen over skriver den ut ingenting. Hva skjer internt er at Python kernel får informasjon om en ny funksjon <code>lag_k_bursdager</code> vi kan nå bruke siden vi har forklart den til Python. Vitsen er at vi kan kalle funksjonen nå med forskjellige verdier og får resultatet:

In [None]:
#La oss teste lag_k_bursdager nå
bursdager_5 = lag_k_bursdager(5)   # Vi kaller funksjonen for k = 5
print("Liste med 5 burssdager:", bursdager_5)
bursdager_23 = lag_k_bursdager(23) # Nå bruker vi funksjonen for k = 23
print("Liste med 23 bursdager:", bursdager_23)

Egentlig ladge vi en funksjon <code>lag_k_bursdager(k,mulige_dager)</code> som forventer to variabler. Vi kan endre antall av dager in år (det er hva mulige_dager gjør) om vi ønsker det. At vi kan bruke funksjonen uten at vi setter inn to verdier er pga. den andre verdien har en standardverdi ($=365$). Men vi kan forandre det om vi vil:

In [None]:
#Vår funksjon nå med to verdier, vi ser på et år med 20 dager 
# (tull men enklere å se hva skjer)
print(lag_k_bursdager(23,20))

Vi lager nå en funksjon som finner ut hvis en liste har elementer som er dobbelt i listen.

In [None]:
def sjekk_dobbelt (liste):  
     #-------------- Funksjonsdokumentasjon ------------------
     # sjekk_dobbelt tar imot en 
     #     liste  variabel av type list
     # og finner ut hvis den har dobbelte elementer, 
     # utdata : boolean (True hvis det fins dobbelte, False hvis ikke)
     #-------------- slutt av Funksjonsdokumentasjon ----------
    mengde = set(liste)
    if len(mengde) != len(liste):
        return True
    else:
        return False

Igjen ingenting skrives ut når vi kjører koden men Python vet nå om <code>sjekk_dobbelt</code>. La oss teste funksjonen nå:

In [None]:
#Se på den nye funksjonen
print(sjekk_dobbelt([1,2,3]), ",fordi det fins ingen dobbelte")
print(sjekk_dobbelt([1,2,2,1]), ",fordi det fins dobbelte")

La oss lage nå en funksjon som beregner en tilnærmingsverdi for sannsynligheten at minst to personer fra $k$ har bursdag på samme dag.

In [None]:
def bursdags_paradoks_simulering (k, hvorofte):
    #-------------- Funksjonsdokumentasjon ------------------
    # Skriv noe!
    #-------------- slutt av Funksjonsdokumentasjon ---------
    
    #Oppgave: kommenter linjer og forklar hva skjer 
    antall_med_dobbelte = 0 
    for _ in range(hvorofte):
        bursdager = lag_k_bursdager(k)
        fins_dobbelte = sjekk_dobbelt(bursdager)
        if fins_dobbelte:
            antall_med_dobbelte +=1
    return antall_med_dobbelte / hvorofte 

In [None]:
# Ta simulering nå for k=23 og hvorofte = 10, 100 , 1000, 10000 og 100000
for hvorofte in [10,100,1000,10000,100000]:
    print("Estimat for sannsynlighet for 23 personer og ", hvorofte, "forsøk er \n")
    print(bursdags_paradoks_simulering(23,hvorofte))

Som forvented fra empirisk tolkning av sannsynlighet er estimaten bedre fo oftere vi gjenta forsøket. I endelse kommer vi ut med en estimat som ligger litt over $50\%$, dvs. for $23$ personer har vi alrede en ganske bra sjanse at to har bursdag på samme dag. Fordi det ses uforvented ut for mange kaller man resultatet bursdagsparadoks. 

Til slutt kan vi også gjenbruke koden vår for å lage estimater for ganske mange forskjellige $k$. Vi kan skrive dem ut i en graf som viser oss hvordan sannsynligheten utvikler seg for forskjellige antall av personer i gruppen vi ser på.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
 
 
MIN_Antall_pers = 2
MAX_Antall_pers = 60
mulige_dager = 365
hvor_ofte = 10000

#Oppgave: Lag funksjonsdokumentasjon og forklaringer for funksjonen estimat_sans_for_range

def estimat_sans_for_range(ks,hvor_ofte):
    k_sannsynlighet = []
 
    for k in ks:
        p_bursdager = bursdags_paradoks_simulering(k,hvor_ofte)
        k_sannsynlighet.append(p_bursdager)
         
    return k_sannsynlighet
 
#Hva gjør de neste to linjer? 
ks = range(MIN_Antall_pers, MAX_Antall_pers + 1)
k_sannsynligheter = estimat_sans_for_range(ks,hvor_ofte)
 
#Neste linjer er for plotting ved hjelp av seaborn, 
#ignorer dem, de gjør at vi får pene bilder 
fig, ax = plt.subplots(figsize=(10, 10), dpi=49)
ax.set_facecolor('#518792')
ax.xaxis.set_tick_params(width=5, color='#2d3233')
ax.yaxis.set_tick_params(width=5, color='#2d3233')
 
sns.lineplot(x=ks, y=k_sannsynligheter, color='#2d3233')
 
plt.xticks(fontsize=15, color='#2d3233')
y_range = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]
plt.yticks(y_range, fontsize=15, color='#2d3233')
plt.grid()
plt.xlim([0, 60])
plt.ylim([0, 1])
plt.xlabel('Antall av personer', fontsize=30, color='#2d3233')
plt.ylabel('P(Minst to har bursdag på samme dag)', fontsize=30, color='#2d3233')
 
plt.show()