# Sannsynlighet

For det aller enkleste, som å ta union, snitt osv. mellom to sannsynligheter, gjør vi det enklest uten å hente inn eksterne pakker. Å skrive P(...) o.l. fungerer dårlig med Python sin syntaks, da dette ville blitt evaluert som en funksjon. Den peneste måten å få en skrivemåte som ligner på det vi er vandt til, er nok derfor å bruke dictionaries. Vi kan da lage en dict som heter P, og sette data inni denne, slik:

In [1]:
P = {} # Tom dict, vi legger inn data på de neste linjene.
P['A'] = 1/5 # Tilsvarer P(A)
P['B'] = 1/2 # osv...
P['B|A'] = 1/7

P # Vis hva som ligger inne i P-objektet vårt sålangt.

{'A': 0.2, 'B': 0.5, 'B|A': 0.14285714285714285}

Vi kan deretter gjøre utregninger ved å bruke reglene for kombinatorikk.

In [2]:
P['AB'] = P['B|A']*P['A']
print('P(AB) =', P['AB'])

P['AuB'] = P['A'] + P['B'] - P['AB']
print('P(AuB) =', P['AuB'])

P['A|B'] = (P['B|A']*P['A'])/P['B']
print('P(A|B) =', P['A|B'])

P(AB) = 0.02857142857142857
P(AuB) = 0.6714285714285714
P(A|B) = 0.05714285714285714


### Trekk fra en mengde

Det finnes dessverre ingen hurtigmetode i de pakkene vi har tilgjengelig, for å regne sannsynligheter ved trekk fra en mengde. Ferdig funksjonalitet får vi i større grad til senere kapitler. Vi må derfor implementere trekk-formlene selv, eller vi kan la datamaskinen gjøre jobben med å plukke verdier veldig mange ganger i en løkke. Dette kan man gjøre ved å bruke noe ala dette i en for-løkke:

In [3]:
import numpy as np
innhold = ['A', 'A', 'H', 'R', 'D', 'H', 'E']

# Henter fire tilfeldige verdier fra innhold, med tilbakelegging.
utvalg_tilbakelegg = np.random.choice(innhold, 4)
print('Med tilbakelegging:', utvalg_tilbakelegg)

# Henter fire tilfeldige verdier fra innhold, uten tilbakelegging.
utvalg_uten_tilbakelegg = np.random.choice(innhold, 4, replace=False)
print('Uten tilbakelegging:', utvalg_uten_tilbakelegg)

# Sjekke om vi fant H, E, R, D:
leter_etter = ['H','E','R','D']
fant_herd = (leter_etter == utvalg_uten_tilbakelegg).all() # Sjekker likhet mellom alle verdier i to lister.
print('Plukket H, E, R, D?', fant_herd)

# Hvis vi sorterer både verdiene vi leter etter, og listen vi plukket, spiller ikke rekkefølgen på utvalget
# lenger noen rolle.
leter_etter.sort() # leter_etter er nå [D, E, H, R], sortert alfabetisk
utvalg_uten_tilbakelegg.sort()
fant_herd = (leter_etter == utvalg_uten_tilbakelegg).all() # Sjekker likhet mellom alle verdier i to lister.
print('Plukket D, E, H, R?', fant_herd)

Med tilbakelegging: ['H' 'E' 'A' 'D']
Uten tilbakelegging: ['E' 'R' 'D' 'H']
Plukket H, E, R, D? False
Plukket D, E, H, R? True


Vi kan også, som nevnt, bygge våre egne funksjoner basert på trekk-formlene. Her er de fire trekk-formlene med to typer data. Man kan også bygge ut formlene for flere typer data ved bruk av multinomial-funksjonen vi lagde i forrige kapittel.

In [4]:
from scipy.misc import comb

def ordnet_tilbakelegg(p, n, k):
    return p**k * (1-p)**(n-k)

def ordnet_uten_tilbakelegg(N, n, S, k):
    return comb(N-n, S-k) / comb(N, S)

def uordnet_tilbakelegg(p, n, k):
    return comb(n, k) * ordnet_tilbakelegg(p, n, k)

def uordnet_uten_tilbakelegg(N, n, S, k):
    return comb(n, k) * ordnet_uten_tilbakelegg(N, n, S, k)