# Grunnleggende Bayes

Vi skal nå se på hvordan vi kan bruker Bayes med tabeller, slik vi gjør for hånd. Nå kan vi igjen bruke Pandas, og vi benytter oss igjen av DataFrame.

Eksempel: Hanne ser på samtaleloggen på telefonen og ser at den siste måneden har hun snakket med:
* Mor: 30% av samtalene
* Kjæreste: 50% av samtalene
* Andre: 20% av samtalene

Sannsynligheten for at samtaler med mor varer mer enn 10 minutter: 40%, kjæreste: 60%, andre: 20%

Vi får da at $A_k = $ {Mor, Kjæreste, Andre}.

Prior $P(A_k)$ blir 0.3, 0.5 og 0.2.

Likelihood ($P(A_k | B)$) blir 0.4, 0.6, 0.2.

Vi setter dette inn i en DataFrame:

In [1]:
from pandas import DataFrame

df = DataFrame.from_records(
    data=[[0.3, 0.4], [0.5, 0.6], [0.2, 0.2]], # [[A_k, B]...]
    index=['Mor', 'Kjæreste', 'Andre'], # Indeks på rader
    columns=['Prior', 'Likelihood'], # Foreløpige kolonnenavn. Vi legger til flere straks.
)

df

Unnamed: 0,Prior,Likelihood
Mor,0.3,0.4
Kjæreste,0.5,0.6
Andre,0.2,0.2


Ok, la oss fylle inn resten av kolonnene.

In [2]:
# Regne ut prior * likelihood, ved å ta disse kolonnene og gange sammen verdiene. Lagrer så dette i en ny kolonne
# kalt "Prior * likelihood".
df['Prior * likelihood'] = df['Prior'] * df['Likelihood']

# Finn summen av alle verdiene i den nye kolonnene. Vi bruker denne for å regne ut posterior.
pl_sum = sum(df['Prior * likelihood'])

# Ny kolonne for posterior. Tar P*L-kolonnens verdier, og deler på summen.
df['Posterior'] = df['Prior * likelihood'] / pl_sum

df

Unnamed: 0,Prior,Likelihood,Prior * likelihood,Posterior
Mor,0.3,0.4,0.12,0.26087
Kjæreste,0.5,0.6,0.3,0.652174
Andre,0.2,0.2,0.04,0.086957


Vi kan også legge til en "Sum"-rad, hvis vi ønsker summen også som en del av tabellen vår. Denne må legges til etter at alle regneoperasjonene er utført, for ellers vil vi komme til å gjøre operasjonene over med de tomme verdiene i "Sum" sin "Prior", "Likelihood" osv.

In [3]:
df.loc['Sum'] = ['', '', pl_sum, '']

df

Unnamed: 0,Prior,Likelihood,Prior * likelihood,Posterior
Mor,0.3,0.4,0.12,0.26087
Kjæreste,0.5,0.6,0.3,0.652174
Andre,0.2,0.2,0.04,0.0869565
Sum,,,0.46,


Flott! Nå kan vi se at hvis Hanne plukker en tilfeldig samtale fra den siste måneden, er det f.eks. ~26.1% sjanse for at dette var en samtale med mor som varte i mer enn 10 minutter.