In [3]:
import pandas as pd

data = pd.read_csv("dataset/gss_bayes.csv")
data.head()

Unnamed: 0,caseid,year,age,sex,polviews,partyid,indus10
0,1,1974,21.0,1,4.0,2.0,4970.0
1,2,1974,41.0,1,5.0,0.0,9160.0
2,5,1974,58.0,2,6.0,1.0,2670.0
3,6,1974,30.0,1,5.0,4.0,6870.0
4,7,1974,48.0,1,5.0,4.0,7860.0


In [7]:
def prob(A):
    return A.mean()

In [8]:
banker = (data['indus10'] == 6870)
print("Jumlah orang yang bekerja sebagai banker:", banker.sum())
print("Kemungkinan seseorang bekerja sebagai banker:", prob(banker))

Jumlah orang yang bekerja sebagai banker: 728
Kemungkinan seseorang bekerja sebagai banker: 0.014769730168391155


In [13]:
female = (data['sex'] == 2)
print("Jumlah wanita:", female.sum())
print("Kemungkinan adanya wanita dalam populasi:", prob(female))

Jumlah wanita: 26511
Kemungkinan adanya wanita dalam populasi: 0.5378575776019476


## Konjungsi & Kondisional

Konjungsi adalah probabilitas dari gabungan dua kondisi.

In [14]:
print("Kemungkinan seseorang wanita juga banker:", prob(banker & female))

Kemungkinan seseorang wanita juga banker: 0.011381618989653074


Sementara kondisional merupakan probabilitas kemunculan dari kondisi bergantung pada kondisi lain.

In [16]:
def conditional(preposition, given):
    return prob(preposition[given])

In [17]:
print("Kemungkinan seseorang adalah wanita JIKA ia adalah banker", conditional(female, given=banker))

Kemungkinan seseorang adalah banker JIKA ia adalah wanita 0.7706043956043956


In [19]:
democrat = (data['partyid'] <= 1)
print("Kemungkinan seseorang adalah wanita demokrat JIKA ia adalah banker", conditional(female & democrat, given=banker))

Kemungkinan seseorang adalah wanita demokrat JIKA ia adalah banker 0.26785714285714285


## Teorema Bayes
Kemungkinan adanya A JIKA ada B berdasarkan kondisi adanya B JIKA ada A.

P(A|B) = (P(A) * P(B|A)) / P(B)

In [25]:
# conditional(banker, female) -> conditional(female, banker)
result = prob(female) * conditional(banker, female) / prob(banker)
print("Kemungkinan seseorang adalah wanita JIKA ia adalah banker berdasarkan kondisi adanya seorang banker JIKA ia wanita:", result)

Kemungkinan seseorang adalah wanita JIKA ia adalah banker berdasarkan kondisi adanya seorang banker JIKA ia wanita: 0.7706043956043955


## Law of Total Probability
P(A) = P(B1 & A) + P(B2 & A)

Jumlah total probabilitas A adalah jumlah probabilitas dari kondisi B1 dan B2 dimana kedua kondisi merupakan hal yang berlawanan (pria dan wanita, muda dan tua, dsb).

In [27]:
male = (data['sex'] == 1)
prob(banker) == prob(banker & female) + prob(banker & male)

True

In [28]:
(prob(male) * conditional(banker, male)) + (prob(female) * conditional(banker, female))

0.014769730168391153

In [29]:
B = data['polviews']
B.value_counts().sort_index()

1.0     1442
2.0     5808
3.0     6243
4.0    18943
5.0     7940
6.0     7319
7.0     1595
Name: polviews, dtype: int64

In [30]:
sum(prob(B==i) * conditional(banker, B==i) for i in range(1,8))

0.014769730168391157