# 확률 - 베이즈 정리 

## 알고자 하는 것 : 흡연자 중 30대일 확률? ==> P(30대|흡연)
### 원인 : 나이, 결과 : 흡연자 
### 조건부 확률 P(흡연자 | 나이그룹)

In [1]:
import pandas as pd

# 데이터 셋 생성 
smoke_data = pd.DataFrame(
                {"나이그룹":['10','10','10','10','10','10','10','10','10','10',
                             '20','20','20','20','20','20','20','20','20','20',
                             '30','30','30','30','30','30','30','30','30','30'], 
                 
                 "흡연여부":['유','유','무','무','무','무','무','무','무','무',
                             '유','유','유','유','유','무','무','무','무','무',
                             '유','유','유','유','유','유','유','무','무','무',]
                }
)

In [2]:
## 계산하기 위한 교차표
data_crosstab = pd.crosstab(smoke_data['나이그룹'], 
                            smoke_data['흡연여부'], margins=False)

In [3]:
data_crosstab

흡연여부,무,유
나이그룹,Unnamed: 1_level_1,Unnamed: 2_level_1
10,8,2
20,5,5
30,3,7


In [7]:
## 확률 계산 
p_10 = data_crosstab.loc["10"].sum()/data_crosstab.values.sum()
print("10대 확률:",p_10 )
p_20 = data_crosstab.loc["20"].sum()/data_crosstab.values.sum()
print("20대 확률:",p_20 )
p_30 = data_crosstab.loc["30"].sum()/data_crosstab.values.sum()
print("30대 확률:",p_30 )

p_smok = data_crosstab["유"].sum()/data_crosstab.values.sum()
print("전체 흡연 확률:",p_smok )
p_smok_non = data_crosstab["무"].sum()/data_crosstab.values.sum()
print("전체 비흡연 확률:",p_smok_non )

10대 확률: 0.3333333333333333
20대 확률: 0.3333333333333333
30대 확률: 0.3333333333333333
전체 흡연 확률: 0.4666666666666667
전체 비흡연 확률: 0.5333333333333333


In [8]:
## 조건부 확률 

p_smok_given_10 = data_crosstab.loc["10"]["유"]/data_crosstab.loc["10"].sum()
print("P(흡연|10대):",p_smok_given_10 )

p_smok_given_20 = data_crosstab.loc["20"]["유"]/data_crosstab.loc["20"].sum()
print("P(흡연|20대):",p_smok_given_20 )

p_smok_given_30 = data_crosstab.loc["30"]["유"]/data_crosstab.loc["30"].sum()
print("P(흡연|30대):",p_smok_given_30 )

P(흡연|10대): 0.2
P(흡연|20대): 0.5
P(흡연|30대): 0.7


In [9]:
## 전확률 
total_p = (p_10 * p_smok_given_10) + (p_20 * p_smok_given_20) + (p_30 * p_smok_given_30)
print("전확률:",total_p )

## P(30대) * P(흡연|30대) 
p_30_smoke_given_30 = (p_30 * p_smok_given_30) 
print("P(30대) * P(흡연|30대):",p_30_smoke_given_30 )

전확률: 0.4666666666666667
P(30대) * P(흡연|30대): 0.2333333333333333


In [10]:
## 베이즈 확률 : P(30대|흡연), 흡연자 중 30대일 확율

p_30_given_smok = p_30_smoke_given_30 / total_p

print("담배피는 사람일 때 30대일 확률:{}".format(round(p_30_given_smok,3))) 

담배피는 사람일 때 30대일 확률:0.5


In [11]:
# [참조] sklearn 나이브 베이즈 
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# 아이리스 데이터 셋업 : X(Feature)와 y(결과)의 값을 각각 세팅
X,y = load_iris(return_X_y=True)    

# Feature 조합인 X의 값을 Train, test로 나누고, 결과 조합인 y의 값을 Train, test로 나눔. 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

# 나이브베이즈는 가우시안 나이브베이즈
nb = GaussianNB()

# train 데이터로 학습을 진행하며, X_test 데이터로 결과를 예측하여 y_pred에 입력
y_pred = nb.fit(X_train, y_train).predict(X_test)
print(y_pred)

# 실제 값과 y의 예측값을 비교하여 틀린 개수를 출력
print("Number of mislabeled points out of a total %d proints : %d"
      % (X_test.shape[0], (y_test != y_pred).sum()))

[2 1 0 2 0 2 0 1 1 1 1 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 1 1 1 2 0 2 0 0 1 2 2 1 2 1 2 1 1 2 1 1 2 1 2 1 0 2 1 1 1 1 2 0 0 2 1 0 0
 1]
Number of mislabeled points out of a total 75 proints : 4
