# 베이즈 추정(Bayesian Estimation) 
> 나이브 베이즈 분류기 모델을 이해하기 전에 알아봐야하는 개념 

## 베이즈 추정이란? 

협력 업체로부터 납품 받은 기계의 성능을 평가한다고 가정해봅시다. 이럴 경우 납품받은 몇 개의 부품을 무작위로 뽑아 이 표본에서 얻은 정보만으로 모수(납품 받은 기계 전체)의 성능을 평가해야 합니다. 이 때 단순하게 표본에서 제공하는 정보만이 아닌 사전 정보를 함께 사용하여 모수를 추정하는 것이 보다 바람직하다고 생각하여 나온 통계적 방법이 베이즈 추정입니다. 

베이즈 추정은 다음과 같은 수식으로 나타낼 수 있습니다. 
$$p(\theta|X)=\frac{p(X,\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{p(X)}$$

## 나이브 베이즈 분류

베이즈 정리에 기반한 통계적 분류 기법으로 단순한 지도 학습 중 하나 입니다. 나이브 베이즈는 빠르고, 정확하며, 믿을만한 알고리즘입니다. 정확성도 높고 대용량 데이터에 대해 속도도 빠릅니다. 

단 나이브 베이즈를 적용하기 위해서 feature끼리 서로 독립이라는 조건이 필요합니다. 즉, 스펨 메일 분류에서 광고성 단어의 개수와 비속어의 개수가 서로 연관이 되어 있어서는 안됩니다.

## 나이브 베이즈는 어떻게 동작하는가? 

이는 아래의 예시를 들어서 설명하겠습니다. 날씨 정보와 축구 경기 여부에 대한 데이터가 있습니다. 날씨에 대한 정보를 기반으로 축구를 할 것인지 안 할 것인지 확률을 구하는 예제입니다.

In [6]:
import pandas as pd 
import numpy as np 
data={"Whether":["Sunny","Sunny","Overcast","Rainy","Rainy","Rainy","Overcast","Sunny","Sunny","Rainy","Sunny","Overcast","Overcast","Rainy"],
     "Play":["No","No","Yes","Yes","Yes","No","Yes","No","Yes","Yes","Yes","Yes","Yes","No"]}
data=pd.DataFrame(data)
data

Unnamed: 0,Whether,Play
0,Sunny,No
1,Sunny,No
2,Overcast,Yes
3,Rainy,Yes
4,Rainy,Yes
5,Rainy,No
6,Overcast,Yes
7,Sunny,No
8,Sunny,Yes
9,Rainy,Yes


In [10]:
# Frequency Table
pd.crosstab(data["Whether"],data["Play"],margins=True)

Play,No,Yes,All
Whether,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Overcast,0,4,4
Rainy,2,3,5
Sunny,3,2,5
All,5,9,14


In [14]:
# Likeligiid Table 
ft=pd.crosstab(data["Whether"],data["Play"],margins=True)
ft.loc[:,"Probability"]=ft["All"].apply(lambda x: x/ft.loc["All","All"])
ft.loc["Probability",:]=ft.loc["All",:].apply(lambda x: x/ft.loc["All","All"])
ft.loc["Probability","Probability"]=0
ft

Play,No,Yes,All,Probability
Whether,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Overcast,0.0,4.0,4.0,0.285714
Rainy,2.0,3.0,5.0,0.357143
Sunny,3.0,2.0,5.0,0.357143
All,5.0,9.0,14.0,1.0
Probability,0.357143,0.642857,1.0,0.0


In [17]:
# Posterior probability 
ft=pd.crosstab(data["Whether"],data["Play"],margins=True)
ft.loc[:,"Posterior Probability for No"]=ft["No"].apply(lambda x: x/ft.loc["All","No"])
ft.loc[:,"Posterior Probability for Yes"]=ft["Yes"].apply(lambda x: x/ft.loc["All","Yes"])
ft

Play,No,Yes,All,Posterior Probability for No,Posterior Probability for Yes
Whether,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Overcast,0,4,4,0.0,0.444444
Rainy,2,3,5,0.4,0.333333
Sunny,3,2,5,0.6,0.222222
All,5,9,14,1.0,1.0


## 문제 1 . 날씨가 OVERCAST일 때 경기를 할 확률은 ? 

사전 확률 
$P(overcast) = \frac{4}{14}$ ,$P(yes)=9/14$, 
사후 확률 
$P(Overcast|Yes)=\frac{4}{9}$ 
베이즈 공식에 대입 
$\frac{(\frac{4}{9}*\frac{9}{14})}{\frac{4}{14}}=1$

## 문제 2. 날씨가 overcast일 때 경기를 하지 않을 확률은 ? 
사전 확률 
$P(overcast) = \frac{4}{14}$ ,$P(no)=5/14$, 
사후 확률 
$P(Overcast|no)=\frac{0}{5}$ 
베이즈 공식에 대입 
$\frac{(\frac{0}{5}*\frac{5}{14})}{\frac{4}{14}}=0$

따라서 나이브 베이즈 분류기는 날씨가 overcast일때 축구를 할 것이라고 판단합니다. 

## Feature가 multiple일 때 나이브 베이즈 분류 

In [1]:
import pandas as pd 
import numpy as np 
data={"Whether":["Sunny","Sunny","Overcast","Rainy","Rainy","Rainy","Overcast","Sunny","Sunny","Rainy","Sunny","Overcast","Overcast","Rainy"],
     "Play":["No","No","Yes","Yes","Yes","No","Yes","No","Yes","Yes","Yes","Yes","Yes","No"],
     "Temperature":["Hot","Hot","Hot","Mild","Cool","Cool","Cool","Mild","Cool","Mild","Mild","Mild","Hot","Mild"]}
data=pd.DataFrame(data)
data

Unnamed: 0,Whether,Play,Temperature
0,Sunny,No,Hot
1,Sunny,No,Hot
2,Overcast,Yes,Hot
3,Rainy,Yes,Mild
4,Rainy,Yes,Cool
5,Rainy,No,Cool
6,Overcast,Yes,Cool
7,Sunny,No,Mild
8,Sunny,Yes,Cool
9,Rainy,Yes,Mild


In [6]:
print(pd.crosstab(data["Whether"],data["Play"],margins=True))
print()
print(pd.crosstab(data["Temperature"],data["Play"],margins=True))

Play      No  Yes  All
Whether               
Overcast   0    4    4
Rainy      2    3    5
Sunny      3    2    5
All        5    9   14

Play         No  Yes  All
Temperature              
Cool          1    3    4
Hot           2    2    4
Mild          2    4    6
All           5    9   14


## 문제 1. 날씨가 overcast 기온이 Mild일 때 경기를 할 확률은? 
사전확률 
$P(Yes)=\frac{9}{14}$, $P(Overcast)=\frac{4}{14}$, $P(Mild)=\frac{4}{14}$
사후확률 
$P(Overcast|Yes)=\frac{4}{9}$, $P(Mild|Yes)=\frac{4}{9}$
이 모든게 가능한 이유는 temperature, mild가 서로 independent 하기 떄문입니다 항상 주의합시다.   
그래서 결과적으로 베이즈 공식에 대입할 경우 문제에 대한 답은 1이 되겠습니다.

## 문제 2. 날씨가 overcast 기온이 Mild일 때 경기를 하지 않을 확률은? 
사전확률 
$P(no)=\frac{5}{14}$, $P(Overcast)=\frac{4}{14}$, $P(Mild)=\frac{4}{14}$
사후확률 
$P(Overcast|no)=\frac{0}{5}$, $P(Mild|no)=\frac{2}{5}$
이 모든게 가능한 이유는 temperature, mild가 서로 independent 하기 떄문입니다 항상 주의합시다.   
그래서 결과적으로 베이즈 공식에 대입할 경우 문제에 대한 답은 0이 되겠습니다.

## Scikit-learn을 활용한 나이브 베이즈 분류기 구축 

## 날씨, 기온에 따른 축구 여부 분류 


In [14]:
data["Whether"].values

array(['Sunny', 'Sunny', 'Overcast', 'Rainy', 'Rainy', 'Rainy',
       'Overcast', 'Sunny', 'Sunny', 'Rainy', 'Sunny', 'Overcast',
       'Overcast', 'Rainy'], dtype=object)

string을 int로 바꿔주는 Feature encoding을 해줍니다.

In [15]:
from sklearn.preprocessing import LabelEncoder

#creating labelencoder
le=LabelEncoder()
weather_encoded=le.fit_transform(data["Whether"].values)# weather을 whether로 저장했네여;;;
print(weather_encoded)

[2 2 0 1 1 1 0 2 2 1 2 0 0 1]


In [16]:
temp_encoded=le.fit_transform(data["Temperature"].values)
print(temp_encoded)
play_encoded=le.fit_transform(data["Play"].values)
print(play_encoded)

[1 1 1 2 0 0 0 2 0 2 2 2 1 2]
[0 0 1 1 1 0 1 0 1 1 1 1 1 0]


인코딩 된 두 피처들을 결합합니다. 

In [17]:
features=zip(weather_encoded,temp_encoded)
features=list(features)
print(features)

[(2, 1), (2, 1), (0, 1), (1, 2), (1, 0), (1, 0), (0, 0), (2, 2), (2, 0), (1, 2), (2, 2), (0, 2), (0, 1), (1, 2)]


sklearn을 활용하여 나이브 베이즈 분류기 모델을 만들겠습니다. 이를 위해 모델 생성 -> 훈련 데이터 fitting -> 성능 평가 순으로 실습해보겠습니다.

In [21]:
from sklearn.naive_bayes import GaussianNB

model=GaussianNB()

#Train the model using the training set 
model.fit(features,list(play_encoded))

#Predict output 
predicted=model.predict([[0,2]])
print(f"predicted value: {predicted}")

predicted value: [1]


## Label이 여러개인 나이브 베이즈 

In [23]:
from sklearn.datasets import load_wine 
data=load_wine()
print(data.keys())
print(data["target_names"])

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
['class_0' 'class_1' 'class_2']


In [31]:
df=pd.DataFrame(data['data'],columns=data["feature_names"])
df.loc[:,"target"]=data["target"]
print(df.head())
print(df.shape)

   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0           2.80   
1    13.20        1.78  2.14               11.2      100.0           2.65   
2    13.16        2.36  2.67               18.6      101.0           2.80   
3    14.37        1.95  2.50               16.8      113.0           3.85   
4    13.24        2.59  2.87               21.0      118.0           2.80   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   
1        2.76                  0.26             1.28             4.38  1.05   
2        3.24                  0.30             2.81             5.68  1.03   
3        3.49                  0.24             2.18             7.80  0.86   
4        2.69                  0.39             1.82             4.32  1.04   

   od280/od315_of_diluted_wines  proline  target  
0          

지도학습을 위해서는 train,test데이터를 나눠줘야 합니다. 이역시 sklearn에서는 관련 함수를 제공해줍니다 .

In [33]:
from sklearn.model_selection import train_test_split 
X_train,X_test,y_train,y_tes=train_test_split(df.drop(["target"],axis=1,inplace=False),df[["target"]],test_size=0.3,random_state=109)

print(len(X_train),len(X_test))

124 54


In [36]:
from sklearn.naive_bayes import GaussianNB

model=GaussianNB()

model.fit(X_train,y_train)
prediction=model.predict(X_test)

from sklearn.metrics import accuracy_score

print(f"모델의 정밀도는 {accuracy_score(prediction,y_tes)*100:.4f}% 입니다")

모델의 정밀도는 90.7407% 입니다


  y = column_or_1d(y, warn=True)


## 나이브 베이즈의 장단점 

## 장점 
* 간단하고, 빠르며, 정확한 모델입니다. 
* computation cost가 작습니다.
* 큰 데이터셋에 적합합니다. 
* 연속형보다 이산형 데이터에서 성능이 좋습니다
* Multiple class 예측을 위해서도 사용할 수 있습니다

## 단점 
* feature간 독립성이 있어야 합니다. 하지만 실제 데이터에서 모든 feature가 독립인 경우는 드뭅니다. 