### 나이브 베이즈 

#### 베이즈 추정  
확률분포의 파라미터를 상수로 보는 일반적인 빈도주의와는 달리 베이지안은 파라미터를 확률변수로 보는 방법이다.  
베이즈 추정에서는 파라미터 $\theta$가 확률 변수이므로 확률 $P(\theta)$을 구할 수 있다.  
사건이 발생하기 전 파라미터 $\theta$의 확률인 $P(\theta)$를 사전 확률밀도 함수라고 한다.  
파라미터 $\theta$가 주어질때 표본 x가 얻어질 확률을 $P(X|\theta)$라고 표기 할 수 있다. 

$P(\theta,X) = P(X|\theta)P(\theta)$ 파라미터 $\theta$와 표본 x가 동시에 얻어질 확률을 계산하는 식 


반대로 표본x가 주어질 때 파라미터 $\theta$가 얻어질 확률
$P(\theta| X)= \cfrac {P(\theta| X)}{P(\theta)}$    
$P(\theta| X)$를 사후 확률 밀도 함수라고 한다. 

서로 조건부 독립인 피처를 가정하고 베이즈 이론을 기반으로 하는 머신러닝 알고리즘이다. 확률변수 y가 주어졌을 때 확률변수, x1, x2가 조건부 독립이면 식을 만족한다. 
    
 $P(X1,X2 | Y) = P(X1 | Y)P(X2 | Y)$

### 나이즈 베이즈 알고리즘 

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
from sklearn import datasets 
raw_wine = datasets.load_wine()

In [3]:
# 피처 타깃 데이터 지정 
X = raw_wine.data
y = raw_wine.target

In [4]:
# 트레이닝/테스트 데이터 분할 

from sklearn.model_selection import train_test_split

X_train , X_test , y_train, y_test = train_test_split(X, y, random_state= 3)

In [5]:
# 데이터 표준화 

from sklearn.preprocessing import StandardScaler

std = StandardScaler()
std.fit(X_train)

X_std_tn = std.transform(X_train)
X_std_te = std.transform(X_test)

In [6]:
# 데이터 학습 

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
gnb.fit(X_std_tn , y_train)

GaussianNB()

In [7]:
# 데이터 예측 

pred_gnb = gnb.predict(X_std_te)
print(pred_gnb)

[0 0 0 1 2 0 0 1 1 0 1 0 1 1 0 0 1 0 2 2 0 2 1 2 1 1 0 0 1 2 1 0 2 1 1 2 0
 1 0 2 0 2 1 1 1]


In [8]:
# recall 평가 

from sklearn.metrics import recall_score

recall = recall_score(y_test , pred_gnb, average= 'macro')
print(recall)

0.9629629629629629


In [9]:
# confusion metrics 

from sklearn.metrics import confusion_matrix

conf = confusion_matrix(y_test , pred_gnb)
print(conf)

[[17  1  0]
 [ 0 17  1]
 [ 0  0  9]]


In [10]:
# 분류 리포트 

from sklearn.metrics import classification_report

class_report = classification_report(y_test , pred_gnb)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      0.94      0.97        18
           1       0.94      0.94      0.94        18
           2       0.90      1.00      0.95         9

    accuracy                           0.96        45
   macro avg       0.95      0.96      0.95        45
weighted avg       0.96      0.96      0.96        45



### 의사결정나무 

In [11]:
raw_wine = datasets.load_wine()

In [12]:
# 피처 타깃 데이터 지정 
X = raw_wine.data
y = raw_wine.target

In [13]:
# 트레이닝/테스트 데이터 분할 

from sklearn.model_selection import train_test_split

X_train , X_test , y_train, y_test = train_test_split(X, y, random_state= 3)

In [14]:
# 데이터 표준화 

from sklearn.preprocessing import StandardScaler

std = StandardScaler()
std.fit(X_train)

X_std_tn = std.transform(X_train)
X_std_te = std.transform(X_test)

In [15]:
# 데이터 학습 

from sklearn import tree

tree = tree.DecisionTreeClassifier(random_state= 3)
tree.fit(X_std_tn , y_train)

DecisionTreeClassifier(random_state=3)

In [16]:
# 데이터 예측 

pred_tree = tree.predict(X_std_te)
print(pred_tree)

[0 0 0 1 2 1 0 1 1 1 1 0 1 1 0 0 1 0 2 2 0 1 1 2 0 1 0 0 1 2 1 0 2 1 1 2 0
 1 0 2 0 2 1 1 1]


In [17]:
# f1 스코어 평가 

from sklearn.metrics import f1_score

f1 = f1_score(y_test, pred_tree , average= 'macro')
print(f1)

0.8711156977410847


In [18]:
# confusion metrics 

from sklearn.metrics import confusion_matrix

conf = confusion_matrix(y_test , pred_tree)
print(conf)

[[15  3  0]
 [ 1 16  1]
 [ 0  1  8]]


In [19]:
# 분류 리포트 

from sklearn.metrics import classification_report

class_report = classification_report(y_test , pred_tree)
print(class_report)

              precision    recall  f1-score   support

           0       0.94      0.83      0.88        18
           1       0.80      0.89      0.84        18
           2       0.89      0.89      0.89         9

    accuracy                           0.87        45
   macro avg       0.88      0.87      0.87        45
weighted avg       0.87      0.87      0.87        45

