# 3장 머신러닝

## 3장-1절. Naive bayes classifier
- 조건부 확률기반의 베이즈정리를 이용한 분류기
- 종류
    - Gaussian Naive Bayes
        - 설명변수가 연속형
    - Multinomial Naive Bayes
        - 설명변수가 범주형
- 튜닝할 파라미터 없음
- 하지만, prior 줄 수 있다.

---
---

## 01. Gaussian Naive Bayes

In [2]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns


In [3]:
# 데이터 불러오기

from sklearn import datasets

iris = datasets.load_iris()
df_X = pd.DataFrame(iris.data)
df_y = pd.DataFrame(iris.target)

In [6]:
# 모델 fitting

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
fitted_model = gnb.fit(iris.data, iris.target)
y_pred = fitted_model.predict(iris.data)

In [7]:
# target이 0,1,2 인데 그 확률을 보여주는 것
fitted_model.predict_proba(iris.data)[[1,48,51,100]]

## 0일 확률 1, 0일 확률 1, 1일 확률 0.94, 2일확률 1

array([[1.00000000e+000, 1.51480769e-017, 2.34820051e-025],
       [1.00000000e+000, 2.63876217e-018, 2.79566024e-025],
       [7.27347795e-102, 9.45169639e-001, 5.48303606e-002],
       [3.23245181e-254, 6.35381031e-011, 1.00000000e+000]])

In [8]:
# 위 확률 결과 확인
fitted_model.predict(iris.data)[[1,48,51,100]]

array([0, 0, 1, 2])

In [11]:
# Confusion matrix

from sklearn.metrics import confusion_matrix

cfmat = confusion_matrix(iris.target, y_pred)
cfmat

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  3, 47]], dtype=int64)

### @ prior 설정해주기
- 각 y의 나올 확률을 지정해줄 수 있음(우선순위 지정)

#### 범주 3 나올 확률 높게 해주었을 때

In [12]:
gnb_prior3 = GaussianNB(priors=[1/100,1/100,98/100])
fitted_prior3 = gnb_prior3.fit(iris.data, iris.target)
y_pred_prior3 = fitted_prior3.predict(iris.data)

In [13]:
confusion_matrix(iris.target, y_pred_prior3)

array([[50,  0,  0],
       [ 0, 33, 17],
       [ 0,  0, 50]], dtype=int64)

#### 해석
1. 범주 3은 100%의 정확도가 되었지만, 범주 2의 정확도는 매우 떨어졌다.

---

#### 범주 2 나올 확률 높게 해주었을 때

In [14]:
gnb_prior2 = GaussianNB(priors=[1/100,98/100,1/100])
fitted_prior2 = gnb_prior2.fit(iris.data, iris.target)
y_pred_prior2 = fitted_prior2.predict(iris.data)

In [17]:
confusion_matrix(iris.target, y_pred_prior2)

array([[50,  0,  0],
       [ 0, 50,  0],
       [ 0, 14, 36]], dtype=int64)

#### 해석
1. 범주 2는 100%의 정화도가 되었지만, 범주3의 정확도는 매우 떨어졌다.

#### 최종해석
- 만약 1,2,3 범주가 어떻게 출현할지 미리 알고있으면, 이 정보(prior)를 넣어주면 결과에 반영시켜서 좀 더 좋은 결과 만들 수 있다.

---
---

## 02.  Multinomial Naive Bayes 

In [19]:
# 데이터 생성 => 설명변수는 5개의 범주형데이터, 종속변수는 6개의 범주로 말도안되는 데이터이지만, 나이브베이즈는 이것으로도 모델 생성가능

X = np.random.randint(5, size=(6,100)) # 범주형 설명변수
y = np.array([1, 2, 3, 4, 5, 6])

In [22]:
# 모델 fitting

from sklearn.naive_bayes import MultinomialNB

MulNB = MultinomialNB()
MulNB.fit(X, y)

MultinomialNB()

In [23]:
MulNB.predict(X)

array([1, 2, 3, 4, 5, 6])

In [25]:
MulNB.predict_proba(X)

array([[1.00000000e+00, 3.77756520e-32, 7.20436998e-37, 4.77761302e-38,
        8.33430262e-27, 3.30229178e-38],
       [1.59229512e-29, 1.00000000e+00, 5.89930392e-31, 2.26161717e-35,
        1.62945052e-28, 3.82333493e-34],
       [1.35580949e-36, 1.11798563e-33, 1.00000000e+00, 3.71401299e-38,
        7.32036722e-35, 6.42478691e-37],
       [4.76002115e-36, 6.39089635e-38, 2.72769055e-37, 1.00000000e+00,
        1.29571324e-31, 2.07924951e-38],
       [6.26450873e-26, 3.42949280e-31, 4.05876048e-35, 3.55477175e-31,
        1.00000000e+00, 3.08045680e-36],
       [6.66986897e-38, 1.31336998e-37, 8.69995059e-39, 3.51159483e-41,
        4.75832793e-36, 1.00000000e+00]])

### prior 변경

In [27]:
MulNB.predict(X[2:3])

array([3])

In [28]:
MulNB.predict_proba(X[2:3])

array([[1.35580949e-36, 1.11798563e-33, 1.00000000e+00, 3.71401299e-38,
        7.32036722e-35, 6.42478691e-37]])

In [29]:
# 3 나올 확률을 매우 줄이고, 2 나올 확률을 높인다.
MulNB2 = MultinomialNB(class_prior=[0.1, 0.1999, 0.0001, 0.1, 0.1, 0.1])
MulNB2.fit(X,y)

MultinomialNB(class_prior=[0.1, 0.1999, 0.0001, 0.1, 0.1, 0.1])

In [30]:
MulNB2.predict_proba(X[2:3])

array([[1.35580949e-33, 2.23485327e-30, 1.00000000e+00, 3.71401299e-35,
        7.32036722e-32, 6.42478691e-34]])

#### 해석
1. weight를 높게 준 두번째 범주의 확률은 높아진 것 확인 가능하다. (나머지는 비슷하게 주었기 때문에 변화없음)