# Naive Bayes - 나이즈 베이지안 분류기


# 다항분포 나이브 베이즈
- 이산적인 값에 사용
- 하나의 특성이 여러 종류로 나뉘는 경우


### (1) 날씨 데이터 불러오기

In [1]:
import pandas as pd

In [3]:
from google.colab import files
uploaded = files.upload()
csvfile = list(uploaded.keys())[0]

Saving weather.csv to weather.csv


In [4]:
# Read Data
weather = pd.read_csv('weather.csv')
weather.head()

Unnamed: 0,outlook,temperature,humidity,windy,play
0,overcast,hot,high,False,yes
1,overcast,cool,normal,True,yes
2,overcast,mild,high,True,yes
3,overcast,hot,normal,False,yes
4,rainy,mild,high,False,yes


### (2) Navie Bayes 모듈 중 다항분포 나이브 베이즈 가져와 인스턴스화 하기

In [5]:
from sklearn.naive_bayes import MultinomialNB

In [6]:
multinomial_model = MultinomialNB()

In [7]:
multinomial_model

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

### (3) category 문자 데이터를 숫자 카테고리로 변환<br>- Map 활용





In [8]:
# mapping dictionary 만들기
outlook_dic = {'overcast':0, 'rainy':1, 'sunny':2}
temperature_dic = {'cool':0, 'hot':1, 'mild':2}
humidity_dic = {'high':0, 'normal':1}
windy_dic = {False:0, True:1}

In [11]:
# 딕셔너리를 활용해 데이터 mapping
weather['outlook'] = weather['outlook'].map(outlook_dic)
weather['temperature'] = weather['temperature'].map(temperature_dic)
weather['humidity'] = weather['humidity'].map(humidity_dic)
weather['windy'] = weather['windy'].map(windy_dic)

### (4) Multinomial

In [12]:
multinomial_model.fit(weather.iloc[:,:4], weather['play'])

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

### (5) 오늘의 날씨에 대한 예측

In [13]:
multinomial_model.predict([[1, 2, 0, 1]])

array(['yes'], dtype='<U3')

### (6) 계산된 확률

In [14]:
multinomial_model.predict_proba([[2, 2, 0, 1]])

array([[0.57311795, 0.42688205]])

# 가우시안 나이브 베이즈
- 연속적인 값에 사용

### (1) Iris 데이터 불러오기

In [15]:
from sklearn.datasets import load_iris
iris = load_iris()

In [16]:
# Data Frame으로 변환
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['species'] = iris.target

In [17]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### (2) 가우시안 모델 인스턴스

In [19]:
from sklearn.naive_bayes import GaussianNB
gaussian_model = GaussianNB()

### (3) 데이터를 학습데이터와 테스트 데이터로 분활 후 학습 데이터로 학습

In [21]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_df.iloc[:,:4], iris_df['species'], test_size = 0.33)

In [22]:
gaussian_model.fit(X_train, y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

### (4) 테스트 데이터로 성능 평가

In [23]:
from sklearn.metrics import classification_report, confusion_matrix
print(classification_report(y_test, gaussian_model.predict(X_test)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       0.87      0.81      0.84        16
           2       0.86      0.90      0.88        21

    accuracy                           0.90        50
   macro avg       0.91      0.91      0.91        50
weighted avg       0.90      0.90      0.90        50



In [24]:
print(confusion_matrix(y_test, gaussian_model.predict(X_test)))

[[13  0  0]
 [ 0 13  3]
 [ 0  2 19]]
