# 5. Naive Bayes Classifier (NBC)

---

## 학습 목표
- 이론 수업에서 배웠던 DC 코믹스 예제를 실제 코드 동작을 통해 이해한다.
- sklearn에 내장된 wine 데이터와 외부 sentimentSentence 데이터를 사용하여 NBC를 구현해본다.

---

## 목차

### 5.1.Naive Bayes Classifier - data: DC comics
1. 데이터 로드/전처리
2. 모델 정의
3. 모델 학습
4. 결과 예측
5. 결과 확인

### 5.2. Naive Bayes Classifier - data: wine
1. 데이터 로드
2. 모델 정의
3. 모델 학습
4. 결과 예측
5. 결과 평가
6. 모델 분석

### 5.3. Naive Bayes Classifier - data: sentiment analysis

> **직접 실습해보세요!**

1. 데이터 로드
2. 모델 정의
3. 모델 학습 
4. 결과 예측
5. 결과 평가

---

## 5.1 Naive Bayes Classifier - data: DC comics

> Scikit-Learn을 사용하여 NBC을 실습해봅니다.
- Data: DC comics 데이터 직접 입력 (이론 PPT와 동일)

### 5-1-1. 데이터 로드/전처리

데이터를 직접 입력합니다.

In [1]:
# 데이터 준비

import pandas as pd

data = {
    "name": ["batman", "robin", "alfred", "penguin", "catwoman", "joker", "superman"],
    "sex": ["male", "male", "male", "male", "female", "male", "male"],
    "mask": ["yes", "yes", "no", "no", "yes", "no", "yes"],
    "cape": ["yes", "yes", "no", "no", "no", "no", "yes"],
    "tie": ["no", "no", "yes", "yes", "no", "no", "no"],
    "ears": ["yes", "no", "no", "no", "yes", "no", "no"],
    "smokes": ["no", "no", "no", "yes", "no", "no", "no"],
    "label": ["good", "good", "good", "bad", "bad", "bad", None],
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,sex,mask,cape,tie,ears,smokes,label
0,batman,male,yes,yes,no,yes,no,good
1,robin,male,yes,yes,no,no,no,good
2,alfred,male,no,no,yes,no,no,good
3,penguin,male,no,no,yes,no,yes,bad
4,catwoman,female,yes,no,no,yes,no,bad
5,joker,male,no,no,no,no,no,bad
6,superman,male,yes,yes,no,no,no,


Input 데이터와 Label 데이터를 분리합니다.

In [2]:
# Input 데이터와 Label 분리

x = df[['sex', 'mask', 'cape', 'tie', 'ears', 'smokes']].values
y = df['label'].values

x, y

(array([['male', 'yes', 'yes', 'no', 'yes', 'no'],
        ['male', 'yes', 'yes', 'no', 'no', 'no'],
        ['male', 'no', 'no', 'yes', 'no', 'no'],
        ['male', 'no', 'no', 'yes', 'no', 'yes'],
        ['female', 'yes', 'no', 'no', 'yes', 'no'],
        ['male', 'no', 'no', 'no', 'no', 'no'],
        ['male', 'yes', 'yes', 'no', 'no', 'no']], dtype=object),
 array(['good', 'good', 'good', 'bad', 'bad', 'bad', None], dtype=object))

In [3]:
# train set과 test set 분리

x_train, x_test = x[:-1], x[-1:]
y_train, y_test = y[:-1], y[-1:]

In [4]:
# 데이터 전처리

import numpy as np
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

encoder = OrdinalEncoder().fit(x_train) # 내가 받은 feature를 yes=1, no=0으로 변환 : feature변경 시 사용
x_train = encoder.transform(x_train)
x_test = encoder.transform(x_test)

le = LabelEncoder().fit(y_train) # 내가 받은 feature를 yes=1, no=0으로 변환 : label 변경 시 사용
y_train = le.transform(y_train)

temp = np.vstack([x_train, x_test])
data['sex'] = temp[:, 0]
data['mask'] = temp[:, 1]
data['cape'] = temp[:, 2]
data['tie'] = temp[:, 3]
data['ears'] = temp[:, 4]
data['smokes'] = temp[:, 5]
data['label'] = y_train.tolist() + [None]

pd.DataFrame(data)

Unnamed: 0,name,sex,mask,cape,tie,ears,smokes,label
0,batman,1.0,1.0,1.0,0.0,1.0,0.0,1.0
1,robin,1.0,1.0,1.0,0.0,0.0,0.0,1.0
2,alfred,1.0,0.0,0.0,1.0,0.0,0.0,1.0
3,penguin,1.0,0.0,0.0,1.0,0.0,1.0,0.0
4,catwoman,0.0,1.0,0.0,0.0,1.0,0.0,0.0
5,joker,1.0,0.0,0.0,0.0,0.0,0.0,0.0
6,superman,1.0,1.0,1.0,0.0,0.0,0.0,


### 5-1-2. 모델 정의

In [5]:
# https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html?highlight=bernoullinb#sklearn.naive_bayes.BernoulliNB
# Bernoulli Naive Bayes 학습 모델 사용

from sklearn.naive_bayes import BernoulliNB

# 모델 정의
model = BernoulliNB()

### 5-1-3. 모델 학습

In [6]:
# 모델 학습
model.fit(x_train, y_train)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

### 5-1-4. 결과 예측

In [7]:
# 데이터 예측
y_pred = model.predict(x_test)

### 5-1-5. 결과 확인

In [8]:
# 결과 확인
le.inverse_transform(y_pred) # 0,1 로 변경했던 label을 기존 값으로 돌려줌

array(['good'], dtype=object)

## 5.2 Naive Bayes Classifier - data: Wine

> Scikit-Learn을 사용하여 NBC을 실습해봅니다.
- Data: sklearn에 내장된 wine 데이터

### 5-2-1. 데이터 로드

In [9]:
from sklearn.datasets import load_wine

# 와인 데이터를 불러옵니다.
data = load_wine()

# 데이터에 대한 자세한 정보를 볼 수 있습니다.
print(data.DESCR)

# x: 독립변수(attribute)를 저장합니다.
# y: 종속변수(class)를 저장합니다.
x = data.data
y = data.target

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [10]:
import numpy as np

# Test를 해볼 인덱스를 0부터 (데이터개수-1)까지를 한번 random하게 섞는다.
test_ids = np.random.permutation(len(x))

x_train = x[test_ids[:-10]]
x_test = x[test_ids[-10:]]
 
y_train = y[test_ids[:-10]]
y_test = y[test_ids[-10:]]

### 5-2-2. 모델 정의

Scikit-Learn에 구현된 Naive Bayes Classifier 함수를 정의합니다.

In [11]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB

model = GaussianNB()
#model = MultinomialNB()
#model = BernoulliNB()

### 5-2-3. 모델 학습

In [12]:
model.fit(x_train, y_train)  # 모델 학습

GaussianNB(priors=None, var_smoothing=1e-09)

### 5-2-4. 결과 예측

In [13]:
pred = model.predict(x_test) # 모델 예측
print(pred)

[1 1 0 1 1 2 1 0 0 2]


### 5-2-5. 결과 평가

일반적으로 분류에서는 `Accuracy (정확도)`를 평가 척도로 사용합니다. 

In [14]:
from sklearn.metrics import accuracy_score

print("accuracy: %.6f" % accuracy_score(y_true=y_test, y_pred=pred))

accuracy: 1.000000


### 5-2-5. 결과 확인: 확률 예측값 출력

In [14]:
print(model.predict_proba(x_test[0].reshape(1,-1)))

[[3.63320837e-21 1.95795311e-05 9.99980420e-01]]


---

## 5.3  Naive Bayes Classifier - data: SentimentSentence

- 사용할 데이터: 외부에서 가져온 Sentiment Sentence 데이터
- Task: 문장의 긍/부정을 분류
- **아래에 코드를 작성해주세요** 칸에 코드를 작성해주시면 됩니다.

### 직접 실습해보세요!

- 훈련데이터: SentimentSentence_train.csv
- 평가데이터: SentimentSentence_test.csv

In [18]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import numpy as np


def main():

    train_input = pd.read_csv("data/SentimentSentence_train.csv")
    test_input = pd.read_csv("data/SentimentSentence_test.csv")

    print(train_input.head())

    x_train_input = np.array(train_input['sentence'])
    y_train = np.array(train_input['label'])
    x_test_input = np.array(test_input['sentence'])
    y_test = np.array(test_input['label'])
    
    tfidf = TfidfVectorizer() 
    # tf : term frequency, idf : inverse document frequence
    # tf가 높을수록 중요하다
    # 하지만 이 중에서는 the, 이다, 은, 는, 이, 가 등이 포함되어있다
    # 따라서 이를 제거하기 위해서 idf를 사용한다
    # 이를 다른 문서와 비교하였을 때 또 나타난다면 중요하지 않은 단어로 인식한다
    tfidf.fit(x_train_input)

    x_train = tfidf.transform(x_train_input).toarray()
    x_test = tfidf.transform(x_test_input).toarray()
    
    ####################### 아래에 코드를 작성해주세요 #######################
    
    # 1. 모델 정의
    #model = GaussianNB()
    #model = MultinomialNB()
    model = BernoulliNB()
     

    # 2. 모델 학습
    model.fit(x_train, y_train) 
    
    # 3. 모델 예측
    pred = model.predict(x_test)

    ##########################################################################
    
    print("accuracy: %.6f" % accuracy_score(y_true=y_test, y_pred=pred))
    
   

if __name__ == "__main__":
    main()

                                            sentence  label
0  level 5 spicy was perfect  where spice didn't ...      1
1  they also now serve indian naan bread with hum...      1
2  it kept getting worse and worse so now i'm off...      0
3  not a single employee came out to see if we we...      0
4  never been to hard rock casino before  will ne...      0
accuracy: 0.815000


#### 정답코드

In [18]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import numpy as np


def main():

    train_input = pd.read_csv("data/SentimentSentence_train.csv")
    test_input = pd.read_csv("data/SentimentSentence_test.csv")

    print(train_input.head())

    x_train_input = np.array(train_input['sentence'])
    y_train = np.array(train_input['label'])
    x_test_input = np.array(test_input['sentence'])
    y_test = np.array(test_input['label'])

    tfidf = TfidfVectorizer()
    tfidf.fit(x_train_input)

    x_train = tfidf.transform(x_train_input).toarray()
    x_test = tfidf.transform(x_test_input).toarray()

    #model = GaussianNB()
    #model = MultinomialNB()
    model = BernoulliNB()

    model.fit(x_train, y_train)
    pred = model.predict(x_test)

    print("%.6f" % accuracy_score(y_true=y_test, y_pred=pred))

if __name__ == "__main__":
    main()

                                            sentence  label
0  level 5 spicy was perfect  where spice didn't ...      1
1  they also now serve indian naan bread with hum...      1
2  it kept getting worse and worse so now i'm off...      0
3  not a single employee came out to see if we we...      0
4  never been to hard rock casino before  will ne...      0
0.815000
