## Naive Bayes Classifier

### 1. 개요

&nbsp;&nbsp;&nbsp; 나이브 베이즈 분류는 스팸 메일 분류, 텍스트 분류, 감정 분석, 추천 시스템 등에 광범위하게 쓰이는 모델로, 이를 알기 위해서는 먼저 베이즈 정리를 알아야 합니다.

<p style="text-align: center;">
    <em>“기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다.”<br>
    (헤럴드 제프리스)</em></p>

&nbsp;&nbsp;&nbsp; -베이즈 정리 : 1700년대에 Thomas Bayes의 이름을 따서 명명된 베이즈 정리는 주어진 데이터에 기반해 사전 확률(prior probability)을 업데이트하여 사후 확률(posterior probability)을 계산하는 방법입니다. 식은 다음과 같습니다.

$$
P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}
$$

&nbsp;&nbsp;&nbsp; 여기서 `P(A | B)`는 사건 `B`가 주어졌을 때 사건 `A`의 사후 확률을 의미하고, `P(B | A)`는 사건 `A`가 주어졌을 때 사건 `B`의 조건부 확률을 나타냅니다. `P(A)`는 사건 `A`의 사전 확률, `P(B)`는 사건 `B`의 전체 확률입니다. 위의 식을 동전 던지기에 대입해서 설명하자면, 동전 두 개를 던졌을 때 B는 첫번째 동전이 뒷면인 사건이고 A는 두번째 동전이 앞면이 되는 사건인 경우를 상정하면 됩니다. 즉, B가 주어진 상황(사전확률)에서 A의 확률(사후확률)을 구하는 것이죠.

&nbsp;&nbsp;&nbsp; -나이브 베이즈 분류기 : 베이즈 정리를 활용한 머신러닝 모델로, 분류에 사용되며 피처(feature) 간의 독립성을 전제로 합니다. 가령 스펨 메일을 분류할 때 광고성 단어 개수와 비속어의 개수가 서로 연관이 있어서는 안 됩니다.


### 3. 예시와 작동 방식

&nbsp;&nbsp;&nbsp; **1)피처가 하나일 때 : 날씨가 overcast일 때 경기를 할 확률은?**

![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbCWPz0%2FbtqwHdhuviR%2Fa176Hf0e3qoe3VdBoypT8k%2Fimg.webp)

&nbsp;&nbsp;&nbsp; 출처 : DataCamp

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast)`

&nbsp;&nbsp;&nbsp; (1)사전확률

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Overcast) = 4/14 = 0.29`

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Yes) = 9/14 = 0.64`

&nbsp;&nbsp;&nbsp; (2)사후확률

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Overcast|Yes) = 4/9 = 0.44`

&nbsp;&nbsp;&nbsp; (3)에이즈 정리 공식에 대입

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Yes|Overcast) = P(Overcast|Yes) P(Yes) / P(Overcast) = 0.44 * 0.64 / 0.29 = 0.98`

&nbsp;&nbsp;&nbsp; **1)피처가 multiple일 때 : 날씨가 overcast, 기온이 mild일 때 경기를 할 확률은?**

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Paly=No | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play=No) P(Play=No) / P(Weather=Overcast, Temp=Mild)`

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Weather=Overcast, Temp=Mild | Play=No) = P(Overcast|Yes) P(Mild|No)`

&nbsp;&nbsp;&nbsp; (1)사전 확률

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(No) = 5/14 = 0.36`

&nbsp;&nbsp;&nbsp; (2)사후 확률

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Overcast|No) = 0/5 = 0`

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Mild|No) = 2/5 = 0.4`

&nbsp;&nbsp;&nbsp; (3)베이즈 공식에 대입

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Weather=Overcast, Temp=Mild | Play=No) = P(Overcast|No) P(Mild|No) = 0 * 0.4 = 0`

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `P(Paly=No | Weather=Overcast, Temp=Mild) = P(Weather=Overcast, Temp=Mild | Play=No) P(Play=No) / P(Weather=Overcast, Temp=Mild)`

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; `= 0 * 0.36 / 0.1224 = 0`

### 4. 장단점

&nbsp;&nbsp;&nbsp; **1)장점**

&nbsp;&nbsp;&nbsp; -간단하고 구현하기 쉽습니다.

&nbsp;&nbsp;&nbsp; -훈련 데이터가 많이 필요하지 않습니다.

&nbsp;&nbsp;&nbsp; -비용이 적게 듭니다.

&nbsp;&nbsp;&nbsp; -연속형, 이산형 데이터에 모두 사용 가능하며, 이산형에서 성능이 더 좋습니다.


&nbsp;&nbsp;&nbsp; **2)단점**

&nbsp;&nbsp;&nbsp; - 현실에서 피처간 독립성이 확실하게 보장되는 경우는 드뭅니다.

### 5. 참고자료

&nbsp;&nbsp;&nbsp; -베이즈 추정 : https://bkshin.tistory.com/entry/dd?category=1042793

&nbsp;&nbsp;&nbsp; -나이브 베이즈 분류 : https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-1%EB%82%98%EC%9D%B4%EB%B8%8C-%EB%B2%A0%EC%9D%B4%EC%A6%88-%EB%B6%84%EB%A5%98-Naive-Bayes-Classification

&nbsp;&nbsp;&nbsp; -나이브 베이즈 분류2 : https://blog.naver.com/tommybee/222663271120

### 6. 실습

&nbsp;&nbsp;&nbsp; -참고 : https://www.kaggle.com/code/nilaychauhan/sms-spam-classifier-using-naive-bayes

&nbsp;&nbsp;&nbsp; -추가 알아보기 : https://www.kaggle.com/code/ybifoundation/iris-naive-bayes-classification-with-pyspark

In [1]:
import pandas as pd

In [2]:
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

df = pd.read_table('C:/Users/neddy/Documents/GitHub/머신러닝학습/SMSSpamCollection',names=['label','sms_message'])

# Printing out first five columns
df.head()

Unnamed: 0,label,sms_message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [3]:
df['label'] = df.label.map({'ham':0, 'spam':1})
df.head()

Unnamed: 0,label,sms_message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df['sms_message'],
                                                    df['label'],
                                                    random_state = 42)
print('Number of rows in the total set: {}'.format(df.shape[0]))
print('Number of rows in the training set: {}'.format(X_train.shape[0]))
print('Number of rows in the test set: {}'.format(X_test.shape[0]))

Number of rows in the total set: 5572
Number of rows in the training set: 4179
Number of rows in the test set: 1393


In [6]:
from sklearn.feature_extraction.text import CountVectorizer
count_vector = CountVectorizer()

training_data = count_vector.fit_transform(X_train)

testing_data = count_vector.transform(X_test)

In [7]:
from sklearn.naive_bayes import MultinomialNB
naive_bayes = MultinomialNB()
naive_bayes.fit(training_data, y_train)

In [8]:
predictions = naive_bayes.predict(testing_data)

In [9]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
print('Accuracy score: ', format(accuracy_score(y_test, predictions)))
print('Precision score: ', format(precision_score(y_test, predictions)))
print('Recall score: ', format(recall_score(y_test, predictions)))
print('F1 score: ', format(f1_score(y_test, predictions)))

Accuracy score:  0.9885139985642498
Precision score:  0.9775280898876404
Recall score:  0.9354838709677419
F1 score:  0.956043956043956
