### 베이즈 추론, 베이즈 정리, 베이즈 추정 (Bayesian Inference)
- 역확률(inverse probability) 문제를 해결하기 위한 방법으로서, 조건부 확률(P(B|A)))을 알고 있을 때, 정반대인 조건부 확률(P(A|B))을 구하는 방법이다.
- 추론 대상의 사전 확률과 추가적인 정보를 기반으로 해당 대상의 "사후 확률"을 추론하는 통계적 방법이다.
- 어떤 사건이 서로 "배반"하는(독립하는) 원인 둘에 의해 일어난다고 하면, 실제 사건이 일어났을 때 이 사건이 두 원인 중 하나일 확률을 구하는 방식이다.
- 어떤 상황에서 N개의 원인이 있을 때, 실제 사건이 발생하면 N개 중 한 가지 원인일 확률을 구하는 방법이다.
- 기존 사건들의 확률을 알 수 없을 때, 전혀 사용할 수 없는 방식이다.
- 하지만, 그 간 데이터가 쌓이면서, 기존 사건들의 확률을 대략적으로 뽑아낼 수 있게 되었다.
- 이로 인해, 사회적 통계나 주식에서 베이즈 정리 활용이 필수로 꼽히고 있다.  

> ##### 예시
질병 A의 양성판정 정확도가 80%인 검사기가 있다. 검사를 시행해서 양성이 나왔다면, 이 사람이 80%의 확률로 병에 걸렸다고 이야기할 수 없다. 왜냐하면 검사기가 알려주는 확률과 양성일 경우 질병을 앓고 있을 확률은 조건부 확률의 의미에서 정반대이기 때문이다.  
<table style="width:50%; margin-left: 50px">
    <tr>
        <th>전제</th>
        <th>관심 사건</th>
        <th>확률</th>
    </tr>
    <tr>
        <th>병을 앓고 있다</th>
        <th>양성이다</th>
        <th>80%</th>
    </tr>
    <tr>
        <th>양성이다</th>
        <th>병을 앓고 있다</th>
        <th>알수 없음</th>
    </tr>
</table>  

> 이런 식의 확률을 구해야 하는 문제를 역확률 문제라고 하고 이를 베이즈 추론을 활용하여 구할 수 있다.  
단, 검사 대상인 질병의 유병률(사전 확률, 기존 사건들의 확률)을 알고 있어야 한다.  
전세계 인구 중 10%의 사람들이 질병 A를 앓는다고 가정한다.


<div style="width: 60%; display:flex; margin-top: -20px; margin-left:30px">
    <div>
        <img src="./images/bayesian_inference01.png" width="300" style="margin-top:20px; margin-left:0">
    </div>
    <div style="margin-top: 28px; margin-left: 20px">
        <img src="./images/bayesian_inference02.png" width="310" style="margin-top:20px; margin-left:0">
    </div>
</div>  

<div style="width: 60%; display:flex; margin-left:30px">
    <div>
        <img src="./images/bayesian_inference03.png" width="800" style="margin-top:20px; margin-left:0">
    </div>
    <div style="margin-top: 28px; margin-left: 20px">
        <img src="./images/bayesian_inference04.png" width="550" style="margin-top:-8px; margin-left:0">
    </div>
</div>  

> 🚩결과: 약 30.8%
<img src="./images/bayesian_inference05.png" width="200" style="margin-top:20px; margin-left:0">" width="200" style="margin-top:20px; margin-left:0">ng" width="200" style="margin-top:20px; margin-left:0">

### 나이브 베이즈 분류(Naive Bayes Classifier)
- 텍스트 분류를 위해 전통적으로 사용되는 분류기로서, 분류에 있어서 준수한 성능을 보인다.
- 베이즈 정리에 기반한 통계적 분류 기법으로서, 정확성도 높고 대용량 데이터에 대한 속도도 빠르다.
- 반드시 모든 feature가 서로 독립적이여야 한다. 즉, 영향을 미치지 않는 feature들로 구성되어야 한다.
- 감정분석, 스팸 메일 필터링, 텍스트 분류, 추천 시스템 등 여러 서비스에서 활용되는 분류 기법이다.
- 빠르고 정확하고 간단한 분류 방법이지만, 실제 데이터에서 모든 feature가 독립적인 경우는 드물기 때문에 실생활에 적용하기 어려운 점이 있다.

<img src='./images/image15.png' width='400px'>

### 스팸 메일 분류

In [1]:
import pandas as pd

spam = pd.read_csv('./dataset/spam.csv')
spam

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [2]:
spam.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Category  5572 non-null   object
 1   Message   5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB


In [4]:
spam.isna().sum()

Category    0
Message     0
dtype: int64

In [5]:
from sklearn.preprocessing import LabelEncoder

spam_encorder = LabelEncoder()
targets = spam_encorder.fit_transform(spam.loc[:,'Category'])
spam['Target'] = targets

In [15]:
spma = spam.drop(labels=['Category'], axis=1)
spma

Unnamed: 0,Message,Target
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0
...,...,...
5567,This is the 2nd time we have tried 2 contact u...,1
5568,Will ü b going to esplanade fr home?,0
5569,"Pity, * was in mood for that. So...any other s...",0
5570,The guy did some bitching but I acted like i'd...,0


In [16]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(spam.Message, spam.Target, stratify= spam.Target, test_size=0.2, random_state=124)

In [17]:
from sklearn.feature_extraction.text import CountVectorizer

token = ['맛있어', '정말', '아니야']

text = ["햄버거는 맛있어! 정말 맛있어", 
        "아니야 피자가 더 맛있어 햄버거보다 더 맛있어!",
        "아니야 둘 다 먹자!"]

c_vct = CountVectorizer()
freq = c_vct.fit_transform(text)
print(freq.toarray())
print(c_vct.vocabulary_)

[[2 0 0 1 0 1 0]
 [2 0 1 0 1 0 1]
 [0 1 1 0 0 0 0]]
{'햄버거는': 5, '맛있어': 0, '정말': 3, '아니야': 2, '피자가': 4, '햄버거보다': 6, '먹자': 1}


In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

m_nb_pipe =  Pipeline([('count_vectorizer', CountVectorizer()) ,('multinimual_NB', MultinomialNB())])
m_nb_pipe.fit(x_train, y_train)

In [19]:
prediction = m_nb_pipe.predict(x_test)

In [20]:
m_nb_pipe.score(x_test, y_test)

0.979372197309417

In [21]:
m_nb_pipe.predict([spam.iloc[5567].Message])

array([1])