# Assignment

## 우리의 목표 : 나이브베이즈 문제 해결하기
1.1) 입력문서가 {fast, furious, fun} 만을 주요 단어로 가질때, 이 문서는 얼마의 확률로 어떤 문서로 분류되는가?

##### 노트북 파일을 따라오면서, 빈칸과 질문에 대한 물음을 모두 채우시면 과제 완료 입니다 

### 주어진 dataset 을 확인해 보기위해 엑셀 파일을 읽습니다.

In [1]:
import numpy as np
import pandas as pd

In [2]:
documents = pd.read_excel('test_file.xlsx') 

In [3]:
documents 

Unnamed: 0,label,message
0,comedy,"Fun couple, love love"
1,action,"fast Furious, shoot!!"
2,comedy,"couple^^, fly, fast, fun, fun"
3,action,"furious, shoot shoot fun"
4,action,"fly~~ fast shoot, Love"


####  Q1. **문제점**(전처리가 필요한 부분)을 2가지 이상 적어주세요.
1. 문장에 특수기호('^^', '~~' 가 존재한다.)
2. 'Fun' 과 'fun' 이 다른 단어로 인식될 가능성이 존재한다.
3. 띄어쓰기와 , 가 혼재해서 존재한다. 구분의 명확성을 위해 제거가 필요하다.

### step 1. 단어를 모두 소문자로 바꾸어 줍니다. 

#### Q2. 코드속 빈칸을 채워주세요

In [5]:
lower_documents = []
lower_documents = [d.lower() for d in documents['message']]
print(lower_documents)

['fun couple, love love', 'fast furious, shoot!!', 'couple^^, fly, fast, fun, fun', 'furious, shoot shoot fun', 'fly~~ fast shoot, love']


### step2. 특수문자를 없애줍니다.
#### string.punctuation 에는 특수문자들이 저장되어있는것을 확인할수 있습니다.

In [9]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

### Q3. string.punctuation 을 이용해서 특수문자를 제거해주세요.

In [48]:
import re

del_punctuation_documents = []
p = re.compile(f"[{string.punctuation}]") # 정규표현식 컴파일

for i in lower_documents:
    print(i)
    del_punctuation_documents.append(re.sub(p,'', i))
    
del_punctuation_documents

fun couple, love love
fast furious, shoot!!
couple^^, fly, fast, fun, fun
furious, shoot shoot fun
fly~~ fast shoot, love


['fun couple love love',
 'fast furious shoot',
 'couple fly fast fun fun',
 'furious shoot shoot fun',
 'fly fast shoot love']

### step 3. 단어를 하나씩 띄어쓰기 단위로 쪼개어 줍니다.
#### Q4. 빈칸을 채워주세요.

In [49]:
preprocessed_documents = [[w for w in d.split()] for d in del_punctuation_documents]
preprocessed_documents

[['fun', 'couple', 'love', 'love'],
 ['fast', 'furious', 'shoot'],
 ['couple', 'fly', 'fast', 'fun', 'fun'],
 ['furious', 'shoot', 'shoot', 'fun'],
 ['fly', 'fast', 'shoot', 'love']]

### step 4. 각각의 단어가 문서에서 몇번 나왔는지 세봅시다.

In [50]:
frequency_list = []
from collections import Counter

frequency_list = [Counter(d) for d in preprocessed_documents]
frequency_list

[Counter({'fun': 1, 'couple': 1, 'love': 2}),
 Counter({'fast': 1, 'furious': 1, 'shoot': 1}),
 Counter({'couple': 1, 'fly': 1, 'fast': 1, 'fun': 2}),
 Counter({'furious': 1, 'shoot': 2, 'fun': 1}),
 Counter({'fly': 1, 'fast': 1, 'shoot': 1, 'love': 1})]

### step 5. 이제 우리가 하고싶은것은, 문자를 숫자로 변환하는 작업입니다!(그림 참고)
- 이를 위해 CountVectorizer를 사용합니다.
- CountVectorizer는 문서 집합에서 단어 토큰을 생성하고, 각 단어 수를 세어 BOW (Bag of Words) 인코딩한 벡터를 만들어줍니다.

- 문서에 해당단어가 몇번 포함되었는지를 나타낼 때 사용하는 방법입니다.

- 참고 : https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/

![CountVectorized](https://user-images.githubusercontent.com/68625698/106378540-15d8ed80-63e9-11eb-8604-5c960c274867.PNG)

In [51]:
from sklearn.feature_extraction.text import CountVectorizer
count_vector = CountVectorizer()
count_vector.fit(documents['message'])

CountVectorizer()

In [52]:
doc_array = count_vector.transform(documents['message']).toarray()
doc_array

array([[1, 0, 0, 1, 0, 2, 0],
       [0, 1, 0, 0, 1, 0, 1],
       [1, 1, 1, 2, 0, 0, 0],
       [0, 0, 0, 1, 1, 0, 2],
       [0, 1, 1, 0, 0, 1, 1]])

In [53]:
count_vector.get_feature_names()

['couple', 'fast', 'fly', 'fun', 'furious', 'love', 'shoot']

In [54]:
count_vector.vocabulary_

{'fun': 3,
 'couple': 0,
 'love': 5,
 'fast': 1,
 'furious': 4,
 'shoot': 6,
 'fly': 2}

In [55]:
frequency_matrix = pd.DataFrame(doc_array, columns = count_vector.get_feature_names())
frequency_matrix

Unnamed: 0,couple,fast,fly,fun,furious,love,shoot
0,1,0,0,1,0,2,0
1,0,1,0,0,1,0,1
2,1,1,1,2,0,0,0
3,0,0,0,1,1,0,2
4,0,1,1,0,0,1,1


In [56]:
frequency_matrix['count'] = frequency_matrix.sum(axis=1)

### step 6. 범주형 변수를 dummy변수로 변환해주는 작업(One-Hot Encoding!)을 해주어야합니다.
#### Q5. label 을 comedy =1, action =0 으로 변환해주세요

In [57]:
documents["label"]= documents["label"].map(lambda x: 1 if x == "comedy" else 0)

In [58]:
doc = pd.concat([documents['label'],frequency_matrix],axis=1)

In [59]:
doc

Unnamed: 0,label,couple,fast,fly,fun,furious,love,shoot,count
0,1,1,0,0,1,0,2,0,4
1,0,0,1,0,0,1,0,1,3
2,1,1,1,1,2,0,0,0,5
3,0,0,0,0,1,1,0,2,4
4,0,0,1,1,0,0,1,1,4


###  step 7. 나이브 베이즈 계산을 해봅시다!

#### Q6. 입력문서가 {fast, furious, fun} 을 주요 단어로 가질때, 이 문서는 얼마의 확률로 어떤 문서로 분류가 될까요? ( 계산과정을 채워주세요) 

In [60]:
doc = doc.to_numpy()           # dataframe을 np-array로 변환해줍니다.
                               # return값은 np-matrix가 아니라 np-array입니다.
doc

array([[1, 1, 0, 0, 1, 0, 2, 0, 4],
       [0, 0, 1, 0, 0, 1, 0, 1, 3],
       [1, 1, 1, 1, 2, 0, 0, 0, 5],
       [0, 0, 0, 0, 1, 1, 0, 2, 4],
       [0, 0, 1, 1, 0, 0, 1, 1, 4]])

In [61]:
type(doc)

numpy.ndarray

####  P(Y=comedy), P(Y=action) 계산하기

In [62]:
# P(Y=comedy)
p_comedy = sum(doc[:,0]==1) / len(doc)

# P(Y=action)
p_action = sum(doc[:,0]==0) / len(doc)

In [64]:
print('p_comedy : ',p_comedy)
print('p_action : ', p_action)
# 합을 확인해 보니 0이 나오는 것으로 확인할 수 있겠다.

p_comedy :  0.4
p_action :  0.6


#### P(fast=1|comedy=1), P(furious=1|comedy=1), P(fun=1|comedy=1) 계산하기
* 참고 : 문서에 두번 등장한 단어 주의

In [113]:
doc[(doc[:,5] >= 1) & (doc[:,0]==1)][:, 5]

array([], dtype=int64)

In [109]:
# P(fast=1|comedy=1)
p_comedy_fast = sum(doc[(doc[:,2] >= 1) & (doc[:,0]==1)][:, 2]) / sum(doc[doc[:,0]==1][:,-1]) # 베이즈 정리를 활용

# P(furious=1|comedy=1)
p_comedy_furious = sum(doc[(doc[:,5] >= 1) & (doc[:,0]==1)][:, 5]) /  sum(doc[doc[:,0]==1][:,-1])

# P(fun=1|comedy=1)
p_comedy_fun = sum(doc[(doc[:,4] >= 1) & (doc[:,0]==1)][:, 4]) / sum(doc[doc[:,0]==1][:,-1])

In [110]:
print('p_comedy_fast : ' , p_comedy_fast)
print('p_comedy_furious : ' , p_comedy_furious) # comedy 이면서 furious 단어가 등장하는 경우는 없었다.
print('p_comedy_fun : ' , p_comedy_fun)   

p_comedy_fast :  0.1111111111111111
p_comedy_furious :  0.0
p_comedy_fun :  0.3333333333333333


#### P(fast=1|action=1), P(furious=1|action=1), P(fun=1|action=1) 계산하기
* 참고 : 문서에 두번 등장한 단어 주의

In [114]:
# P(fast=1|action=1)
p_action_fast = sum(doc[(doc[:,2] >= 1) & (doc[:,0]==0)][:, 2]) / sum(doc[doc[:,0]==0][:,-1])

# P(furious=1|action=1)
p_action_furious = sum(doc[(doc[:,5] >= 1) & (doc[:,0]==0)][:, 5]) / sum(doc[doc[:,0]==0][:,-1])

# P(fun=1|action=1)
p_action_fun = sum(doc[(doc[:,4] >= 1) & (doc[:,0]==0)][:, 4]) / sum(doc[doc[:,0]==0][:,-1])

In [115]:
print('p_action_fast : ' , p_action_fast)
print('p_action_furious : ' , p_action_furious)
print('p_action_fun : ' , p_action_fun)  

p_action_fast :  0.18181818181818182
p_action_furious :  0.18181818181818182
p_action_fun :  0.09090909090909091


#### P(Y = comedy| X = fast, furious, fun) , P(Y = action=1| X = fast, furious, fun) 값 계산하기

In [120]:
#P(Y = comedy| X = fast, furious, fun) : 나이브 베이즈의 기본 가정에 의해
proba_comedy = (p_comedy_fast * p_comedy_fun * p_comedy_furious * p_comedy)
 # p(X = fast, furious, fun)의 경우 0이므로(또는 알 수 없으므로) 나누지 않는다. (Divide by zero 오류 발생 가능성)
    
#P(Y = action=1| X = fast, furious, fun)
proba_action = (p_action_fast * p_action_furious * p_action_fun * p_action)

In [121]:
print('proba_comedy', proba_comedy)
print('proba_action', proba_action)

proba_comedy 0.0
proba_action 0.0018031555221637867


### step 8. 다음 값을 비교해봅시다.
1. P(Y = comedy| X = fast, furious, fun)
2. P(Y = action=1| X = fast, furious, fun)


Q7. 어떤 문제점을 발견할수 있나요? 문제점을 해결하기 위한 방법으로는 어떤게 있을까요?
- 두 가지 모두 확률이 매우 낮게 나오는 문제가 있다.(0에 근접하게 된다.)
- 이런 경우, 모두가 0이라는 결과를 내기 때문에 유의미한 예측이라고 하기 어려울 것 같다. 
- 이 문제의 경우는 주어진 단어가 동시에 등장하는 (fast, furious, fun 이 한 문장에 존재하는) 경우가 존재하지 않기 때문으로 생각된다.
- 따라서 라플라스 스무딩 등으로 최소한의 확률을 만들어 줄 필요가 있다고 생각된다.

### 추가 : 라플라스 스무딩 적용해보기
라플라스 스무딩을 적용해서 확률을 다시 계산해 보았다.

주어진 입력 단어의 개수는 7개이므로 분모에 7을 더하고, 분자에 1을 더한다.

In [123]:
p_comedy_fast = (sum(doc[(doc[:,2] >= 1) & (doc[:,0]==1)][:, 2])  + 1 )/ (sum(doc[doc[:,0]==1][:,-1]) + 7)
p_comedy_furious = (sum(doc[(doc[:,5] >= 1) & (doc[:,0]==1)][:, 5]) + 1) /  (sum(doc[doc[:,0]==1][:,-1]) + 7)
p_comedy_fun = (sum(doc[(doc[:,4] >= 1) & (doc[:,0]==1)][:, 4]) + 1) / (sum(doc[doc[:,0]==1][:,-1]) + 7)


p_action_fast = (sum(doc[(doc[:,2] >= 1) & (doc[:,0]==0)][:, 2]) + 1) / (sum(doc[doc[:,0]==0][:,-1]) + 7)
p_action_furious = (sum(doc[(doc[:,5] >= 1) & (doc[:,0]==0)][:, 5]) + 1) / (sum(doc[doc[:,0]==0][:,-1]) + 7)
p_action_fun = (sum(doc[(doc[:,4] >= 1) & (doc[:,0]==0)][:, 4]) + 1) / (sum(doc[doc[:,0]==0][:,-1]) + 7)

In [124]:
proba_comedy = (p_comedy_fast * p_comedy_fun * p_comedy_furious * p_comedy)
proba_action = (p_action_fast * p_action_furious * p_action_fun * p_action)
print('proba_comedy', proba_comedy)
print('proba_action', proba_action)

proba_comedy 0.00078125
proba_action 0.0018518518518518517


확률이 약간이지만 0에 근접한 값에서 벗어난 것을 확인할 수 있다. 또한 comedy일 확률이 0이 아니므로, 판정에 신뢰성이 더해진다.

comedy일 확를은 0.00078이고, action일 확률은 0.00185 이므로 (fast, furious, fun)이 동시에 나오는 문장은 action으로 볼 수 있다.