# Naive Bayes Classifier

Predicting positivty/negativity of movie reviews using Naive Bayes algorithm

## 1. Import Dataset

Labels:
* 0 : Negative review
* 1 : Positive review

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

reviews = pd.read_csv('ratings_train.txt', delimiter='\t')
reviews.head(10)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
5,5403919,막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.,0
6,7797314,원작의 긴장감을 제대로 살려내지못했다.,0
7,9443947,별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...,0
8,7156791,액션이 없는데도 재미 있는 몇안되는 영화,1
9,5912145,왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?,1


In [2]:
#divide between negative and positive reviews with more than 30 words in length
neg = reviews[(reviews.document.str.len() >= 30) & (reviews.label == 0)].sample(3000, random_state=43)
pos = reviews[(reviews.document.str.len() >= 30) & (reviews.label == 1)].sample(3000, random_state=43)

In [3]:
pos.head()

Unnamed: 0,id,document,label
148005,8918849,마지막에 눈물이 흐를뻔... 너무 감동적이고 재미있는 영화,1
41010,9304354,오! 평점 높네요. 저도 진짜 좋아하는 영화에요. 소소한 일상의 반전. 아즈키판다 짱!,1
97924,9324301,전 아프리카 구호 활동중 에볼라에 걸려 눈을 감는 순간 누군가 틀어준 이 영화를 보...,1
68271,10274621,전작을 본적이 없는데도 너무 재미있게 봤습니다. 크리스 에반스와 사무엘 L.잭슨의 ...,1
41106,9908746,신선하고 환경파괴에대해서 자연과 인간의 공존 전쟁 등등 많은 교훈을 주는 애니메이션...,1


In [4]:
#NLP method
import re
import konlpy
from konlpy.tag import Twitter

okt = Twitter()

In [5]:
def parse(s):
    s = re.sub(r'[?$.!,-_\'\"(){}~]+', '', s)
    try:
        return okt.nouns(s)
    except:
        return []

In [6]:
neg['parsed_doc'] = neg.document.apply(parse)
pos['parsed_doc'] = pos.document.apply(parse)

In [7]:
neg.head()

Unnamed: 0,id,document,label,parsed_doc
149713,6674102,정말 댓글에 속아서 보게된 시간 아까운 영화. 전체적으로 코믹적인 요소를 많이 넣으...,0,"[정말, 댓글, 속, 시간, 영화, 전체, 코믹, 요소, 정말, 웃기, 스토리]"
52541,8514375,점수를 줘야 하는거임? 30년후 구구절절 설명하며 끝나는모습 이라니...,0,"[점수, 임, 년후, 절절, 설명, 모습]"
72078,1173600,주제는 좋으나 영화 자체는 주제를 포함하기엔 좀 조잡하다,0,"[주제, 영화, 자체, 주제, 포함, 좀]"
19403,8384839,"이걸 영화라고 만들다니...말그대로 '돈만 떡으로 바르고 여운의 감동, 의미는 없는...",0,"[걸, 영화, 그대로, 돈, 떡, 여운, 감동, 의미, 영화, 이건, 그냥, 영화,..."
106111,8997490,"과장되고 어설픈 연기에 인류의 보편적 정서와는 거리가 먼 일본식 정서간의 괴리감, ...",0,"[과장, 연기, 인류, 보편, 정서, 거리, 일본, 정서, 괴리감, 무엇, 공포영화..."


In [8]:
pos.head()

Unnamed: 0,id,document,label,parsed_doc
148005,8918849,마지막에 눈물이 흐를뻔... 너무 감동적이고 재미있는 영화,1,"[마지막, 눈물, 뻔, 감동, 영화]"
41010,9304354,오! 평점 높네요. 저도 진짜 좋아하는 영화에요. 소소한 일상의 반전. 아즈키판다 짱!,1,"[오, 평점, 저, 진짜, 영화, 일상, 반전, 키, 판다, 짱]"
97924,9324301,전 아프리카 구호 활동중 에볼라에 걸려 눈을 감는 순간 누군가 틀어준 이 영화를 보...,1,"[전, 아프리카, 구호, 활동, 에볼라, 눈, 순간, 누군가, 이, 영화, 보고, ..."
68271,10274621,전작을 본적이 없는데도 너무 재미있게 봤습니다. 크리스 에반스와 사무엘 L.잭슨의 ...,1,"[전작, 본적, 크리스, 에반스, 사무엘, 잭슨, 카리스마, 그, 외, 스토리, 액..."
41106,9908746,신선하고 환경파괴에대해서 자연과 인간의 공존 전쟁 등등 많은 교훈을 주는 애니메이션...,1,"[환경, 파괴, 대해, 자연, 인간, 공존, 전쟁, 등등, 교훈, 애니메이션, 원작..."


In [9]:
# create 5800 training data / 200 test data
neg_train = neg[:2900]
pos_train = pos[:2900]
neg_test = neg[2900:]
pos_test = pos[2900:]

## 2. Create Corpus

In [12]:
neg_corpus = set(neg_train.parsed_doc.sum())
pos_corpus = set(pos_train.parsed_doc.sum())

In [13]:
corpus = list((neg_corpus).union(pos_corpus))
print('corpus length : ', len(corpus))

corpus length :  9836


In [14]:
corpus[:10]

['매개', '마리아', '이비', '이해도', '버전', '주온', '열등함', '때론', '마음씨', '외국인']

## 3. Create Bag of Words

In [15]:
from collections import OrderedDict

In [20]:
neg_bow_vecs = []
for _, doc in neg.parsed_doc.items():
    bow_vecs = OrderedDict()
    for w in corpus:
        if w in doc:
            bow_vecs[w] = 1
        else:
            bow_vecs[w] = 0
    neg_bow_vecs.append(bow_vecs)

In [21]:
pos_bow_vecs = []
for _, doc in pos.parsed_doc.items():
    bow_vecs = OrderedDict()
    for w in corpus:
        if w in doc:
            bow_vecs[w] = 1
        else:
            bow_vecs[w] = 0
    pos_bow_vecs.append(bow_vecs)

In [69]:
#bag of word vector example
#this length is equal to the length of the corpus
neg_bow_vecs[0].values()

odict_values([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

## 4. Model Training

$n$ is the dimension of each document, in other words, the length of corpus <br>

$$\large p(pos|doc) = \Large \frac{p(doc|pos) \cdot p(pos)}{p(doc)}$$
<br>
$$\large p(neg|doc) = \Large \frac{p(doc|neg) \cdot p(neg)}{p(doc)}$$

In [22]:
import numpy as np

In [24]:
corpus[:5]

['매개', '마리아', '이비', '이해도', '버전']

In [28]:
list(neg_train.parsed_doc.items())[0]

(149713, ['정말', '댓글', '속', '시간', '영화', '전체', '코믹', '요소', '정말', '웃기', '스토리'])

In [29]:
#this counts how many times a word in corpus appeares in neg_train data
neg_words_likelihood_cnts = {}
for w in corpus:
    cnt = 0
    for _, doc in neg_train.parsed_doc.items():
        if w in doc:
            cnt += 1
    neg_words_likelihood_cnts[w] = cnt

In [30]:
#this counts how many times a word in corpus appeares in pos_train data : p(neg)
pos_words_likelihood_cnts = {}
for w in corpus:
    cnt = 0
    for _, doc in pos_train.parsed_doc.items():
        if w in doc:
            cnt += 1
    pos_words_likelihood_cnts[w] = cnt

In [31]:
import operator

In [36]:
sorted(neg_words_likelihood_cnts.items(), key=operator.itemgetter(1), reverse=True)[:10]

[('영화', 1052),
 ('진짜', 254),
 ('스토리', 228),
 ('이', 199),
 ('점', 189),
 ('감독', 186),
 ('평점', 186),
 ('정말', 185),
 ('것', 184),
 ('왜', 173)]

In [44]:
sorted(pos_words_likelihood_cnts.items(), key=operator.itemgetter(1), reverse=True)[:10]

[('영화', 1135),
 ('정말', 319),
 ('이', 249),
 ('최고', 221),
 ('것', 212),
 ('연기', 209),
 ('생각', 196),
 ('때', 188),
 ('진짜', 185),
 ('감동', 182)]

## 5. Classifier

In [74]:
test_data = pd.concat([neg_test, pos_test], axis=0)

In [75]:
test_data

Unnamed: 0,id,document,label,parsed_doc
91417,5079332,쉴새없이 떠드는 폴도 싫지만...영화를 이렇게 만든 감독은 더 싫다.,0,"[새, 폴, 영화, 감독, 더]"
122641,2776735,별표 반개도 아깝다..2시간 동안 본 짜증이 확밀려오네..,0,"[별표, 반개, 시간, 동안, 짜증, 확]"
72606,8477996,내용은 봐줄만해. 하지만 15금과 19금 사이에 서있다. 포스터는 호러 귀신나올것같...,0,"[내용, 만해, 금, 금, 사이, 포스터, 호러, 귀신, 막상, 차마, 두, 최악,..."
138243,7923759,진정한 수면제...졸다가 비명지르는 소리에 깼다가 다시 자다,0,"[수면제, 비명, 소리, 다시]"
118247,8142893,"""진짜 슈스케 버스커 버스커, 허각, 울랄라세션 나올땐 재밌는데 갈수록 재미가 없어...",0,"[진짜, 슈스케, 버스커, 버스커, 허각, 울랄라세션, 땐, 갈수록, 재미, 제, ..."
63089,8525344,내가씨x 아침에 티비에서 틀어주는거 보고 욕이 나와서 평점쓴다. 개그맨 성우새.끼들...,0,"[가씨, 아침, 티비, 보고, 욕, 평점, 개그맨, 성우, 새끼, 조화, 는걸, 영..."
132881,1872310,이송희일 : 관심받고싶어서 디워까댄거에요 죄송해요 ㅠㅠ,0,"[이송희일, 관심, 디워]"
140268,4712973,1등!! 이건 무슨 병맛 출연진에 뭐냐 이거 긴급조치 19호 스맬난다...,0,"[등, 이건, 무슨, 병맛, 출연, 진, 뭐, 거, 긴급, 조치, 호, 스맬난다]"
26536,5799940,"모모는 철부지,모모는 무지개,모모는 생을 쫒아가는 시계바늘이다. 이노래모르면?간첩",0,"[모모, 철부지, 모모, 무지개, 모모, 생, 시계, 바늘, 노래, 간첩]"
9821,8951429,진짜한편봤는데. 정말 다들 무례하네요.음식의 평가를 제대로하는게아니라 깎아내리기 바...,0,"[진짜, 한편, 정말, 음식, 평가, 제대로, 리기, 프로그램, 취지, 황은정, 최..."


In [78]:
np.log(1/len(corpus))

-9.193804403336083