# Session #2
## ML-based SA by using Naive Bayes

두 번째 세션에서는 Naive Bayes Calssifier 를 이용한 영어 텍스트 감성분석 프로그램을 작성해 봅니다. 
실습 수업은 프로그램의 주요 흐름을 설명하면서, TODO 처리된 핵심적인 부분의 코드를 직접 작성해보는 순서로 진행될 것입니다.  

In [1]:
# python 2 and 3 compatibility
from __future__ import division, absolute_import, print_function, unicode_literals
import six 

import io
import nltk
from nltk import word_tokenize
from os import listdir
import math

#-*- coding: utf-8 -*-

In [2]:
# download nltk package for word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ykstyle/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## variable 선언 부
- 확률 계산 값을 저장할 변수 및 file path 를 설정합니다.

In [3]:
# Variables

voca_dic = {}             # token dictionary
log_prior_pos = 1         # prior probability for positive class
log_prior_neg = 1         # prior probability for negative class

log_likelihood_pos = {}   
log_likelihood_neg = {}

## step 1. Compute the prior probability
- 각 class 의 (positive, negative) prior 확률을 구해봅니다.
- training set 상에서 positive / negative class 에 속하는 data 의 개수를 count 하는 방법으로 구할 수 있습니다.
- 본 실험에서는 file 의 개수를 count 하는 것으로 구해봅니다.

In [4]:
'''
count # of files in class path
Input: data path
Output: # of data
'''
def count_file(dir_path):
    list_files = [f for f in listdir(dir_path)]
    return len(list_files)

사전 데이터와 테스트에 사용할 텍스트 파일이 있는 폴더를 지정합니다.  
여기서는 코드 .ipynb 파일이 들어 있는 폴더 내,
data 폴더 안에 학습 용 파일(폴더)가 들어 있는 것을 가정하였습니다. 

(만일 데이터 다른 폴더에 있을 경우 이를 변경하셔야 합니다.  )

In [5]:
data_root_path = './data'

#target_data = data_root_path + '/sample'
target_data = data_root_path + '/train'

log_prior_pos = math.log(count_file(target_data + '/pos'))
log_prior_neg = math.log(count_file(target_data + '/neg'))

print('* log prior of the positive class: ' + str(log_prior_pos))
print('* log_prior of the negative class: ' + str(log_prior_neg ))

* log prior of the positive class: 9.433483923290392
* log_prior of the negative class: 9.433483923290392


## step 2. Compute the Likelihood
- 주어진 문장과 각 class 간 likelihood 값을 계산해 봅니다

### step 2-1. Create Vocabulary Dictionary
- 현재 data set 에서 사용되는 모든 token 을 파악하기 위해서 전체 data set 에 들어 있는 token 을 포함하는 dictionary 를 생성합니다.
- 특정 폴더 안에 있는 포든 파일을 읽어서 해당 파일에 들어 있는 문장을 tokenize 후 얻어진 token 을 dictioinary 에 추가 합니다.

In [6]:
'''
build token dictionary
Input: data path, 최종 dictionary
Return: None (dictionary 는 내부에서 update 됨)
'''
def build_dic(dir_path, dic):
    
    list_files = [f for f in listdir(dir_path)]

    for file in list_files:
      
        try:
            f = open(dir_path + file, 'r')
            line = f.readline()  
            tokens = word_tokenize(line.strip().lower())

            for token in tokens:
                if token not in dic:
                    dic[token] = 1

            f.close()        
        
        except Exception as e:
            print(e)
            pass

positive, negative class 안에 들어 있는 모든 data 에서 token 을 추출하여 dictionary 를 완성 합니다.

In [7]:
build_dic(target_data + '/pos/', voca_dic)
build_dic(target_data + '/neg/', voca_dic)
print("* total voca size: " + str(len(voca_dic)))

* total voca size: 113962


### Step 2-2. 각 Class 별 token 의 확률 table 생성
- 특정 class 내 data 를 모두 tokenize 한 후 각 token 의 수를 count 하여 해당 token 이 해당 class 에서 나타날 확률을 계산합니다.
- 확률 값 계산시 제외 되는 token 이 없게 하기 위해 전체 dictionary 를 기본으로 가진 후 추가 계산을 합니다.

In [8]:
'''
class 별 확률 table 생성
Input: data path, 전체 dictionary
Return: 해당 class 의 확률 테이블
'''
def create_class_dic(dir_path, base_dic):
    
    # copy base_dic and create likelihood_table
    likelihood_table = {}
    likelihood_table = dict( (nkey, 1) for nkey in base_dic.keys())
        
    list_files = [f for f in listdir(dir_path)]

    for file in list_files:
      
        try:
            f = open(dir_path + file, 'r')
            line = f.readline()  
            tokens = word_tokenize(line.strip().lower())

            for token in tokens:
                
                if token in likelihood_table:
                    likelihood_table[token] = likelihood_table[token] + 1

            f.close()     
            
        except:
            pass
            
    return likelihood_table

In [9]:
pos_table = create_class_dic(target_data + '/pos/', voca_dic)
neg_table = create_class_dic(target_data + '/neg/', voca_dic)

token = 'good'
print('token = ' + token)
print('# of tokens in positive class: \t' + str(pos_table[token]))
print('# of tokens in negative class: \t' + str(neg_table[token]))

token = good
# of tokens in positive class: 	7446
# of tokens in negative class: 	7196


### Step 2-3. 확률 table 을 log 확률 값으로 변환
- log 함수는 monotonically increasing 함수이므로 log 를 취한 값으로 확률을 계산해도 동일한 비교가 가능합니다.
- 확률값 계산시 * (곱셈) 이 아닌 + (덧셈) 으로 계산 가능하기 때문에 연산이 수월 합니다.
- 곱셈으로 확률을 계산시 확률값이 매우 작아 질 경우 발생하는 수치에러를 방지할 수 있습니다.

In [10]:
'''
log likelihood table 연산
Input: 특정 class 의 확률 테이블
Return: # of data
'''
def compute_log_likelihood_table(class_table):
    
    new_table = {}
    word_sum = sum(class_table.values())    
    new_table = dict( (key, math.log((float)(value)/(float)(word_sum)) ) for (key, value) in six.iteritems(class_table))    
    
    return new_table

In [11]:
log_likelihood_pos = compute_log_likelihood_table(pos_table)
log_likelihood_neg = compute_log_likelihood_table(neg_table)

token = 'good'
print('token = ' + token)
print('# of token in class: \t\t\t' + str(pos_table[token]))
print('probability of the token in class: \t' + str(pos_table[token] / float(sum(pos_table.values()))))
print('log probability: \t\t\t' + str(log_likelihood_pos[token]))

token = good
# of token in class: 			7446
probability of the token in class: 	0.002028817049256441
log probability: 			-6.200302390140529


## Step 3. 하나의 문서를 분류해 보세요

- 클래스별 log_table 을 이용해서 classifier 를 구현해 보세요
- positive class 에 속할 확률 vs negative class 에 속할 확률

In [12]:
'''
특정 document 에 들어 있는 문장을 분류 (positive/negative)
Input: document, positive class prior 확률, negative class prior 확률, positive class likelihood 테이블, negative class likelihood 테이블
Return: 클래스
'''
def classify_doc(document, log_prior_pos, log_prior_neg, log_likelihood_pos, log_likelihood_neg):
    
    pos_prob = 0
    neg_prob = 0
    
    tokens = word_tokenize(document.strip().lower())

    for token in tokens:

        if token in log_likelihood_pos:
            pos_prob = pos_prob + log_likelihood_pos[token]
            
        if token in log_likelihood_neg:
            neg_prob = neg_prob + log_likelihood_neg[token]
            
    
    pos_prob = pos_prob + log_prior_pos       
    neg_prob = neg_prob + log_prior_neg
    
    if pos_prob > neg_prob:
        return 'positive' 
    else:
        return 'negative'

In [13]:
document = 'this is  my favorite. sooo exciting'
#document = 'i rainy day kkkk sad ugly '

ret = classify_doc(document, log_prior_pos, log_prior_neg, log_likelihood_pos, log_likelihood_neg)

print('  input document  : \t' + document)
print('  predicted class   : \t' + ret)

  input document  : 	this is  my favorite. sooo exciting
  predicted class   : 	positive


## Step 4. 주어진 path 에 있는 모든 문서를 분류
- 특정 폴더 안에 있는 모든 문서를 분류하고, 정확도를 측정해 본니다.
- 주어진 폴더 안에는 같은 class 의 data 가 분류되어 들어 있습니다. 
- Train 시에 사용되지 않은 data 를 가지고 테스트를 해야 합니다.

In [14]:
'''
특정 폴더 안에 있는 모든 data 분류
Input: data path
Return: None
'''
def evaluate_all(dir_path):

    list_files = [f for f in listdir(dir_path)]

    pos_cnt = 0
    neg_cnt = 0
    process_doc = 0

    for file in list_files:

        try:
            f = open(dir_path + file, 'r')

            ret = classify_doc(f.readline(), log_prior_pos, log_prior_neg, log_likelihood_pos, log_likelihood_neg)
            process_doc += 1

            f.close()

        except Exception as e:
            pass

        if ret is 'positive':
            pos_cnt += 1
        else:
            neg_cnt += 1

    print('* evaluate all document in ' + dir_path)
    print('  positive probability: ' + str((float)(pos_cnt) / (float)(process_doc)))
    print('  negative probability: ' + str((float)(neg_cnt) / (float)(process_doc)))
    print('\n')

In [15]:
evaluate_all(data_root_path + '/test/neg/')
evaluate_all(data_root_path + '/test/pos/')    

* evaluate all document in ./data/test/neg/
  positive probability: 0.12456
  negative probability: 0.87544


* evaluate all document in ./data/test/pos/
  positive probability: 0.74336
  negative probability: 0.25664


