In [3]:
'''
@function
네이버 영화평 감정 분석(sentiment analysis)

@description
실제 네이버 영화 리뷰를 이용해 나이브 베이즈 분류기를 학습시키고, 
입력 받은 영화평이 긍정인지 부정인지 확률을 구하는 감정 분석을 한다.

@params
alpha = 0.1
P(pos) = 0.5
P(neg) = 0.5
'''

'\n@function\n네이버 영화평 감정 분석(sentiment analysis)\n\n@description\n실제 네이버 영화 리뷰를 이용해 나이브 베이즈 분류기를 학습시키고, \n입력 받은 영화평이 긍정인지 부정인지 확률을 구하는 감정 분석을 한다.\n'

In [None]:
'''
주어진 문제
1.read_data() 구현
  - 두 개의 문자열이 담긴 리스트 반환.
  - 첫 번째 문자열은 모든 부정 리뷰
  - 두 번째 문자열은 모든 긍정 리뷰
2.create_BOW() 구현
3.calculate_doc_prob() 구현.
  - training_sentence로 학습된 모델에서 testing_sentence를 만들어낼 로그 확률 반환.
  - 트레이닝 모델에 없는 단어가 나올 경우 확률은 alpha/전체 토큰의 개수
4.normalize_log_brob()
  - 두 개의 로그 확률값을 표준화
5.naive_bayes
  - [부정적일 확률, 긍정적일 확률] return
  - calculate_doc_prob()에서 계산된 값을 이용하여 나이브 베이즈 계산.
  - 계산한 값을 normalize_log_prob()을 이용하여 정규화
6.main
  - testing_sentence: 분류할 문장 입력
7.visualize_boxplot()
  - testing_sentence가 긍정일 확률과 부정일 확률을 시각화
'''

In [1]:
import io
import numpy
import matplotlib as mpl
mpl.use("Agg")
import matplotlib.pyplot as plt
import numpy as np
import re
import math
#import elice_utils

special_chars_remover = re.compile("[^\w'|_]")
def remove_special_characters(sentence):
    return special_chars_remover.sub(' ', sentence)

def main():
    training_sentences = read_data()
    testing_sentence = "어설픈 연기들로 몰입이 전혀 안되네요"
    prob_pair = naive_bayes(training_sentences, testing_sentence)
    
    plot_title = testing_sentence
    if len(plot_title) > 50: plot_title = plot_title[:50] + "..."
    visualize_boxplot(plot_title,
                  list(prob_pair),
                  ['Negative', 'Positive'])

def naive_bayes(training_sentences, testing_sentence):
    log_prob_negative = calculate_doc_prob(training_sentences[0], testing_sentence, 0.1) + math.log(0.5)
    log_prob_positive = calculate_doc_prob(training_sentences[1], testing_sentence, 0.1) + math.log(0.5)
    prob_pair = normalize_log_prob(log_prob_negative, log_prob_positive)
    
    return prob_pair

def read_data():
    training_sentences = [[], []]
    
    '''
    1. 여기서 파일을 읽어 training_sentences에 저장합니다.
    '''
    with open('ratings.txt') as file:
        next(file) #헤더 제거
        for line in file:
            sentence, label = line.split('\t')[1:]
            label = int(label)
            # print(sentence, label)
            # exit()
            training_sentences[label].append(sentence)
    # print(training_sentences[1][:5])
    # exit()
            
    return [' '.join(training_sentences[0]), ' '.join(training_sentences[1])]

def normalize_log_prob(prob1, prob2):
    
    '''
    로그로 된 확률값을 표준화합니다.
    이 부분은 이미 작성되어 있습니다.
    '''
    
    maxprob = max(prob1, prob2)

    prob1 -= maxprob
    prob2 -= maxprob
    prob1 = math.exp(prob1)
    prob2 = math.exp(prob2)

    normalize_constant = 1.0 / float(prob1 + prob2)
    prob1 *= normalize_constant
    prob2 *= normalize_constant

    return (prob1, prob2)

def calculate_doc_prob(training_sentence, testing_sentence, alpha):
    logprob = 0

    training_model = create_BOW(training_sentence)
    testing_model = create_BOW(testing_sentence)

    '''
    3
    training_sentence로 만들어진 모델이,
    testing_sentence를 만들어 낼 **로그 확률** 을 구합니다.
    일반 숫자에서 로그값을 만들기 위해서는 math.log() 를 사용합니다.
    
    일반 숫자에서의 곱셈이 로그에서는 덧셈, 나눗셈은 뺄셈이 된다는 점에 유의하세요.
    예) 3 * 5 = 15
        log(3) + log(5) = log(15)
        
        5 / 2 = 2.5
        log(5) - log(2) = log(2.5)
        
        3**5
        5log(3)
    '''
    
    # 전체 토큰의 개수 구하기
    num_tokens = 0
    for i in training_model:
        num_tokens += training_model[i]
    
    for word in testing_model:
        cnt = testing_model[word]
        
        if word in training_model:
            cnt_train = training_model[word]
            logprob += cnt * (math.log(cnt_train) - math.log(num_tokens))
        else:
            logprob += cnt * (math.log(alpha) - math.log(num_tokens))

    return logprob

def create_BOW(sentence):
    bow = {}
    
    '''
    2. bag of words를 만듭니다.
    read_data에서 return되는 문장들은 ' '으로 하나의 스트링으로 join했다. 따라서 ' '(space)를 기준으로 split해야 함.
    '''
    low_sentence = sentence.lower()
    remove_special = remove_special_characters(low_sentence)
    words = remove_special.split()
    
    validate_words = [word for word in words if len(words)>=1]
    for word in validate_words:
        if word not in bow:
            bow[word] = 1
        else:
            bow[word]+=1
    
    return bow

'''
이 밑의 코드는 시각화를 위한 코드입니다.
'''
def visualize_boxplot(title, values, labels):
    width = .35

    print(title)
    
    fig, ax = plt.subplots()
    ind = numpy.arange(len(values))
    rects = ax.bar(ind, values, width)
    ax.bar(ind, values, width=width)
    ax.set_xticks(ind + width/2)
    ax.set_xticklabels(labels)

    def autolabel(rects):
        # attach some text labels
        for rect in rects:
            height = rect.get_height()
            ax.text(rect.get_x()+rect.get_width()/2., height + 0.01, '%.2lf%%' % (height * 100), ha='center', va='bottom')

    autolabel(rects)

    plt.savefig("image.svg", format="svg")
    #elice_utils.send_image("image.svg")

if __name__ == "__main__":
    main()


UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 26: illegal multibyte sequence