# Aurora3
- 한국어 문장 감성분석
- 기존 단어들을 기반으로 같은 문장 내 다른 단어들의 감성을 측정
- 입력 데이터가 클수록 보다 정확한 감성분석이 가능

## 1. 데이터 불러오기

In [1]:
import pandas as pd
import re
import konlpy
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import numpy as np
from tqdm import tqdm
import urllib.request

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(-2, 2))

In [2]:
df = pd.read_table('ratings_train.txt')
df = df.iloc[:10000,:]
df

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
9995,8665166,곰티비로 무료로 봤기때문에 5점주려고했는데 1 한국 공포영화의 특징인 깜놀시키려 하...,0
9996,8312675,이딴걸드라마라고썼냐 수습할수없으면걍친자녀아니면되고 간단하네 얼굴을바꿨으면 결말이라도...,0
9997,6386483,왠지 김연아 크면 에리카처럼 될것같음.,1
9998,4452600,솔직히 굿 ㅋㅋㅋㅋ 넘버11씨는 살아남길 바랬는데 2번째극장판 어서 나오길,1


In [3]:
sent_dic = pd.read_csv('SentiWord_Dict.txt',sep = '\t',header=None)
sent_dic.iloc[14850,0]='갈등'

pos_dic = sent_dic[sent_dic[1]>0]
neg_dic = sent_dic[sent_dic[1]<0]
neu_dic = sent_dic[sent_dic[1]==0]

## 2. 텍스트 전처리

In [4]:
okt = konlpy.tag.Okt()

def text_preprocess(x):
    text=[]
    a = re.sub('[^가-힣0-9a-zA-Z\\s]', '',x)
    for j in a.split():
        text.append(j)
    return ' '.join(text)

def tokenize(x):
    text = []
    tokens = okt.pos(x)
    for token in tokens :
        if token[1] == 'Adjective' or token[1]=='Adverb' or token[1] == 'Determiner' or token[1] == 'Noun' or token[1] == 'Verb' or 'Unknown':
            text.append(token[0])
    return text

In [5]:
tqdm.pandas()
df['comment'] = df['document'].apply(lambda x : text_preprocess(x))
df['comment'] = df['comment'].progress_apply(lambda x: tokenize(x))
df

100%|███████████████████████████████████████████████████████████████████████████| 10000/10000 [00:33<00:00, 299.34it/s]


Unnamed: 0,id,document,label,comment
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0,"[아, 더빙, 진짜, 짜증나네요, 목소리]"
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1,"[흠, 포스터, 보고, 초딩, 영화, 줄, 오버, 연기, 조차, 가볍지, 않구나]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[너, 무재, 밓었, 다그, 래서, 보는것을, 추천, 한, 다]"
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0,"[교도소, 이야기, 구먼, 솔직히, 재미, 는, 없다, 평점, 조정]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1,"[사이, 몬페, 그, 의, 익살스런, 연기, 가, 돋보였던, 영화, 스파이더맨, 에..."
...,...,...,...,...
9995,8665166,곰티비로 무료로 봤기때문에 5점주려고했는데 1 한국 공포영화의 특징인 깜놀시키려 하...,0,"[곰, 티비, 로, 무료, 로, 봤기, 때문, 에, 5, 점주, 려고, 했는데, 1..."
9996,8312675,이딴걸드라마라고썼냐 수습할수없으면걍친자녀아니면되고 간단하네 얼굴을바꿨으면 결말이라도...,0,"[이딴, 걸, 드라마, 라고, 썼냐, 수습, 할수, 없으면, 걍, 친, 자녀, 아니..."
9997,6386483,왠지 김연아 크면 에리카처럼 될것같음.,1,"[왠지, 김연아, 크면, 에리, 카, 처럼, 될것, 같음]"
9998,4452600,솔직히 굿 ㅋㅋㅋㅋ 넘버11씨는 살아남길 바랬는데 2번째극장판 어서 나오길,1,"[솔직히, 굿, 넘버, 11, 씨, 는, 살아남길, 바랬는데, 2, 번, 째, 극장..."


## 3. 단어별 감성점수 측정

In [6]:
def make_sent_dict(x) :
    pos=[]
    neg=[]
    tmp={}
    
    for sentence in tqdm(x):
        for word in sentence :
            if len(sent_dic[sent_dic[0]==word])==1: # 기존에 있는 단어라면 그대로 사용
                score = float(sent_dic[sent_dic[0]==word][1])
                if score > 0:
                    pos.append(word)
                elif score < 0:
                    neg.append(word)                
            tmp[word] = {'W':0,'WP':0,'WN':0} # 감성사전 구성
    pos = list(set(pos))
    neg = list(set(neg))
    
    for sentence in tqdm(x):
        for word in sentence :
            tmp[word]['W'] += 1 # 빈도 수
            for po in pos :
                if po in sentence:
                    tmp[word]['WP'] += 1 # 긍정단어과 같은 문장 내 단어일 때
                    break
            for ne in neg:
                if ne in sentence:
                    tmp[word]['WN'] += 1 # 부정단어와 같은 문장내 단어일 때
                    break
    return pos, neg, pd.DataFrame(tmp)

In [7]:
pos, neg, new_dict = make_sent_dict(df['comment'].values)
new_dict

100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [03:25<00:00, 48.69it/s]
100%|███████████████████████████████████████████████████████████████████████████| 10000/10000 [00:27<00:00, 369.42it/s]


Unnamed: 0,아,더빙,진짜,짜증나네요,목소리,흠,포스터,보고,초딩,영화,...,아니면되,간단하네,토나올것,먹는다,유치하고어이가,쓰지마라,김연아,크면,에리,살아남길
W,265,25,546,3,20,25,51,329,27,3352,...,1,1,1,1,1,1,1,1,1,1
WP,66,2,189,1,6,5,10,136,7,1362,...,1,1,1,1,1,1,0,0,0,0
WN,89,8,202,1,4,8,15,96,5,1012,...,1,1,1,1,1,1,0,0,0,0


In [8]:
def make_score_dict(d,p,n):
    N=sum(d.iloc[0,::])
    pos_cnt=sum(d.loc[::,p].iloc[0,::])
    neg_cnt=sum(d.loc[::,n].iloc[0,::])
    
    trans =d.T
    trans['neg_cnt']=neg_cnt
    trans['pos_cnt']=pos_cnt
    trans['N']=N

    trans['MI_P']=np.log2(trans['WP']*trans['N']/trans['W']*trans['pos_cnt'])
    trans['MI_N']=np.log2(trans['WN']*trans['N']/trans['W']*trans['neg_cnt'])
    trans['SO_MI']=trans['MI_P'] - trans['MI_N']
    
    trans = trans.replace([np.inf, -np.inf], np.nan).dropna(axis=0)
    trans = trans.sort_values(by=['SO_MI'],ascending=False)
    return trans

In [9]:
t_dict = make_score_dict(new_dict,pos,neg)
t_dict['SO_MI'] = scaler.fit_transform(t_dict['SO_MI'].values.reshape(-1,1))
t_dict

  result = getattr(ufunc, method)(*inputs, **kwargs)


Unnamed: 0,W,WP,WN,neg_cnt,pos_cnt,N,MI_P,MI_N,SO_MI
꿀잼,21,21,1,3244,3987,130430,28.954004,24.264157,2.000000
멋지다,17,17,1,3244,3987,130430,28.954004,24.569011,1.852197
굿,64,17,1,3244,3987,130430,27.041467,22.656474,1.852197
존경,13,13,1,3244,3987,130430,28.954004,24.956035,1.664556
열정,13,13,1,3244,3987,130430,28.954004,24.956035,1.664556
...,...,...,...,...,...,...,...,...,...
슬프다,10,1,10,3244,3987,130430,25.632076,28.656474,-1.740105
미친,33,3,33,3244,3987,130430,25.494572,28.656474,-1.806771
지루,12,1,12,3244,3987,130430,25.369042,28.656474,-1.867632
발연기,39,3,39,3244,3987,130430,25.253564,28.656474,-1.923619


In [10]:
def update_dict(d):
    add_Dic = {0:[],1:[]}
    for i in d.T.items():
        if i[0] not in list(sent_dic[0]):
            if len(i[0]) > 1:
                add_Dic[0].append(i[0])
                add_Dic[1].append(i[1]['SO_MI'])
            
    add_Dic=pd.DataFrame(add_Dic)
    Sentiment=pd.merge(sent_dic,add_Dic,'outer')
    return Sentiment

In [11]:
add_dict =update_dict(t_dict)
add_dict

Unnamed: 0,0,1
0,(-;,1.000000
1,(;_;),-1.000000
2,(^^),1.000000
3,(^-^),1.000000
4,(^^*,1.000000
...,...,...
20508,카메라,-1.382801
20509,기만,-1.490624
20510,나온다,-1.584024
20511,자살,-1.584024


## 4. 문장 감성분석

In [14]:
def get_cnt(x):
    cnt = 0
    for word in list(set(x)):
        if len(add_dict[add_dict[0]==word])==1:
            score = float(add_dict[add_dict[0]==word][1])
            cnt += score
    return cnt

def get_ratio(x):
    score = x['score']
    length = len(x['comment'])
    try:
        ratio= round(score/length,2)
    except:
        ratio = 0
    return ratio

In [15]:
tqdm.pandas()
df['score']= df['comment'].progress_apply(lambda x : get_cnt(x))
df['ratio'] = df.apply(lambda x: get_ratio(x), axis = 1)

100%|████████████████████████████████████████████████████████████████████████████| 10000/10000 [08:02<00:00, 20.74it/s]


In [16]:
df

Unnamed: 0,id,document,label,comment,score,ratio
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0,"[아, 더빙, 진짜, 짜증나네요, 목소리]",-1.250708,-0.25
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1,"[흠, 포스터, 보고, 초딩, 영화, 줄, 오버, 연기, 조차, 가볍지, 않구나]",-0.029085,-0.00
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[너, 무재, 밓었, 다그, 래서, 보는것을, 추천, 한, 다]",0.672279,0.07
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0,"[교도소, 이야기, 구먼, 솔직히, 재미, 는, 없다, 평점, 조정]",0.558321,0.06
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1,"[사이, 몬페, 그, 의, 익살스런, 연기, 가, 돋보였던, 영화, 스파이더맨, 에...",1.773512,0.09
...,...,...,...,...,...,...
9995,8665166,곰티비로 무료로 봤기때문에 5점주려고했는데 1 한국 공포영화의 특징인 깜놀시키려 하...,0,"[곰, 티비, 로, 무료, 로, 봤기, 때문, 에, 5, 점주, 려고, 했는데, 1...",-9.285466,-0.17
9996,8312675,이딴걸드라마라고썼냐 수습할수없으면걍친자녀아니면되고 간단하네 얼굴을바꿨으면 결말이라도...,0,"[이딴, 걸, 드라마, 라고, 썼냐, 수습, 할수, 없으면, 걍, 친, 자녀, 아니...",-3.242275,-0.06
9997,6386483,왠지 김연아 크면 에리카처럼 될것같음.,1,"[왠지, 김연아, 크면, 에리, 카, 처럼, 될것, 같음]",-0.167852,-0.02
9998,4452600,솔직히 굿 ㅋㅋㅋㅋ 넘버11씨는 살아남길 바랬는데 2번째극장판 어서 나오길,1,"[솔직히, 굿, 넘버, 11, 씨, 는, 살아남길, 바랬는데, 2, 번, 째, 극장...",-0.991101,-0.07


In [18]:
df[df['ratio']<-0.5]

Unnamed: 0,id,document,label,comment,score,ratio
77,2135015,매우 실망.....,0,"[매우, 실망]",-1.421954,-0.71
119,9753792,절대 보지마라 쓰레기 영화,0,"[절대, 보지마라, 쓰레기, 영화]",-2.305342,-0.58
155,6252170,정말 실망 스러웟음..,0,"[정말, 실망, 스러웟음]",-1.833873,-0.61
183,4989285,나 왠만해서 짜증안내는데...-_-,0,"[나, 왠만해서, 짜증, 안내는데]",-2.614362,-0.65
295,6256531,ㅠㅠ 슬픔,1,[슬픔],-2.000000,-2.00
...,...,...,...,...,...,...
9858,8951559,"충분히 무섭고, 충분히 슬픈 영화",1,"[충분히, 무섭고, 충분히, 슬픈, 영화]",-2.921773,-0.58
9903,1362509,본게 후회 된다.,0,"[본게, 후회, 된다]",-2.494413,-0.83
9905,3061507,보다가 나옴 ㅡㅡ;,0,"[보다가, 나옴]",-1.295391,-0.65
9916,8709766,개판..ㅡㅡ..보지마시길 시간낭비,0,"[개판, 보지, 마시길, 시간, 낭비]",-3.481618,-0.70
