In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import json
import os

In [2]:
def load_nsmc_data():
    # data load
    paths = [path.replace('\\', '/') for path in glob('../nsmc/raw/*.json')]
    res = []
    for path in paths:
        with open(path, encoding='utf-8') as data_file:
            res.extend(json.load(data_file))
    # struct dataframe
    df = pd.DataFrame(res)
    # make label
    df['year'] = df['date'].map(lambda x : x.split('.')[0])
    df['rating'] = df['rating'].astype(int)
    df['class'] = np.where(df['rating'].values >= 8, 'POS', np.where(df['rating'].values >= 4, 'NEU', 'NEG'))
    # drop null data & \n, \r
    df['review'] = df['review'].map(lambda x : re.sub('[\n\r]', '', x))
    df = df[df['review'].map(lambda x : len(x) != 0)]
    return df

path = 'c:/research_persona/sentiment_analysis/movie_review_sentiment'
df = pd.read_csv(path + '/raw_data_nsmc.csv')

In [3]:
np.random.seed(42)

In [4]:
df

Unnamed: 0,author,date,movie_id,rating,review,review_id,year,class
0,dhrl****,15.08.25,10001,10,전체관람가는 아닌것 같아요,10275182,15,POS
1,yuns****,15.08.25,10001,10,디렉터스컷으로봐서 거의 3시간짜리인데 참 흡인력있다,10272934,15,POS
2,supe****,15.08.23,10001,10,태어나 처음으로 가슴아리는 영화였다. 20년이상 지났지만.. 생각하면 또 가슴이...,10265507,15,POS
3,clai****,15.08.14,10001,10,어린시절 고딩때 봤던 때랑 또 결혼하고 나서 봤을때의 느낌은 확실히 다르네요. 뭔가...,10228406,15,POS
4,dlag****,15.08.11,10001,10,토토에게 넓은 세상을 보여주고픈 알프레도.. 그가 토토를 위해 정을 떼려고 했던 장...,10216349,15,POS
5,data****,15.08.11,10001,10,인생 최고의 영화. 말이 필요없음. 감독판은 감동이 좀 덜함.,10215502,15,POS
6,sihj****,15.08.09,10001,10,아름다운 영화 지금까지 봤던 영화 중 끝까지 감동적이었던 영화,10210125,15,POS
7,hoji****,15.07.28,10001,10,전율과 여운이 남는 영화,10153343,15,POS
8,vers****,15.07.26,10001,10,여지껏 내인생에서 젤 감동인 영화~! 영화음악의 거장 '엔리오모리꼬네'의 OST...,10144075,15,POS
9,2pac****,15.07.25,10001,10,내가 죽을때까지 이런 명작은 나오기 힘들것 같다.. 너무 아름답고 감동적인 영화..,10143317,15,POS


In [5]:
a = [119208, 411527, 575334, 95526, 17351, 137675, 637004,
     315357, 75030, 447256, 404467, 146225, 31242, 32103,
     430194, 398209, 638779, 660307, 550639, 243616,
     582840, 46602, 626347]
df[['review', 'rating']].loc[a]

Unnamed: 0,review,rating
119208,재미게봤다 전작을안봐서잘모르지만스토리보다배드신위주로보는데이건전부다봤다 스토리도b급영...,10
411527,지츠니 오모시로이!,10
575334,조혼나 재밌었다 조혼나,10
95526,진짜다잘하고재밌는데근데짜리몽땅은약간가수가아니라합창이더어울리는거같다만약쟤네가우승한다면...,10
17351,전 이거 볼빠엔 차라리 트랜스포머4를 보겠어요,1
137675,영화 배급사 ㅅㄲ들 진짜 제목낚시 불법화 못하나? 원제는 빅풋인데 왜 아무 상관 없...,1
637004,뻔하고 지루했어요... 하지만 엄마는 위대하다!,6
315357,부럽지 않다.,6
75030,기대기대우어엉야아이제,1
447256,동성애 예찬 영화? 천재의 고뇌? 도대체 무엇을 말하고 싶은 건지 알 수 없는 영화.,1


In [6]:
from eunjeon import Mecab  # KoNLPy style mecab wrapper
tagger = Mecab() 
tagger.morphs("고양이가 냐 하고 울면 나는 녜 하고 울어야지")

['고양이', '가', '냐', '하', '고', '울', '면', '나', '는', '녜', '하', '고', '울', '어야지']

In [7]:
poem = """
흘러내린 머리카락이 흐린 호박빛 아래 빛난다.
유영하며.
저건가보다.
세월의 힘을 이겨낸 마지막 하나 남은 가로등.
미래의 색, 역겨운 청록색으로 창백하게 바뀔 마지막 가로등
난 유영한다. 차분하게 과거에 살면서 현재의 공기를 마신다.
가로등이 깜빡인다.

나도 깜빡여준다.
"""
print(tagger.morphs(poem))

['흘러내린', '머리카락', '이', '흐린', '호박', '빛', '아래', '빛난다', '.', '유영', '하', '며', '.', '저건가', '보', '다', '.', '세월', '의', '힘', '을', '이겨', '낸', '마지막', '하나', '남', '은', '가로등', '.', '미래', '의', '색', ',', '역겨운', '청록색', '으로', '창백', '하', '게', '바뀔', '마지막', '가로등', '난', '유영', '한다', '.', '차분', '하', '게', '과거', '에', '살', '면서', '현재', '의', '공기', '를', '마신다', '.', '가로등', '이', '깜빡인다', '.', '나', '도', '깜빡', '여', '준다', '.']


In [8]:
print(tagger.morphs('너무재밓었다그래서보는것을추천한다'))

['너무', '재', '밓었', '다', '그래서', '보', '는', '것', '을', '추천', '한다']


In [9]:
import pickle
with open(path + '/sejong_corpus_li.pkl', 'rb') as f:
    sejong_corpus_li = pickle.load(f)

In [10]:
from konlpy.tag import Okt, Komoran, Kkma

kkma = Kkma()
okt = Okt()
kom = Komoran()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [11]:
stopwords = list('의가이은들는좀잘걍과도를자에와한') + ['으로', '하다']
stopwords

['의',
 '가',
 '이',
 '은',
 '들',
 '는',
 '좀',
 '잘',
 '걍',
 '과',
 '도',
 '를',
 '자',
 '에',
 '와',
 '한',
 '으로',
 '하다']

In [12]:
class ProgBar():
    def __init__(self, step=100):
        self.step = int(step / 20)
        self.count = 1
        self.progress = 0
    def update(self):
        if self.count % self.step == 0:
            self.progress += 1
            print('\r[{:s}{:s}]'.format('#'*self.progress, ' '*(20 - self.progress)), end='')
        self.count += 1

In [13]:
import time

def timeit(method):
    def timed(*args, **kw):
        ts = time.time()
        result = method(*args, **kw)
        te = time.time()
        if 'log_time' in kw:
            name = kw.get('log_name', method.__name__.upper())
            kw['log_time'][name] = int((te - ts) * 1000)
        else:
            print('\'{:s}\'  {:2.2f} ms  {:2.2f} sec  {:2.2f} min  {:2.2f} hour'.format(
                  method.__name__, (te - ts) * 1000, (te - ts), (te - ts) / 60, (te - ts) / 3600))
        return result
    return timed

@timeit
def test():
    res = []
    for i in range(100000):
        res.append(i)
        
test()

'test'  12.97 ms  0.01 sec  0.00 min  0.00 hour


In [14]:
import pickle
# with open('sejong_corpus_li.pkl', 'rb') as f:
#     sejong_corpus_li = pickle.load(f)
with open(path + '/eojeol_corpus_li.pkl', 'rb') as f:
    eojeol_corpus_li = pickle.load(f)

corpus_li = eojeol_corpus_li + sejong_corpus_li

In [15]:
@timeit
def preprocess_main(df):
    review = df['review'].map(lambda x : re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', x))
    review = review.map(lambda x : tokenizer.tokenize(x))
    res = {}
    for i in range(len(review)):
        res[i] = [j for text in review[i] for j in okt.morphs(text, norm=True, stem=True)]
    res = pd.Series(res)
    stopwords = list('의가이은들는좀잘걍과도를자에와한') + ['으로', '하다']
    res = res.map(lambda x : [word for word in x if word not in stopwords])
    return res
# res = preprocess_main(df=df)

In [16]:
import sys
YOUR_LOCAL_GIT_REPOSITORY = "C:/research_persona/sejong_corpus_cleaner"
sys.path.append(YOUR_LOCAL_GIT_REPOSITORY)

import sejong_corpus_cleaner

In [17]:
soylemmma_git_repository = "C:/research_persona/korean_lemmatizer"
sys.path.append(soylemmma_git_repository)

from soylemma import Lemmatizer

lemmatizer = Lemmatizer()

In [18]:
lemmatizer.analyze('차가우니까')

[(('차갑', 'Adjective'), ('우니까', 'Eomi'))]

In [19]:
# 가엽다, 가엾다는 복수 표준어이기 때문에 둘 다 가능하다!
lemmatizer.lemmatize('가엽다') 

[('가엽다', 'Adjective')]

In [20]:
lemmatizer.conjugate('가엾', '냐')

['가엾냐']

torch install
- https://lsjsj92.tistory.com/494

In [21]:
import chatspace

In [22]:
from chatspace import ChatSpace

spacer = ChatSpace()

Loading JIT Compiled ChatSpace Model


In [23]:
spacer.space('너무재밓었다그래서보는것을추천한다')

'너무 재밓었다 그래서 보는 것을 추천한다'

In [24]:
spacer.space('과연이것도너가분리할수있을까후아하하하하키키키')

'과연 이것도 너가 분리할 수 있을까 후아하하하하 키키키'

In [25]:
spacer.space('진짜다잘하고재밌는데근데짜리몽땅은약간가수가아니라합창이더어울리는거같다만약쟤네가우승한다면')

'진짜 다 잘하고 재밌는데 근데 짜리 몽땅은 약간가수가 아니라 합창이 더 어울리는 거 같다 만약 쟤네가 우승한다면'

In [26]:
spacer.space('재미게봤다 전작을안봐서잘모르지만스토리보다배드신위주로보는데이건전부다봤다 스토리도b급영...')

'재미게 봤다 전작을 안봐서 잘 모르지만 스토리보다 배드신 위주로 보는데 이건 전부 다 봤다 스토리도 b급영...'

In [30]:
spacer.space('내가 죽을때까지 이런 명작은 나오기 힘들것 같다.. 너무 아름답고 감동적인 영화..')

'내가 죽을 때까지 이런 명작은 나오기 힘들 것 같다.. 너무 아름답고 감동적인 영화..'

In [33]:
spacer.space('같은여자인데 엘리제한테반햇어요 노래도좋고.. 힐링되는영화였어요!!')

'같은 여자인데 엘리제한테 반햇어요 노래도 좋고.. 힐링 되는 영화였어요! !'

In [35]:
spacer.space('성매매,스토킹,불륜... 이런 쓰레기 영화가 어떻게 전체관람가냐?')

'성매매, 스토킹, 불륜... 이런 쓰레기 영화가 어떻게 전체 관람 가냐?'

In [37]:
spacer.space('아이오아이가청하랑애들인가?와후벌써어린친구들이kpop스타라니...')

'아이오 아이가 청하랑 애들인가? 와후 벌써 어린 친구들이 kpop 스타라니...'

In [42]:
spacer.space('평점조작방지위원회.')

'평점 조작방지위원회.'

In [43]:
spacer.space('세상이란게제법춥네요당신의안에서살던때보다모자람없이주신사랑이')

'세상이란 게 제법 춥네요 당신의 안에서 살던 때보다 모자람 없이 주신 사랑이'

# Spacing

In [47]:
%time reviews = df['review'].map(lambda x : spacer.space(x))

Wall time: 2h 56min 53s


In [49]:
df2 = df.copy()

In [51]:
df2['review'] = reviews

In [52]:
df2.to_csv('spacing_nsmc_data.csv')

In [53]:
df2['review']

0                                          전체 관람가는 아닌 것 같아요
1                          디렉터스 컷으로 봐서 거의 3시간 짜리인데 참 흡인력 있다
2         태어나 처음으로 가슴 아리는 영화였다. 20년 이상 지났지만.. 생각하면 또 가슴이...
3         어린시절 고딩 때 봤던 때랑 또 결혼하고 나서 봤을 때의 느낌은 확실히 다르네요. ...
4         토토에게 넓은 세상을 보여주고 픈 알프레도.. 그가 토토를 위해 정을 떼려고 했던 ...
5                       인생 최고의 영화. 말이 필요 없음. 감독판은 감동이 좀 덜함.
6                        아름다운 영화 지금까지 봤던 영화 중 끝까지 감동적이었던 영화
7                                             전율과 여운이 남는 영화
8         여지껏 내 인생에서 젤 감동인 영화~! 영화음악의 거장 '엔 리오모 리꼬 네'의 O...
9          내가 죽을 때까지 이런 명작은 나오기 힘들 것 같다.. 너무 아름답고 감동적인 영화..
10              내 인생 최고의 영화!! 아직까지 이 영화를 봤을 때의 감동을 잊을 수 없다.
11        음악을 들으면 자동으로 연상이 되는 정말 최고의 영화.. 감수성을 자극하고 우리나라...
12               추억은 방울방울 추억을 먹고 사는 나이가 되니 이 영화가 눈물 나도록 고맙다
13        이 영화에서 나의 향수를 느꼈다. 알 베르토와 토토가 함께 자전거를 타며 배경 음악...
14                              정말 잘 만든 영화입니다. 몇 번을 봐도 그대로.
15                                   나이를 먹고 보니 또 다른 맛이 난 다.
16                           영화 자체에 대한 순

In [54]:
a = [119208, 411527, 575334, 95526, 17351, 137675, 637004,
     315357, 75030, 447256, 404467, 146225, 31242, 32103,
     430194, 398209, 638779, 660307, 550639, 243616,
     582840, 46602, 626347]
df2[['review', 'rating']].loc[a]

Unnamed: 0,review,rating
119208,재미게 봤다 전작을 안봐서 잘 모르지만 스토리보다 배드신 위주로 보는데 이건 전부 ...,10
411527,지츠 니 오모시로이!,10
575334,조혼나 재밌었다 조혼나,10
95526,진짜 다 잘하고 재밌는데 근데 짜리 몽땅은 약간가수가 아니라 합창이 더 어울리는 거...,10
17351,전 이거 볼빠엔 차라리 트랜스 포머 4를 보겠어요,1
137675,영화 배급사 ㅅㄲ들 진짜 제목 낚시 불법화 못하나? 원제는 빅풋인데 왜 아무 상관 ...,1
637004,뻔하고 지루했어요... 하지만 엄마는 위대하다!,6
315357,부럽지 않다.,6
75030,기대기대우어엉 야아 이제,1
447256,동성애 예찬 영화? 천재의 고뇌? 도대체 무엇을 말하고 싶은 건지 알 수 없는 영화.,1


### 오탈자 분석기

In [111]:
# -*- coding: utf-8 -*-
from collections import namedtuple
import time
from collections import OrderedDict
import sys
import xml.etree.ElementTree as ET
import requests

base_url = 'https://m.search.naver.com/p/csearch/ocontent/spellchecker.nhn'

_agent = requests.Session()
PY3 = sys.version_info[0] == 3

class CheckResult:
    PASSED = 0
    WRONG_SPELLING = 1
    WRONG_SPACING = 2
    AMBIGUOUS = 3

def _remove_tags(text):
    text = u'<content>{}</content>'.format(text).replace('<br>','')
    if not PY3:
        text = text.encode('utf-8')
    result = ''.join(ET.fromstring(text).itertext())
    return result

# 조사와 어미도 단어로 처리함. 마땅한 영단어가 생각이 안 나서..
_checked = namedtuple('Checked',
    ['result', 'original', 'checked', 'errors', 'words', 'time'])

class Checked(_checked):
    def __new__(cls, result=False, original='', checked='', 
                errors=0, words=[], time=0.0):
        return super(Checked, cls).__new__(
            cls, result, original, checked, errors, words, time)

    def as_dict(self):
        d = {
            'result': self.result,
            'original': self.original,
            'checked': self.checked,
            'errors': self.errors,
            'words': self.words,
            'time': self.time,
        }
        return d
    
def spallcheck(text):
    if isinstance(text, list):
        result = []
        for item in text:
            checked = spallcheck(item)
            result.append(checked)
        return result
    
    if len(text) > 500:
        return Checked(result=False)
    
    payload = {
        '_callback':'window.__jindo2_callback._spellingCheck_0',
        'q': text
    }
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
        'referer': 'https://search.naver.com/'
    }
    
    start_time = time.time()
    r = _agent.get(base_url, params=payload, headers=headers)
    passed_time = time.time() - start_time
    
    r = r.text[42:-2]
    
    data = json.loads(r)
    html = data['message']['result']['html']
    result = {
        'result': True,
        'original': text,
        'checked': _remove_tags(html),
        'errors': data['message']['result']['errata_count'],
        'time': passed_time,
        'words': OrderedDict(),
    }
    
    # 띄어쓰기로 구분하기 위해 태그는 일단 보기 쉽게 바꿔둠.
    # ElementTree의 iter()를 써서 더 좋게 할 수 있는 방법이 있지만
    # 이 짧은 코드에 굳이 그렇게 할 필요성이 없으므로 일단 문자열을 치환하는 방법으로 작성.
    html = html.replace('<span class=\'re_green\'>', '<green>') \
               .replace('<span class=\'re_red\'>', '<red>') \
               .replace('<span class=\'re_purple\'>', '<purple>') \
               .replace('</span>', '<end>')
    items = html.split(' ')
    words = []
    tmp = ''
    for word in items:
        if tmp == '' and word[:1] == '<':
            pos = word.find('>') + 1
            tmp = word[:pos]
        elif tmp != '':
            word = u'{}{}'.format(tmp, word)

        if word[-5:] == '<end>':
            word = word.replace('<end>', '')
            tmp = ''

        words.append(word)
        
    for word in words:
        check_result = CheckResult.PASSED
        if word[:5] == '<red>':
            check_result = CheckResult.WRONG_SPELLING
            word = word.replace('<red>', '')
        elif word[:7] == '<green>':
            check_result = CheckResult.WRONG_SPACING
            word = word.replace('<green>', '')
        elif word[:8] == '<purple>':
            check_result = CheckResult.AMBIGUOUS
            word = word.replace('<purple>', '')

        result['words'][word] = check_result

    result = Checked(**result)
    
    return result

In [121]:
df2['review'].sample(50).tolist()

['단 한 번도 웃지 않은 건 아니지만 재밌는 장면은 손에 꼽을 정도로 적다. 그래서 2시간이 넘는 러닝 타임은 무척이나 지루하다.',
 '이거 안본 뇌 삽니다. ...',
 '대충 볼만한데 초반에 좀 지루함 금발 여자 가슴 나옴 ㅋ',
 '새로운 멸망의 시나리오로 상상의 나래를 펼치다.',
 '간만에 좋은 영화 봤다, 포스터 보고, 제목보고 처음에 속았다는 느낌이였지만 매력 넘치는 영화다. 내용이 생뚱맞으면서도 무슨 소리진 이해가 안갈듯하면서도 모든 게 딱딱 들어맞는, 내용의 허점이 안보이는 희안한 영화다. 영화가 끝나고도 찝찝함이 남지 않는 깔끔한 영화인 거 같다.',
 '아이들과 재밌게 관람하고 즐거운 시간이었습니다.^^',
 "소설책 한권 읽은 기분. 살아가는데에 우선 되는 것은 '옳고 그름'이 아닌. 그 어떤?",
 '조페 감독의 영화중 두 번째로 좋아하는 영화',
 'E R과는 이미 길이 다름',
 '양종철의 흔적이 남아있는 작품',
 '옛날 영화이지만 작품성 배우의 연기력이 현대영화 못지 않았다.',
 '걍 역사적 사실이니 뭐니 따지지 말고 액션만 봐라 그럼 스케일과 재미는 확실하다...',
 '평소에 킬링 타임용 영화만 추구했던 나인데, 영화 공자를 보게 된 이후로 다소 슬로우 한 영화에서 찾는 솔솔한 재미도 있다는 사실에 놀라웠네요. 정말 재밌게 봤습니다. 다시 보고싶은 명작입니다.',
 '도축장씬에 사백안 보고 지릴 뻔했다 ㄷㄷ',
 '고무고무 펀치~~~ 원피스는 매우 좋아하지만 이건 좀 별로.',
 '평점 조작 아닌데.. 박보영 땜에 준건데. 영화 존나 노잼인데',
 '한국식 막장 드라마 같은 소재와 전개덕에 흥미는 있네~',
 '존트라 볼타와 휘태커의 연기력이... 그럭저럭 괜찮았다.',
 '이쁜 여자의 동거남은 힘들다. 매니져 담배 좀 작작 펴라.',
 '전 개인적으로 명절때 이거 보고 제사상 차린적이 있네요 물론 절도 했지요 ㅎㅎ',
 '추천! 합니다. 대작의 냄새는 나지 않지만 배우들의 몰입도 높은 연기력과 몰입도 높은 소재로 전심되

In [133]:
ck

Checked(result=True, original='전체 관람가는 아닌 것 같아요', checked='전체 관람가는 아닌 것 같아요', errors=0, words=OrderedDict([('전체', 0), ('관람가는', 0), ('아닌', 0), ('것', 0), ('같아요', 0)]), time=0.01894855499267578)

In [134]:
ck = spallcheck(df2['review'][0])
ck.errors
res = []
for ix, review in df2['review'].items():
    if ix % 100 == 0:
        print(ix)
    ck = spallcheck(review)
    res.append(ck.checked)

0
100
200
300
400


KeyboardInterrupt: 

## 시간 상 오탈자 분석 패스

# Sentiment-LDA

In [139]:
from ksenticnet_kaist import *

ksenticnet = get_ksenticnet()

keys = list(ksenticnet.keys())
senticvals = [[float(i) for i in val[:4]] for val in  ksenticnet.values()]
sentiments = []
polarity = []
semantics = []
for key, val in ksenticnet.items():
    for i in val[4:]:
        if i in ['positive', 'negative']:
            polar_ind = val.index(i)
            sentiments.append(val[4 : polar_ind])
            polarity.append(val[polar_ind : polar_ind+2])
            semantics.append(val[polar_ind+2 :])
            break
from collections import defaultdict
ksenticnets = defaultdict(dict)
for key, val, senti, p, seman in zip(keys, 
                                     senticvals, 
                                     sentiments, 
                                     polarity, 
                                     semantics):
    ksenticnets[key]['sentic_value'] = val
    ksenticnets[key]['sentiment'] = senti
    ksenticnets[key]['polarity'] = p
    ksenticnets[key]['semantic'] = seman

In [160]:
ksenticnets['가게']

{'sentic_value': [0.0, 0.124, -0.05, 0.203],
 'sentiment': ['#interest', '#admiration'],
 'polarity': ['positive', '0.09'],
 'semantic': ['매점', '상점', '판매점']}

In [456]:
import re
from sklearn.feature_extraction.text import CountVectorizer

MAX_VOCAB_SIZE = 50000

def sampleFromDirichlet(alpha):
    return np.random.dirichlet(alpha)

def sampleFromCategorical(theta):
    theta = theta / np.sum(theta)
    return np.random.multinomial(1, theta).argmax()

def word_indices(wordOccurenceVec):
    for idx in wordOccurenceVec.nonzero()[0]:
        for i in range(int(wordOccurenceVec[idx])):
            yield idx

In [156]:
from konlpy.tag import Kkma, Okt

In [157]:
okt = Okt()

In [158]:
okt.morphs('강아지와 고양이는 행복하게 살았답니다.')

['강아지', '와', '고양이', '는', '행복하게', '살았답니다', '.']

In [191]:
f = lambda x : [i if i > 0 else 0 for i in x]
g = lambda x : [abs(i) if i < 0 else 0 for i in x]
scores = np.array(list(map(lambda x : f(x) + g(x), senticvals)))
scores /= scores.sum(axis=1).reshape(-1, 1)

In [242]:
# newkeys = []
# newscores = np.zeros((len(set([j for i in semantics for j in i])), 4))
# for ix, (s, val) in enumerate(zip(semantics, senticvals)):
#     for j in s:
#         if j not in newkeys:
#             newkeys.append(j)
#         newscores[newkeys.index(j), :] += np.array(val)
        
# newscores = np.array(list(map(lambda x : f(x) + g(x), newscores.tolist())))
# newscores /= newscores.sum(axis=1).reshape(-1, 1)

# m_keys = keys + newkeys
# m_scores = np.vstack((scores, newscores))

# m_keys_dict = {j : i for i, j in enumerate(m_keys)}

In [370]:
words = df2.review[0].split()

In [372]:
stops = list('의가이은들는좀잘걍과도를자에와한') + ['으로', '하다']

In [399]:
okt.morphs(df2.review[0], stem=True, norm=True)

['전체', '관람', '가다', '아니다', '것', '같다']

In [464]:
import gc
gc.collect()

1049

In [465]:
import gc

class KSenticNet():
    keys = {j : i for i, j in  enumerate(keys)}
    scores = scores
    
class SentimentLDAGibbsSampler:
    
    def __init__(self, numTopics, alpha, beta, gamma, numSentiments=2):
        self.alpha = alpha
        self.beta = beta
        self.gamma = gamma
        self.numTopics = numTopics
        self.numSentiments = numSentiments
        
    def processSingleReview(self, review, st, d=None, stopwords=None):
        letters_only = re.sub('[^ㄱ-하-ㅣ가-힣]', ' ', review).strip()
        if not stopwords:
            stops = list('의가이은들는좀잘걍과도를자에와한것') + ['으로', '하다']
        else:
            stops = stopwords
        words = st.morphs(letters_only, stem=True, norm=True)
        meaningful_words = [w for w in words if w not in stops]
        return ' '.join(meaningful_words)
    
    def processReviews(self, reviews, st, saveAs=None, saveOverride=False, 
                       do_preprocess=True, return_processed_review=False):
        import os
        import dill
        if not saveOverride and saveAs and os.path.isfile(saveAs):
            [wordOccurenceMatrix, self.vectorizer] = dill.load(open(saveAs, 'r'))
            return wordOccurenceMatrix
        if do_preprocess:
            processed_reviews = []
            for i, review in enumerate(reviews):
                if (i + 1) % 10000 == 0:
                    print(' Review {} of {}'.format(i + 1, len(reviews)))
                processed_reviews.append(self.processSingleReview(review, st, i))
        else:
            processed_reviews = reviews
        if return_processed_review:
            return processed_reviews
        self.vectorizer = CountVectorizer(analyzer='word',
                                          tokenizer=None,
                                          preprocessor=None,
                                          max_features=MAX_VOCAB_SIZE)
        train_data_features = self.vectorizer.fit_transform(processed_reviews)
        wordOccurenceMatrix = train_data_features
        if saveAs:
            dill.dump([wordOccurenceMatrix, self.vectorizer], open(saveAs, 'w'))
        return wordOccurenceMatrix
    
    def _initialize_(self, reviews, st, saveAs=None, saveOverride=False, do_preprocess=True):
        self.wordOccurenceMatrix = self.processReviews(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        
        # Pseudocounts
        self.n_dt = np.zeros((numDocs, self.numTopics))
        self.n_dts = np.zeros((numDocs, self.numTopics, self.numSentiments))
        self.n_d = np.zeros((numDocs))
        self.n_vts = np.zeros((vocabSize, self.numTopics, self.numSentiments))
        self.n_ts = np.zeros((self.numTopics, self.numSentiments))
        self.topics = {}
        self.sentiments = {}
        self.priorSentiment = {}
        
        alphaVec = self.alpha * np.ones(self.numTopics)
        gammaVec = self.gamma * np.ones(self.numSentiments)
        
        print('--* KSenticNet으로 사전 확률 조작 중... *--')
        # 감정 사전 (KSenticNEt)을 사용하여 사전 확률을 조작 중.
        for i, word in enumerate(self.vectorizer.get_feature_names()):
            w = KSenticNet.keys.get(word)
            if not w: continue
            synsets = KSenticNet.scores[w, :]
            self.priorSentiment[i] = np.random.choice(self.numSentiments, p=synsets)
        
        print('--* initialize 작업 진행 중... *--')
        for d in range(numDocs):
            if d % 5000 == 0: print(' Doc {} of {} Reviews'.format(d, numDocs))
            topicDistribution = sampleFromDirichlet(alphaVec)
            sentimentDistribution = np.zeros((self.numTopics, self.numSentiments))
            for t in range(self.numTopics):
                sentimentDistribution[t, :] = sampleFromDirichlet(gammaVec)
            for i, w in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                t = sampleFromCategorical(topicDistribution)
                s = sampleFromCategorical(sentimentDistribution[t, :])
                
                self.topics[(d, i)] = t
                self.sentiments[(d, i)] = s
                self.n_dt[d, t] += 1
                self.n_dts[d, t, s] += 1
                self.n_d[d] += 1
                self.n_vts[w, t, s] += 1
                self.n_ts[t, s] += 1
                
    def conditionalDistribution(self, d, v):
        probabilites_ts = np.ones((self.numTopics, self.numSentiments))
        firstFactor = (self.n_dt[d] + self.alpha) / \
                (self.n_d[d] + self.numTopics * self.alpha)
        secondFactor = (self.n_dts[d, :, :] + self.gamma) / \
                (self.n_dt[d, :] + self.numSentiments * self.gamma)[:, np.newaxis]
        thirdFactor = (self.n_vts[v, :, :] + self.beta) / \
                (self.n_ts + self.n_vts.shape[0] * self.beta)
        probabilites_ts *= firstFactor[:, np.newaxis]
        probabilites_ts *= secondFactor * thirdFactor
        probabilites_ts /= np.sum(probabilites_ts)
        return probabilites_ts
                
    def run(self, reviews, st, maxIters=30, saveAs=None, saveOverride=False, do_preprocess=True):
        self._initialize_(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        for iteration in range(maxIters):
            gc.collect()
            print('Starting iteration {} of {}'.format(iteration + 1, maxIters))
            for d in range(numDocs):
                for i, v in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                    t = self.topics[(d, i)]
                    s = self.sentiments[(d, i)]
                    self.n_dt[d, t] -= 1
                    self.n_d[d] -= 1
                    self.n_dts[d, t, s] -= 1
                    self.n_vts[v, t, s] -= 1
                    self.n_ts[t, s] -= 1
                    
                    probabilites_ts = self.conditionalDistribution(d, v)
                    if v in self.priorSentiment:
                        s = self.priorSentiment[v]
                        t = sampleFromCategorical(probabilites_ts[:, s])
                    else:
                        ind = sampleFromCategorical(probabilites_ts.flatten())
                        t, s = np.unravel_index(ind, probabilites_ts.shape)
                    
                    self.topics[(d, i)] = t
                    self.sentiments[(d, i)] = s
                    self.n_dt[d, t] += 1
                    self.n_d[d] += 1
                    self.n_dts[d, t, s] += 1
                    self.n_vts[v, t, s] += 1
                    self.n_ts[t, s] += 1
        print('Done.')

In [466]:
JST = SentimentLDAGibbsSampler(4, 10, 0.1, 0.1, 8)

In [424]:
processed_reviews = JST.processReviews(df2.review.tolist(), okt, do_preprocess=True, return_processed_review=True)

 Review 1000 of 712383
 Review 2000 of 712383
 Review 3000 of 712383
 Review 4000 of 712383
 Review 5000 of 712383
 Review 6000 of 712383
 Review 7000 of 712383
 Review 8000 of 712383
 Review 9000 of 712383
 Review 10000 of 712383
 Review 11000 of 712383
 Review 12000 of 712383
 Review 13000 of 712383
 Review 14000 of 712383
 Review 15000 of 712383
 Review 16000 of 712383
 Review 17000 of 712383
 Review 18000 of 712383
 Review 19000 of 712383
 Review 20000 of 712383
 Review 21000 of 712383
 Review 22000 of 712383
 Review 23000 of 712383
 Review 24000 of 712383
 Review 25000 of 712383
 Review 26000 of 712383
 Review 27000 of 712383
 Review 28000 of 712383
 Review 29000 of 712383
 Review 30000 of 712383
 Review 31000 of 712383
 Review 32000 of 712383
 Review 33000 of 712383
 Review 34000 of 712383
 Review 35000 of 712383
 Review 36000 of 712383
 Review 37000 of 712383
 Review 38000 of 712383
 Review 39000 of 712383
 Review 40000 of 712383
 Review 41000 of 712383
 Review 42000 of 712383
 

 Review 660000 of 712383
 Review 661000 of 712383
 Review 662000 of 712383
 Review 663000 of 712383
 Review 664000 of 712383
 Review 665000 of 712383
 Review 666000 of 712383
 Review 667000 of 712383
 Review 668000 of 712383
 Review 669000 of 712383
 Review 670000 of 712383
 Review 671000 of 712383
 Review 672000 of 712383
 Review 673000 of 712383
 Review 674000 of 712383
 Review 675000 of 712383
 Review 676000 of 712383
 Review 677000 of 712383
 Review 678000 of 712383
 Review 679000 of 712383
 Review 680000 of 712383
 Review 681000 of 712383
 Review 682000 of 712383
 Review 683000 of 712383
 Review 684000 of 712383
 Review 685000 of 712383
 Review 686000 of 712383
 Review 687000 of 712383
 Review 688000 of 712383
 Review 689000 of 712383
 Review 690000 of 712383
 Review 691000 of 712383
 Review 692000 of 712383
 Review 693000 of 712383
 Review 694000 of 712383
 Review 695000 of 712383
 Review 696000 of 712383
 Review 697000 of 712383
 Review 698000 of 712383
 Review 699000 of 712383


In [428]:
vectorizer = CountVectorizer(analyzer='word',
                             tokenizer=None,
                             preprocessor=None,
                             max_features=MAX_VOCAB_SIZE)
train_data_features = vectorizer.fit_transform(processed_reviews)
wordOccurenceMatrix = train_data_features

In [453]:
wordOccurenceMatrix[0, :].toarray()[0]

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

In [455]:
wordOccurenceMatrix[0, :].toarray()[0].nonzero()

(array([ 1176,  2213,  4606, 24572, 33530], dtype=int64),)

In [467]:
JST.run(processed_reviews, okt, maxIters=30, do_preprocess=False)

--* KSenticNet으로 사전 확률 조작 중... *--
--* initialize 작업 진행 중... *--
 Doc 0 of 712383 Reviews
 Doc 5000 of 712383 Reviews
 Doc 10000 of 712383 Reviews
 Doc 15000 of 712383 Reviews
 Doc 20000 of 712383 Reviews
 Doc 25000 of 712383 Reviews
 Doc 30000 of 712383 Reviews
 Doc 35000 of 712383 Reviews
 Doc 40000 of 712383 Reviews
 Doc 45000 of 712383 Reviews
 Doc 50000 of 712383 Reviews
 Doc 55000 of 712383 Reviews
 Doc 60000 of 712383 Reviews
 Doc 65000 of 712383 Reviews
 Doc 70000 of 712383 Reviews
 Doc 75000 of 712383 Reviews
 Doc 80000 of 712383 Reviews
 Doc 85000 of 712383 Reviews
 Doc 90000 of 712383 Reviews
 Doc 95000 of 712383 Reviews
 Doc 100000 of 712383 Reviews
 Doc 105000 of 712383 Reviews
 Doc 110000 of 712383 Reviews
 Doc 115000 of 712383 Reviews
 Doc 120000 of 712383 Reviews
 Doc 125000 of 712383 Reviews
 Doc 130000 of 712383 Reviews
 Doc 135000 of 712383 Reviews
 Doc 140000 of 712383 Reviews
 Doc 145000 of 712383 Reviews
 Doc 150000 of 712383 Reviews
 Doc 155000 of 712383 Reviews


In [470]:
import pickle
with open('1st_jst_result.pkl', 'wb') as f:
    pickle.dump(JST, f, protocol=pickle.HIGHEST_PROTOCOL)

In [471]:
with open('1st_jst_result.pkl', 'rb') as f:
    test = pickle.load(f)

In [497]:
df2.review[2]

'태어나 처음으로 가슴 아리는 영화였다. 20년 이상 지났지만.. 생각하면 또 가슴이 아리는.. 황순원의 소나기에서 또 한번 느꼈던 그 느낌!'

0 : joy
1 : interest
2 : anger
3 : admiration
4 : sadness
5 : surprise
6 : fear
7 : disgust

In [503]:
from collections import defaultdict
res = defaultdict(list)
for i, j in test.sentiments.items():
    res[i[0]].append(j)

In [505]:
from collections import Counter
res = {i : Counter(j) for i, j in res.items()}

In [514]:
i2senti = {0 : 'joy', 1 : 'interest', 2 : 'anger', 3 : 'admiration',
           4 : 'sadness', 5 : 'surprise', 6 : 'fear', 7 : 'disgust'}

In [552]:
len(res)

701369

In [548]:
for i in range(0, len(df2), 1000):
    print(df2.review[i])
    print([i2senti[j[0]] for j in res[i].most_common(2)], end='\n\n')

전체 관람가는 아닌 것 같아요
['fear', 'admiration']

80년대 나온 다른 영화들과 비교해보면 확실히 시나리오 등 시대를 넘어섬! 근데 주인공은 미스 캐스팅인듯...
['interest', 'surprise']

말 그대루 다이하드 ㅋㅋ 이건 봐도 봐도 재밌져 ㅋ 음악도 센스 있어! ㅋ ㅇㅅㅇ) b
['disgust', 'interest']

이 영화는 복싱영화가 아니다 우리 모두의 얘기 다 70년대에 만들어진 영화라고는 믿기지 않는 영화 현재도 앞으로도 나올 수 없는 영화 몇 번을 바도 감동과 눈물 아~ 레전드여~ 실 베스터 스탤론 싸랑해요~ ^^
['sadness', 'fear']

재밌네요..
['disgust']

내 연모 잘 봤습니다^^♥
['interest', 'admiration']

스릴러 영화의 기념비적 영화.
['sadness', 'anger']

전편 못지 않은 재미.. 긴장감은 조금 줄었지만 눈 요깃거리는 더 많아졌다
['anger', 'interest']

믿을 수 없는 영화가 나왔다..
['sadness', 'fear']

10번도 봐도 멋지다!! !
['admiration', 'disgust']

로버트 드 니로, 리암 니슨, 제레미 아이언스가 나와서 본 영화. 너무 고전이라 스토리 전개는 지루하지만 OST 하나 만큼은 일품.
['surprise', 'interest']

무엇보다 여배우의 거대한 가슴에 아낌없이 평점 10점 만점을 주고, 또 주고 싶다. (웃음) 솔직히 세트장도 정말로 인상적. 우리나라에선 죽었다 깨어나도 생각해 볼 수 없는, 탁월한 발상의 무대장치와 세트에 경탄과 찬사를 보냅니다. 정말 차원이 다르다는 말로도 부족하군요
['joy', 'surprise']

앞부분은 조금 지루했지만 좋은 교훈이 있었다
['disgust', 'sadness']

이건 정망 명작입니다!!! ! ~~~~^@^ 감동적이고 아름답습니다 ㅠㅜ 꼭 한번 보시길...
['admiration', 'sadness']

이거 겁나 재

KeyError: 22000

# 죽어서 다시 시작

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import json
import os

def load_nsmc_data():
    # data load
    paths = [path.replace('\\', '/') for path in glob('../nsmc/raw/*.json')]
    res = []
    for path in paths:
        with open(path, encoding='utf-8') as data_file:
            res.extend(json.load(data_file))
    # struct dataframe
    df = pd.DataFrame(res)
    # make label
    df['year'] = df['date'].map(lambda x : x.split('.')[0])
    df['rating'] = df['rating'].astype(int)
    df['class'] = np.where(df['rating'].values >= 8, 'POS', np.where(df['rating'].values >= 4, 'NEU', 'NEG'))
    # drop null data & \n, \r
    df['review'] = df['review'].map(lambda x : re.sub('[\n\r]', '', x))
    df = df[df['review'].map(lambda x : len(x) != 0)]
    return df

path = 'c:/research_persona/sentiment_analysis/movie_review_sentiment'
# df = pd.read_csv(path + '/raw_data_nsmc.csv')

from eunjeon import Mecab  # KoNLPy style mecab wrapper

from konlpy.tag import Okt, Komoran, Kkma

kkma = Kkma()
okt = Okt()
kom = Komoran()

stopwords = list('의가이은들는좀잘걍과도를자에와한') + ['으로', '하다']
stopwords

class ProgBar():
    def __init__(self, step=100):
        self.step = int(step / 20)
        self.count = 1
        self.progress = 0
    def update(self):
        if self.count % self.step == 0:
            self.progress += 1
            print('\r[{:s}{:s}]'.format('#'*self.progress, ' '*(20 - self.progress)), end='')
        self.count += 1

import time

def timeit(method):
    def timed(*args, **kw):
        ts = time.time()
        result = method(*args, **kw)
        te = time.time()
        if 'log_time' in kw:
            name = kw.get('log_name', method.__name__.upper())
            kw['log_time'][name] = int((te - ts) * 1000)
        else:
            print('\'{:s}\'  {:2.2f} ms  {:2.2f} sec  {:2.2f} min  {:2.2f} hour'.format(
                  method.__name__, (te - ts) * 1000, (te - ts), (te - ts) / 60, (te - ts) / 3600))
        return result
    return timed

@timeit
def test():
    res = []
    for i in range(100000):
        res.append(i)
        
test()

import pickle
with open(path + '/sejong_corpus_li.pkl', 'rb') as f:
    sejong_corpus_li = pickle.load(f)
with open(path + '/eojeol_corpus_li.pkl', 'rb') as f:
    eojeol_corpus_li = pickle.load(f)

corpus_li = eojeol_corpus_li + sejong_corpus_li

@timeit
def preprocess_main(df):
    review = df['review'].map(lambda x : re.sub('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '', x))
    review = review.map(lambda x : tokenizer.tokenize(x))
    res = {}
    for i in range(len(review)):
        res[i] = [j for text in review[i] for j in okt.morphs(text, norm=True, stem=True)]
    res = pd.Series(res)
    stopwords = list('의가이은들는좀잘걍과도를자에와한') + ['으로', '하다']
    res = res.map(lambda x : [word for word in x if word not in stopwords])
    return res
# res = preprocess_main(df=df)

import sys
YOUR_LOCAL_GIT_REPOSITORY = "C:/research_persona/sejong_corpus_cleaner"
sys.path.append(YOUR_LOCAL_GIT_REPOSITORY)

import sejong_corpus_cleaner

soylemmma_git_repository = "C:/research_persona/korean_lemmatizer"
sys.path.append(soylemmma_git_repository)

from soylemma import Lemmatizer

lemmatizer = Lemmatizer()

from chatspace import ChatSpace

spacer = ChatSpace()

# df2.to_csv('spacing_nsmc_data.csv')
    


'test'  9.97 ms  0.01 sec  0.00 min  0.00 hour
Loading JIT Compiled ChatSpace Model


In [3]:
df2 = pd.read_csv('spacing_nsmc_data.csv')

In [None]:
import re
from sklearn.feature_extraction.text import CountVectorizer

MAX_VOCAB_SIZE = 50000

def sampleFromDirichlet(alpha):
    return np.random.dirichlet(alpha)

def sampleFromCategorical(theta):
    theta = theta / np.sum(theta)
    return np.random.multinomial(1, theta).argmax()

def word_indices(wordOccurenceVec):
    for idx in wordOccurenceVec.nonzero()[0]:
        for i in range(int(wordOccurenceVec[idx])):
            yield idx

In [6]:
from ksenticnet_kaist import *

ksenticnet = get_ksenticnet()

keys = list(ksenticnet.keys())
senticvals = [[float(i) for i in val[:4]] for val in  ksenticnet.values()]
sentiments = []
polarity = []
semantics = []
for key, val in ksenticnet.items():
    for i in val[4:]:
        if i in ['positive', 'negative']:
            polar_ind = val.index(i)
            sentiments.append(val[4 : polar_ind])
            polarity.append(val[polar_ind : polar_ind+2])
            semantics.append(val[polar_ind+2 :])
            break
from collections import defaultdict
ksenticnets = defaultdict(dict)
for key, val, senti, p, seman in zip(keys, 
                                     senticvals, 
                                     sentiments, 
                                     polarity, 
                                     semantics):
    ksenticnets[key]['sentic_value'] = val
    ksenticnets[key]['sentiment'] = senti
    ksenticnets[key]['polarity'] = p
    ksenticnets[key]['semantic'] = seman

f = lambda x : [i if i > 0 else 0 for i in x]
g = lambda x : [abs(i) if i < 0 else 0 for i in x]
scores = np.array(list(map(lambda x : f(x) + g(x), senticvals)))
scores /= scores.sum(axis=1).reshape(-1, 1)

In [7]:
from konlpy.tag import Kkma, Okt
import gc

class KSenticNet():
    keys = {j : i for i, j in  enumerate(keys)}
    scores = scores
    
class SentimentLDAGibbsSampler:
    
    def __init__(self, numTopics, alpha, beta, gamma, numSentiments=2):
        self.alpha = alpha
        self.beta = beta
        self.gamma = gamma
        self.numTopics = numTopics
        self.numSentiments = numSentiments
        
    def processSingleReview(self, review, st, d=None, stopwords=None):
        letters_only = re.sub('[^ㄱ-하-ㅣ가-힣]', ' ', review).strip()
        if not stopwords:
            stops = list('의가이은들는좀잘걍과도를자에와한것') + ['으로', '하다']
        else:
            stops = stopwords
        words = st.morphs(letters_only, stem=True, norm=True)
        meaningful_words = [w for w in words if w not in stops]
        return ' '.join(meaningful_words)
    
    def processReviews(self, reviews, st, saveAs=None, saveOverride=False, 
                       do_preprocess=True, return_processed_review=False):
        import os
        import dill
        if not saveOverride and saveAs and os.path.isfile(saveAs):
            [wordOccurenceMatrix, self.vectorizer] = dill.load(open(saveAs, 'r'))
            return wordOccurenceMatrix
        if do_preprocess:
            processed_reviews = []
            for i, review in enumerate(reviews):
                if (i + 1) % 10000 == 0:
                    print(' Review {} of {}'.format(i + 1, len(reviews)))
                processed_reviews.append(self.processSingleReview(review, st, i))
        else:
            processed_reviews = reviews
        if return_processed_review:
            return processed_reviews
        self.vectorizer = CountVectorizer(analyzer='word',
                                          tokenizer=None,
                                          preprocessor=None,
                                          max_features=MAX_VOCAB_SIZE)
        train_data_features = self.vectorizer.fit_transform(processed_reviews)
        wordOccurenceMatrix = train_data_features
        if saveAs:
            dill.dump([wordOccurenceMatrix, self.vectorizer], open(saveAs, 'w'))
        return wordOccurenceMatrix
    
    def _initialize_(self, reviews, st, saveAs=None, saveOverride=False, do_preprocess=True):
        self.wordOccurenceMatrix = self.processReviews(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        
        # Pseudocounts
        self.n_dt = np.zeros((numDocs, self.numTopics))
        self.n_dts = np.zeros((numDocs, self.numTopics, self.numSentiments))
        self.n_d = np.zeros((numDocs))
        self.n_vts = np.zeros((vocabSize, self.numTopics, self.numSentiments))
        self.n_ts = np.zeros((self.numTopics, self.numSentiments))
        self.topics = {}
        self.sentiments = {}
        self.priorSentiment = {}
        
        alphaVec = self.alpha * np.ones(self.numTopics)
        gammaVec = self.gamma * np.ones(self.numSentiments)
        
        print('--* KSenticNet으로 사전 확률 조작 중... *--')
        # 감정 사전 (KSenticNEt)을 사용하여 사전 확률을 조작 중.
        for i, word in enumerate(self.vectorizer.get_feature_names()):
            w = KSenticNet.keys.get(word)
            if not w: continue
            synsets = KSenticNet.scores[w, :]
            self.priorSentiment[i] = np.random.choice(self.numSentiments, p=synsets)
        
        print('--* initialize 작업 진행 중... *--')
        for d in range(numDocs):
            if d % 5000 == 0: print(' Doc {} of {} Reviews'.format(d, numDocs))
            topicDistribution = sampleFromDirichlet(alphaVec)
            sentimentDistribution = np.zeros((self.numTopics, self.numSentiments))
            for t in range(self.numTopics):
                sentimentDistribution[t, :] = sampleFromDirichlet(gammaVec)
            for i, w in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                t = sampleFromCategorical(topicDistribution)
                s = sampleFromCategorical(sentimentDistribution[t, :])
                
                self.topics[(d, i)] = t
                self.sentiments[(d, i)] = s
                self.n_dt[d, t] += 1
                self.n_dts[d, t, s] += 1
                self.n_d[d] += 1
                self.n_vts[w, t, s] += 1
                self.n_ts[t, s] += 1
                
    def conditionalDistribution(self, d, v):
        probabilites_ts = np.ones((self.numTopics, self.numSentiments))
        firstFactor = (self.n_dt[d] + self.alpha) / \
                (self.n_d[d] + self.numTopics * self.alpha)
        secondFactor = (self.n_dts[d, :, :] + self.gamma) / \
                (self.n_dt[d, :] + self.numSentiments * self.gamma)[:, np.newaxis]
        thirdFactor = (self.n_vts[v, :, :] + self.beta) / \
                (self.n_ts + self.n_vts.shape[0] * self.beta)
        probabilites_ts *= firstFactor[:, np.newaxis]
        probabilites_ts *= secondFactor * thirdFactor
        probabilites_ts /= np.sum(probabilites_ts)
        return probabilites_ts
                
    def run(self, reviews, st, maxIters=30, saveAs=None, saveOverride=False, do_preprocess=True):
        self._initialize_(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        for iteration in range(maxIters):
            gc.collect()
            print('Starting iteration {} of {}'.format(iteration + 1, maxIters))
            for d in range(numDocs):
                for i, v in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                    t = self.topics[(d, i)]
                    s = self.sentiments[(d, i)]
                    self.n_dt[d, t] -= 1
                    self.n_d[d] -= 1
                    self.n_dts[d, t, s] -= 1
                    self.n_vts[v, t, s] -= 1
                    self.n_ts[t, s] -= 1
                    
                    probabilites_ts = self.conditionalDistribution(d, v)
                    if v in self.priorSentiment:
                        s = self.priorSentiment[v]
                        t = sampleFromCategorical(probabilites_ts[:, s])
                    else:
                        ind = sampleFromCategorical(probabilites_ts.flatten())
                        t, s = np.unravel_index(ind, probabilites_ts.shape)
                    
                    self.topics[(d, i)] = t
                    self.sentiments[(d, i)] = s
                    self.n_dt[d, t] += 1
                    self.n_d[d] += 1
                    self.n_dts[d, t, s] += 1
                    self.n_vts[v, t, s] += 1
                    self.n_ts[t, s] += 1
        print('Done.')

In [8]:
with open('1st_jst_result.pkl', 'rb') as f:
    JST = pickle.load(f)

In [14]:
np.unique(JST.n_d)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51.,
       69.])

In [35]:
np.where(JST.n_d == 0)

(array([   158,    335,    664, ..., 712099, 712167, 712173], dtype=int64),)

In [40]:
JST.wordOccurenceMatrix

<712383x50000 sparse matrix of type '<class 'numpy.int64'>'
	with 5682281 stored elements in Compressed Sparse Row format>

In [42]:
JST.sentiments[(712382, 0)]

7

In [44]:
from collections import defaultdict
res = defaultdict(list)
for i, j in JST.sentiments.items():
    res[i[0]].append(j)

from collections import Counter
res = {i : Counter(j) for i, j in res.items()}

i2senti = {0 : 'joy', 1 : 'interest', 2 : 'anger', 3 : 'admiration',
           4 : 'sadness', 5 : 'surprise', 6 : 'fear', 7 : 'disgust'}

In [46]:
res.get(158)

In [47]:
for i in range(0, len(df2), 1000):
    print(df2.review[i])
    if res.get(i):
        print([i2senti[j[0]] for j in res.get(i).most_common(2)], end='\n\n')
    else:
        print(['neutral'], end='\n\n')

전체 관람가는 아닌 것 같아요
['fear', 'admiration']

80년대 나온 다른 영화들과 비교해보면 확실히 시나리오 등 시대를 넘어섬! 근데 주인공은 미스 캐스팅인듯...
['interest', 'surprise']

말 그대루 다이하드 ㅋㅋ 이건 봐도 봐도 재밌져 ㅋ 음악도 센스 있어! ㅋ ㅇㅅㅇ) b
['disgust', 'interest']

이 영화는 복싱영화가 아니다 우리 모두의 얘기 다 70년대에 만들어진 영화라고는 믿기지 않는 영화 현재도 앞으로도 나올 수 없는 영화 몇 번을 바도 감동과 눈물 아~ 레전드여~ 실 베스터 스탤론 싸랑해요~ ^^
['sadness', 'fear']

재밌네요..
['disgust']

내 연모 잘 봤습니다^^♥
['interest', 'admiration']

스릴러 영화의 기념비적 영화.
['sadness', 'anger']

전편 못지 않은 재미.. 긴장감은 조금 줄었지만 눈 요깃거리는 더 많아졌다
['anger', 'interest']

믿을 수 없는 영화가 나왔다..
['sadness', 'fear']

10번도 봐도 멋지다!! !
['admiration', 'disgust']

로버트 드 니로, 리암 니슨, 제레미 아이언스가 나와서 본 영화. 너무 고전이라 스토리 전개는 지루하지만 OST 하나 만큼은 일품.
['surprise', 'interest']

무엇보다 여배우의 거대한 가슴에 아낌없이 평점 10점 만점을 주고, 또 주고 싶다. (웃음) 솔직히 세트장도 정말로 인상적. 우리나라에선 죽었다 깨어나도 생각해 볼 수 없는, 탁월한 발상의 무대장치와 세트에 경탄과 찬사를 보냅니다. 정말 차원이 다르다는 말로도 부족하군요
['joy', 'surprise']

앞부분은 조금 지루했지만 좋은 교훈이 있었다
['disgust', 'sadness']

이건 정망 명작입니다!!! ! ~~~~^@^ 감동적이고 아름답습니다 ㅠㅜ 꼭 한번 보시길...
['admiration', 'sadness']

이거 겁나 재

진짜 친구 2보다가 김우빈 연기하는 꼴 보고 바로 끄고 친구1 보러 갔다 이건 진짜 몇 번 봐도 ㅋ 너무 너무 재밌고 장동건 유오성 연기 OOO 7번은 본 거 같다 언제 다시 봐도 재밌다 진짜 내 인생에 남을 만한 영화중 하나임
['fear', 'admiration']

가이 리치의 젊은 센스와 재기가 넘치던 시기.
['disgust', 'admiration']

쿠바쿠딩 주니어는 진지한 연기 너무 못함. 날라리가 어울림. 주인공의 초인적인 의지는 높이 평가하지만, Honor 의 의미를 부각하기에는 부적합한 사례라고 봄. Honor 와 정반대인 백인놈들에 대한 진지한 비평도 없는 시나리오도 별로 임
['joy', 'anger']

전쟁을 통해 말하는 명예, 대의, 희생.
['fear', 'sadness']

걸작...._!! !
['admiration']

긴장감 있는 연출등은 좋은데에 반해 마지막엔 씁쓸함을 주는 영화이다.
['interest', 'surprise']

로미오와 줄리엣을 본 것 같다
['fear', 'surprise']

이 정도의 평점은 받을 자격이 된다고 보는 영화..
['surprise', 'sadness']

스토리 전개가 엉망이지만 음악씬은 좋았다.
['disgust', 'joy']

성룡의 진중함과 크리스 터커의 경쾌함의 진화.
['surprise', 'joy']

기발한 상상력.. 음악 소품 영상 하나 하나 감각이 돋보임.
['admiration', 'surprise']

재미있다
['surprise']

1이 가장 나음.
['anger', 'sadness']

초반의 긴장감이 계속되지는 않지만 이런 류의 쫄깃한 영화를 좋아한다면 만족할 만하다!
['sadness', 'disgust']

정말 말 그대로 미친 영화다.
['interest', 'anger']

마지막이 아쉼지만. 통쾌하고 유쾌한 작품^^ 번디가족. ㅎㅎㅎ
['interest', 'disgust']

영상미는 참신 근데 너무 있어 보일려고 한게 오히려 안 좋은 영향을

좋은 영화입니다.
['sadness', 'interest']

모든 배우들의 연기와 결말이 너무 좋네요
['joy', 'admiration']

...
['neutral']

별로 재미는 없었다
['admiration', 'anger']

애니메이션의 흔치 않은 수작
['sadness', 'admiration']

이런 사랑스러운 유쾌한 영화 같으니라고
['sadness', 'disgust']

문제 의식만으로 좋은 감독이 될 수는 없다
['surprise', 'anger']

배우의 몸매 하나는 정말 죽인다.
['surprise', 'joy']

굿
['neutral']

. 진짜 감동적임...
['admiration']

에라이... 정신만 혼란스럽고, 엄사장, 김진수... 억지 연기하는 거 정말 짜증난다.
['anger', 'admiration']

시높과 배우들의 열연을 무색하게 할 만큼의 발각색, 발편집. 우연의 난무와 친절하지 않는 정황. 그럼에도 두배우와 소녀의 연기로 끝까지 보게 하는 힘은 있다
['interest', 'surprise']

내용 안보려고 억지로 애쓰면서 강지환, 이지아씨에게만 주목했다, 그래도 5점..
['surprise', 'anger']

마지막 조각이 영화의 모든 걸 말해준다..
['admiration', 'interest']

조금씩 조금씩 이곳 저곳 어질러놓고 한 군데만 대충 치운 느낌
['admiration', 'interest']

힘들게 만든 영화를 나레이션이 망치네. 갈비타령 빵꾸 똥꾸 질질 짜고 귀썩음 ㅡㅡ
['surprise', 'interest']

아.... 결혼한지 4년된 여잔데 너무 와닿는다..
['joy', 'admiration']

잼있게 잘 봤음 ㅋㅋ 여자들 섹시함과 식인 물고기라.... 묘하게 흥분되네.. 적당히 재미있어요 ㅋ
['disgust', 'admiration']

관객들은 그냥 보기만 하면 된다. 분해하고 해석하고 할 필요가 없는 영화.
['sadness', 'anger']

사상과 

# 가즈아

In [3]:
import pickle
with open('191110_1353_processed_review.pkl', 'rb') as f:
    processed_reviews2 = pickle.load(f)

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import json
import os

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

In [6]:
# 데이터 호출 (spacing 전처리 수행 o)
df2 = pd.read_csv('spacing_nsmc_data.csv')

In [8]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import json
import os
import pickle
import sys

from konlpy.tag import Kkma, Okt
import gc

import re
from sklearn.feature_extraction.text import CountVectorizer

from collections import defaultdict

from ksenticnet_kaist import *

ksenticnet = get_ksenticnet()

keys = list(ksenticnet.keys())
senticvals = [[float(i) for i in val[:4]] for val in  ksenticnet.values()]
sentiments = []
polarity = []
semantics = []
for key, val in ksenticnet.items():
    for i in val[4:]:
        if i in ['positive', 'negative']:
            polar_ind = val.index(i)
            sentiments.append(val[4 : polar_ind])
            polarity.append(val[polar_ind : polar_ind+2])
            semantics.append(val[polar_ind+2 :])
            break

ksenticnets = defaultdict(dict)
for key, val, senti, p, seman in zip(keys, 
                                     senticvals, 
                                     sentiments, 
                                     polarity, 
                                     semantics):
    ksenticnets[key]['sentic_value'] = val
    ksenticnets[key]['sentiment'] = senti
    ksenticnets[key]['polarity'] = p
    ksenticnets[key]['semantic'] = seman

f = lambda x : [i if i > 0 else 0 for i in x]
g = lambda x : [abs(i) if i < 0 else 0 for i in x]
scores = np.array(list(map(lambda x : f(x) + g(x), senticvals)))
scores /= scores.sum(axis=1).reshape(-1, 1)

class KSenticNet():
    keys = {j : i for i, j in  enumerate(keys)}
    scores = scores
    
MAX_VOCAB_SIZE = 50000

def sampleFromDirichlet(alpha):
    return np.random.dirichlet(alpha)

def sampleFromCategorical(theta):
    theta = theta / np.sum(theta)
    return np.random.multinomial(1, theta).argmax()

def word_indices(wordOccurenceVec):
    for idx in wordOccurenceVec.nonzero()[0]:
        for i in range(int(wordOccurenceVec[idx])):
            yield idx
            
class KSenticNet():
    keys = {j : i for i, j in  enumerate(keys)}
    scores = scores
    
class SentimentLDAGibbsSampler:
    
    def __init__(self, numTopics, alpha, beta, gamma, numSentiments=2):
        self.alpha = alpha
        self.beta = beta
        self.gamma = gamma
        self.numTopics = numTopics
        self.numSentiments = numSentiments
        
    def processSingleReview(self, review, st, d=None, stopwords=None):
        letters_only = re.sub('[^ㄱ-하-ㅣ가-힣]', ' ', review).strip()
        if not stopwords:
            stops = list('의가이은을로들는좀잘걍과도를자에와한것') + ['으로', '하다']
        else:
            stops = stopwords
        words = st.morphs(letters_only, stem=True, norm=True)
        meaningful_words = [w for w in words if w not in stops]
        return ' '.join(meaningful_words)
    
    def processReviews(self, reviews, st, saveAs=None, saveOverride=False, 
                       do_preprocess=True, return_processed_review=False):
        import os
        import dill
        if not saveOverride and saveAs and os.path.isfile(saveAs):
            [wordOccurenceMatrix, self.vectorizer] = dill.load(open(saveAs, 'r'))
            return wordOccurenceMatrix
        if do_preprocess:
            processed_reviews = []
            for i, review in enumerate(reviews):
                if (i + 1) % 10000 == 0:
                    print(' Review {} of {}'.format(i + 1, len(reviews)))
                processed_reviews.append(self.processSingleReview(review, st, i))
        else:
            processed_reviews = reviews
        if return_processed_review:
            return processed_reviews
        self.vectorizer = CountVectorizer(analyzer='word',
                                          tokenizer=None,
                                          preprocessor=None,
                                          max_features=MAX_VOCAB_SIZE)
        train_data_features = self.vectorizer.fit_transform(processed_reviews)
        wordOccurenceMatrix = train_data_features
        if saveAs:
            dill.dump([wordOccurenceMatrix, self.vectorizer], open(saveAs, 'w'))
        return wordOccurenceMatrix
    
    def _initialize_(self, reviews, st, saveAs=None, saveOverride=False, do_preprocess=True):
        self.wordOccurenceMatrix = self.processReviews(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        
        # Pseudocounts
        self.n_dt = np.zeros((numDocs, self.numTopics))
        self.n_dts = np.zeros((numDocs, self.numTopics, self.numSentiments))
        self.n_d = np.zeros((numDocs))
        self.n_vts = np.zeros((vocabSize, self.numTopics, self.numSentiments))
        self.n_ts = np.zeros((self.numTopics, self.numSentiments))
        self.topics = {}
        self.sentiments = {}
        self.priorSentiment = {}
        
        alphaVec = self.alpha * np.ones(self.numTopics)
        gammaVec = self.gamma * np.ones(self.numSentiments)
        
        print('--* KSenticNet으로 사전 확률 조작 중... *--')
        # 감정 사전 (KSenticNEt)을 사용하여 사전 확률을 조작 중.
        for i, word in enumerate(self.vectorizer.get_feature_names()):
            w = KSenticNet.keys.get(word)
            if not w: continue
            synsets = KSenticNet.scores[w, :]
            self.priorSentiment[i] = np.random.choice(self.numSentiments, p=synsets)
        
        print('--* initialize 작업 진행 중... *--')
        for d in range(numDocs):
            if d % 5000 == 0: print(' Doc {} of {} Reviews'.format(d, numDocs))
            topicDistribution = sampleFromDirichlet(alphaVec)
            sentimentDistribution = np.zeros((self.numTopics, self.numSentiments))
            for t in range(self.numTopics):
                sentimentDistribution[t, :] = sampleFromDirichlet(gammaVec)
            for i, w in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                t = sampleFromCategorical(topicDistribution)
                s = sampleFromCategorical(sentimentDistribution[t, :])
                
                self.topics[(d, i)] = t
                self.sentiments[(d, i)] = s
                self.n_dt[d, t] += 1
                self.n_dts[d, t, s] += 1
                self.n_d[d] += 1
                self.n_vts[w, t, s] += 1
                self.n_ts[t, s] += 1
                
    def conditionalDistribution(self, d, v):
        probabilites_ts = np.ones((self.numTopics, self.numSentiments))
        firstFactor = (self.n_dt[d] + self.alpha) / \
                (self.n_d[d] + self.numTopics * self.alpha)
        secondFactor = (self.n_dts[d, :, :] + self.gamma) / \
                (self.n_dt[d, :] + self.numSentiments * self.gamma)[:, np.newaxis]
        thirdFactor = (self.n_vts[v, :, :] + self.beta) / \
                (self.n_ts + self.n_vts.shape[0] * self.beta)
        probabilites_ts *= firstFactor[:, np.newaxis]
        probabilites_ts *= secondFactor * thirdFactor
        probabilites_ts /= np.sum(probabilites_ts)
        return probabilites_ts
                
    def run(self, reviews, st, maxIters=30, saveAs=None, saveOverride=False, do_preprocess=True):
        self._initialize_(reviews, st, saveAs, saveOverride, do_preprocess)
        numDocs, vocabSize = self.wordOccurenceMatrix.shape
        for iteration in range(maxIters):
            gc.collect()
            print('Starting iteration {} of {}'.format(iteration + 1, maxIters))
            for d in range(numDocs):
                for i, v in enumerate(word_indices(self.wordOccurenceMatrix[d, :].toarray()[0])):
                    t = self.topics[(d, i)]
                    s = self.sentiments[(d, i)]
                    self.n_dt[d, t] -= 1
                    self.n_d[d] -= 1
                    self.n_dts[d, t, s] -= 1
                    self.n_vts[v, t, s] -= 1
                    self.n_ts[t, s] -= 1
                    
                    probabilites_ts = self.conditionalDistribution(d, v)
                    if v in self.priorSentiment:
                        s = self.priorSentiment[v]
                        t = sampleFromCategorical(probabilites_ts[:, s])
                    else:
                        ind = sampleFromCategorical(probabilites_ts.flatten())
                        t, s = np.unravel_index(ind, probabilites_ts.shape)
                    
                    self.topics[(d, i)] = t
                    self.sentiments[(d, i)] = s
                    self.n_dt[d, t] += 1
                    self.n_d[d] += 1
                    self.n_dts[d, t, s] += 1
                    self.n_vts[v, t, s] += 1
                    self.n_ts[t, s] += 1
        print('Done.')

In [9]:
# 감정 분류 호출
with open('1st_jst_result.pkl', 'rb') as f:
    JST = pickle.load(f)

In [10]:
res = defaultdict(list)
for i, j in JST.sentiments.items():
    res[i[0]].append(j)

from collections import Counter
res = {i : Counter(j) for i, j in res.items()}

i2senti = {0 : 'joy', 1 : 'interest', 2 : 'anger', 3 : 'admiration',
           4 : 'sadness', 5 : 'surprise', 6 : 'fear', 7 : 'disgust'}

In [11]:
senti_label_each_review = [[] for _ in range(len(df2))]
for i in range(len(df2)):
    if res.get(i):
        for j in res.get(i).most_common(2):
            senti_label_each_review[i].append(i2senti[j[0]])
    else:
        senti_label_each_review[i].append(['neutral'])

In [12]:
X_train = df2['review'].copy()
y_train = senti_label_each_review

In [13]:
from konlpy.tag import Okt
okt = Okt()
def tokenizer_morphs(doc):
    return okt.morphs(doc)

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [14]:
X_train2 = np.array(X_train.values)
y_train2 = np.array([i[0] for i in y_train])

y_label = np.zeros((len(y_train), len(i2senti.values())))
senti2i = {j : i for i, j in i2senti.items()}
for ix, contents in enumerate(y_train):
    for j in contents:
        if j == ['neutral']:
            continue
        if y_label[ix, senti2i[j]] == 0:
            y_label[ix, senti2i[j]] += 1

In [16]:
X_train2[0]

'전체 관람가는 아닌 것 같아요'

In [17]:
ind = np.where(y_label.sum(axis=1) != 0)

In [18]:
X_train2 = X_train2[ind]
y_label = y_label[ind]
y_train2 = y_train2[ind]

In [19]:
tfidf = TfidfVectorizer(tokenizer=tokenizer_morphs, max_features=50000)

In [20]:
%time tfidf_x_train2 = tfidf.fit_transform(X_train2[:500000])

Wall time: 19min 26s


In [21]:
tfidf_x_train2

<500000x50000 sparse matrix of type '<class 'numpy.float64'>'
	with 6534033 stored elements in Compressed Sparse Row format>

In [22]:
multi_nbc = MultinomialNB()

In [23]:
y_train2 = list(map(lambda x : senti2i[x], y_train2[:500000]))

In [24]:
multi_nbc.fit(tfidf_x_train2, y_train2)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [25]:
tfidf_x_test2 = tfidf.transform(X_train2[500000:])
y_pred = multi_nbc.predict(tfidf_x_test2)