In [1]:
import pandas as pd
import numpy as np
import os
import sys
sys.path.append("..")
from util.text_preprocessing import load_data, tokenize_comment, count_comment

import tqdm

# Load Data

In [2]:
DATA_PATH = os.path.normpath('dataset')

In [3]:
[path for path in os.listdir(os.path.join(DATA_PATH,"raw_data")) if path[-3:] == 'txt']

['daum_comments_201707_entertain.txt',
 'daum_comments_201707_non_entertain.txt',
 'daum_comments_201708_entertain.txt',
 'daum_comments_201708_non_entertain.txt',
 'daum_comments_201709_entertain.txt',
 'daum_comments_201709_non_entertain.txt',
 'daum_comments_201710_entertain.txt',
 'daum_comments_201710_non_entertain.txt',
 'daum_comments_201711_entertain.txt',
 'daum_comments_201711_non_entertain.txt',
 'daum_comments_201712_entertain.txt',
 'daum_comments_201712_non_entertain.txt']

In [4]:
total_comments_df = pd.DataFrame()
path_only_txt = [path for path in os.listdir(DATA_PATH) if path[-3:] == 'txt']

for path in path_only_txt:
    print(path)
    data_df = load_data(os.path.join(DATA_PATH,path))
    data_df = data_df[data_df.comment != ""]
    total_comments_df = total_comments_df.append(data_df)

In [5]:
#total_comments_df.to_pickle(os.path.join(DATA_PATH,"total-comments.pkl"))
total_comments_df = pd.read_pickle(os.path.join(DATA_PATH,"total-comments.pkl"))
total_comments_df.sample(5)

Unnamed: 0,news_id,comment_id,comment
72985,20171225140102356,D3476B1E764C4FD4B7B8167B52521862,나도 그장면에서 폭풍눈물ㅠ
175574,20170713200956476,D6F56741C3C24C68A0918DA5A6F2B1DC,먹어보고 싶다.
32144,20170703055742859,A1D2E0B94C0B4B5493699AABF7680C4F,XX년!. 패션쇼하러 갔냐? 하고...떠들어대던 좌빨들 어디들 갔냐? 우아는~...
61154,20170807150054502,4A62795E7A204100ABF07C32F267A97A,더럽게 많네
217932,20171129202704416,7EA376A64E394108A80EC601A7E78124,이것들도 적폐네


# Tokenize comments

- 추출 태그 = ["Noun", "Adjective"]
- stopwords = ["것", "이", "안", "더", "왜", "때", "좀", "뭐", "거", "저", "뿐", "머"]

In [6]:
token_data = []

for comment in tqdm.tqdm(total_comments_df.comment):
    token = tokenize_comment(comment)
    token_data.append(token)                                                                                           

100%|█████████████████████████████████████████████████████████████████████| 2393070/2393070 [2:39:55<00:00, 249.38it/s]


In [7]:
keys, n_vocab = count_comment(token_data)

있다(332358) 되다(276578) 없다(251559) 아니다(235439) 보다(233705) 사람(183788) 같다(148385) 않다(133126) 그렇다(128083) 들다(127041) 가다(118254) 좋다(113548) 말(111371) 받다(106700) 놈(102425) 돈(98007) 먹다(97399) 왜(96503) 국민(95629) 더(92500) 한(88661) 생각(87983) 때(87228) 뭐(84020) 좀(83061) 나라(82380) 나오다(81764) 많다(80165) 개(77136) 이렇다(76579) 알다(75282) 시키다(74477) 거(71876) 내(66978) 살다(66441) 모르다(64624) 우리(62604) 차다(62285) 만들다(62027) 인간(61788) 한국(61260) 자다(61078) 기사(60117) 너무(59581) 지다(58863) 진짜(58431) 안되다(58150) 일(58139) 주다(57874) 니(56490) 
Total Vocab:  193373



In [8]:
series_token_data = pd.Series(token_data)
series_token_data[:5]

0    [이국, 종, 교수, 외과, 야전, 사령관, 분, 업무, 차질, 없다, 물, 심양,...
1          [문재인, 대통령, 이국, 종, 교수, 귀순, 병사, 모두, 건강하다, 비다]
2                    [단, 한번, 써다, 보지, 포인트, 절반, 통신비, 차감]
3                        [우리나라, 통신, 업체, 차다, 쉬다, 돈, 벌다]
4                                     [진짜, 쓸다, 너무, 적다]
dtype: object

In [9]:
total_comments_df = total_comments_df.reset_index(drop=True)
total_comments_df['comment_token'] = series_token_data
total_comments_df.tail()

Unnamed: 0,news_id,comment_id,comment,comment_token
2393065,20170731044235632,6D6963D736FF40328D170B475A4F34F0,인천에 자유 뭐시기 소속 구청장이 좀 있는데 어디냐 서구냐 남구냐 연수구냐 남동구냐...,"[인천, 자유, 뭐시기, 소속, 구청, 좀, 있다, 어디, 서구, 남구, 연수구, ..."
2393066,20170731044235632,0FB426A0CFF2443D92E8D96402008692,맹바기닮은것보니 자유당일듯...,"[맹바기, 닮다, 보다, 자유당]"
2393067,20170731044235632,897F2E5AC2D843628B24244DF4FF77BB,멍박그네 정권 싸 똥치우는 문정부 개고생. 적폐청산 MB 방산 자원외교 4대강 ...,"[멍박, 그네, 정권, 싸다, 똥, 치우다, 정부, 개, 고생, 적폐, 청산, 방산..."
2393068,20170731044235632,80A31650BF054D2AAE92310374373DB9,이제 명박이좀 잊을때도 안됐나 그만하고 새출발하자 듣는것도 지겹다,"[이제, 명박, 좀, 잊다, 때, 돼다, 그만하다, 출발, 하자, 듣다, 지겹다]"
2393069,20170731044235632,B9643D95F2F045A9808C2CAA0B70F25B,C구청장을 당장 구속 수사하면 될듯~~~,"[청장, 당장, 구속, 수사, 되다]"


In [10]:
total_comments_df.to_pickle("dataset/total-comments_with_token.pkl")

In [4]:
token_data = pd.read_pickle("dataset/total-comments_with_token.pkl")

In [5]:
token_data.head()

Unnamed: 0,news_id,comment_id,comment,comment_token
0,20171201145847479,F3C2DFCFE9E947B19C8A3053DD5C821B,이국종교수는 외과 야전사령관 이다. 그분의 업무에 차질 없도록 물심양면 으로 ...,"[이국, 종, 교수, 외과, 야전, 사령관, 분, 업무, 차질, 없다, 물, 심양,..."
1,20171201145847479,61A3B6AAD6124DFFB70EC4275496F8A6,"문재인 대통령님과 이국종 교수님, 그리고 귀순병사 모두 건강하시길 빕니다.","[문재인, 대통령, 이국, 종, 교수, 귀순, 병사, 모두, 건강하다, 비다]"
2,20171201060244786,B6660EF2C7C14A2F903A08363641CF09,단 한번도 써보지 못했다ㆍ 포인트의 절반만이라도 통신비로 차감을!,"[단, 한번, 써다, 보지, 포인트, 절반, 통신비, 차감]"
3,20171201060244786,C4F129BFB1FD4543A24A03D96F38351D,우리나라 통신업체들 참 쉽게 돈 벌어요,"[우리나라, 통신, 업체, 차다, 쉬다, 돈, 벌다]"
4,20171201060244786,1A21FDDF151E45DF808F0E5B662E8F3C,진짜 쓸데가너무적다.,"[진짜, 쓸다, 너무, 적다]"


In [6]:
tokens = token_data['comment_token']
tokens[:5]

0    [이국, 종, 교수, 외과, 야전, 사령관, 분, 업무, 차질, 없다, 물, 심양,...
1          [문재인, 대통령, 이국, 종, 교수, 귀순, 병사, 모두, 건강하다, 비다]
2                    [단, 한번, 써다, 보지, 포인트, 절반, 통신비, 차감]
3                        [우리나라, 통신, 업체, 차다, 쉬다, 돈, 벌다]
4                                     [진짜, 쓸다, 너무, 적다]
Name: comment_token, dtype: object

# Word Embedding 

두 모델 학습해서 이후 결과 비교해볼 것 
 - tokenized_comments
     - word2vec
     - fastText
 - 자모 단위 분해 + fastText
 
**Reference**    
- [Finding best fasttext hyperparameters](http://soner.in/fasttext-grid-search/)
- [한국어 단어 임베딩을 위한 Word2vec 모델의 최적화](http://journal.dcs.or.kr/xml/19540/19540.pdf)
- [FastText, Word representation using subword](https://lovit.github.io/nlp/representation/2018/10/22/fasttext_subword/)

In [7]:
import codecs
from gensim.models import word2vec
from gensim.models import fasttext

## word2vec

In [11]:
import multiprocessing
config = {
    'min_count': 1,  # 등장 횟수가 1 이하인 단어는 무시
    'size': 300,  # 300차원짜리 벡터스페이스에 embedding
    'sg': 1,  # 0이면 CBOW, 1이면 skip-gram을 사용한다
    'batch_words': 10000,  # 사전을 구축할때 한번에 읽을 단어 수
    'iter': 100,  # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
    'workers': multiprocessing.cpu_count(),
    'window': 5,
    'seed': 25 #random number,
}

In [8]:
# 모델 학습
model_w2v = word2vec.Word2Vec(tokens,**config)

In [12]:
#모델 저장
model_w2v.save(os.path.join(DATA_PATH,'embedding',"w2v_0327.model"))

In [15]:
# 모델 불러오기
w2v_model = word2vec.Word2Vec.load(os.path.join(DATA_PATH,'embedding',"w2v_0327.model"))

### analogy test

In [16]:
w2v_model.wv.most_similar(positive = "중국")

[('짱깨', 0.7469527721405029),
 ('짱개', 0.7402806878089905),
 ('중공', 0.7356770038604736),
 ('짱꼴라', 0.6442628502845764),
 ('러시아', 0.6201988458633423),
 ('중국인', 0.6164897084236145),
 ('중궈', 0.5840282440185547),
 ('시진핑', 0.5833264589309692),
 ('일본', 0.560553789138794),
 ('미국', 0.5600796937942505)]

In [17]:
w2v_model.wv.most_similar(positive = "일본")

[('쪽바리', 0.637258768081665),
 ('일본도', 0.6027649641036987),
 ('롯게', 0.5917129516601562),
 ('좃선님', 0.5848301649093628),
 ('일본인', 0.5770894289016724),
 ('쪽발이', 0.5697472095489502),
 ('중국', 0.560553789138794),
 ('왜놈', 0.5594272613525391),
 ('넘듬', 0.5572184324264526),
 ('짓맓고', 0.5498552918434143)]

In [18]:
w2v_model.wv.most_similar(positive = "대통령")

[('대통', 0.7586009502410889),
 ('문재인', 0.6966331005096436),
 ('통령', 0.6032859086990356),
 ('영부인', 0.6013497710227966),
 ('총리', 0.5542508363723755),
 ('망녕났군', 0.5260519981384277),
 ('박성욱', 0.5248264670372009),
 ('김정숙', 0.5233049392700195),
 ('땔래야땔수없', 0.5201804041862488),
 ('부럽쥬', 0.5174517631530762)]

## fastText 모델 학습 및 불러오기

- 학습 데이터와 파라미터 동일하게 해서 이후에 word2vec과 결과 비교
- 자모 단위 모델 추가

In [12]:
print(tokens[0])
print(len(tokens))

['이국', '종', '교수', '외과', '야전', '사령관', '분', '업무', '차질', '없다', '물', '심양', '도', '주기', '분', '역활']
2393070


In [14]:
ft_config = {
    'min_count': 1,  # 등장 횟수가 1 이하인 단어는 무시
    'size': 300,  # 300차원짜리 벡터스페이스에 embedding
    'sg': 1,  # 0이면 CBOW, 1이면 skip-gram을 사용한다
    'batch_words': 10000,  # 사전을 구축할때 한번에 읽을 단어 수
    'iter': 100,  # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
    'workers': multiprocessing.cpu_count(),
    'window': 5,
    'seed': 25, #random number,
    'word_ngrams':1 # uses enriches word vectors with subword(n-grams) information. If 0, this is equivalent to Word2Vec.
}

In [15]:
# 모델 학습
fastText_model = fasttext.FastText(sentences=tokens, **ft_config)  

In [20]:
# 연관성 테스트
fastText_model.wv.most_similar("중국")

[('짱개', 0.7340356707572937),
 ('짱깨', 0.7271621227264404),
 ('중공', 0.7174848318099976),
 ('러시아', 0.6323301792144775),
 ('짱꼴라', 0.6283606290817261),
 ('중국인', 0.6042678356170654),
 ('중궈', 0.5787336826324463),
 ('시진핑', 0.575260579586029),
 ('일본', 0.5739111304283142),
 ('중국스립', 0.5734913349151611)]

In [16]:
# 모델 저장
fastText_model.save('dataset/embedding/fastText_0330.model')

In [48]:
# 모델 불러오기
fastText_model = fasttext.FastText.load('dataset/embedding/fastText_0330.model')