In [15]:
import pandas as pd
import numpy as np
import os
import sys
sys.path.append("..")

from util.text_preprocessing import tokenize_okt, count_comment
from util.load_data import load_data
import tqdm

# Load Data

In [16]:
DATA_PATH = os.path.normpath('dataset/korean_data_2/')

# Tokenize comments

- 추출 태그 = [명사 동사 형용사]
- stopwords = ["것", "이", "안", "더", "왜", "때", "좀", "뭐", "거", "저", "뿐", "머"]

In [17]:
total_comments_df = pd.read_csv('korean_data_2.csv')
total_comments_df.columns=['id', 'Sentence', 'Emotion']
print(total_comments_df.shape)
total_comments_df.sample(5)

(62517, 3)


Unnamed: 0,id,Sentence,Emotion
38429,38429,나라가 위태로운데 경제로 저울질 합니까?,분노
44375,44375,월요일부터 11박이던가? ㅠㅠ,슬픔
6592,6592,지금 한 세 달 정도 된 거 같아,슬픔
17398,17398,아무래도 너무 오래 만나다 보니까 권태기가 온 것 같아,슬픔
41269,41269,추워서 버틸수가 없어0,슬픔


In [18]:
token_data = []

for comment in tqdm.tqdm(total_comments_df.Sentence):
    token = tokenize_okt(comment)
    token_data.append(token)                                                                                           

100%|███████████████████████████████████████████████████████████████████████████| 62517/62517 [02:26<00:00, 426.65it/s]


In [19]:
keys, n_vocab = count_comment(token_data)

있다(5250) 없다(4517) 같다(3990) 너무(3818) 되다(3787) 보다(3598) 안(3351) 아니다(2880) 그렇다(2673) 거(2561) 오다(2181) 사람(2128) 나(2099) 않다(1964) 내(1930) 들다(1927) 가다(1838) 지금(1747) 친구(1745) 좀(1730) 진짜(1601) 해(1530) 말(1526) 먹다(1511) 돼다(1469) 좋다(1459) 정말(1458) 모르다(1456) 때(1450) 받다(1425) 생각(1361) 힘들다(1338) 많이(1321) 자다(1295) 더(1281) 또(1272) 어떻다(1264) 못(1264) 나다(1217) 싶다(1080) 알다(1071) 주다(1051) 왜(1048) 그냥(1038) 회사(1028) 많다(1026) 나오다(967) 시간(952) 약속(936) 뭐(925) 
Total Vocab:  20574



In [20]:
series_token_data = pd.Series(token_data)
series_token_data[:5]

0                  [청소, 네, 대신, 해, 주다]
1                    [둘, 청소, 싫다, 귀찮다]
2                         [둘, 싫다, 화내]
3                [그렇다, 방, 세다, 어떻다, 해]
4    [권, 택인, 줄, 알다, 그렇다, 사람, 생기다, 보더]
dtype: object

In [21]:
total_comments_df = total_comments_df.reset_index(drop=True)
total_comments_df['comment_token'] = series_token_data
total_comments_df.tail()

Unnamed: 0,id,Sentence,Emotion,comment_token
62512,62512,솔직히 예보 제대로 못하는 데 세금이라도 아끼게 그냥 폐지해라..,혐오,"[솔직하다, 예보, 제대로, 데, 세금, 아끼다, 그냥, 폐지]"
62513,62513,재미가 없으니 망하지,혐오,"[재미, 없다, 망하다]"
62514,62514,공장 도시락 비우생적임 아르바이트했는데 화장실가성 손도 않씯고 재료 담고 바닥 떨어...,혐오,"[공장, 도시락, 비우다, 생, 적임, 아르바이트, 화장실, 가성, 손, 않씯, 재..."
62515,62515,코딱지 만한 나라에서 지들끼리 피터지게 싸우는 센징 클래스 ㅉㅉㅉ,혐오,"[코딱지, 만, 나라, 지다, 들다, 끼리, 피터지다, 싸우다, 세다, 징, 클래스]"
62516,62516,와이프도 그렇고 댓글 다 볼텐데 이휘재 좀 하차 하라고 전해주세요,혐오,"[와이프, 그렇다, 댓글, 보다, 이휘재, 좀, 하차, 하라, 전, 해주다]"


In [22]:
total_comments_df.to_pickle("dataset/total_raw_token/0710 comments_with_okt-tokenized.pkl")

In [23]:
token_data = pd.read_pickle("dataset/total_raw_token/0710 comments_with_okt-tokenized.pkl")

In [24]:
token_data.head()

Unnamed: 0,id,Sentence,Emotion,comment_token
0,0,청소 네가 대신 해 줘,중립,"[청소, 네, 대신, 해, 주다]"
1,1,둘 다 청소 하기 싫어 귀찮아,중립,"[둘, 청소, 싫다, 귀찮다]"
2,2,둘 다 하기 싫어서 화내,분노,"[둘, 싫다, 화내]"
3,3,그럼 방세는 어떡해,슬픔,"[그렇다, 방, 세다, 어떻다, 해]"
4,4,권택인 줄 알았는데 그런 사람이 생겼나 보더라고,슬픔,"[권, 택인, 줄, 알다, 그렇다, 사람, 생기다, 보더]"


In [25]:
tokens = token_data['comment_token']
tokens[:5]

0                  [청소, 네, 대신, 해, 주다]
1                    [둘, 청소, 싫다, 귀찮다]
2                         [둘, 싫다, 화내]
3                [그렇다, 방, 세다, 어떻다, 해]
4    [권, 택인, 줄, 알다, 그렇다, 사람, 생기다, 보더]
Name: comment_token, dtype: object

# Word Embedding 

두 모델 학습해서 이후 결과 비교해볼 것 
 - tokenized_comments
     - word2vec
     - fastText
 - 자모 단위 분해 + fastText
 
**Reference**    
- [Finding best fasttext hyperparameters](http://soner.in/fasttext-grid-search/)
- [한국어 단어 임베딩을 위한 Word2vec 모델의 최적화](http://journal.dcs.or.kr/xml/19540/19540.pdf)
- [FastText, Word representation using subword](https://lovit.github.io/nlp/representation/2018/10/22/fasttext_subword/)

In [26]:
import codecs
from gensim.models import word2vec
from gensim.models import fasttext

## word2vec

In [27]:
import multiprocessing
config = {
    'min_count': 1,  # 등장 횟수가 1 이하인 단어는 무시
    'size': 300,  # 300차원짜리 벡터스페이스에 embedding
    'sg': 1,  # 0이면 CBOW, 1이면 skip-gram을 사용한다
    'batch_words': 10000,  # 사전을 구축할때 한번에 읽을 단어 수
    'iter': 20,  # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
    'workers': multiprocessing.cpu_count(),
    'window': 5,
    'seed': 25 #random number,
}

In [28]:
# 모델 학습
model_w2v = word2vec.Word2Vec(tokens,**config)

TypeError: __init__() got an unexpected keyword argument 'size'

In [29]:
#모델 저장
model_w2v.save(os.path.join("dataset/model/0710 w2v_model"))

NameError: name 'model_w2v' is not defined

In [26]:
# 모델 불러오기
w2v_model = word2vec.Word2Vec.load("dataset/model/0710 w2v_model")

### analogy test

In [16]:
w2v_model.wv.most_similar(positive = "중국")

[('짱깨', 0.7469527721405029),
 ('짱개', 0.7402806878089905),
 ('중공', 0.7356770038604736),
 ('짱꼴라', 0.6442628502845764),
 ('러시아', 0.6201988458633423),
 ('중국인', 0.6164897084236145),
 ('중궈', 0.5840282440185547),
 ('시진핑', 0.5833264589309692),
 ('일본', 0.560553789138794),
 ('미국', 0.5600796937942505)]

In [17]:
w2v_model.wv.most_similar(positive = "일본")

[('쪽바리', 0.637258768081665),
 ('일본도', 0.6027649641036987),
 ('롯게', 0.5917129516601562),
 ('좃선님', 0.5848301649093628),
 ('일본인', 0.5770894289016724),
 ('쪽발이', 0.5697472095489502),
 ('중국', 0.560553789138794),
 ('왜놈', 0.5594272613525391),
 ('넘듬', 0.5572184324264526),
 ('짓맓고', 0.5498552918434143)]

In [18]:
w2v_model.wv.most_similar(positive = "대통령")

[('대통', 0.7586009502410889),
 ('문재인', 0.6966331005096436),
 ('통령', 0.6032859086990356),
 ('영부인', 0.6013497710227966),
 ('총리', 0.5542508363723755),
 ('망녕났군', 0.5260519981384277),
 ('박성욱', 0.5248264670372009),
 ('김정숙', 0.5233049392700195),
 ('땔래야땔수없', 0.5201804041862488),
 ('부럽쥬', 0.5174517631530762)]

## fastText 모델 학습 및 불러오기

- 학습 데이터와 파라미터 동일하게 해서 이후에 word2vec과 결과 비교
- 자모 단위 모델 추가

In [12]:
print(tokens[0])
print(len(tokens))

['이국', '종', '교수', '외과', '야전', '사령관', '분', '업무', '차질', '없다', '물', '심양', '도', '주기', '분', '역활']
2393070


In [14]:
ft_config = {
    'min_count': 1,  # 등장 횟수가 1 이하인 단어는 무시
    'size': 300,  # 300차원짜리 벡터스페이스에 embedding
    'sg': 1,  # 0이면 CBOW, 1이면 skip-gram을 사용한다
    'batch_words': 10000,  # 사전을 구축할때 한번에 읽을 단어 수
    'iter': 100,  # 보통 딥러닝에서 말하는 epoch과 비슷한, 반복 횟수
    'workers': multiprocessing.cpu_count(),
    'window': 5,
    'seed': 25, #random number,
    'word_ngrams':1 # uses enriches word vectors with subword(n-grams) information. If 0, this is equivalent to Word2Vec.
}

In [15]:
# 모델 학습
fastText_model = fasttext.FastText(sentences=tokens, **ft_config)  

In [20]:
# 연관성 테스트
fastText_model.wv.most_similar("중국")

[('짱개', 0.7340356707572937),
 ('짱깨', 0.7271621227264404),
 ('중공', 0.7174848318099976),
 ('러시아', 0.6323301792144775),
 ('짱꼴라', 0.6283606290817261),
 ('중국인', 0.6042678356170654),
 ('중궈', 0.5787336826324463),
 ('시진핑', 0.575260579586029),
 ('일본', 0.5739111304283142),
 ('중국스립', 0.5734913349151611)]

In [16]:
# 모델 저장
fastText_model.save('dataset/embedding/fastText_0330.model')

In [48]:
# 모델 불러오기
fastText_model = fasttext.FastText.load('dataset/embedding/fastText_0330.model')

# fastText - 자모 임베딩 

<br> <b>Reference
- https://lovit.github.io/nlp/representation/2018/10/22/fasttext_subword/

In [15]:
# 자모 단위 학습
from soynlp.hangle import decompose
import re

doublespace_pattern = re.compile('\s+')

# 문장을 자모 단위로 분해
def jamo_sentence(sent):

    def transform(char):
        try:
            if char == ' ':
                return char
            cjj = decompose(char)
            if len(cjj) == 1:
                return cjj
            cjj_ = ''.join(c if c != ' ' else '-' for c in cjj)
            return cjj_
        
        except Exception as e: # 마침표, 물음표 반환
            #print("error char: {0}   error: {1}".format(char, e))
            return char

    sent_ = ''.join(transform(char) for char in sent)
    sent_ = doublespace_pattern.sub(' ', sent_)
    return sent_

test_comment = token_data["comment"][0]
print("test_comment: ", test_comment)
jamo_sentence(test_comment)

test_comment:  이국종교수는  외과 야전사령관 이다.  그분의 업무에 차질 없도록 물심양면 으로  도와 주기만 하면 그분의 역활을 다할것이다.


'ㅇㅣ-ㄱㅜㄱㅈㅗㅇㄱㅛ-ㅅㅜ-ㄴㅡㄴ ㅇㅚ-ㄱㅘ- ㅇㅑ-ㅈㅓㄴㅅㅏ-ㄹㅕㅇㄱㅘㄴ ㅇㅣ-ㄷㅏ-. ㄱㅡ-ㅂㅜㄴㅇㅢ- ㅇㅓㅂㅁㅜ-ㅇㅔ- ㅊㅏ-ㅈㅣㄹ ㅇㅓㅄㄷㅗ-ㄹㅗㄱ ㅁㅜㄹㅅㅣㅁㅇㅑㅇㅁㅕㄴ ㅇㅡ-ㄹㅗ- ㄷㅗ-ㅇㅘ- ㅈㅜ-ㄱㅣ-ㅁㅏㄴ ㅎㅏ-ㅁㅕㄴ ㄱㅡ-ㅂㅜㄴㅇㅢ- ㅇㅕㄱㅎㅘㄹㅇㅡㄹ ㄷㅏ-ㅎㅏㄹㄱㅓㅅㅇㅣ-ㄷㅏ-.'

In [16]:
token_data["comment_jamo"] = token_data["comment"].apply(jamo_sentence)
token_data.head(5)

Unnamed: 0,news_id,comment_id,comment,comment_token,comment_jamo
0,20171201145847479,F3C2DFCFE9E947B19C8A3053DD5C821B,이국종교수는 외과 야전사령관 이다. 그분의 업무에 차질 없도록 물심양면 으로 ...,"[이국, 종, 교수, 외과, 야전, 사령관, 분, 업무, 차질, 없다, 물, 심양,...",ㅇㅣ-ㄱㅜㄱㅈㅗㅇㄱㅛ-ㅅㅜ-ㄴㅡㄴ ㅇㅚ-ㄱㅘ- ㅇㅑ-ㅈㅓㄴㅅㅏ-ㄹㅕㅇㄱㅘㄴ ㅇㅣ-ㄷ...
1,20171201145847479,61A3B6AAD6124DFFB70EC4275496F8A6,"문재인 대통령님과 이국종 교수님, 그리고 귀순병사 모두 건강하시길 빕니다.","[문재인, 대통령, 이국, 종, 교수, 귀순, 병사, 모두, 건강하다, 비다]","ㅁㅜㄴㅈㅐ-ㅇㅣㄴ ㄷㅐ-ㅌㅗㅇㄹㅕㅇㄴㅣㅁㄱㅘ- ㅇㅣ-ㄱㅜㄱㅈㅗㅇ ㄱㅛ-ㅅㅜ-ㄴㅣㅁ,..."
2,20171201060244786,B6660EF2C7C14A2F903A08363641CF09,단 한번도 써보지 못했다ㆍ 포인트의 절반만이라도 통신비로 차감을!,"[단, 한번, 써다, 보지, 포인트, 절반, 통신비, 차감]",ㄷㅏㄴ ㅎㅏㄴㅂㅓㄴㄷㅗ- ㅆㅓ-ㅂㅗ-ㅈㅣ- ㅁㅗㅅㅎㅐㅆㄷㅏ-ㆍ ㅍㅗ-ㅇㅣㄴㅌㅡ-ㅇㅢ...
3,20171201060244786,C4F129BFB1FD4543A24A03D96F38351D,우리나라 통신업체들 참 쉽게 돈 벌어요,"[우리나라, 통신, 업체, 차다, 쉬다, 돈, 벌다]",ㅇㅜ-ㄹㅣ-ㄴㅏ-ㄹㅏ- ㅌㅗㅇㅅㅣㄴㅇㅓㅂㅊㅔ-ㄷㅡㄹ ㅊㅏㅁ ㅅㅟㅂㄱㅔ- ㄷㅗㄴ ㅂㅓ...
4,20171201060244786,1A21FDDF151E45DF808F0E5B662E8F3C,진짜 쓸데가너무적다.,"[진짜, 쓸다, 너무, 적다]",ㅈㅣㄴㅉㅏ- ㅆㅡㄹㄷㅔ-ㄱㅏ-ㄴㅓ-ㅁㅜ-ㅈㅓㄱㄷㅏ-.


In [17]:
jamo_data = token_data["comment_jamo"]
jamo_data[:5]

0    ㅇㅣ-ㄱㅜㄱㅈㅗㅇㄱㅛ-ㅅㅜ-ㄴㅡㄴ ㅇㅚ-ㄱㅘ- ㅇㅑ-ㅈㅓㄴㅅㅏ-ㄹㅕㅇㄱㅘㄴ ㅇㅣ-ㄷ...
1    ㅁㅜㄴㅈㅐ-ㅇㅣㄴ ㄷㅐ-ㅌㅗㅇㄹㅕㅇㄴㅣㅁㄱㅘ- ㅇㅣ-ㄱㅜㄱㅈㅗㅇ ㄱㅛ-ㅅㅜ-ㄴㅣㅁ,...
2    ㄷㅏㄴ ㅎㅏㄴㅂㅓㄴㄷㅗ- ㅆㅓ-ㅂㅗ-ㅈㅣ- ㅁㅗㅅㅎㅐㅆㄷㅏ-ㆍ ㅍㅗ-ㅇㅣㄴㅌㅡ-ㅇㅢ...
3    ㅇㅜ-ㄹㅣ-ㄴㅏ-ㄹㅏ- ㅌㅗㅇㅅㅣㄴㅇㅓㅂㅊㅔ-ㄷㅡㄹ ㅊㅏㅁ ㅅㅟㅂㄱㅔ- ㄷㅗㄴ ㅂㅓ...
4                        ㅈㅣㄴㅉㅏ- ㅆㅡㄹㄷㅔ-ㄱㅏ-ㄴㅓ-ㅁㅜ-ㅈㅓㄱㄷㅏ-.
Name: comment_jamo, dtype: object

In [19]:
# 모델 학습
fastText_model = fasttext.FastText(sentences=jamo_data, **ft_config)  

In [23]:
# 연관성 테스트
fastText_model.wv.most_similar(jamo_sentence("중국"))

[('*', 0.17194263637065887),
 ('o', 0.1222517192363739),
 ('◀', 0.1213143840432167),
 ('l', 0.09772109240293503),
 ('】', 0.09191815555095673),
 ('H', 0.08432599157094955),
 ('秦', 0.08144447952508926),
 ('♨', 0.08074280619621277),
 ('a', 0.080184206366539),
 ('§', 0.07871407270431519)]

In [24]:
# 모델 저장
fastText_model.save(token_data_PATH + "fastText_jamo.model")

In [None]:
model = fasttext.train_unsupervised("train.txt", model='skipgram', lr=0.05, dim=100, ws=5, epoch=5)
model.save_model("model_file.bin")

In [49]:
jamo_data

0          ㅇㅣ-ㄱㅜㄱㅈㅗㅇㄱㅛ-ㅅㅜ-ㄴㅡㄴ ㅇㅚ-ㄱㅘ- ㅇㅑ-ㅈㅓㄴㅅㅏ-ㄹㅕㅇㄱㅘㄴ ㅇㅣ-ㄷ...
1          ㅁㅜㄴㅈㅐ-ㅇㅣㄴ ㄷㅐ-ㅌㅗㅇㄹㅕㅇㄴㅣㅁㄱㅘ- ㅇㅣ-ㄱㅜㄱㅈㅗㅇ ㄱㅛ-ㅅㅜ-ㄴㅣㅁ,...
2          ㄷㅏㄴ ㅎㅏㄴㅂㅓㄴㄷㅗ- ㅆㅓ-ㅂㅗ-ㅈㅣ- ㅁㅗㅅㅎㅐㅆㄷㅏ-ㆍ ㅍㅗ-ㅇㅣㄴㅌㅡ-ㅇㅢ...
3          ㅇㅜ-ㄹㅣ-ㄴㅏ-ㄹㅏ- ㅌㅗㅇㅅㅣㄴㅇㅓㅂㅊㅔ-ㄷㅡㄹ ㅊㅏㅁ ㅅㅟㅂㄱㅔ- ㄷㅗㄴ ㅂㅓ...
4                              ㅈㅣㄴㅉㅏ- ㅆㅡㄹㄷㅔ-ㄱㅏ-ㄴㅓ-ㅁㅜ-ㅈㅓㄱㄷㅏ-.
                                 ...                        
2393065    ㅇㅣㄴㅊㅓㄴㅇㅔ- ㅈㅏ-ㅇㅠ- ㅁㅝ-ㅅㅣ-ㄱㅣ- ㅅㅗ-ㅅㅗㄱ ㄱㅜ-ㅊㅓㅇㅈㅏㅇㅇㅣ-...
2393066          ㅁㅐㅇㅂㅏ-ㄱㅣ-ㄷㅏㄻㅇㅡㄴㄱㅓㅅㅂㅗ-ㄴㅣ- ㅈㅏ-ㅇㅠ-ㄷㅏㅇㅇㅣㄹㄷㅡㅅ...
2393067    ㅁㅓㅇㅂㅏㄱㄱㅡ-ㄴㅔ- ㅈㅓㅇㄱㅝㄴ ㅆㅏ- ㄸㅗㅇㅊㅣ-ㅇㅜ-ㄴㅡㄴ ㅁㅜㄴㅈㅓㅇㅂㅜ-...
2393068    ㅇㅣ-ㅈㅔ- ㅁㅕㅇㅂㅏㄱㅇㅣ-ㅈㅗㅁ ㅇㅣㅈㅇㅡㄹㄸㅐ-ㄷㅗ- ㅇㅏㄴㄷㅙㅆㄴㅏ- ㄱㅡ-...
2393069    Cㄱㅜ-ㅊㅓㅇㅈㅏㅇㅇㅡㄹ ㄷㅏㅇㅈㅏㅇ ㄱㅜ-ㅅㅗㄱ ㅅㅜ-ㅅㅏ-ㅎㅏ-ㅁㅕㄴ ㄷㅚㄹㄷㅡ...
Name: comment_jamo, Length: 2393070, dtype: object

In [48]:
# utf-8 인코딩 기반의 텍스트 파일로 저장
jamo_data.to_csv('D:\\WorkSpace\\뉴스 데이터\\200401_embedding_data\\jamo_data.txt', 
                 index=False, header=None, sep="\n", encoding = 'utf-8')

  This is separate from the ipykernel package so we can avoid doing imports until


In [58]:
f = open('D:\\WorkSpace\\뉴스 데이터\\200401_embedding_data\\jamo_data.txt', 'w', encoding = 'utf-8')

for i in token_data["comment_jamo"]:
    f.write(i)
    f.write('\n')

f.close()