In [1]:
corpus_fname = '../../../data/corpus_10days/news/2016-10-24_article_all_normed.txt'
word2vec_fname = '../../../data/corpus_10days/models/2016-10-24_news_word2vec_model.pkl'

TRAIN_WORD2VEC = True

import sys
sys.path.append('../mypy/')

from corpus import Corpus
corpus = Corpus(corpus_fname, iter_sent=True)
len(corpus)

213087

In [2]:
import os
    
class Word2VecCorpus:
    
    def __init__(self, fname):
        self.fname = fname
        if not os.path.isfile(fname):
            print('File not found: %s' % fname)
        
    def __iter__(self):
        with open(self.fname, encoding='utf-8') as f:
            for doc in f:
                for sent in doc.strip().split('  '):
                    sent = sent.strip()
                    if not sent:
                        continue
                    yield sent.split()
                
                
word2vec_corpus = Word2VecCorpus(corpus_fname)

for num_sent, sent in enumerate(word2vec_corpus):
    if num_sent > 5: break
    print(sent)

['의원', '60명', '내무장관에게', '서한', '철거', '때', '어린이', '안전', '신경', '써야']
['보호자', '없는', '아동', '난민', '70명은', '영국에', '도착']
['22일', '경찰에', '돌', '던지는', '칼레', '난민', '연합뉴스']
['파리', '런던', '연합뉴스', '박성진', '황정우', '특파원', '프랑스', '칼레', '난민촌', '철거를', '이틀', '앞둔', '22일', '현지시간', '난민촌', '주변에서', '현지', '경찰과', '난민이', '충돌했다고', '현지', '프랑스앵포가', '보도했다']
['난민촌', '철거에', '반대하는', '난민', '50명가량은', '경찰을', '향해', '유리병과', '돌을', '던졌으며', '경찰은', '연막탄을', '쏘면서', '이들을', '해산했다']
['이', '과정에서', '별다른', '부상자는', '나오지', '않았다']


In [3]:
from gensim.models import Word2Vec
import pickle

if TRAIN_WORD2VEC:
    word2vec_model = Word2Vec(word2vec_corpus, min_count=30)
    with open(word2vec_fname, 'wb') as f:
        pickle.dump(word2vec_model, f)
        
else:
    with open(word2vec_fname, 'rb') as f:
        word2vec_model = pickle.load(f)

In [4]:
len(word2vec_model.syn0)

18329

In [5]:
test_words = ['김무성', 
              '박근혜', 
              '문재인', 
              '국방부', 
              '정부', 
              '국정원', 
              '대통령', 
              '축구', 
              '외교', 
              '정책', 
              '군대', 
              '미국', 
              '일본', 
              '중국'
             ]

In [6]:
for word in test_words:
    if (word in word2vec_model.vocab) == False:
        continue
        
    print('\n\nSeed word = %s' % word)
    print(word2vec_model.vocab[word])
    for similar_word, sim in word2vec_model.most_similar(word):
        print('%s - %s (%d) (%.3f)' % (word, 
                                       similar_word, 
                                       word2vec_model.vocab[similar_word].count, 
                                       sim))



Seed word = 김무성
Vocab(count:332, index:1411, sample_int:4294967296)
김무성 - 김종인 (165) (0.946)
김무성 - 안철수 (345) (0.933)
김무성 - 오세훈 (72) (0.913)
김무성 - 유승민 (160) (0.891)
김무성 - 손학규 (270) (0.874)
김무성 - 최경환 (43) (0.866)
김무성 - 천정배 (36) (0.854)
김무성 - 대표도 (106) (0.852)
김무성 - 강석호 (43) (0.852)
김무성 - 김부겸 (100) (0.832)


Seed word = 박근혜
Vocab(count:4420, index:62, sample_int:4294967296)
박근혜 - 이승만 (36) (0.746)
박근혜 - 박 (6251) (0.743)
박근혜 - 박정희 (216) (0.738)
박근혜 - 마두로 (46) (0.707)
박근혜 - 두테르테 (218) (0.692)
박근혜 - 여당을 (30) (0.685)
박근혜 - 국정과 (37) (0.682)
박근혜 - 뒤늦은 (30) (0.675)
박근혜 - 나서달라고 (59) (0.665)
박근혜 - 오바마 (209) (0.657)


Seed word = 문재인
Vocab(count:940, index:392, sample_int:4294967296)
문재인 - 문 (932) (0.885)
문재인 - 손학규 (270) (0.870)
문재인 - 안철수 (345) (0.864)
문재인 - 비서실장이 (97) (0.864)
문재인 - 김종인 (165) (0.858)
문재인 - 김무성 (332) (0.816)
문재인 - 더민주 (67) (0.804)
문재인 - 장관의 (162) (0.800)
문재인 - 발언권을 (42) (0.795)
문재인 - 송민순 (663) (0.790)


Seed word = 국방부
Vocab(count:247, index:2003, sample_int:4294967296)
국방부 - 외교부 (3