<h1>word2vec with naver movie comments</h1>

#### word2vec을 쉽게 구현할 수 있는 라이브러리 gensim

In [2]:
import numpy as np
import pandas as pd
import gensim

### 네이버 영화 리뷰 데이터 불러오기

In [3]:
train = pd.read_csv('ratings_train.txt', delimiter='\t')
test = pd.read_csv('ratings_test.txt', delimiter='\t')

### 이전에 전처리하였던 데이터(Numpy array)를 불러와 재사용 합니다.

미리 전처리된 데이터를 numpy array형태로 저장하면 그대로 불러와 사용하면 되므로 편리합니다.

In [4]:
train_segs = np.load('train_segs.npy')
train_sents = np.load('train_sents.npy')

In [5]:
train_segs

array([['아', '더빙', '..', '진짜', '짜증', '나네', '요', '목소리'],
       ['흠', '...', '포스터', '보고', '초딩', '영화', '줄', '....', '오버', '연기', '조차', '가볍', '지', '않구', '나'],
       ['너무', '재', '밓었', '다', '그래서', '보는', '것', '을', '추천한', '다'], ...,
       ['이', '게', '뭐', '요', '?', '한국인', '은', '거들', '먹거리', '고', '필리핀', '혼혈', '은', '착하다', '?'],
       ['청춘', '영화', '의', '최고봉', '.', '방황', '과', '우울했', '던', '날', '들', '의', '자화상'],
       ['한국', '영화', '최초', '로', '수간', '하는', '내용', '이', '담긴', '영화']], dtype=object)

### Gensim을 사용하여 Word2vec 모델을 생성합니다.

In [6]:
model = gensim.models.Word2Vec(min_count=2, window=5, size=300)

In [7]:
model.build_vocab(train_segs)

In [8]:
model.train(train_segs, total_examples=model.corpus_count, epochs=model.epochs)

AttributeError: 'Word2Vec' object has no attribute 'epochs'

In [9]:
word_vectors = model.wv

In [10]:
len(word_vectors.vocab)

34371

In [11]:
word_vectors.most_similar(positive=['광해', '황정민'], negative=['이병헌'])

[('anyway', 0.2316921055316925),
 ('로군', 0.22533629834651947),
 ('오니', 0.21245193481445312),
 ('졸음', 0.21179379522800446),
 ('공남', 0.20796242356300354),
 ('몸소', 0.206322580575943),
 ('전쟁', 0.20226560533046722),
 ('치우게', 0.198944091796875),
 ('노랜', 0.19684366881847382),
 ('좋아하긴', 0.19495026767253876)]

### Word2vec 모델을 바이너리 파일로 저장합니다.

바이너리 파일로 저장하면 나중에 워드 임베딩이 필요하면 로드하여 사용할 수 있습니다.

In [12]:
model.save('./vectors.bin')

In [13]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(ngram_range=(1,1), min_df=2).fit(train_sents.astype('U'))

In [14]:
print(len(vect.vocabulary_))

31455


In [15]:
vect.inverse_vocabulary_ = {vect.vocabulary_[k] : k for k in vect.vocabulary_}

In [None]:
vect.vocabulary_.keys()
#{'더빙': 16437,
#'진짜': 59534,
#'짜증나네요': 59954,
#'목소리': 23329,
#'포스터보고': 65489, ...}