<h1>word2vec with naver movie comments</h1>

#### word2vec을 쉽게 구현할 수 있는 라이브러리 gensim

In [2]:
import numpy as np
import pandas as pd
import gensim

### 네이버 영화 리뷰 데이터 불러오기

In [3]:
train = pd.read_csv('ratings_train.txt', delimiter='\t')
test = pd.read_csv('ratings_test.txt', delimiter='\t')

### 이전에 전처리하였던 데이터(Numpy array)를 불러와 재사용 합니다.

미리 전처리된 데이터를 numpy array형태로 저장하면 그대로 불러와 사용하면 되므로 편리합니다.

In [4]:
train_segs = np.load('train_segs.npy')
train_sents = np.load('train_sents.npy')

In [5]:
train_segs

array([['아', '더빙', '..', '진짜', '짜증', '나네', '요', '목소리'],
       ['흠', '...', '포스터', '보고', '초딩', '영화', '줄', '....', '오버', '연기', '조차', '가볍', '지', '않구', '나'],
       ['너무', '재', '밓었', '다', '그래서', '보는', '것', '을', '추천한', '다'], ...,
       ['이', '게', '뭐', '요', '?', '한국인', '은', '거들', '먹거리', '고', '필리핀', '혼혈', '은', '착하다', '?'],
       ['청춘', '영화', '의', '최고봉', '.', '방황', '과', '우울했', '던', '날', '들', '의', '자화상'],
       ['한국', '영화', '최초', '로', '수간', '하는', '내용', '이', '담긴', '영화']], dtype=object)

### Gensim을 사용하여 Word2vec 모델을 생성합니다.

In [6]:
model = gensim.models.Word2Vec(min_count=2, window=5, size=300)

In [7]:
model.build_vocab(train_segs)

In [8]:
model.train(train_segs, total_examples=model.corpus_count, epochs=model.epochs)

AttributeError: 'Word2Vec' object has no attribute 'epochs'

In [9]:
word_vectors = model.wv

In [10]:
len(word_vectors.vocab)

34371

In [12]:
word_vectors.most_similar(positive=['광해', '황정민'], negative=['이병헌'])

[('날조', 0.24256309866905212),
 ('푹푹', 0.23636221885681152),
 ('상회', 0.22630561888217926),
 ('우린', 0.2156609445810318),
 ('가필드', 0.2124473601579666),
 ('흐뭇하고', 0.20888115465641022),
 ('바늘', 0.206259086728096),
 ('일렁이', 0.20411193370819092),
 ('진입', 0.20212914049625397),
 ('닠', 0.19976484775543213)]

### Word2vec 모델을 바이너리 파일로 저장합니다.

바이너리 파일로 저장하면 나중에 워드 임베딩이 필요하면 로드하여 사용할 수 있습니다.

In [13]:
model.save('./vectors.bin')

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(ngram_range=(1,1), min_df=2).fit(train_sents.astype('U'))

In [15]:
print(len(vect.vocabulary_))

31455


In [16]:
vect.inverse_vocabulary_ = {vect.vocabulary_[k] : k for k in vect.vocabulary_}

In [17]:
vect.vocabulary_.keys()
#{'더빙': 16437,
#'진짜': 59534,
#'짜증나네요': 59954,
#'목소리': 23329,
#'포스터보고': 65489, ...}

dict_keys(['더빙', '진짜', '짜증', '나네', '목소리', '포스터', '보고', '초딩', '영화', '오버', '연기', '조차', '가볍', '않구', '너무', '그래서', '보는', '추천한', '교도소', '이야기', '구먼', '솔직히', '재미', '없다', '평점', '조정', '익살', '스런', '돋보였', '스파이더맨', '에서', '늙어', '보이', '기만', '스틴', '던스트', '너무나', '이뻐', '보였', '걸음', '부터', '초등학교', '학년', '생인', 'ㅋㅋㅋ', '별반', '아까', '원작', '긴장감', '제대로', '살려', '반개', '아깝', '나온', '이응경', '길용우', '생활', '인지', '정말', '해도', '그것', '보단', '납치', '감금', '반복', '드라마', '가족', '하는', '사람', '액션', '없는', '데도', '있는', '안되는', '왜케', '낮은', '건데', '헐리우드', '화려함', '에만', '들여', '인피니트', '이다', '볼때', '마다', '눈물', '나서', '죽겠', '90', '년대', '향수', '자극', '허진호', '감성', '절제', '멜로', '달인', '울면', '이범수', '드럽게못', '하고', '깔끔해서', '신문', '기사', '로만', '보다', '보면', '자꾸', '잊어버린', '이었', '다는', '취향', '지만', '내생', '극장', '가장', '노잼', '감동', '스토리', '어거지', '매번', '긴장되', '재밋음', 'ㅠㅠ', '웃긴', '바스코', '이기', '락스', '라고', '까고', '바비', '아이돌', '이라고', '그냥', '어서', '안달', '처럼', '보인', '굿바이', '레닌', '표절', '이해하는', '갈수록', '이건', '깨알', '캐스팅', '질퍽', '하지', '않은', '뜻한', '용구성', '버무러진', '일드', '약탈', '위한', '변명', '이라