# word2vec
- word2vec은 CBOW(Continuous Bag of Words Model) 방식과 Skip-Gram 방식의 단어 임베딩을 구현한 C++ 라이브러리로 구글에 있던 Mikolov 등이 개발하였다. 
- 이 라이브러리는 기본적인 임베딩 모형에 subsampling, negative sampling 등의 기법을 추가하여 학습 속도를 향상하였다. 
- 파이썬에서는 gensim이라는 패키지에 Word2Vec이라는 클래스로 구현되어 있다.

In [1]:
from nltk.corpus import movie_reviews
sentences = [list(s) for s in movie_reviews.sents()]

In [2]:
sentences[0]

['plot',
 ':',
 'two',
 'teen',
 'couples',
 'go',
 'to',
 'a',
 'church',
 'party',
 ',',
 'drink',
 'and',
 'then',
 'drive',
 '.']

In [3]:
from gensim.models.word2vec import Word2Vec

##### 객체 생성시 트레이닝이 이루어진다.

In [4]:
%%time
model = Word2Vec(sentences)

CPU times: user 9.24 s, sys: 51.3 ms, total: 9.29 s
Wall time: 3.48 s


##### init_sims로 필요없는 메모리를 unload

In [5]:
model.init_sims(replace=True)

- similarity : 두 단어의 유사도 계산
- most_similar : 가장 유사한 단어를 출력

In [6]:
model.wv.similarity('actor', 'actress')

0.86134356

In [7]:
model.wv.similarity('he', 'she')

0.86160779

In [8]:
model.wv.similarity('actor', 'she')

0.25391117

In [9]:
model.wv.most_similar("accident")

[('abandoned', 0.8449356555938721),
 ('prison', 0.8432163596153259),
 ('automobile', 0.838294267654419),
 ('investigation', 0.8368472456932068),
 ('bus', 0.8346542119979858),
 ('egyptian', 0.8329607844352722),
 ('building', 0.8294987082481384),
 ('radio', 0.8276939392089844),
 ('egg', 0.8261005878448486),
 ('pod', 0.8258255124092102)]

##### most_simlar 메서드는 positive, negative parameter를 사용하여 단어관계를 찾을 수 있다.
- she + (actor - actress) = he

In [10]:
model.wv.most_similar(positive=['she', 'actor'], negative='actress', topn=1)

[('he', 0.3012123107910156)]