# word2vec
word2vec은 CBOW 방식과 Skip-Gram 방식의 단어 임베딩을 구현한 C++ 라이브러리로 구글에 있던 Mikolov 등이 개발하였다.

파이썬에서는 gensim이라는 패키지에 Word2Vec이라는 클래스로 구현되어 있다. nltk의 영화 감상 corpus를 기반으로 Word2Vec 사용법을 살펴보자.

우선 단어 임베딩을 위한 코퍼스를 만든다. 코퍼스는 리스트의 리스트 형태로 구현되어야 한다. 내부 리스트는 하나의 문장을 이루는 단어 열이 된다.

In [1]:
from nltk.corpus import movie_reviews
sentences = [list(s) for s in movie_reviews.sents()]

In [2]:
sentences[0]

['plot',
 ':',
 'two',
 'teen',
 'couples',
 'go',
 'to',
 'a',
 'church',
 'party',
 ',',
 'drink',
 'and',
 'then',
 'drive',
 '.']

다음으로 이 코퍼스를 입력 인수로 하여 Word2Vec 클래스 객체를 생성한다. 이 시점에 트레이닝이 이루어진다

In [3]:
from gensim.models.word2vec import Word2Vec

In [4]:
%%time
model = Word2Vec(sentences)

Wall time: 7.56 s


트레이닝이 완료되면 **init_sims** 명령으로 필요없는 메모리를 unload 시킨다.

In [5]:
model.init_sims(replace=True)

이제 이 모형에서 다음과 같은 메서드를 사용할 수 있다. 보다 자세한 내용은 https://radimrehurek.com/gensim/models/word2vec.html 를 참조한다.
- **similarity** : 두 단어의 유사도 계산
- **most_similar** : 가장 유사한 단어를 출력

In [6]:
model.wv.similarity('actor', 'actress')

0.8691877

In [7]:
model.wv.similarity('he', 'she')

0.85146785

In [8]:
model.wv.similarity('actor', 'she')

0.24426974

In [9]:
model.wv.most_similar("villain")

[('doctor', 0.7985703945159912),
 ('impression', 0.7931516766548157),
 ('actor', 0.773223340511322),
 ('killer', 0.7708385586738586),
 ('actress', 0.7647693753242493),
 ('rainmaker', 0.7644691467285156),
 ('casting', 0.7632173299789429),
 ('personality', 0.7625548839569092),
 ('beaumarchais', 0.7599779367446899),
 ('heroine', 0.7532927393913269)]

**most_similar** 메서드는 **positive** 인수와 **negative** 인수를 사용하여 다음과 같은 단어간 관계도 찾을 수 있다.
> **he + (actress - actor) = she**

In [10]:
model.wv.most_similar(positive=['actor', 'she'], negative='actress', topn=1)

[('he', 0.3181202709674835)]