# Word2Vec

Word2Vec model에 대해서 잘 모르시는 분들을 위해 만들어 보았습니다.

논문: https://arxiv.org/pdf/1301.3781.pdf


word2vec은 다음과 같은 2가지 모델이 있습니다.

1. CBOW(Continuous Bag of Words)
2. Skip-gram

아직까지도 많이 사용되는 word2vec 은 인상 깊게도 아주 얕은 신경망입니다.

### Prerequisite

gensim 모듈은 쉽게 word embedding을 제공해주는 라이브러리 입니다.

NLP 분야에서의 scikit-learn 정도로 생각하시면 되겠습니다.

<code>pip install gensim</code>

<code>pip install wget</code>

### Dataset

사용할 데이터셋은 text8 데이터셋입니다.

text8 데이터셋은 위키피디아 데이터셋인 enwik9 의 test 셋을 이용하여 만든 아주 작은 데이터셋 입니다. 

아주 작은 데이터셋이라 하지만 17,005,207 단어를 담고 있어서 간단한 테스트를 하기 좋은 데이터셋이죠.

In [1]:
# IMPORT modules
import wget
import numpy as np
import zipfile

In [4]:
# text8 데이터셋을 다운받고
wget.download('http://mattmahoney.net/dc/text8.zip')

# 압축풀기를 진행합니다.
text8_zip = zipfile.ZipFile('text8.zip')
text8_zip.extractall()
text8_zip.close()

우선 간단한 예제를 통해 skig-gram과 CBOW를 보고 난 후 text8 데이터를 학습시키겠습니다.

### Skip gram

Skip gram 모델은 현재 단어를 가지고 주변의 단어를 예측합니다.

예를 들어,

<code>내가 그의 이름을 불러주었을 때, 그는 내게로 와 꽃이 되었다.</code>

라는 문장이 있다면 이런 식으로 분해할 수가 있습니다.

```
(그의, [내가, 이름을])
(이름을, [그의, 불러주었을])
(내게로, [그는, 와])
...

```

위의 예시는 (단어, context(문맥)) 형태의 조합입니다.

window_size 는 여기서 1 입니다. context는 좌우 단어 1개 씩 만 보는 것이죠.

만약 window_size가 2라면 

```
(이름을, [내가, 그의, 불러주었을, 때]) 
...
```
식으로 결과가 나오게 됩니다.

.

스킵 그램 모델은 중간 단어가 입력이 되어지면 주변의 단어를 출력하는 모델입니다.

학습을 위해서 분해된 데이터를 다음과 같이 변환시킬 수 있겠죠.


```
(그의, 내가)
(그의, 이름을)
(이름을, 그의)
(이름을, 불러주었을)
(내게로, 그는)
(내게로, 와)
...
```

이 모델을 학습시키기 위해서는 negative 데이터도 필요합니다.

아래와 같이 전혀 다른 조합들을 만들어 내서 1:1 만큼의 데이터를 만들어 내고 학습을 시켜야 합니다.

```
(그의, 꽃이)
(이름을, 내게로)
(내게로, 불러주었을)
...
```

케라스의 [**Embedding layer**](https://keras.io/layers/embeddings/)는 int형 argument들을 vector화 시키는 layer 입니다.

예를 들어
```
[[4], [20]]
```
이 입력되었다면 다음과 같이 output을 반환시켜 줄 수 있습니다.
```
[[0.25, 0.1], [0.6, -0.2]]
```

4 라는 수가 \[0.25, 0.1\] 이라는 벡터로 변한 것이죠.

가장 단순히 위에서 정의했던 한글 문장을 학습시켜 볼까요?

[**tokenizer**](https://keras.io/preprocessing/text/#tokenizer)를 이용하면 간편히 문장을 preprocessing 할 수 있습니다.

In [2]:
from keras.preprocessing.text import Tokenizer, text_to_word_sequence
from keras.preprocessing.sequence import skipgrams

txt = "내가 그의 이름을 불러주었을 때, 그는 내게로 와 꽃이 되었다."

# tokenizer는 고유한 단어를 정수ID로 매핑해 줍니다.
tokenizer = Tokenizer()
tokenizer.fit_on_texts([txt])

word2id = tokenizer.word_index
id2word = {v:k for k, v in word2id.items()}
print('word2id: \n', word2id, '\n')
print('id2word: \n', id2word, '\n')

# txt를 word 리스트로 바꾼 후 각각에 해당하는 단어들을 word2id dictionary 의 인덱스로 넣습니다.
wids = [word2id[w] for w in text_to_word_sequence(txt)]
print('wids: \n', wids, '\n')

# 이 부분이 참 편합니다. skipgrams 함수는 자동으로 데이터를 sampling 해 줍니다.
pairs, labels = skipgrams(wids, len(word2id), 
                          window_size=1, 
                          negative_samples=1., 
                          shuffle=True,
                          categorical=False, 
                          sampling_table=None)

print('----------After skipgrams()----------\n')
print('pairs: \n', pairs, '\n')
print('labels: \n', labels)

# 학습을 위해 데이터를 numpy로 바꾸어 줍니다.
pairs = np.array(pairs)
labels = np.array(labels)

transposed = pairs.T
X1 = transposed[0]
X2 = transposed[1]

Using TensorFlow backend.


word2id: 
 {'불러주었을': 4, '꽃이': 9, '내게로': 7, '이름을': 3, '되었다': 10, '그의': 2, '때': 5, '내가': 1, '와': 8, '그는': 6} 

id2word: 
 {1: '내가', 2: '그의', 3: '이름을', 4: '불러주었을', 5: '때', 6: '그는', 7: '내게로', 8: '와', 9: '꽃이', 10: '되었다'} 

wids: 
 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

----------After skipgrams()----------

pairs: 
 [[2, 3], [3, 2], [7, 1], [2, 7], [8, 7], [6, 7], [2, 1], [7, 6], [8, 9], [8, 6], [7, 1], [10, 8], [1, 1], [9, 7], [1, 2], [6, 6], [9, 1], [5, 6], [2, 3], [4, 8], [3, 2], [8, 7], [5, 3], [3, 8], [4, 3], [5, 4], [6, 5], [3, 4], [4, 5], [10, 9], [9, 8], [4, 1], [6, 7], [9, 10], [5, 6], [7, 8]] 

labels: 
 [1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1]


pairs는 보이는 대로 두 수의 조합이고 labels 는 sample이 positive라면 1, negative라면 0을 갖는 리스트 입니다.

negative sample 을 뽑을 때 skipgrams 함수가 완전히 랜덤으로 뽑기 때문에 positive 한 pair가 label 0 이 달리기도 합니다.

In [3]:
from keras.layers.merge import Dot
from keras.layers.core import Dense, Reshape, Flatten
from keras.layers import Input
from keras.layers.embeddings import Embedding
from keras.models import Sequential, Model
import keras.backend as K

w_size = 10000     # 갖고 있는 단어의 종류를 10000개,
embed_size = 500   # 출력 벡터의 크기를 500으로 둡니다.

# word model
model_w = Sequential()
model_w.add(Embedding(w_size, embed_size, embeddings_initializer='glorot_uniform', input_length=1))
model_w.add(Flatten())
    
# context model
model_c = Sequential()
model_c.add(Embedding(w_size, embed_size, embeddings_initializer='glorot_uniform', input_length=1))
model_c.add(Flatten())

# 전체 모델 작성
# word model과 context model의 output들을 내적시키며 합칩니다.
input_w = Input(shape=(None,))
input_c = Input(shape=(None,))

output_w = model_w(input_w)
output_c = model_c(input_c)

x = Dot(axes=1)([output_w, output_c])

x = Dense(1, activation='sigmoid')(x)

model = Model([input_w, input_c], x)

model.compile(loss='mse', optimizer='adam')

model.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, None)         0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            (None, None)         0                                            
__________________________________________________________________________________________________
sequential_1 (Sequential)       (None, 500)          5000000     input_1[0][0]                    
__________________________________________________________________________________________________
sequential_2 (Sequential)       (None, 500)          5000000     input_2[0][0]                    
__________________________________________________________________________________________________
dot_1 (Dot

In [4]:
# 학습시킵니다.
model.fit([X1, X2], labels,
          epochs=100, 
          verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x7fa9165b2278>

실제로 사용하는 부분은 model_w의 embedding layer 입니다.

임베딩하는 방식이 중요한 것이지요.

model_w 에 벡터화 시키고 싶은 수를 넣으면 결과가 나올 것입니다.

In [5]:
print(model_w.predict(np.array([8])))

[[ 0.0743627  -0.03843859 -0.01977107 -0.04395692 -0.03147187 -0.07424004
   0.01381021 -0.02287102 -0.08419351  0.02789069 -0.05809529 -0.09313765
   0.03501471  0.06392162 -0.06250969  0.03329175  0.08057152 -0.05717527
  -0.01263071  0.04328177 -0.0731423  -0.04852783  0.0962188  -0.1013721
  -0.08040303  0.12037461  0.00769393 -0.02000787 -0.06813817 -0.08545297
  -0.0185378   0.01688842 -0.02047679 -0.05962992 -0.04247573  0.04836977
   0.1039657  -0.03758182  0.09900548  0.04903841 -0.01611881  0.09051777
   0.0248059  -0.06109172 -0.08599535  0.06141053 -0.06520886 -0.12550041
  -0.1029128  -0.00272258 -0.10655595 -0.00536699  0.03118335  0.01080526
  -0.05436905  0.08979445  0.08450153 -0.06823603 -0.01001124  0.08720243
  -0.05166619 -0.04097356  0.10202493 -0.02589416 -0.02685894 -0.00446152
  -0.01319941  0.06244966  0.04766689 -0.06107156  0.09596038 -0.00432958
  -0.02389773 -0.03806435 -0.10272231  0.08900584 -0.12174722 -0.05168158
  -0.08427301 -0.05004458  0.11858637  

### CBOW

CBOW는 Skip gram 방식의 반대입니다. context(문맥)를 넣으면 그것과 연관되는 단어 하나를 output으로 내놓습니다.

관심 가져야 하는 부분은 Embedding layer 입니다.

lambda layer는 embedding layer를 거쳐 나온 단어 벡터들의 평균치를 구합니다.

In [6]:
from keras.layers import Lambda

w_size = 10000
embed_size = 500
window_size = 1

model = Sequential()
model.add(Embedding(w_size, embed_size, embeddings_initializer='glorot_uniform', input_length=window_size * 2))
model.add(Lambda(lambda x: K.mean(x, axis=1), output_shape=(embed_size,)))
model.add(Dense(w_size, kernel_initializer='glorot_uniform', activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam')

당연히 학습 시 데이터 1:1 균형도 맞추어 주고 학습 시켜야 겠지요?

데이터 처리 및 학습과정은 생략하겠습니다.

# Gensim 을 이용한 skipgrams 학습 - text8 dataset

gensim은 아주 유용한 라이브러리 입니다.

주로 topic modeling 과 word embeding 에 많이 사용됩니다.

In [24]:
from gensim.models.word2vec import Word2Vec
import os
import logging

# text8 데이터를 만들어주는 iterator 입니다.
class Text8iter:
    def __init__(self, size):
        self.size = size
        ftext = open('text8', 'r')
        self.text = ftext.read().split(" ")
        
    def __iter__(self):
        words = []
        for word in self.text:
            words.append(word)
            if len(words) == self.size:
                yield words
                words.clear()
        yield words
    
# 진행상황을 보여주기 위해 logging을 활성화 시킵니다.
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# gensim 모듈 호출
model = Word2Vec(Text8iter(50), window=10, size=300, min_count=5)

2018-01-17 20:07:57,625 : INFO : collecting all words and their counts
2018-01-17 20:07:57,626 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2018-01-17 20:07:57,827 : INFO : PROGRESS: at sentence #10000, processed 500000 words, keeping 33464 word types
2018-01-17 20:07:58,024 : INFO : PROGRESS: at sentence #20000, processed 1000000 words, keeping 52755 word types
2018-01-17 20:07:58,211 : INFO : PROGRESS: at sentence #30000, processed 1500000 words, keeping 65589 word types
2018-01-17 20:07:58,399 : INFO : PROGRESS: at sentence #40000, processed 2000000 words, keeping 78383 word types
2018-01-17 20:07:58,586 : INFO : PROGRESS: at sentence #50000, processed 2500000 words, keeping 88008 word types
2018-01-17 20:07:58,775 : INFO : PROGRESS: at sentence #60000, processed 3000000 words, keeping 96645 word types
2018-01-17 20:07:58,958 : INFO : PROGRESS: at sentence #70000, processed 3500000 words, keeping 104309 word types
2018-01-17 20:07:59,145 : INFO : PROGRE

2018-01-17 20:08:39,648 : INFO : PROGRESS: at 32.63% examples, 630619 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:40,663 : INFO : PROGRESS: at 33.66% examples, 630822 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:41,671 : INFO : PROGRESS: at 34.68% examples, 631133 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:42,694 : INFO : PROGRESS: at 35.75% examples, 630784 words/s, in_qsize 6, out_qsize 1
2018-01-17 20:08:43,702 : INFO : PROGRESS: at 36.79% examples, 631460 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:44,707 : INFO : PROGRESS: at 37.84% examples, 631863 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:45,722 : INFO : PROGRESS: at 38.86% examples, 631849 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:46,723 : INFO : PROGRESS: at 39.87% examples, 631991 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:47,737 : INFO : PROGRESS: at 40.93% examples, 631960 words/s, in_qsize 5, out_qsize 0
2018-01-17 20:08:48,740 : INFO : PROGRESS: at 41.96% examples, 632076 wor

In [25]:
# 학습된 모델 저장
model.init_sims(replace=True)
model.save("word2vec_gensim.bin")

# 저장된 모델 메모리로 다시 load
model = Word2Vec.load("word2vec_gensim.bin")

# 여러가지 기능들
print("""model.most_similar("woman")""")
print(model.wv.most_similar("woman"))
print()
 
print("""model.most_similar(positive=["woman", "king"], negative=["man"], topn=10)""")
print(model.wv.most_similar(positive=['woman', 'king'], 
                            negative=['man'], 
                            topn=10))
print()       
    
print("""model.similarity("girl", "woman")""")
print(model.wv.similarity("girl", "woman"))
print()
print("""model.similarity("girl", "man")""")
print(model.wv.similarity("girl", "man"))
print()
print("""model.similarity("girl", "car")""")
print(model.wv.similarity("girl", "car"))
print()
print("""model.similarity("bus", "car")""")
print(model.wv.similarity("bus", "car"))

2018-01-17 20:10:50,247 : INFO : precomputing L2-norms of word weight vectors
2018-01-17 20:10:50,822 : INFO : saving Word2Vec object under word2vec_gensim.bin, separately None
2018-01-17 20:10:50,823 : INFO : storing np array 'syn0' to word2vec_gensim.bin.wv.syn0.npy
2018-01-17 20:10:50,900 : INFO : not storing attribute syn0norm
2018-01-17 20:10:50,901 : INFO : not storing attribute cum_table
2018-01-17 20:10:50,901 : INFO : storing np array 'syn1neg' to word2vec_gensim.bin.syn1neg.npy
2018-01-17 20:10:51,213 : INFO : saved word2vec_gensim.bin
2018-01-17 20:10:51,214 : INFO : loading Word2Vec object from word2vec_gensim.bin
2018-01-17 20:10:51,604 : INFO : loading wv recursively from word2vec_gensim.bin.wv.* with mmap=None
2018-01-17 20:10:51,606 : INFO : loading syn0 from word2vec_gensim.bin.wv.syn0.npy with mmap=None
2018-01-17 20:10:51,648 : INFO : setting ignored attribute syn0norm to None
2018-01-17 20:10:51,650 : INFO : loading syn1neg from word2vec_gensim.bin.syn1neg.npy with 

model.most_similar("woman")
[('felix', 0.4254460334777832), ('forrest', 0.402638703584671), ('cycnus', 0.40224796533584595), ('delegated', 0.4004993438720703), ('ria', 0.3906964659690857), ('lesbian', 0.387756884098053), ('antiope', 0.38243430852890015), ('remus', 0.37411677837371826), ('romulus', 0.37126415967941284), ('silvia', 0.36846351623535156)]

model.most_similar(positive=["woman", "king"], negative=["man"], topn=10)
[('f', 0.3773750364780426), ('kamehameha', 0.3747895359992981), ('goa', 0.3620443344116211), ('iii', 0.36089569330215454), ('disbands', 0.357067346572876), ('lily', 0.35643506050109863), ('administration', 0.34966447949409485), ('dewey', 0.3376150131225586), ('felt', 0.3349570035934448), ('patriarch', 0.33352944254875183)]

model.similarity("girl", "woman")
0.156221421765

model.similarity("girl", "man")
0.0048251359926

model.similarity("girl", "car")
-0.00476152936589

model.similarity("bus", "car")
0.159625484623


결과가 잘 나오진 않았습니다 ㅎㅎ.. 파라미터를 조금 잘못 넣은 것 같네요

편한 라이브러리임에는 틀림 없습니다! 구글에서 만들었으니 믿음도 가구요~

WORD2VEC 이였습니다!

## Contact me
케라스를 사랑하는 개발자 입니다.

질문, 조언, contribtuion 등 소통은 언제나 환영합니다.

Anthony Kim(김동현) : artit.anthony@gmail.com
