# # Word2Vec

### 1. 데이터 준비

In [1]:
from keras.datasets import imdb

Using TensorFlow backend.


In [2]:
(x_train, y_train), (x_test, y_test) = imdb.load_data()

단어 번호를 불러온다.

In [3]:
word_index = imdb.get_word_index()

In [4]:
word_index

{'emphasized': 13944,
 'smelly': 23068,
 'grisby': 13401,
 'undated': 54008,
 'villard': 47250,
 "harlin's": 15889,
 'morbidly': 21900,
 "developer's": 45294,
 "thomas's": 78545,
 'vieques': 61454,
 'wrought': 12013,
 'hutu': 70268,
 'baurki': 53989,
 'zoloft': 68779,
 'todays': 8841,
 'fruttis': 62927,
 'houghton': 42027,
 'whiffs': 42098,
 'daughters': 2844,
 'kum': 35287,
 'promulgated': 81356,
 'elkaim': 28392,
 'arent': 38048,
 'enlisting': 23822,
 "mordred's": 87901,
 'guiness': 11320,
 'music\x96the': 58429,
 'lineal': 86225,
 "'crunching'": 81066,
 'advisement': 60952,
 'shortens': 36594,
 'blabbing': 46559,
 'pinhead': 32478,
 'laughting': 51634,
 'slugger': 35742,
 'smooch': 46943,
 'shoenumber': 79245,
 'hickory': 21929,
 "welles's": 50114,
 'easyrider': 65403,
 'disillusion': 28451,
 "'government": 86216,
 'hitman': 20958,
 'fantasizes': 36979,
 'mcelhone': 24712,
 'baywatch': 17910,
 "dreamin'": 63758,
 'misused': 16577,
 'illogical': 4327,
 "being's": 73780,
 'overfed': 5

단어 번호와 단어의 관계를 사전으로 만든다. 1번은 문장의 시작, 2번은 사전에 없는 단어(Out of Vocabulary)로 미리 지정되어 있다.

In [5]:
index_word = {idx+3: word for word, idx in word_index.items()}

In [6]:
index_word[1] = '<START>'
index_word[2] = '<UNKNOWN>'

단어 번호로 된 데이터를 단어로 변환해 본다. 실제 데이터 분석에서는 단어로 된 데이터를 단어 번호로 변환해야 한다.

In [7]:
' '.join(index_word[i] for i in x_train[0])

"<START> this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert redford's is an amazing actor and now the same being director norman's father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for retail and would recommend it to everyone to watch and the fly fishing was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also congratulations to the two little boy's that played the part's of norman and paul they were just brilliant children are often left out of the praising list i think because the stars that play them all grown up are such a big profile for the whole film but these children are amazing and sh

단어의 총 갯수를 변수에 할당한다.

In [8]:
NUM_WORDS = max(index_word) + 1

### 2. 텍스트를 단어 번호로 바꾸기

텍스트를 단어 번호로 바꾸는 방법을 알아보기 위해 먼저 데이터를 텍스트로 역변환하자.

In [9]:
texts = []
for data in x_train:
    text = ' '.join(index_word[i] for i in data)
    texts.append(text)

In [10]:
texts[14]

"<START> b movie at best sound effects are pretty good lame concept decent execution i suppose it's a rental br br you put some olive oil in your mouth to save you from de poison den you cut de bite and suck out de poisen you gonna be ok tommy br br you stay by the airphone when agent harris calls you get me give me a fire extinguisher br br weapons we need weapons where's the silverware all we have is this sporks br br dr price is the snake expert br br local ers can handle the occasional snakebite alert every er in the tri city area"

In [11]:
len(texts)

25000

텍스트를 단어번호로 바꾸는 것은 Tokenizer를 사용한다.

In [12]:
from keras.preprocessing.text import Tokenizer

Tokenizer를 생성한다.

In [13]:
tok = Tokenizer()

fit_on_texts를 이용해 texts에 있는 단어들에 번호를 매긴다.

In [14]:
tok.fit_on_texts(texts)

texts_to_sequences를 이용해 텍스트를 실제로 단어 번호 리스트로 변환한다.

In [15]:
new_data = tok.texts_to_sequences(texts)

In [16]:
new_data[0]

[28,
 11,
 19,
 13,
 41,
 526,
 968,
 1618,
 1381,
 63,
 455,
 4449,
 64,
 3930,
 1,
 171,
 34,
 254,
 2,
 22,
 98,
 41,
 835,
 110,
 48,
 667,
 21905,
 6,
 33,
 477,
 282,
 2,
 148,
 1,
 170,
 110,
 165,
 20598,
 334,
 382,
 37,
 1,
 170,
 4517,
 1105,
 14,
 543,
 36,
 10,
 444,
 1,
 190,
 48,
 13,
 3,
 145,
 2016,
 16,
 11,
 19,
 1,
 1906,
 4588,
 466,
 1,
 19,
 69,
 85,
 9,
 13,
 41,
 526,
 36,
 74,
 12,
 10,
 1244,
 1,
 19,
 14,
 512,
 14,
 9,
 13,
 622,
 15,
 18510,
 2,
 60,
 383,
 9,
 5,
 314,
 5,
 104,
 2,
 1,
 2218,
 5229,
 13,
 477,
 64,
 3765,
 31,
 1,
 128,
 9,
 13,
 36,
 614,
 2,
 22,
 122,
 49,
 34,
 133,
 45,
 22,
 1408,
 31,
 3,
 19,
 9,
 213,
 25,
 75,
 50,
 2,
 11,
 404,
 13,
 80,
 10307,
 5,
 1,
 105,
 115,
 5924,
 12,
 254,
 1,
 30568,
 4,
 3734,
 2,
 720,
 34,
 69,
 41,
 526,
 473,
 23,
 396,
 315,
 44,
 4,
 1,
 11926,
 1025,
 10,
 102,
 86,
 1,
 378,
 12,
 295,
 96,
 30,
 2064,
 54,
 23,
 139,
 3,
 192,
 7476,
 15,
 1,
 224,
 19,
 18,
 132,
 473,
 23,
 477,
 2,
 14

In [17]:
new_data[0][:10]

[28, 11, 19, 13, 41, 526, 968, 1618, 1381, 63]

In [18]:
x_train[0][:10]

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65]

### 3. 대상단어와 맥락단어

Word2Vec은 대상 단어와 맥락 단어(대상 단어 주변의 단어)의 관계를 학습시키는 방법이다. 한 단어씩 옮겨가며 좌우로 주변 2단어를 맥락 단어에 포함시키는 함수를 만든다.

In [19]:
def extract_target_context(x):
    targets = []  # 대상단어
    contexts = [] # 맥락단어들
    for paragraph in x:
        n = len(paragraph)
        window = 2  # 좌우로 각 2단어씩
        for i in range(window, n-window):
            # 대상단어
            targets.append(paragraph[i])

            # 맥락단어
            contexts.append(
                paragraph[i-window:i] +    # 왼쪽 맥락단어
                paragraph[i+1:i+window+1]) # 오른쪽 맥락단어
    return targets, contexts

In [20]:
target_train, context_train = extract_target_context(x_train)
target_test, context_test = extract_target_context(x_test)

In [21]:
x_train[0][:10]

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65]

데이터에서 첫 5단어는 아래와 같다.

In [22]:
x_train[0][:5]

[1, 14, 22, 16, 43]

대상단어는 가운데 22번이고,

In [23]:
target_train[0]

22

맥락단어는 왼쪽 1, 14번과 오른쪽 16, 43번이 된다.

In [24]:
context_train[0]

[1, 14, 16, 43]

### 4. 데이터 생성자

데이터를 신경망에 학습시키려면 행렬 형태로 바꿔야 한다. 그러나 데이터가 매우 많기 때문에 한 번에 행렬로 바꾸면 학습시키기가 어렵다. 그래서 생성자라는 형태로 만들어준다.

In [25]:
from keras.utils import Sequence, to_categorical

In [26]:
import numpy

keras는 Sequence 클래스를 상속하는 형태로 데이터 생성자를 만들 수 있도록 하고 있다.

In [27]:
class TargetContext(Sequence):
    def __init__(self, target, context, batch_size):
        self.target = numpy.asarray(target)
        self.context = numpy.asarray(context)
        self.batch_size = batch_size

    def __len__(self):
        """데이터의 길이"""
        # return len(self.context) // self.batch_size
        return 128  # 간단히 하기 위해 128로 고정

    def __getitem__(self, idx):
        """idx 번째 데이터 배치를 가져온다"""
        i = numpy.random.choice(len(self.target), self.batch_size)  # 실제로는 무작위로 batch_size만큼 데이터를 고른다
        batch_x = self.context[i]
        batch_y = self.target[i]
        return batch_x, to_categorical(batch_y, NUM_WORDS)  # to_categorical로 y를 one-hot encoding을 한다

In [28]:
train = TargetContext(target_train, context_train, 32)
valid = TargetContext(target_test, context_test, 32)

In [29]:
train[0]

(array([[24554,   419,     4,  1709],
        [   33,     6,    16,   691],
        [   73,  1391,    26,    46],
        [  109,    24,   284,    19],
        [   27,   118,  3622,     9],
        [    8,    30,    23,    11],
        [  117, 25656,    28,     4],
        [  248,     9,  9825,    18],
        [   11,     4,    16,   184],
        [  316,   574,   874,   188],
        [11649,  1824,     5,   472],
        [  433,   225,    60,  2602],
        [    9, 14822,   259,    15],
        [  675,     7,    18,   373],
        [   15,   123,  2339,     9],
        [ 1835,    44,  3582,     8],
        [   12,    86,    46,    11],
        [  354,   533,   468,   230],
        [   89,   966,   183,    26],
        [    4,   402,    95,    25],
        [16749,   180,    27,   154],
        [   23,     4,    73,   917],
        [   18,     6,     7,  1711],
        [    8,  2061,   105,    60],
        [    4,  2113,   193,   129],
        [ 1981,   554,  1451,    42],
        [  4

### 5. NNLM

In [30]:
from keras.models import Sequential

In [31]:
from keras.layers import Dense, Embedding, Flatten

In [32]:
from keras.optimizers import Adam

In [33]:
from keras.callbacks import EarlyStopping

임베딩 레이어는 저장을 위해 따로 변수로 지정해둔다.

In [34]:
emb_nnlm = Embedding(input_dim=NUM_WORDS, output_dim=8, input_length=4)


In [35]:
nnlm = Sequential()
nnlm.add(emb_nnlm)
nnlm.add(Flatten())
nnlm.add(Dense(128, activation='relu'))
nnlm.add(Dense(NUM_WORDS, activation='softmax'))

In [36]:
nnlm.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 4, 8)              708704    
_________________________________________________________________
flatten_1 (Flatten)          (None, 32)                0         
_________________________________________________________________
dense_1 (Dense)              (None, 128)               4224      
_________________________________________________________________
dense_2 (Dense)              (None, 88588)             11427852  
Total params: 12,140,780
Trainable params: 12,140,780
Non-trainable params: 0
_________________________________________________________________


In [37]:
nnlm.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

In [38]:
nnlm.fit_generator(
    train,
    epochs=30,
    validation_data=valid,
    callbacks=[EarlyStopping(monitor='val_acc')])

Epoch 1/30
Epoch 2/30


<keras.callbacks.History at 0x181f21c358>

#### 임베딩 레이어 저장

In [39]:
numpy.save('emb_nnlm.npy', emb_nnlm.get_weights()[0])

### 6. CBOW

CBOW는 NNLM에서 은닉층을 없애고 대신 임베딩을 단순히 평균낸 것을 사용한다.



In [41]:
from keras.layers import Lambda
from keras import backend as K

In [42]:
emb_cbow = Embedding(input_dim=NUM_WORDS, output_dim=8, input_length=4)

In [43]:
cbow = Sequential()
cbow.add(emb_cbow)
cbow.add(Lambda(lambda x: K.mean(x, axis=1)))  # 임베딩의 평균
cbow.add(Dense(NUM_WORDS, activation='softmax'))

In [44]:
cbow.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 4, 8)              708704    
_________________________________________________________________
lambda_1 (Lambda)            (None, 8)                 0         
_________________________________________________________________
dense_3 (Dense)              (None, 88588)             797292    
Total params: 1,505,996
Trainable params: 1,505,996
Non-trainable params: 0
_________________________________________________________________


#### 학습

In [45]:
cbow.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

In [46]:
cbow.fit_generator(
    train,
    epochs=30,
    validation_data=valid,
    callbacks=[EarlyStopping(monitor='val_acc')])

Epoch 1/30
Epoch 2/30
Epoch 3/30


<keras.callbacks.History at 0x1862e473c8>

#### 임베딩 레이어 저장

In [47]:
numpy.save('emb_cbow.npy', emb_cbow.get_weights()[0])

### 7. Skip-gram

Skipgram은 구현하기가 조금 까다롭다. 맥락단어를 직접 예측하는 대신 대상 단어와 맥락 단어가 함께 입력되면 1을 출력하고, 대상 단어와 맥락 외 단어가 함께 입력되면 0을 출력하는 형식으로 만든다.

In [48]:
class SkipGramData(TargetContext):
    def __getitem__(self, idx):
        n = self.batch_size // 2
        i = numpy.random.choice(len(self.target), n)
        j = numpy.random.choice(4, n)

        true_context = self.context[i, j]  # 실제 맥락
        true_target = self.target[i]       # 실제 대상
        true_y = numpy.ones(n)             # 1

        # 무작위로 단어를 뽑아 가짜 맥락을 만든다
        false_context = numpy.random.choice(NUM_WORDS, n)
        false_y = numpy.zeros(n)                           # 0

         # 실제 맥락과 가짜 맥락을 이어 붙인다
        context = numpy.append(true_context, false_context)

        # 실제 대상을 2배로 한다
        target = numpy.append(true_target, true_target)

        # 앞부분은 1, 뒷부분은 0
        y = numpy.append(true_y, false_y)

        return [context, target], y

In [49]:
train_skipgram = SkipGramData(target_train, context_train, 32)
valid_skipgram = SkipGramData(target_test, context_test, 32)

모형은 이제까지 사용한 Sequential 모형 대신 keras의 함수형 방식을 사용한다. 이 방식은 각 레이어를 일종의 함수처럼 쓰는 방법이다.

In [50]:
from keras.layers import Activation, Dot, Input, Reshape

In [51]:
from keras.models import Model

In [52]:
# 입력 레이어
input_target = Input(shape=(1,))
input_context = Input(shape=(1,))

# 임베딩 레이어
emb_skip_target = Embedding(input_dim=NUM_WORDS, output_dim=8)
emb_skip_context = Embedding(input_dim=NUM_WORDS, output_dim=8)

# 입력 레이어를 임베딩 레이어에 연결시키고
# 양쪽 임베딩 레이어를 Dot 레이어에 연결시킨다
# Dot 레이어는 양쪽 입력을 곱하는 역할을 한다
out = Dot(axes=2)([
    emb_skip_target(input_target),
    emb_skip_context(input_context)])

# 출력 형태를 (1, 1)에서 (1,)로 바꾼다
out = Reshape((1,), input_shape=(1, 1))(out)

# 시그모이드로 출력한다
out = Activation('sigmoid')(out)

In [53]:
skipgram = Model(inputs=[input_target, input_context], outputs=out)

In [54]:
skipgram.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            (None, 1)            0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            (None, 1)            0                                            
__________________________________________________________________________________________________
embedding_3 (Embedding)         (None, 1, 8)         708704      input_1[0][0]                    
__________________________________________________________________________________________________
embedding_4 (Embedding)         (None, 1, 8)         708704      input_2[0][0]                    
__________________________________________________________________________________________________
dot_1 (Dot

In [55]:
skipgram.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy'])

In [56]:
skipgram.fit_generator(
    train_skipgram,
    epochs=30,
    validation_data=valid_skipgram,
    callbacks=[EarlyStopping(monitor='val_acc')])

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30


<keras.callbacks.History at 0x186393ed68>

#### 임베딩 레이어 저장

In [57]:
numpy.save('emb_skip_target.npy', emb_skip_target.get_weights()[0])

### 8. 임베딩 레이어 재사용

워드 임베딩을 학습시키는 이유는 그 자체로 목적이 있다기보다 다른 학습에 이를 재사용하여 학습 효율을 높이기 위해서다.

In [58]:
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

In [59]:
MAXLEN = 20

저장한 레이어의 가중치를 불러온다.

In [60]:
w = numpy.load('emb_skip_target.npy')

임베딩 레이어를 만든다. 아래에서 trainable=False로 하면 임베딩 레이어는 추가 학습을 하지 않는다.

In [61]:
emb_ff = Embedding(input_dim=NUM_WORDS, output_dim=8, input_length=MAXLEN,
                   weights=[w],   # 레이어 가중치를 저장한 값으로 설정한다
                   trainable=True)

#### 앞먹임 신경망

RNN 수업에서 사용했던 앞먹임 신경망을 다시 만들어보자.

In [62]:
x_train_seq = pad_sequences(x_train, MAXLEN)
x_test_seq = pad_sequences(x_test, MAXLEN)

In [63]:
ff = Sequential()
ff.add(emb_ff)  # 미리 만들어진 임베딩 레이어를 사용한다.
ff.add(Flatten())
ff.add(Dense(1, activation='sigmoid'))

In [64]:
ff.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_5 (Embedding)      (None, 20, 8)             708704    
_________________________________________________________________
flatten_2 (Flatten)          (None, 160)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 161       
Total params: 708,865
Trainable params: 708,865
Non-trainable params: 0
_________________________________________________________________


In [65]:
from keras.optimizers import RMSprop

In [66]:
ff.compile(optimizer=RMSprop(), loss='binary_crossentropy', metrics=['acc'])

In [67]:
ff.fit(
  x_train_seq,
    y_train,
    epochs=30,
    batch_size=128,
    validation_split=0.2,
    callbacks=[EarlyStopping(monitor='val_acc')])

Train on 20000 samples, validate on 5000 samples
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30


<keras.callbacks.History at 0x188212fc88>