# 네거티브 샘플링(Negative Sampling)을 사용하는 Word2Vec을 직접 케라스(Keras)를 통해 구현해봅시다.

1. 네거티브 샘플링(Negative Sampling)

Word2Vec의 출력층에서는 소프트맥스 함수를 지난 단어 집합 크기의 벡터(스코어 벡터)의 오차를 구하고 이로부터 **임베딩 테이블에 있는 모든 단어에 대한 임베딩 벡터 값을 업데이트합니다.** 만약 단어 집합의 크기가 수만 이상에 달한다면 이 작업은 굉장히 무거운 작업이므로, Word2Vec은 꽤나 학습하기에 무거운 모델이 됩니다.

Word2Vec은 역전파 과정에서 모든 단어의 임베딩 벡터값의 업데이트를 수행하지만, 만약 현재 집중하고 있는 중심 단어와 주변 단어가 '강아지'와 '고양이', '귀여운'과 같은 단어라면, 사실 이 단어들과 별 연관 관계가 없는 '돈가스'나 '컴퓨터'와 같은 수많은 단어의 임베딩 벡터값까지 업데이트하는 것은 비효율적입니다.

네거티브 샘플링은 Word2Vec이 학습 과정에서 전체 단어 집합이 아니라 *일부 단어 집합에만 집중할 수 있도록 하는 방법입니다.* 가령, 현재 집중하고 있는 주변 단어가 '고양이', '귀여운'이라고 해봅시다. 여기에 '돈가스', '컴퓨터', '회의실'과 같은 단어 집합에서 무작위로 선택된 주변 단어가 아닌 단어들을 일부 가져옵니다. 이렇게 하나의 중심 단어에 대해서 전체 단어 집합보다 훨씬 작은 단어 집합을 만들어놓고 마지막 단계를 **이진 분류 문제**로 변환합니다. 주변 단어들을 긍정(positive), 랜덤으로 샘플링 된 단어들을 부정(negative)으로 레이블링한다면 이진 분류 문제를 위한 데이터셋이 됩니다. 이는 기존의 단어 집합의 크기만큼의 선택지를 두고 다중 클래스 분류 문제를 풀던 Word2Vec보다 훨씬 연산량에서 효율적입니다.
> 주변단어를 긍정 레이블, 랜덤 샘플링 단어 부정으로 레이블링 -> 이진 분류 문제


# 3. 20뉴스그룹 데이터 전처리 하기

In [2]:
import pandas as pd
import numpy as np
import nltk
from nltk.corpus import stopwords
from sklearn.datasets import fetch_20newsgroups
from tensorflow.keras.preprocessing.text import Tokenizer

## 1. 데이터 로드

In [6]:
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
print('총 샘플 수 :',len(documents))

총 샘플 수 : 11314


## 2. 데이터 전처리

In [8]:
news_df = pd.DataFrame({'document':documents})

In [9]:
news_df

Unnamed: 0,document
0,Well i'm not sure about the story nad it did s...
1,"\n\n\n\n\n\n\nYeah, do you expect people to re..."
2,Although I realize that principle is not one o...
3,Notwithstanding all the legitimate fuss about ...
4,"Well, I will have to change the scoring on my ..."
...,...
11309,"Danny Rubenstein, an Israeli journalist, will ..."
11310,\n
11311,\nI agree. Home runs off Clemens are always m...
11312,I used HP DeskJet with Orange Micros Grappler ...


In [11]:
# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")
# 길이가 3이하인 단어는 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))
# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

  news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")


In [12]:
news_df.isnull().values.any()

False

In [15]:
news_df.replace('', float('NaN'), inplace=True)
news_df.isnull().values.any()

True

In [16]:
news_df.dropna(inplace=True)

In [17]:
print('총 샘플 수 :',len(news_df))

총 샘플 수 : 10995


In [21]:
# 불룡어를 제거
nltk.download('stopwords')
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\DanielJeong\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [23]:
type(tokenized_doc)

pandas.core.series.Series

In [25]:
tokenized_doc = tokenized_doc.to_list()

In [27]:
# 단어 1개 이하인 샘플의 인덱스를 찾아서 저장하고, 해당 샘플들은 제거

10995

In [30]:
drop_train = [index for index, sentence in enumerate(tokenized_doc) if len(sentence) <=1]
tokenized_doc = np.delete(tokenized_doc, drop_train, axis = 0)
print('총 샘플 수 : ', len(tokenized_doc))


총 샘플 수 :  10940


  arr = asarray(arr)


### 단어집합(Tokenizer)생성하고, 정수 인코딩을 진행합니다.

In [31]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(tokenized_doc)

word2idx = tokenizer.word_index
idx2word = {value : key for key, value in word2idx.items()}
encoded = tokenizer.texts_to_sequences(tokenized_doc)

In [32]:
print(encoded[:2])

[[9, 59, 603, 207, 3278, 1495, 474, 702, 9470, 13686, 5533, 15227, 702, 442, 702, 70, 1148, 1095, 1036, 20294, 984, 705, 4294, 702, 217, 207, 1979, 15228, 13686, 4865, 4520, 87, 1530, 6, 52, 149, 581, 661, 4406, 4988, 4866, 1920, 755, 10668, 1102, 7837, 442, 957, 10669, 634, 51, 228, 2669, 4989, 178, 66, 222, 4521, 6066, 68, 4295], [1026, 532, 2, 60, 98, 582, 107, 800, 23, 79, 4522, 333, 7838, 864, 421, 3825, 458, 6488, 458, 2700, 4730, 333, 23, 9, 4731, 7262, 186, 310, 146, 170, 642, 1260, 107, 33568, 13, 985, 33569, 33570, 9471, 11491]]


In [37]:
vocab_size = len(word2idx) + 1 # padding값 0을 포함
print('단어 집합의 크기 :', vocab_size)

단어 집합의 크기 : 64277


## 3. 네거티브 샘플링을 통한 데이터셋 구성하기

네거키브 샘플링을 통한 데이터셋 구성 -> 임베딩 테이블 2개 생성
skipgrams를 사용한다.

In [45]:
from tensorflow.keras.preprocessing.sequence import skipgrams
#네거티브 샘플링, 상위 10개 뉴스그룹 샘플에대해서 결과를 확인
skip_grams = [skipgrams(sample, vocabulary_size=vocab_size, window_size=10) for sample in encoded[:10]]

In [48]:
# 첫번째 샘플인 skip_grams[0] 내 skipgrams로 형성된 데이터셋 확인
pairs, labels = skip_grams[0][0], skip_grams[0][1]
for i in range(5):
    print("({:s} ({:d}), {:s} ({:d})) -> {:d}".format(
          idx2word[pairs[i][0]], pairs[i][0], 
          idx2word[pairs[i][1]], pairs[i][1], 
          labels[i]))


(reports (755), zalk (39212)) -> 0
(europeans (4520), degree (1530)) -> 1
(government (51), spaceball (20304)) -> 0
(media (702), shuxian (53720)) -> 0
(holocaust (2669), dzzokz (59898)) -> 0


In [61]:
# skip_gram
parirs = skip_grams[0][0] # [입력1(중심단어), 입력단어2(주변단어)]
pairs

[[755, 39212],
 [4520, 1530],
 [51, 20304],
 [702, 53720],
 [2669, 59898],
 [661, 1530],
 [70, 702],
 [442, 581],
 [10669, 6066],
 [4295, 57755],
 [6, 21854],
 [9, 57697],
 [10669, 634],
 [702, 47918],
 [87, 28753],
 [68, 6988],
 [705, 43487],
 [68, 21243],
 [217, 4520],
 [15228, 217],
 [1979, 149],
 [13686, 702],
 [207, 47410],
 [20294, 1095],
 [1148, 702],
 [3278, 59],
 [661, 6],
 [4294, 42018],
 [228, 10669],
 [51, 37206],
 [4988, 6],
 [13686, 6],
 [1095, 9501],
 [4521, 10027],
 [178, 8093],
 [4520, 1931],
 [2669, 8989],
 [7837, 51],
 [1495, 70],
 [66, 48771],
 [705, 20997],
 [6, 4520],
 [1530, 149],
 [1036, 33709],
 [4406, 1920],
 [755, 50851],
 [1979, 1693],
 [59, 603],
 [10668, 56941],
 [13686, 9678],
 [661, 42674],
 [957, 51],
 [702, 28665],
 [207, 19321],
 [1979, 18868],
 [15227, 9470],
 [13686, 54827],
 [15228, 13686],
 [68, 6928],
 [5533, 29129],
 [87, 19710],
 [222, 19448],
 [66, 2110],
 [87, 49155],
 [51, 43136],
 [51, 10668],
 [4406, 52],
 [15227, 3278],
 [1102, 32598],
 [

In [62]:
labels = skip_grams[0][1] #데이터셋의 레이블로 구성
labels

[0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 1,
 1,


윈도우 크기 내에서 중심 단어, 주변 단어의 관계를 가지는 경우에는 1의 레이블을 갖도록 하고, 그렇지 않은 경우는 0의 레이블을 가지도록 하여 데이터셋을 구성합니다. 이 과정은 각각의 뉴스그룹 샘플에 대해서 동일한 프로세스로 수행됩니다.

In [63]:
encoded[0]

[9,
 59,
 603,
 207,
 3278,
 1495,
 474,
 702,
 9470,
 13686,
 5533,
 15227,
 702,
 442,
 702,
 70,
 1148,
 1095,
 1036,
 20294,
 984,
 705,
 4294,
 702,
 217,
 207,
 1979,
 15228,
 13686,
 4865,
 4520,
 87,
 1530,
 6,
 52,
 149,
 581,
 661,
 4406,
 4988,
 4866,
 1920,
 755,
 10668,
 1102,
 7837,
 442,
 957,
 10669,
 634,
 51,
 228,
 2669,
 4989,
 178,
 66,
 222,
 4521,
 6066,
 68,
 4295]

In [64]:
# 첫번째 뉴스그룹 샘플에 대해서 생긴 pairs와 labels의 개수
print(len(pairs))
print(len(labels))

2220
2220


In [67]:
from tqdm import tqdm
skip_grams = [skipgrams(sample, vocabulary_size=vocab_size, window_size=10) for sample in tqdm(encoded)]

100%|███████████████████████████████████████████████████████████████████| 10940/10940 [01:10<00:00, 155.07it/s]


## 5. Skip-Gram with Negative Sampling(SGNS) 구현하기

In [69]:
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Embedding, Reshape, Activation, Input
from tensorflow.keras.layers import Dot
from tensorflow.keras.utils import plot_model
from IPython.display import SVG

### 하이퍼파라미터인 임베딩 벡터의 차원은 100으로 정하고, 두개의 임베딩 층을 추가합니다.


In [74]:
embedding_dim = 100

#중심단어를 위한 임베딩 테이블

w_inputs = Input(shape=(1,), dtype='int32') #입력층
word_embedding = Embedding(vocab_size, embedding_dim)(w_inputs) #입베딩층

# 주변 단어를 위한 임베딩 테이블
c_inputs = Input(shape=(1,),dtype='int32')
context_embedding = Embedding(vocab_size, embedding_dim)(c_inputs)

각 임베딩 테이블은 중심 단어와 주변 단어 각각을 위한 임베딩 테이블이며 각 단어는 임베딩 테이블을 거쳐서 내적을 수행하고, 내적의 결과는 1 또는 0을 예측하기 위해서 시그모이드 함수를 활성화 함수로 거쳐 최종 예측값을 얻습니다.

In [75]:
dot_product = Dot(axes=2)([word_embedding, context_embedding]) # 내적 레이어 층
dot_product = Reshape((1,), input_shape=(1, 1))(dot_product) # 내적한 벡터를 
output = Activation('sigmoid')(dot_product)


model = Model(inputs=[w_inputs, c_inputs], outputs=output)
model.summary()
model.compile(loss='binary_crossentropy', optimizer='adam')
plot_model(model, to_file='model3.png', show_shapes=True, show_layer_names=True, rankdir='TB')

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_6 (InputLayer)           [(None, 1)]          0           []                               
                                                                                                  
 input_7 (InputLayer)           [(None, 1)]          0           []                               
                                                                                                  
 embedding_5 (Embedding)        (None, 1, 100)       6427700     ['input_6[0][0]']                
                                                                                                  
 embedding_6 (Embedding)        (None, 1, 100)       6427700     ['input_7[0][0]']                
                                                                                              

In [79]:
# 5에포크를 수행
for epoch in range(1, 6):
    loss = 0
    for _, elem in tqdm(enumerate(skip_grams)):
        #elem은 [중심단어,주변단어]로 구성된 리스트, 레이블 Y를 가지고 있습니다.
        first_elem = np.array(list(zip(*elem[0]))[0], dtype='int32') #중심단어로 구성
        second_elem = np.array(list(zip(*elem[0]))[1], dtype='int32') #주변 단어로 구성
        labels = np.array(elem[1], dtype='int32')#레이블로 구성된 1차원리스트
        X = [first_elem, second_elem] # 2차원 리스트로 변경
        Y = labels #1차원 레이블 값만 저장
        loss += model.train_on_batch(X,Y)  
    print('Epoch :',epoch, 'Loss :',loss)

10940it [30:43,  5.93it/s]


Epoch : 1 Loss : 4358.354112844914


10940it [30:13,  6.03it/s]


Epoch : 2 Loss : 3599.4851175807416


10940it [30:12,  6.04it/s]


Epoch : 3 Loss : 3400.879985794425


10940it [30:13,  6.03it/s]


Epoch : 4 Loss : 3171.9175570486113


10940it [30:13,  6.03it/s]

Epoch : 5 Loss : 2937.664987910539





In [157]:
len(np.array(list(zip(*skip_grams[0][0]))[0], dtype='int32'))

2220

In [156]:
len(skip_grams[0][1])

2220

In [146]:
skip_grams[0][0]

[[1148, 702],
 [13686, 40724],
 [15228, 4294],
 [9470, 3278],
 [702, 59366],
 [957, 4988],
 [52, 1979],
 [228, 1920],
 [4520, 4406],
 [4294, 20294],
 [149, 44608],
 [4989, 2093],
 [581, 24174],
 [702, 38306],
 [9470, 207],
 [4295, 222],
 [15228, 55040],
 [13686, 62334],
 [20294, 984],
 [702, 8391],
 [15228, 40737],
 [702, 1095],
 [68, 4295],
 [228, 38725],
 [222, 51],
 [228, 6066],
 [634, 54748],
 [70, 4294],
 [1920, 32319],
 [1920, 35648],
 [4988, 31908],
 [702, 4294],
 [207, 15227],
 [442, 3676],
 [984, 20789],
 [13686, 22217],
 [87, 702],
 [13686, 15753],
 [4406, 755],
 [5533, 42435],
 [1095, 702],
 [634, 68],
 [442, 62653],
 [7837, 39702],
 [52, 2236],
 [52, 63249],
 [4988, 55810],
 [1979, 20294],
 [1095, 1036],
 [1920, 22037],
 [2669, 28405],
 [4988, 4406],
 [4520, 7803],
 [149, 13686],
 [4406, 38551],
 [4295, 2669],
 [474, 13686],
 [4520, 23187],
 [6066, 68],
 [10669, 11939],
 [4988, 4866],
 [702, 705],
 [4520, 12907],
 [15228, 52],
 [228, 2669],
 [702, 53091],
 [10668, 34728],
 

In [159]:
X

[array([  41,   11,    4, ..., 5677,  317,  532]),
 array([10280,   553, 23726, ...,    87,   101, 37174])]

## 6. 결과 확인하기
학습된 모델의 결과를 확인해보겠습니다. 학습된 임베딩 벡터들을 vector.txt저장
load_word2vec_format()으로 로드하면 쉽게 단어 벡터간 유사도 구할 수 있다.

In [163]:
import gensim
f = open('vectors.txt', 'w')
f.write('{} {}\n'.format(vocab_size-1, embedding_dim)) # 단어 집합 크기와 임베딩 벡터의 크기
vectors = model.get_weights()[0] # 첫번째 임베딩 테이블만 저장
for word, i in tokenizer.word_index.items():
    #단어 / 해당 단어의 임베딩 벡터를 기록
    f.write('{} {}\n'.format(word, ' '.join(map(str, list(vectors[i, : ])))))
f.close()


    



In [164]:
# 모델 로드
# 키워드 임베딩 벡터
w2v = gensim.models.KeyedVectors.load_word2vec_format('./vectors.txt',binary=False)

In [161]:
embedding_dim

100

In [162]:
model.get_weights()

[array([[-4.1898765e-02, -2.8536653e-02, -5.4939017e-03, ...,
          2.6802052e-02,  1.1446260e-02,  6.6303238e-03],
        [ 1.7667842e-01, -7.6851666e-01,  2.6971918e-01, ...,
         -7.8946394e-01,  1.3840779e+00, -1.6289286e-01],
        [ 1.2064220e-01, -3.1234351e-01, -3.2099199e-01, ...,
         -4.2555946e-01, -2.9664862e-01, -6.1759204e-01],
        ...,
        [ 1.4748364e-03,  1.9023987e-02,  5.6906644e-02, ...,
         -1.3445173e-03, -4.0812887e-02,  3.0046523e-02],
        [-5.0900890e-03, -2.7438395e-02,  3.3632588e-02, ...,
          5.7485871e-02,  4.8528764e-02, -5.5835228e-02],
        [ 2.8886748e-02,  5.1914789e-02,  8.6358570e-02, ...,
         -4.4069108e-02, -1.1513415e-02,  8.0168039e-02]], dtype=float32),
 array([[-0.02096049, -0.02582359, -0.02676537, ..., -0.0128011 ,
         -0.04608601,  0.02354311],
        [ 1.8233261 ,  1.6925557 ,  1.673453  , ..., -2.7163482 ,
         -1.4552516 ,  2.1556156 ],
        [ 1.7301406 ,  1.3183112 ,  1.3604534 

In [165]:
w2v.most_similar(positive=['doctor'])

[('severe', 0.7230220437049866),
 ('fever', 0.704584002494812),
 ('clinic', 0.6938567161560059),
 ('placebo', 0.690239429473877),
 ('assholes', 0.6834555864334106),
 ('migraine', 0.6664289236068726),
 ('marijuana', 0.6583611369132996),
 ('sinuses', 0.6580126285552979),
 ('risen', 0.6564995050430298),
 ('sinus', 0.6451612114906311)]

In [167]:
w2v.most_similar(positive=['police'],topn=20)

[('sickness', 0.5547301173210144),
 ('targets', 0.552516520023346),
 ('housing', 0.5513076186180115),
 ('democratic', 0.5439569354057312),
 ('officer', 0.5412691235542297),
 ('financial', 0.5404515862464905),
 ('imprisonment', 0.5323454737663269),
 ('abound', 0.5296828150749207),
 ('filed', 0.5242913961410522),
 ('arcuate', 0.5240892171859741),
 ('accused', 0.5240281820297241),
 ('preserving', 0.5200099945068359),
 ('ammunition', 0.5167548656463623),
 ('impulses', 0.5114110112190247),
 ('content', 0.5106293559074402),
 ('consist', 0.5102891325950623),
 ('agencies', 0.503829300403595),
 ('hereby', 0.5031695365905762),
 ('foreign', 0.5024505853652954),
 ('blanket', 0.501876950263977)]

In [169]:
w2v.most_similar(positive=['knife'],topn=5)

[('guerillas', 0.8018477559089661),
 ('surrounded', 0.7858677506446838),
 ('heroes', 0.7784346342086792),
 ('homes', 0.7776963114738464),
 ('massacred', 0.7742208242416382)]

In [170]:
w2v.most_similar(positive=['engine'])

[('tires', 0.677037239074707),
 ('cylinder', 0.670153021812439),
 ('brake', 0.6463472843170166),
 ('toyota', 0.6414549350738525),
 ('piston', 0.633881151676178),
 ('camry', 0.6053375005722046),
 ('electric', 0.5961235165596008),
 ('conditioning', 0.594795823097229),
 ('rear', 0.5797801613807678),
 ('compartment', 0.5736609101295471)]

In [172]:
w2v.most_similar(negative=['police'], topn=5)

[('xenix', 0.5077725052833557),
 ('msdos', 0.467366099357605),
 ('admd', 0.4416651427745819),
 ('mirrored', 0.4360644221305847),
 ('errno', 0.4340152144432068)]