## Implemention Word2Vec with Tensorflow


### 1. 임의로 정의한 데이터 배열을 생성합니다.

In [11]:
corpus = ['king is a strong man', 
          'queen is a wise woman', 
          'boy is a young man',
          'girl is a young woman',
          'prince is a young king',
          'princess is a young queen',
          'man is strong', 
          'woman is pretty',
          'prince is a boy will be king',
          'princess is a girl will be queen']

### 2. 직접적인 의미와 관련없는 Stop Word 들을 제거합니다.
stopwords 배열을 정의하고 
문장에서 stopwords에 포함된 단어가 있을경우 제거합니다. 
<br>
<br>
아래는 관련 함수입니다.

In [17]:
def remove_stop_words(corpus):
    stop_words = ['is', 'a', 'will', 'be']
    # stop words 배열을 정의합니다.
    results = []
    # 결과를 담을 배열을 정의합니다.
    
    for text in corpus:
        #인덱스마다 문장들이 하나씩 들어옵니다.
        # text = 문장 (Like 'king is a strong man') 
        
        array = text.split(' ')
        # 공백을 구분자로 자릅니다.
        # array = 단어 배열(Like 'king', 'is', 'a', 'strong', 'man')
        
        for stop_word in stop_words:
            # 단어 1개 x stop_words의 사이즈 만큼 for문을 돌려서
            if stop_word in array:
                # 만약 단어와 stop word 가 일치한다면
                array.remove(stop_word)
                # 배열에서 stop word 를 제거합니다.
                # 이렇게 2중 포문을 돌면서 모든 stop word가 제거됩니다.
        
        results.append(' '.join(array))
        # 이렇게 만들어진 array(단어배열)를 다시 붙여서 문장으로 만들고
        # result (문장배열)에 넣고 리턴합니다.
            
    return results

In [13]:
corpus = remove_stop_words(corpus)
# 문장배열에 stop word를 제거해 다시 assign 합니다.

In [14]:
corpus

['king strong man',
 'queen wise woman',
 'boy young man',
 'girl young woman',
 'prince young king',
 'princess young queen',
 'man strong',
 'woman pretty',
 'prince boy king',
 'princess girl queen']

### 3. 문장배열의 모든 단어를 words 배열에 저장합니다

In [15]:
words = []
# 단어 배열 정의

for text in corpus:
    for word in text.split(' '):
        words.append(word)
        #문장들을 잘라서 단어배열에 넣습니다.

words = set(words)
# 집합(set)으로 만들어 중복과 순서를 없앱니다.

만들어진 단어 배열입니다.

In [16]:
words

{'boy',
 'girl',
 'king',
 'man',
 'pretty',
 'prince',
 'princess',
 'queen',
 'strong',
 'wise',
 'woman',
 'young'}

### 4. 데이터 프레임을 생성합니다.
pandas를 이용해 data frame 객체를 생성합니다.

In [18]:
import pandas as pd
# pandas를 import 합니다

In [21]:
word2int = {}

for i,word in enumerate(words):
    word2int[word] = i

sentences = []
for sentence in corpus:
    sentences.append(sentence.split())
    
WINDOW_SIZE = 2
# Window 사이즈를 2로 설정합니다.

data = []
for sentence in sentences:
    for idx, word in enumerate(sentence):
        for neighbor in sentence[max(idx - WINDOW_SIZE, 0) : min(idx + WINDOW_SIZE, len(sentence)) + 1] : 
            # 좌우의 이웃들을 가져옵니다.
            if neighbor != word:
                data.append([word, neighbor])
                # data 배열에 타겟 단어와 이웃을 추가합니다.

In [25]:
df = pd.DataFrame(data, columns =['input', 'label'])
# 데이터프레임 생성

In [26]:
df

Unnamed: 0,input,label
0,king,strong
1,king,man
2,strong,king
3,strong,man
4,man,king
5,man,strong
6,queen,wise
7,queen,woman
8,wise,queen
9,wise,woman


In [27]:
df.shape

(52, 2)

In [28]:
word2int

{'boy': 9,
 'girl': 2,
 'king': 11,
 'man': 5,
 'pretty': 10,
 'prince': 8,
 'princess': 6,
 'queen': 3,
 'strong': 4,
 'wise': 0,
 'woman': 1,
 'young': 7}

In [30]:
import tensorflow as tf
import numpy as np

ONE_HOT_DIM = len(words)

# function to convert numbers to one hot vectors
def to_one_hot_encoding(data_point_index):
    one_hot_encoding = np.zeros(ONE_HOT_DIM)
    one_hot_encoding[data_point_index] = 1
    return one_hot_encoding

X = [] # input word
Y = [] # target word

for x, y in zip(df['input'], df['label']):
    X.append(to_one_hot_encoding(word2int[ x ]))
    Y.append(to_one_hot_encoding(word2int[ y ]))

# convert them to numpy arrays
X_train = np.asarray(X)
Y_train = np.asarray(Y)

# making placeholders for X_train and Y_train
x = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))
y_label = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))

# word embedding will be 2 dimension for 2d visualization
EMBEDDING_DIM = 2 

# hidden layer: which represents word vector eventually
W1 = tf.Variable(tf.random_normal([ONE_HOT_DIM, EMBEDDING_DIM]))
b1 = tf.Variable(tf.random_normal([1])) #bias
hidden_layer = tf.add(tf.matmul(x,W1), b1)

# output layer
W2 = tf.Variable(tf.random_normal([EMBEDDING_DIM, ONE_HOT_DIM]))
b2 = tf.Variable(tf.random_normal([1]))
prediction = tf.nn.softmax(tf.add( tf.matmul(hidden_layer, W2), b2))

# loss function: cross entropy
loss = tf.reduce_mean(-tf.reduce_sum(y_label * tf.log(prediction), axis=[1]))

# training operation
train_op = tf.train.GradientDescentOptimizer(0.05).minimize(loss)

ModuleNotFoundError: No module named 'tensorflow'