## 텐서플로우를 활용한 Word2Vec 구현

임의로 만든 데이터 배열을 정의합니다.

In [2]:
corpus = ['예뻐 너가좋아 좋아해 사랑해',
          '데이터마이닝 인공지능 김순태교수',
          '데이터 4차산업혁명 데이터마이닝',
          '인공지능 AI 빅데이터 데이터',
          '좋아해 사랑해 행복해 너가좋아',
          '페이커 롤 보겸 아프리카',
          '김순태교수 전북대학교 연구실',
          '전북대학교 인공지능 연구실',
          '데이터 4차산업혁명 전북대학교',
          '롤 오버워치 게임 블리자드',
          '던전앤파이터 리니지 오버워치 롤',
          '메이플스토리 롤 페이커 리니지 게임 오버워치',
          '전북대학교 대학생 김순태교수 블록체인',
          '블록체인 연구실 빅데이터',
          '여자친구 사랑해 행복해 영원한 사랑',
          '남자친구 좋아해 너가좋아 여자친구',
          '남자친구 여자친구 사랑 행복'
          '메이플스토리 리그오브레전드 롤',
          '히오스 히어로즈오브스톰 스타크래프트 롤 리그오브레전드',
          '블리자드 오버워치 시공조아 스타크래프트 히오스',
          '전북대학교 학교 대학교 연구실',
          '여자친구 사랑 행복 영원한',
          '정우성 영화 전지현',
          '김사랑 영화 조인성 권상우',
          '정우성 전지현 배우 영화배우 영화 권상우',
          '영화 배우 영화배우 권상우 감독 영화감독',
          '영화관 심화영화 영화 영화감독',
          '조인성 눈물연기 연기대상 영화배우',
          '영화배우 연기대상 김사랑 전지현',
          '게임 스타크래프트 오버워치',
          '페이커 던전앤파이터 스타크래프트 메이플스토리 프로게이머',
          '스타크래프트 임요환 게임 페이커 롤챔스',
          '홍진호 폭풍저그 게임 임요환 롤챔스 페이커',
          '게임 홍진호 폭풍저그 테란 임요환 페이커',
          '게임 스타크래프트 오버워치 롤',
          '서든어택 롤 게임 스타크래프트',
          '롤 스타크래프트 홍진호 게임']


임의로 정의한 문장배열을 단어별로 정리합니다.

In [3]:
words = []

for text in corpus:
    for word in text.split(' '):
        words.append(word)

words = set(words)


단어의 목록입니다.

In [4]:
words

{'4차산업혁명',
 'AI',
 '감독',
 '게임',
 '권상우',
 '김사랑',
 '김순태교수',
 '남자친구',
 '너가좋아',
 '눈물연기',
 '대학교',
 '대학생',
 '던전앤파이터',
 '데이터',
 '데이터마이닝',
 '롤',
 '롤챔스',
 '리그오브레전드',
 '리니지',
 '메이플스토리',
 '배우',
 '보겸',
 '블록체인',
 '블리자드',
 '빅데이터',
 '사랑',
 '사랑해',
 '서든어택',
 '스타크래프트',
 '시공조아',
 '심화영화',
 '아프리카',
 '여자친구',
 '연구실',
 '연기대상',
 '영원한',
 '영화',
 '영화감독',
 '영화관',
 '영화배우',
 '예뻐',
 '오버워치',
 '인공지능',
 '임요환',
 '전북대학교',
 '전지현',
 '정우성',
 '조인성',
 '좋아해',
 '테란',
 '페이커',
 '폭풍저그',
 '프로게이머',
 '학교',
 '행복',
 '행복메이플스토리',
 '행복해',
 '홍진호',
 '히어로즈오브스톰',
 '히오스'}

word2int set을 정의하고 각 단어들마다 1씩 올려가며 숫자를 매깁니다. <br>
그리고 window size를 2로 설정해서 양옆의 단어와 짝을 이룬 벡터를 생성합니다.

In [5]:
word2int = {}

for i, word in enumerate(words):
    word2int[word] = i

sentences = []
for sentence in corpus:
    sentences.append(sentence.split())

WINDOW_SIZE = 2

data = []
for sentence in sentences:
    for idx, word in enumerate(sentence):
        for neighbor in sentence[max(idx - WINDOW_SIZE, 0): min(idx + WINDOW_SIZE, len(sentence)) + 1]:
            if neighbor != word:
                data.append([word, neighbor])


pandas를 import하고 데이터프레임을 2차원의 생성합니다.

In [6]:
import pandas as pd

df = pd.DataFrame(data, columns=['input', 'label'])

In [7]:
df.head(25)

Unnamed: 0,input,label
0,예뻐,너가좋아
1,예뻐,좋아해
2,너가좋아,예뻐
3,너가좋아,좋아해
4,너가좋아,사랑해
5,좋아해,예뻐
6,좋아해,너가좋아
7,좋아해,사랑해
8,사랑해,너가좋아
9,사랑해,좋아해


현재 벡터의 사이즈

In [7]:
df.shape


(396, 2)

각 단어들에 매겨진 고유값


In [8]:
word2int

{'4차산업혁명': 18,
 'AI': 2,
 '감독': 24,
 '게임': 28,
 '권상우': 23,
 '김사랑': 51,
 '김순태교수': 58,
 '남자친구': 11,
 '너가좋아': 40,
 '눈물연기': 56,
 '대학교': 26,
 '대학생': 5,
 '던전앤파이터': 50,
 '데이터': 25,
 '데이터마이닝': 21,
 '롤': 3,
 '롤챔스': 30,
 '리그오브레전드': 45,
 '리니지': 35,
 '메이플스토리': 39,
 '배우': 7,
 '보겸': 15,
 '블록체인': 22,
 '블리자드': 53,
 '빅데이터': 44,
 '사랑': 0,
 '사랑해': 14,
 '서든어택': 31,
 '스타크래프트': 41,
 '시공조아': 48,
 '심화영화': 43,
 '아프리카': 47,
 '여자친구': 55,
 '연구실': 13,
 '연기대상': 17,
 '영원한': 10,
 '영화': 49,
 '영화감독': 9,
 '영화관': 59,
 '영화배우': 42,
 '예뻐': 19,
 '오버워치': 8,
 '인공지능': 52,
 '임요환': 4,
 '전북대학교': 57,
 '전지현': 16,
 '정우성': 37,
 '조인성': 33,
 '좋아해': 34,
 '테란': 6,
 '페이커': 38,
 '폭풍저그': 46,
 '프로게이머': 36,
 '학교': 1,
 '행복': 32,
 '행복메이플스토리': 12,
 '행복해': 20,
 '홍진호': 27,
 '히어로즈오브스톰': 29,
 '히오스': 54}

In [12]:
import tensorflow as tf
import numpy as np

ONE_HOT_DIM = len(words)


# 큰숫자 (예를들어 35, 43 등)를 원핫 인코딩 시키는 함수.
# 35 -> (0,0,0,0,.....,1,0,0,0)
# 36 -> (0,0,0,0,.....,0,1,0,0)
def to_one_hot_encoding(data_point_index):
    one_hot_encoding = np.zeros(ONE_HOT_DIM)
    one_hot_encoding[data_point_index] = 1
    return one_hot_encoding


X = []  # 입력 배열입니다.
Y = []  # 타겟단어입니다.

for x, y in zip(df['input'], df['label']):
    X.append(to_one_hot_encoding(word2int[x]))
    Y.append(to_one_hot_encoding(word2int[y]))

# 넘파이 어레이로 변경
X_train = np.asarray(X)
Y_train = np.asarray(Y)

# 학습과정을 위한 placeholder 생성
x = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))
y_label = tf.placeholder(tf.float32, shape=(None, ONE_HOT_DIM))

# 임베딩 차원 = 2
EMBEDDING_DIM = 2

# 이 두개의 값은 각각 히든레이어의 변수가 됩니다.
W1 = tf.Variable(tf.random_normal([ONE_HOT_DIM, EMBEDDING_DIM]))
b1 = tf.Variable(tf.random_normal([1])) 
hidden_layer = tf.add(tf.matmul(x, W1), b1)

# 출력값
W2 = tf.Variable(tf.random_normal([EMBEDDING_DIM, ONE_HOT_DIM]))
b2 = tf.Variable(tf.random_normal([1]))
prediction = tf.nn.softmax(tf.add(tf.matmul(hidden_layer, W2), b2))

# 코스트합수 : 크로스 엔트로피
loss = tf.reduce_mean(-tf.reduce_sum(y_label * tf.log(prediction), axis=[1]))

# 학습과정
train_op = tf.train.GradientDescentOptimizer(0.03).minimize(loss)


In [13]:
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)

iteration = 30000
for i in range(iteration):
    sess.run(train_op, feed_dict={x: X_train, y_label: Y_train})
    if i % 3000 == 0:
        print('학습 '+str(i)+' 현재 코스트 : ', sess.run(loss, feed_dict={x: X_train, y_label: Y_train}))

학습 0 현재 코스트 :  8.261164


학습 3000 현재 코스트 :  3.7754612


학습 6000 현재 코스트 :  3.2940671


학습 9000 현재 코스트 :  2.973565


학습 12000 현재 코스트 :  2.807256


학습 15000 현재 코스트 :  2.6847632


학습 18000 현재 코스트 :  2.607463


학습 21000 현재 코스트 :  2.562067


학습 24000 현재 코스트 :  2.5294802


학습 27000 현재 코스트 :  2.5020528


In [14]:
# 2차원의 히든레이어 벡터에 저장된 값
vectors = sess.run(W1 + b1)
print(vectors)

[[ 1.6526104   0.21976887]
 [ 1.0076553  -2.2920887 ]
 [ 0.1660786  -2.1915896 ]
 [ 0.6893773   1.5020635 ]
 [-0.3311653   2.5610497 ]
 [ 0.57852435 -2.1122537 ]
 [-1.105024    2.1010907 ]
 [-3.2112558  -0.8140665 ]
 [ 1.204017    2.694388  ]
 [-2.00984     0.53412205]
 [ 2.2423663   0.24842922]
 [ 2.6371937  -0.04955615]
 [ 1.4328555   0.84131485]
 [ 0.37536994 -2.4422905 ]
 [ 3.0240202  -0.8032335 ]
 [-0.09732355  1.4532391 ]
 [-2.1855762  -0.7751728 ]
 [-2.2439198  -1.6307603 ]
 [ 1.9576694  -2.8473406 ]
 [ 2.578808   -0.7147277 ]
 [ 2.8815942  -0.26179272]
 [ 0.03481741 -2.4703236 ]
 [-0.13210075 -2.3498292 ]
 [-2.4359746  -0.88161457]
 [-1.9394548  -1.2802103 ]
 [ 0.19123672 -1.8667963 ]
 [ 0.5881223  -2.1268935 ]
 [ 0.0203377   2.9777083 ]
 [ 0.31575263  1.9988573 ]
 [ 1.1193954   1.8894702 ]
 [-0.8539281   3.4520493 ]
 [ 0.36964718  2.842315  ]
 [ 1.9847528   0.21730915]
 [-2.0025198  -0.12292494]
 [ 2.6156266  -0.83354414]
 [ 0.6441738   3.1958401 ]
 [ 1.4291228   1.6355855 ]
 

In [15]:
w2v_df = pd.DataFrame(vectors, columns = ['x1', 'x2'])
w2v_df['word'] = words
w2v_df = w2v_df[['word', 'x1', 'x2']]

In [16]:
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
# 한국어 폰트 설정

In [1]:
import matplotlib.pyplot as plt

# matplotlib을 이용한 시각화

fig, ax = plt.subplots()

for word, x1, x2 in zip(w2v_df['word'], w2v_df['x1'], w2v_df['x2']):
    ax.annotate(word, (x1, x2))

PADDING = 1.0
x_axis_min = np.amin(vectors, axis=0)[0] - PADDING
y_axis_min = np.amin(vectors, axis=0)[1] - PADDING
x_axis_max = np.amax(vectors, axis=0)[0] + PADDING
y_axis_max = np.amax(vectors, axis=0)[1] + PADDING

plt.xlim(x_axis_min, x_axis_max)
plt.ylim(y_axis_min, y_axis_max)
plt.rcParams["figure.figsize"] = (10, 10)

plt.show()


NameError: name 'w2v_df' is not defined

![image](https://user-images.githubusercontent.com/38183241/48307056-3efed080-e588-11e8-94be-38dde658ccc0.png)

