In [None]:
import os
import numpy as np
# 거리를 계산할 목적
from scipy.spatial import distance

In [None]:
# IMDB 원본 데이터 읽기
fname='./glove.6B/glove.6B.100d.txt'
f=open(fname,encoding='utf8')

In [None]:
# 내용을 살필 목적으로 첫 번째 단어만 출력
# for문의 첫 반복에서 break 하므로 첫 요소만 출력함.
for line in f: 
    print(type(line))
    print(line)
    break
# 맨 앞에 the 가 있고 이후에 100개의 실수가 출력됨 ==> the 는 100차원 벡터로 표현되었음    

In [None]:
# 사전 구축(딕셔너리 자료구조로 표현)
dictionary={}
for line in f:
    li=line.split()
    # 단어에 해당하는 맨 앞 요소를 word 객체에 저장
    word=li[0]
    # 나머지를 실수로 변환해 vector 객체에 저장
    vector=np.asarray(li[1:],dtype='float32')
    # 키: word, 값: vector 로 하는 자료쌍을 사전에 저장
    dictionary[word]=vector

In [None]:
# 가장 가까운 단어를 찾아주는 함수
# vector와 거리가 가까운 순으로 정렬된 딕셔너리의 키를 반환
def find_closest_words(vector):  # 100차원 벡터인 vector를 매개변수로 받음.
    return sorted(dictionary.keys(), key=lambda w: distance.euclidean(dictionary[w],vector))

In [None]:
# 가까운 단어 5개 찾기
# 자기 자신을 빼고 출력하려면 [1:5] 로 적용하면 됨.
print(find_closest_words(dictionary['movie'])[:5])
print(find_closest_words(dictionary['school'])[:5])
print(find_closest_words(dictionary['oak'])[1:5])

In [None]:
# 단어 추론
# 서울과 코리아의 관계는 마드리드와 스페인의 관계
print(find_closest_words(dictionary["seoul"]-dictionary["korea"]+dictionary["spain"])[:5])
print(find_closest_words(dictionary["animal"]-dictionary["lion"]+dictionary["oak"])[:5])
print(find_closest_words(dictionary["queen"]-dictionary["king"]+dictionary["actress"])[:5])

In [None]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

In [None]:
# 단어가 임베딩공간에 분포하는 영상을 시각화
# tsne를 이용하여 2차원 공간으로 축소하고 시각화
# TSNE : 원래 데이터분포를 최대한 유지하면서 저차원으로 변환 목적

# n_components=2 : 2차원으로 축소하라는 뜻
tsne=TSNE(n_components=2,random_state=0)
words=list(dictionary.keys())
vectors=[dictionary[word] for word in words]
# 학습에 참여할 단어를 100개로 제한
p2=tsne.fit_transform(vectors[:100])
plt.scatter(p2[:,0],p2[:,1])

for label,x,y in zip(words,p2[:,0],p2[:,1]):
    plt.annotate(label,xy=(x,y))