In [1]:
# coding: utf-8
import sys
sys.path.append('..')
import numpy as np
from common.util import most_similar, create_co_matrix, ppmi # 함수 임포트 - 유사어 검색, 동시발생 행렬 생성, PPMI 계산 함수
from dataset import ptb

# 윈도우 크기와 임베딩 벡터 차원 설정
window_size = 2 # 주변 단어의 범위 -2 ~ 2로 설정 (총 4개의 주변 단어)
wordvec_size = 100 # 각 단어를 표현할 임베딩 벡터 차원 수

# 학습 데이터 로드 및 전처리
corpus, word_to_id, id_to_word = ptb.load_data('train') # 말뭉치, 단어->ID 맵, ID->단어 맵 생성
vocab_size = len(word_to_id) # 전체 어휘 수 계산
print('동시발생 수 계산 ...')
C = create_co_matrix(corpus, vocab_size, window_size)
# 동시발생 행렬 생성 - 특정 단어가 등장했을 때 윈도우 내 어떤 단어가 얼마나 자주 등장했는지 기록
# 의미적 유사성이 높은 단어들은 주변에 비슷한 단어들이 등장한다 -> 통계 기반 아이디어
print('PPMI 계산 ...')
W = ppmi(C, verbose=True)
# 양의 상호정보량(Positive Pointwise Mutual Information) 행렬로 변환
# PMI는 두 단어가 실제로 같이 등장할 확률이 우연히 같이 등장할 확률보다 얼마나 높은지 측정
# 음수는 잘라내고 양수만 남김 -> 희소하고 노이즈 있는 데이터를 안정적으로 처리 가능

print('calculating SVD ...')
try:
    # truncated SVD (빠르다!) -> 차원 축소를 통해 단어 벡터 생성
    from sklearn.utils.extmath import randomized_svd
    U, S, V = randomized_svd(W, n_components=wordvec_size, n_iter=5,
                            random_state=None)
    # truncated SVD는 전체 SVD보다 계산량이 적고 빠르며, 필요한 주요 성분만 추출 가능
    # 단어 벡터로는 좌측 특이벡터 U의 일부 사용 (W ≈ U*S*V^T)
except ImportError: 
    # SVD (느리다)
    # sklearn이 설치되어 있지 않을 경우 numpy의 일반 SVD 수행
    U, S, V = np.linalg.svd(W) 

# 단어 벡터 생성 - U의 앞 wordvec_size 개 열만 사용 (차원 축소 결과)
word_vecs = U[:, :wordvec_size]

# 유사 단어 검색
querys = ['you', 'year', 'car', 'toyota']
for query in querys:
    most_similar(query, word_to_id, id_to_word, word_vecs, top=5)
    # 코사인 유사도를 이용해 가장 유사한 단어 top-5 출력
    # 의미적으로 비슷한 단어들이 비슷한 벡터로 표현되었는지 확인 가능

동시발생 수 계산 ...
PPMI 계산 ...


  pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)
  pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)


1.0% 완료
2.0% 완료
3.0% 완료
4.0% 완료
5.0% 완료
6.0% 완료
7.0% 완료
8.0% 완료
9.0% 완료
10.0% 완료
11.0% 완료
12.0% 완료
13.0% 완료
14.0% 완료
15.0% 완료
16.0% 완료
17.0% 완료
18.0% 완료
19.0% 완료
20.0% 완료
21.0% 완료
22.0% 완료
23.0% 완료
24.0% 완료
25.0% 완료
26.0% 완료
27.0% 완료
28.0% 완료
29.0% 완료
30.0% 완료
31.0% 완료
32.0% 완료
33.0% 완료
34.0% 완료
35.0% 완료
36.0% 완료
37.0% 완료
38.0% 완료
39.0% 완료
40.0% 완료
41.0% 완료
42.0% 완료
43.0% 완료
44.0% 완료
45.0% 완료
46.0% 완료
47.0% 완료
48.0% 완료
49.0% 완료
50.0% 완료
51.0% 완료
52.0% 완료
53.0% 완료
54.0% 완료
55.0% 완료
56.0% 완료
57.0% 완료
58.0% 완료
59.0% 완료
60.0% 완료
61.0% 완료
62.0% 완료
63.0% 완료
64.0% 완료
65.0% 완료
66.0% 완료
67.0% 완료
68.0% 완료
69.0% 완료
70.0% 완료
71.0% 완료
72.0% 완료
73.0% 완료
74.0% 완료
75.0% 완료
76.0% 완료
77.0% 완료
78.0% 완료
79.0% 완료
80.0% 완료
81.0% 완료
82.0% 완료
83.0% 완료
84.0% 완료
85.0% 완료
86.0% 완료
87.0% 완료
88.0% 완료
89.0% 완료
90.0% 완료
91.0% 완료
92.0% 완료
93.0% 완료
94.0% 완료
95.0% 완료
96.0% 완료
97.0% 완료
98.0% 완료
99.0% 완료
calculating SVD ...

[query] you
 i: 0.6935024261474609
 we: 0.6451544761657715
 do: 0.5487270951271057
 've: 0.515023