In [1]:
# 단어를 고차원 벡터로 표현하는 기술
# Glove(Global Vectors for Word Representation) 사전 학습된 단어 벡터
# 단어간의 의미적 유사도 측정(Semantic Similarity)
# 벡터 공간에서 단어관계분석(King - man + woman ~~ Queen)

In [2]:
# 라이브러리 gensim
# 사전학습모델 로드 Glove wiki gigaword -50
# 단어벡터 추출 및 기본 정보 확인
# 단어 간 유사도 계산
# 벡터 연산을 통한 의미관계 분석
# 문장 수준의 유사도 계산

In [3]:
# 과거 : cat = [0,0,0,0,0,1,0,0,0,0] (원핫인코딩)
# 단어간의 관계정보가 전혀 없음

# 현재 cat [0.2, 0.4, .... 0.6] (50차원 벡터)
# 차원 각각이 단어의 의미적 특성을 인코딩

In [5]:
import numpy as np
import matplotlib.pyplot as plt
# 4차원 임베딩 공간
word_vectors = {
    "king": np.array([0.9, 0.1, 0.2, 0.8]),
    "queen": np.array([0.8, 0.2, 0.3, 0.7]),
    "man": np.array([0.5, 0.8, 0.1, 0.3]),
    "woman": np.array([0.4, 0.9, 0.2, 0.2]),
}

# 각 차원이 의미있는 특성 인코딩
for word, vec in word_vectors.items():
    print(f"{word}: {vec}")
# 의미적으로 가까운 단어들의 벡터도 가깝다

king: [0.9 0.1 0.2 0.8]
queen: [0.8 0.2 0.3 0.7]
man: [0.5 0.8 0.1 0.3]
woman: [0.4 0.9 0.2 0.2]


In [7]:
# Count-based 방법(기존)
# cat dog가 함께 나타나는 횟수를 카운트

#Prediction-based  word2vec
# cat 주변단어로부터 dog를 예측하도록 학습

# 이 두가지 방법을 결합한게 Glove   Count통계 + 벡터학습의 최적화 결과

In [9]:
# 2. GloVe 원리 이해: 공기 행렬과 임베딩 학습
import numpy as np

# 간단한 코퍼스: "king is man" "queen is woman"
# 공기 행렬 (윈도우 크기 2)
cooccurrence_matrix = np.array([
    # king queen man woman is
    [0,   2,    1,   0,   2],  # king
    [2,   0,    0,   1,   2],  # queen
    [1,   0,    0,   2,   1],  # man
    [0,   1,    2,   0,   1],  # woman
    [2,   2,    1,   1,   0],  # is
], dtype=float)

words = ["king", "queen", "man", "woman", "is"]

print("=" * 60)
print("단어 행렬 (Co-occurrence Matrix)")
print("=" * 60)
print("       " + "  ".join(f"{w:6}" for w in words))
for i, word in enumerate(words):
    row_str = "  ".join(f"{int(cooccurrence_matrix[i][j]):6}" for j in range(len(words)))
    print(f"{word:6} {row_str}")

print("\n의미:")
print("- king과 queen이 자주 함께 나타남 (2회)")
print("- man과 woman도 자주 함께 나타남 (2회)")
print("- 모든 단어가 'is'와 함께 나타남")

단어 행렬 (Co-occurrence Matrix)
       king    queen   man     woman   is    
king        0       2       1       0       2
queen       2       0       0       1       2
man         1       0       0       2       1
woman       0       1       2       0       1
is          2       2       1       1       0

의미:
- king과 queen이 자주 함께 나타남 (2회)
- man과 woman도 자주 함께 나타남 (2회)
- 모든 단어가 'is'와 함께 나타남


In [14]:
import gensim.downloader as api
import numpy as np
# Glove 모델 
wv = api.load("glove-wiki-gigaword-50")

In [15]:
test_word = "king"
vec = wv[test_word]
print(f"단어 '{test_word}'의 벡터 표현 (50차원):\n{vec}")
print(f"벡터 차원 수: {len(vec)}")
print(f"단어 집합 크기: {len(wv.index_to_key)}")
# 단어 간 유사도 계

단어 'king'의 벡터 표현 (50차원):
[ 0.50451   0.68607  -0.59517  -0.022801  0.60046  -0.13498  -0.08813
  0.47377  -0.61798  -0.31012  -0.076666  1.493    -0.034189 -0.98173
  0.68229   0.81722  -0.51874  -0.31503  -0.55809   0.66421   0.1961
 -0.13495  -0.11476  -0.30344   0.41177  -2.223    -1.0756   -1.0783
 -0.34354   0.33505   1.9927   -0.04234  -0.64319   0.71125   0.49159
  0.16754   0.34344  -0.25663  -0.8523    0.1661    0.40102   1.1685
 -1.0137   -0.21585  -0.15155   0.78321  -0.91241  -1.6106   -0.64426
 -0.51042 ]
벡터 차원 수: 50
단어 집합 크기: 400000
