# Word Embedding

- **Word Embedding**은 단어를 고정된 차원의 백터로 변환하는 기술로, 단어 간의 의미적 유사성을 반영하도록 학습된 백터를 말한다.
- 이 기술은 자연어 처리에서 문장을 처리하고 이해하는 데 활용된다.
- 숫자로 표현된 단어 목록을 통해 감정을 추출하는 것도 가능하다.
- 연관성 있는 단어 들을 군집화하여 다찬원 공간에 백더토 나타낼 수 있으며, 이는 단어나 문장을 백터 공간에 매핑하는 과정이다.

**Embedding Matrix 예시**

*아래 표의 벡터 값들은 모두 기계 학습을 통해 학습된 결과이다.*  

| Dimension | Man (5391) | Woman (9853) | King (4914) | Queen (7157) | Apple (456) | Orange (6257) |
|-----------|------------|--------------|-------------|--------------|-------------|---------------|
| 성별      | -1         | 1            | -0.95       | 0.97         | 0.00        | 0.01          |
| 귀족      | 0.01       | 0.02         | 0.93        | 0.95         | -0.01       | 0.00          |
| 나이      | 0.03       | 0.02         | 0.7         | 0.69         | 0.03        | -0.02         |
| 음식      | 0.04       | 0.01         | 0.02        | 0.01         | 0.95        | 0.97          |

<br>

*아래는 전치된 표이다.*

| Word          | 성별   | 귀족   | 나이   | 음식   |
|---------------|--------|--------|--------|--------|
| Man (5391)    | -1.00  | 0.01   | 0.03   | 0.04   |
| Woman (9853)  | 1.00   | 0.02   | 0.02   | 0.01   |
| King (4914)   | -0.95  | 0.93   | 0.70   | 0.02   |
| Queen (7157)  | 0.97   | 0.95   | 0.69   | 0.01   |
| Apple (456)   | 0.00   | -0.01  | 0.03   | 0.95   |
| Orange (6257) | 0.01   | 0.00   | -0.02  | 0.97   |

- **의미적 유사성 반영**  
  - 단어를 고정된 크기의 실수 벡터로 표현하며, 비슷한 의미를 가진 단어는 벡터 공간에서 가깝게 위치한다.  
  - 예를 들어, "king"과 "queen"은 비슷한 맥락에서 자주 사용되므로 벡터 공간에서 가까운 위치에 배치된다.  

- **밀집 벡터(Dense Vector)**  
  - BoW, DTM, TF-IDF와 달리 Word Embedding은 저차원 밀집 벡터로 변환되며, 차원이 낮으면서도 의미적으로 풍부한 정보를 담는다.  
  - 벡터 차원은 보통 100 또는 300 정도로 제한된다.  

- **문맥 정보 반영**  
  - Word Embedding은 단어 주변의 단어들을 학습해 단어의 의미를 추론한다.  
  - 예를 들어, "bank"라는 단어가 "river"와 함께 나오면 "강둑"을, "money"와 함께 나오면 "은행"을 의미한다고 학습한다.  

- **학습 기반 벡터**  
  - Word Embedding은 대규모 텍스트 데이터에서 단어 간 연관성을 학습해 벡터를 생성한다.  
  - 반면, BoW나 TF-IDF는 단순한 규칙 기반 벡터화 방법이다.  

### 희소 표현(Sparse Representation) | 분산 표현(Distributed Representation)
- 원-핫 인코딩으로 얻은 원-핫 벡터는 단어의 인덱스 값만 1이고 나머지는 모두 0으로 표현된다.
- 이렇게 대부분의 값이 0인 벡터나 행렬을 사용하는 표현 방식을 희소 표현(sparse representation)이라고 한다.  
- 희소 표현은 단어 벡터 간 유의미한 유사성을 표현할 수 없다는 단점이 있다.
- 이를 해결하기 위해 단어의 의미를 다차원 공간에 벡터화하는 분산 표현(distributed representation)을 사용한다.
- 분산 표현으로 단어 간 의미적 유사성을 벡터화하는 작업을 워드 임베딩(embedding)이라고 하며, 이렇게 변환된 벡터를 임베딩 벡터(embedding vector)라고 한다.  
- **원-핫 인코딩 → 희소 표현**  
- **워드 임베딩 → 분산 표현**  

**분산 표현(Distributed Representation)**
- 분산 표현은 분포 가설(distributional hypothesis)에 기반한 방법이다.
- 이 가설은 "비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다"는 내용을 전제로 한다.
- 예를 들어, '강아지'라는 단어는 '귀엽다', '예쁘다', '애교' 등의 단어와 함께 자주 등장하며, 이를 벡터화하면 해당 단어들은 유사한 벡터값을 갖게 된다.
- 분산 표현은 단어의 의미를 여러 차원에 걸쳐 분산하여 표현한다.  
- 이 방식은 원-핫 벡터처럼 단어 집합 크기만큼의 차원이 필요하지 않으며, 상대적으로 저차원으로 줄어든다.
- 예를 들어, 단어 집합 크기가 10,000이고 '강아지'의 인덱스가 4라면, 원-핫 벡터는 다음과 같다:
  
- **강아지 = [0 0 0 0 1 0 0 ... 0]** (뒤에 9,995개의 0 포함)  
- 그러나 Word2Vec으로 임베딩된 벡터는 단어 집합 크기와 무관하며, 설정된 차원의 수만큼 실수값을 가진 벡터가 된다:  
- **강아지 = [0.2 0.3 0.5 0.7 0.2 ... 0.2]**  

**요약하면,**
- 희소 표현은 고차원에서 각 차원이 분리된 방식으로 단어를 표현하지만, 분산 표현은 저차원에서 단어의 의미를 여러 차원에 분산시켜 표현한다.
- 이를 통해 단어 벡터 간 유의미한 유사도를 계산할 수 있으며, 대표적인 학습 방법으로 Word2Vec이 사용된다.  

### Embedding Vector 시각화 wevi
https://ronxin.github.io/wevi/

### Word2Vec
- 2013년 구글에서 개발한 Word Embedding 방법
- 최초의 neural embedding model
- 매우 큰 corpus에서 자동 학습
    - 비지도 지도 학습 (자기 지도학습)이라 할 수 있음
    - 많은 데이터를 기반으로 label 값 유추하고 이를 지도학습에 사용
- ex) 
    - **이사금**께 충성을 맹세하였다.
    - **왕**께 충성을 맹세하였다.

**WordVec 훈련방식에 따른 구분**
1. CBOW : 주변 단어로 중심 단어를 예측
2. Skip-gram : 중심 단어로 주변 단어를 예측

##### CBOW (Continuous Bag of Words)  
- CBOW는 원-핫 벡터를 사용하지만, 이는 단순히 위치를 가리킬 뿐 vocabulary를 직접적으로 참조하지 않는다.  

**예시:**  

> The fat cat sat on the mat  

주어진 문장에서 'sat'이라는 단어를 예측하는 것이 CBOW의 주요 작업이다.  
- **중심 단어(center word):** 예측하려는 단어 ('sat')  
- **주변 단어(context word):** 예측에 사용되는 단어들  

중심 단어를 예측하기 위해 앞뒤 몇 개의 단어를 참고할지 결정하는 범위를 **윈도우(window)**라고 한다.  
예를 들어, 윈도우 크기가 2이고 중심 단어가 'sat'라면, 앞의 두 단어(fat, cat)와 뒤의 두 단어(on, the)를 입력으로 사용한다.  
윈도우 크기가 n일 경우, 참고하는 주변 단어의 개수는 총 2n이다. 윈도우를 옆으로 이동하며 학습 데이터를 생성하는 방법을 **슬라이딩 윈도우(sliding window)**라고 한다.  

![](https://wikidocs.net/images/page/22660/%EB%8B%A8%EC%96%B4.PNG)


**훈련 과정**

CBOW는 embedding 벡터를 학습하기 위한 구조를 갖는다. 초기에는 가중치가 임의의 값으로 설정되며, 역전파를 통해 최적화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG)

Word2Vec은 은닉층이 하나뿐인 얕은 신경망(shallow neural network) 구조를 사용한다.  
학습 대상이 되는 주요 가중치는 두 가지이다:  

1. **투사층(projection layer):**  
   - 활성화 함수가 없으며 룩업 테이블 연산을 담당한다.  
   - 입력층과 투사층 사이의 가중치 W는 V × M 행렬로 표현되며, 여기서 **V는 단어 집합의 크기, M은 벡터의 차원**이다.  
   - W 행렬의 각 행은 학습 후 단어의 M차원 임베딩 벡터로 간주된다.  
   - 예를 들어, 벡터 차원을 5로 설정하면 각 단어의 임베딩 벡터는 5차원이 된다.  

2. **출력층:**  
   - 투사층과 출력층 사이의 가중치 W'는 M × V 행렬로 표현된다.  
   - 이 두 행렬(W와 W')은 서로 독립적이며, 학습 전에는 랜덤 값으로 초기화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_3.PNG)


**예측 과정**
1. CBOW는 계산된 룩업 테이블의 평균을 구한 뒤, 출력층의 가중치 W'와 내적한다.  
2. 결과값은 **소프트맥스(softmax)** 활성화 함수에 입력되어, 중심 단어일 확률을 나타내는 예측값으로 변환된다.  
3. 출력된 예측값(스코어 벡터)은 실제 타겟 원-핫 벡터와 비교되며, **크로스 엔트로피(cross-entropy)** 함수로 손실값을 계산한다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_5.PNG)

손실 함수 식:  
$
cost(\hat{y}, y) = -\sum_{j=1}^{V} y_{j} \cdot log(\hat{y}_{j})
$  

여기서, $\hat{y}_{j}$는 예측 확률, $y_{j}$는 실제 값이며, V는 단어 집합의 크기를 의미한다.  


**학습 결과**  
- 역전파를 통해 가중치 W와 W'가 학습된다. 
- 학습이 완료되면 W 행렬의 각 행을 단어의 임베딩 벡터로 사용하거나, W와 W' 모두를 이용해 임베딩 벡터를 생성할 수 있다.  
- CBOW는 주변 단어를 기반으로 중심 단어를 예측하는 구조를 갖추고 있으며, 이를 통해 단어 간 의미적 관계를 효과적으로 학습할 수 있다.  

##### Skip-gram
- Skip-gram은 중심 단어에서 주변 단어를 예측한다.
- 윈도우 크기가 2일 때, 데이터셋은 다음과 같이 구성된다.

![](https://wikidocs.net/images/page/22660/skipgram_dataset.PNG)

![](https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG)

- 중심 단어에 대해서 주변 단어를 예측하므로 투사층에서 벡터들의 평균을 구하는 과정은 없다.
- 여러 논문에서 성능 비교를 진행했을 때 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.

In [27]:
# !pip install gensim

##### 영어 Word Embedding

- 데이터 취득 및 전처리

In [28]:
import gdown

url = "https://drive.google.com/uc?id=1TF1yAHF3qRINbXWFOajFjUCxUF64QZMX"
output = 'ted_en.xml'

gdown.download(url, output)

Downloading...
From (original): https://drive.google.com/uc?id=1TF1yAHF3qRINbXWFOajFjUCxUF64QZMX
From (redirected): https://drive.google.com/uc?id=1TF1yAHF3qRINbXWFOajFjUCxUF64QZMX&confirm=t&uuid=d436364f-0217-4722-b526-cafb31bc4be0
To: /Users/hwangjunho/Desktop/encore_skn11/07_nlp/03_word_embedding/ted_en.xml
100%|██████████| 74.5M/74.5M [00:05<00:00, 13.5MB/s]


'ted_en.xml'

In [29]:
from lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import  stopwords

In [4]:
# xml 데이터 처리
f = open('data/ted_en.xml', 'r', encoding='UTF-8')
xml = etree.parse(f)

contens = xml.xpath('//content/text()')
# contens[:5]

corpus = '\n'.join(contens)
print(len(corpus))

# 정규식을 이용해 (Laughter), (Applause) 등 키워드 제거 
corpus = re.sub(r'\([^)]*\)', ' ', corpus)
print(len(corpus))

NameError: name 'etree' is not defined

In [31]:
# 데이터 전처리(토큰화/대소문자 정규화/불용어 처리)
sentences = sent_tokenize(corpus)

preprocessed_sentences = []
en_stopwords = stopwords.words('english')

for sentence in sentences:
    sentence = sentence.lower()
    sentence = re.sub(r'[^a-z0-9]', ' ', sentence)  # 영소문자, 숫자 외 제거
    tokens = word_tokenize(sentence)
    tokens = [token for token in tokens if token not in en_stopwords]
    preprocessed_sentences.append(tokens)
    
preprocessed_sentences[:5]

[['two', 'reasons', 'companies', 'fail', 'new'],
 ['real',
  'real',
  'solution',
  'quality',
  'growth',
  'figuring',
  'balance',
  'two',
  'activities',
  'exploration',
  'exploitation'],
 ['necessary', 'much', 'good', 'thing'],
 ['consider', 'facit'],
 ['actually', 'old', 'enough', 'remember']]

- Embedding 모델 학습

In [41]:
from gensim.models import Word2Vec

model = Word2Vec(
    sentences=preprocessed_sentences,   # corpus
    vector_size=100,                    # 임베딩 백터 차원
    sg=0,                               # 학습 알고리즘 선택 (0=CBOW, 1=Skip-gram)
    window=5,                           # 주변 단어 수 (앞뒤로 n개 고려)
    min_count=5                         # 최소 빈도 (빈도 n개 미만은 제거)
)

model.wv.vectors.shape

(21462, 100)

In [42]:
import pandas as pd

pd.DataFrame(model.wv.vectors, index=model.wv.index_to_key).head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
one,-0.914086,-0.204251,-0.38088,0.058095,0.229372,-0.389345,0.483556,0.307135,-2.527172,-0.141958,...,1.581232,0.164036,0.166712,0.09014,0.089279,-1.495349,-0.685863,-0.371761,1.203111,1.023901
people,-1.848204,0.753278,0.260362,0.167711,0.211991,-1.006839,-0.369037,0.640738,-1.56316,-3.098949,...,1.184745,0.327157,-1.346133,-1.019564,-0.419322,0.442602,-1.415766,0.046096,-1.777226,1.408248
like,-0.786124,-0.449738,-0.985547,-1.094685,0.813575,0.102603,0.004319,0.970968,-0.679625,0.994071,...,-0.479482,0.633164,-0.161869,-0.18217,0.289688,0.529945,0.941778,-0.048587,0.589729,-0.43822
know,-0.549405,0.093077,0.063542,-0.20711,0.028474,0.148581,-0.173005,-0.306692,-0.371393,-1.438027,...,0.509621,-0.17639,-0.405853,-0.126667,-0.368884,0.593899,0.379817,-0.573419,-0.20115,-0.183736
going,-1.030696,0.844354,0.15433,-0.272247,0.733344,0.320927,-1.033069,0.660146,-1.020816,-1.055034,...,1.530719,-0.819782,-0.303733,1.156745,-0.876845,0.630081,0.58737,0.018001,-0.398856,0.122826
think,-0.228573,0.328053,1.041662,-0.44936,0.019508,-0.551191,0.257614,0.10893,-0.932341,-1.426811,...,1.553141,0.54426,-0.293628,0.612608,-0.001745,-0.905314,0.072393,-0.917478,-0.14224,-0.621247
see,-0.145806,0.105437,0.036838,-0.992837,-0.589101,-0.443678,-0.600631,0.361721,-1.688291,0.653416,...,0.298391,0.786892,0.068649,1.142021,0.605712,0.189012,1.235284,-0.923115,0.199129,-0.423823
would,0.596396,0.673848,0.80001,-0.552507,1.690173,1.070844,0.239543,-0.197444,-1.581725,-0.085371,...,0.20799,-0.260511,-0.387253,1.017889,0.833557,1.416588,-0.079498,-1.041961,-1.080885,-1.457938
really,-1.694257,-0.481778,0.698152,0.481112,0.735295,-0.443672,0.568155,0.777686,-0.549509,-1.517366,...,1.341535,-0.040219,0.553409,-0.073622,0.107024,-0.608768,-0.831495,-0.742789,-0.342267,0.155033
get,-2.373685,-1.33546,-0.197004,-0.494807,-0.185642,-0.780262,-0.838576,0.347171,-0.353197,-1.307048,...,-0.21835,-0.401838,-0.632478,0.344636,0.178524,-0.20043,0.559121,0.006409,-0.582165,0.44687


In [43]:
# 학습된 임베딩 모델 저장
model.wv.save_word2vec_format('ted_en_w2v')

In [44]:
# 임베딩 모델 로드
from gensim.models import KeyedVectors

load_model = KeyedVectors.load_word2vec_format('ted_en_w2v')

- 유사도 계산

In [45]:
model.wv.most_similar('man')
# model.wv.most_similar('abracadabra')    # 임베딩 백터에 없는 단어로 조회 시 keyerroe 발생

[('woman', 0.9002120494842529),
 ('girl', 0.8073726892471313),
 ('daughter', 0.7850196957588196),
 ('lady', 0.7774903178215027),
 ('boy', 0.7676994800567627),
 ('father', 0.7594157457351685),
 ('son', 0.7582147717475891),
 ('grandfather', 0.7551878690719604),
 ('uncle', 0.7434059977531433),
 ('brother', 0.7430528998374939)]

In [46]:
load_model.most_similar('man')  # Word2Vec = KeyedVectors

[('woman', 0.9002120494842529),
 ('girl', 0.8073726892471313),
 ('daughter', 0.7850196957588196),
 ('lady', 0.7774903178215027),
 ('boy', 0.7676994800567627),
 ('father', 0.7594157457351685),
 ('son', 0.7582147717475891),
 ('grandfather', 0.7551878690719604),
 ('uncle', 0.7434059977531433),
 ('brother', 0.7430528998374939)]

In [20]:
model.wv.similarity('man', 'husband')

0.69472754

In [26]:
model.wv['man']

array([-0.09458592, -0.06932197,  0.6821026 ,  2.1911535 ,  0.08234319,
        0.13805117, -0.7158965 ,  1.9557717 , -1.0601429 , -1.0191189 ,
       -0.2426851 ,  0.56587595,  0.16075015,  0.7761344 ,  0.6522487 ,
       -0.18680926,  0.45477474,  0.2313279 , -1.5839839 ,  0.25531113,
        0.35160244,  0.79288924,  0.41963935, -0.46848705,  0.46246758,
       -0.0569647 , -1.0353473 , -1.0093323 , -0.13795634,  1.0061541 ,
       -1.211307  , -1.1859783 ,  0.28122792, -1.2304024 , -0.19725353,
        1.2616699 , -0.01559303,  0.03619621,  0.99662787, -0.5510639 ,
        1.0439384 , -0.06821732,  0.196391  ,  0.5410864 ,  2.0331848 ,
       -0.35567725, -0.56382746,  0.98821443,  0.6639742 , -0.80643094,
        0.4498441 ,  0.08045097,  0.08985835, -0.23428391,  0.4727909 ,
        0.88158184,  0.14595293,  0.5243437 , -0.32305765,  0.17023395,
       -0.42754477, -0.7991413 , -0.76982796,  1.07764   , -1.3023582 ,
        0.87796307, -0.09452216,  0.15141031,  1.027842  ,  1.00

- 임베딩 시각화

https://projector.tensorflow.org/

- embedding vector(tensor) 파일 (.tsv)
- metadat 파일 (.tsv)

In [47]:
!python -m gensim.scripts.word2vec2tensor --input ted_en_w2v --output ted_en_w2v

2025-04-07 16:12:10,123 - word2vec2tensor - INFO - running /opt/anaconda3/envs/pystudy_env/lib/python3.12/site-packages/gensim/scripts/word2vec2tensor.py --input ted_en_w2v --output ted_en_w2v
2025-04-07 16:12:10,123 - keyedvectors - INFO - loading projection weights from ted_en_w2v
2025-04-07 16:12:10,788 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (21462, 100) matrix of type float32 from ted_en_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-07T16:12:10.769420', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 12:55:12) [Clang 14.0.6 ]', 'platform': 'macOS-15.4-arm64-arm-64bit', 'event': 'load_word2vec_format'}
2025-04-07 16:12:11,465 - word2vec2tensor - INFO - 2D tensor file saved to ted_en_w2v_tensor.tsv
2025-04-07 16:12:11,466 - word2vec2tensor - INFO - Tensor metadata file saved to ted_en_w2v_metadata.tsv
2025-04-07 16:12:11,466 - word2vec2tensor - INFO - finished running word2vec2tensor.py


### 한국어 Word Embedding
- NSMC (Naver Sentiment Movie Corpus)


In [48]:
import numpy as np
import pandas as pd
import urllib.request
from  konlpy.tag import Okt

In [49]:
# 데이터 다운로드
urllib.request.urlretrieve(
    "https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt",
    filename="naver_movie_ratings.txt"
)

('naver_movie_ratings.txt', <http.client.HTTPMessage at 0x3320d86e0>)

In [50]:
# 데이터 프레임 생성
rating_df = pd.read_csv('naver_movie_ratings.txt' , sep= '\t')

In [54]:
display(rating_df.isnull().sum())

rating_df = rating_df.dropna(how='any')

id          0
document    8
label       0
dtype: int64

In [58]:
rating_df['document'][200:300]

200    많은 생각을 할 수 있는 영화~ 시간여행류의 스토리를 좋아하는 사람이라면 빠트릴 수...
201    고소한 19 정말 재미있게 잘 보고 있습니다^^ 방송만 보면 털털하고 인간적이신 것...
202                                                  가연세
203                         goodgoodgoodgoodgoodgoodgood
204                                           이물감. 시 같았다
                             ...                        
295                                   박력넘치는 스턴트 액션 평작이다!
296                                      엄청 재미있다 명작이다 ~~
297    나는 하정우랑 개그코드가 맞나보다 엄청 재밌게봤네요 특히 단발의사샘 장면에서 계속 ...
298                                                적당 ㅎㅎ
299                                    배경이 이쁘고 캐릭터도 귀엽네~
Name: document, Length: 100, dtype: object

In [61]:
# 한글이 아닌 데이터 제거
rating_df['document'] = rating_df['document'].replace(r'[^0-9가-힣ㄱ-ㅎㅏ-ㅣ\s]', '', regex=True)

In [62]:
# 전처리
from tqdm import tqdm   # 진행도 시각화

okt = Okt()
ko_stopwords = ['은', '는', '이', '가', '을', '를', '와', '과', '들', '도', '부터', '까지', '에', '나', '너', '그', '걔', '얘']

preprocessed_data = []

for sentence in tqdm(rating_df['document']):
    tokens = okt.morphs(sentence, stem=True)
    tokens = [token for token in tokens if token not in ko_stopwords]
    preprocessed_data.append(tokens)

100%|██████████| 199992/199992 [05:33<00:00, 599.22it/s]


In [63]:
model = Word2Vec(
    sentences=preprocessed_data,   # corpus
    vector_size=100,               # 임베딩 백터 차원
    sg=0,                          # 학습 알고리즘 선택 (0=CBOW, 1=Skip-gram)
    window=5,                      # 주변 단어 수 (앞뒤로 n개 고려)
    min_count=5                    # 최소 빈도 (빈도 n개 미만은 제거)
)

model.wv.vectors.shape

(16841, 100)

In [64]:
model.wv.most_similar('극장')

[('영화관', 0.9346491694450378),
 ('케이블', 0.7912479043006897),
 ('틀어주다', 0.7865746021270752),
 ('학교', 0.7728095650672913),
 ('티비', 0.7598228454589844),
 ('영화제', 0.726556658744812),
 ('방금', 0.703385591506958),
 ('개봉관', 0.6962360739707947),
 ('투니버스', 0.6727065443992615),
 ('토요명화', 0.6688910126686096)]

In [67]:
model.wv.similarity('김혜수', '전지현')

0.76849544

In [68]:
# 모델 저장
model.wv.save_word2vec_format('naver_movie_ratings_w2v')

In [69]:
!python -m gensim.scripts.word2vec2tensor --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v

2025-04-07 17:10:35,621 - word2vec2tensor - INFO - running /opt/anaconda3/envs/pystudy_env/lib/python3.12/site-packages/gensim/scripts/word2vec2tensor.py --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v
2025-04-07 17:10:35,622 - keyedvectors - INFO - loading projection weights from naver_movie_ratings_w2v
2025-04-07 17:10:36,154 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (16841, 100) matrix of type float32 from naver_movie_ratings_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-07T17:10:36.134114', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 12:55:12) [Clang 14.0.6 ]', 'platform': 'macOS-15.4-arm64-arm-64bit', 'event': 'load_word2vec_format'}
2025-04-07 17:10:36,677 - word2vec2tensor - INFO - 2D tensor file saved to naver_movie_ratings_w2v_tensor.tsv
2025-04-07 17:10:36,678 - word2vec2tensor - INFO - Tensor metadata file saved to naver_movie_ratings_w2v_metadata.tsv
2025-04-07 17:10:36,678 - 

- 사전 훈련된 임베딩

In [71]:
url = "https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c"
output = "GoogleNews_vecs.bins.gz"

gdown.download(url, output)

Downloading...
From (original): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c
From (redirected): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c&confirm=t&uuid=eed5fb67-19e2-46a3-ada1-9ffc6ae46169
To: /Users/hwangjunho/Desktop/encore_skn11/07_nlp/03_word_embedding/GoogleNews_vecs.bins.gz
100%|██████████| 1.65G/1.65G [08:11<00:00, 3.35MB/s] 


'GoogleNews_vecs.bins.gz'

In [74]:
google_news_wv = KeyedVectors.load_word2vec_format('GoogleNews_vecs.bins.gz', binary=True)
google_news_wv.vectors.shape

(3000000, 300)

In [75]:
google_news_wv.similarity('king', 'man')

0.2294267

In [76]:
google_news_wv.most_similar('king')

[('kings', 0.7138046622276306),
 ('queen', 0.6510956287384033),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204219460487366),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864824056625366),
 ('ruler', 0.5797566771507263),
 ('princes', 0.5646552443504333),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422105193138123)]

In [77]:
google_news_wv.n_similarity(['king', 'queen'], ['man', 'woman'])

0.24791394

In [78]:
google_news_wv.similar_by_word('king')

[('kings', 0.7138046622276306),
 ('queen', 0.6510956287384033),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204219460487366),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864824056625366),
 ('ruler', 0.5797566771507263),
 ('princes', 0.5646552443504333),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422105193138123)]

In [80]:
google_news_wv.has_index_for('ㅋㅋㅋㅋㅋ')

False