# Word Embedding

- **Word Embedding**은 단어를 고정된 차원의 벡터로 변환하는 기술로, 단어 간의 의미적 유사성을 반영하도록 학습된 벡터를 말한다.
- 이 기술은 자연어 처리에서 문장을 처리하고 이해하는 데 활용된다.
- 숫자로 표현된 단어 목록을 통해 감정을 추출하는 것도 가능하다.
- 연관성 있는 단어들을 군집화하여 다차원 공간에 벡터로 나타낼 수 있으며, 이는 단어나 문장을 벡터 공간에 매핑하는 과정이다.

**Embedding Matrix 예시**

*아래 표의 벡터 값들은 모두 기계 학습을 통해 학습된 결과이다.*  

| Dimension | Man (5391) | Woman (9853) | King (4914) | Queen (7157) | Apple (456) | Orange (6257) |
|-----------|------------|--------------|-------------|--------------|-------------|---------------|
| 성별      | -1         | 1            | -0.95       | 0.97         | 0.00        | 0.01          |
| 귀족      | 0.01       | 0.02         | 0.93        | 0.95         | -0.01       | 0.00          |
| 나이      | 0.03       | 0.02         | 0.7         | 0.69         | 0.03        | -0.02         |
| 음식      | 0.04       | 0.01         | 0.02        | 0.01         | 0.95        | 0.97          |

<br>

*아래는 전치된 표이다.*

| Word          | 성별   | 귀족   | 나이   | 음식   |
|---------------|--------|--------|--------|--------|
| Man (5391)    | -1.00  | 0.01   | 0.03   | 0.04   |
| Woman (9853)  | 1.00   | 0.02   | 0.02   | 0.01   |
| King (4914)   | -0.95  | 0.93   | 0.70   | 0.02   |
| Queen (7157)  | 0.97   | 0.95   | 0.69   | 0.01   |
| Apple (456)   | 0.00   | -0.01  | 0.03   | 0.95   |
| Orange (6257) | 0.01   | 0.00   | -0.02  | 0.97   |

- **의미적 유사성 반영**  
  - 단어를 고정된 크기의 실수 벡터로 표현하며, 비슷한 의미를 가진 단어는 벡터 공간에서 가깝게 위치한다.  
  - 예를 들어, "king"과 "queen"은 비슷한 맥락에서 자주 사용되므로 벡터 공간에서 가까운 위치에 배치된다.  

- **밀집 벡터(Dense Vector)**  
  - BoW, DTM, TF-IDF와 달리 Word Embedding은 저차원 밀집 벡터로 변환되며, 차원이 낮으면서도 의미적으로 풍부한 정보를 담는다.  
  - 벡터 차원은 보통 100 또는 300 정도로 제한된다.  

- **문맥 정보 반영**  
  - Word Embedding은 단어 주변의 단어들을 학습해 단어의 의미를 추론한다.  
  - 예를 들어, "bank"라는 단어가 "river"와 함께 나오면 "강둑"을, "money"와 함께 나오면 "은행"을 의미한다고 학습한다.  

- **학습 기반 벡터**  
  - Word Embedding은 대규모 텍스트 데이터에서 단어 간 연관성을 학습해 벡터를 생성한다.  
  - 반면, BoW나 TF-IDF는 단순한 규칙 기반 벡터화 방법이다.  

### 희소 표현(Sparse Representation) | 분산 표현(Distributed Representation)
- 원-핫 인코딩으로 얻은 원-핫 벡터는 단어의 인덱스 값만 1이고 나머지는 모두 0으로 표현된다.
- 이렇게 대부분의 값이 0인 벡터나 행렬을 사용하는 표현 방식을 희소 표현(sparse representation)이라고 한다.  
- 희소 표현은 단어 벡터 간 유의미한 유사성을 표현할 수 없다는 단점이 있다.
- 이를 해결하기 위해 단어의 의미를 다차원 공간에 벡터화하는 분산 표현(distributed representation)을 사용한다.
- 분산 표현으로 단어 간 의미적 유사성을 벡터화하는 작업을 워드 임베딩(embedding)이라고 하며, 이렇게 변환된 벡터를 임베딩 벡터(embedding vector)라고 한다.  
- **원-핫 인코딩 → 희소 표현**  
- **워드 임베딩 → 분산 표현**  

**분산 표현(Distributed Representation)**
- 분산 표현은 분포 가설(distributional hypothesis)에 기반한 방법이다.
- 이 가설은 "비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다"는 내용을 전제로 한다.
- 예를 들어, '강아지'라는 단어는 '귀엽다', '예쁘다', '애교' 등의 단어와 함께 자주 등장하며, 이를 벡터화하면 해당 단어들은 유사한 벡터값을 갖게 된다.
- 분산 표현은 단어의 의미를 여러 차원에 걸쳐 분산하여 표현한다.  
- 이 방식은 원-핫 벡터처럼 단어 집합 크기만큼의 차원이 필요하지 않으며, 상대적으로 저차원으로 줄어든다.
- 예를 들어, 단어 집합 크기가 10,000이고 '강아지'의 인덱스가 4라면, 원-핫 벡터는 다음과 같다:
  
- **강아지 = [0 0 0 0 1 0 0 ... 0]** (뒤에 9,995개의 0 포함)  
- 그러나 Word2Vec으로 임베딩된 벡터는 단어 집합 크기와 무관하며, 설정된 차원의 수만큼 실수값을 가진 벡터가 된다:  
- **강아지 = [0.2 0.3 0.5 0.7 0.2 ... 0.2]**  

**요약하면,**
- 희소 표현은 고차원에서 각 차원이 분리된 방식으로 단어를 표현하지만, 분산 표현은 저차원에서 단어의 의미를 여러 차원에 분산시켜 표현한다.
- 이를 통해 단어 벡터 간 유의미한 유사도를 계산할 수 있으며, 대표적인 학습 방법으로 Word2Vec이 사용된다.  

### Embedding Vector 시각화 wevi
https://ronxin.github.io/wevi/

### Word2Vec
- 2013년 구글에서 개발한 Word Embedding 방법
- 최초의 neural embedding model
- 매우 큰 corpus에서 자동 학습
    - 비지도 지도 학습 (자기 지도학습)이라 할 수 있음
    - 많은 데이터를 기반으로 label 값 유추하고 이를 지도학습에 사용
- ex) 
    - **이사금**께 충성을 맹세하였다.
    - **왕**께 충성을 맹세하였다.

**WordVec 훈련방식에 따른 구분**
1. CBOW : 주변 단어로 중심 단어를 예측
2. Skip-gram : 중심 단어로 주변 단어를 예측

##### CBOW (Continuous Bag of Words)  
- CBOW는 원-핫 벡터를 사용하지만, 이는 단순히 위치를 가리킬 뿐 vocabulary를 직접적으로 참조하지 않는다.  

**예시:**  

> The fat cat sat on the mat  

주어진 문장에서 'sat'이라는 단어를 예측하는 것이 CBOW의 주요 작업이다.  
- **중심 단어(center word):** 예측하려는 단어 ('sat')  
- **주변 단어(context word):** 예측에 사용되는 단어들  

중심 단어를 예측하기 위해 앞뒤 몇 개의 단어를 참고할지 결정하는 범위를 **윈도우(window)**라고 한다.  
예를 들어, 윈도우 크기가 2이고 중심 단어가 'sat'라면, 앞의 두 단어(fat, cat)와 뒤의 두 단어(on, the)를 입력으로 사용한다.  
윈도우 크기가 n일 경우, 참고하는 주변 단어의 개수는 총 2n이다. 윈도우를 옆으로 이동하며 학습 데이터를 생성하는 방법을 **슬라이딩 윈도우(sliding window)**라고 한다.  

![](https://wikidocs.net/images/page/22660/%EB%8B%A8%EC%96%B4.PNG)


**훈련 과정**

CBOW는 embedding 벡터를 학습하기 위한 구조를 갖는다. 초기에는 가중치가 임의의 값으로 설정되며, 역전파를 통해 최적화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG)

Word2Vec은 은닉층이 하나뿐인 얕은 신경망(shallow neural network) 구조를 사용한다.  
학습 대상이 되는 주요 가중치는 두 가지이다:  

1. **투사층(projection layer):**  
   - 활성화 함수가 없으며 룩업 테이블 연산을 담당한다.  
   - 입력층과 투사층 사이의 가중치 W는 V × M 행렬로 표현되며, 여기서 **V는 단어 집합의 크기, M은 벡터의 차원**이다.  
   - W 행렬의 각 행은 학습 후 단어의 M차원 임베딩 벡터로 간주된다.  
   - 예를 들어, 벡터 차원을 5로 설정하면 각 단어의 임베딩 벡터는 5차원이 된다.  

2. **출력층:**  
   - 투사층과 출력층 사이의 가중치 W'는 M × V 행렬로 표현된다.  
   - 이 두 행렬(W와 W')은 서로 독립적이며, 학습 전에는 랜덤 값으로 초기화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_3.PNG)


**예측 과정**
1. CBOW는 계산된 룩업 테이블의 평균을 구한 뒤, 출력층의 가중치 W'와 내적한다.  
2. 결과값은 **소프트맥스(softmax)** 활성화 함수에 입력되어, 중심 단어일 확률을 나타내는 예측값으로 변환된다.  
3. 출력된 예측값(스코어 벡터)은 실제 타겟 원-핫 벡터와 비교되며, **크로스 엔트로피(cross-entropy)** 함수로 손실값을 계산한다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_5.PNG)

손실 함수 식:  
$
cost(\hat{y}, y) = -\sum_{j=1}^{V} y_{j} \cdot log(\hat{y}_{j})
$  

여기서, $\hat{y}_{j}$는 예측 확률, $y_{j}$는 실제 값이며, V는 단어 집합의 크기를 의미한다.  


**학습 결과**  
- 역전파를 통해 가중치 W와 W'가 학습된다. 
- 학습이 완료되면 W 행렬의 각 행을 단어의 임베딩 벡터로 사용하거나, W와 W' 모두를 이용해 임베딩 벡터를 생성할 수 있다.  
- CBOW는 주변 단어를 기반으로 중심 단어를 예측하는 구조를 갖추고 있으며, 이를 통해 단어 간 의미적 관계를 효과적으로 학습할 수 있다.  

##### Skip-gram
- Skip-gram은 중심 단어에서 주변 단어를 예측한다.
- 윈도우 크기가 2일 때, 데이터셋은 다음과 같이 구성된다.

![](https://wikidocs.net/images/page/22660/skipgram_dataset.PNG)

![](https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG)

- 중심 단어에 대해서 주변 단어를 예측하므로 투사층에서 벡터들의 평균을 구하는 과정은 없다.
- 여러 논문에서 성능 비교를 진행했을 때 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.

In [None]:
!pip install gensim

##### 영어 Word Embedding

- 데이터 취득 및 전처리

In [None]:
import gdown

url = "https://drive.google.com/uc?id=1TF1yAHF3qRINbXWFOajFjUCxUF64QZMX"
output = "ted_en.xml"

gdown.download(url, output)

In [None]:
from lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

In [None]:
# xml 데이터 처리
f = open('ted_en.xml', 'r', encoding='UTF-8')
xml = etree.parse(f)

contents = xml.xpath('//content/text()')    # content 태그 하위 텍스트
# contents[:5]

corpus = '\n'.join(contents)
print(len(corpus))

# 정규식을 이용해 (Laughter), (Applause) 등 키워드 제거
corpus = re.sub(r'\([^)]*\)', '', corpus)
print(len(corpus))

In [5]:
# 데이터 전처리 (토큰화/대소문자 정규화/불용어 처리)
sentences = sent_tokenize(corpus)

preprocessed_sentences = []
en_stopwords = stopwords.words('english')

for sentence in sentences:
    sentence = sentence.lower()
    sentence = re.sub(r'[^a-z0-9]', ' ', sentence)  # 영소문자, 숫자 외 제거
    tokens = word_tokenize(sentence)
    tokens = [token for token in tokens if token not in en_stopwords]
    preprocessed_sentences.append(tokens)

preprocessed_sentences[:5]

[['two', 'reasons', 'companies', 'fail', 'new'],
 ['real',
  'real',
  'solution',
  'quality',
  'growth',
  'figuring',
  'balance',
  'two',
  'activities',
  'exploration',
  'exploitation'],
 ['necessary', 'much', 'good', 'thing'],
 ['consider', 'facit'],
 ['actually', 'old', 'enough', 'remember']]

- Embedding 모델 학습

In [15]:
from gensim.models import Word2Vec

model = Word2Vec(
    sentences=preprocessed_sentences,   # corpus
    vector_size=100,                    # 임베딩 벡터 차원
    sg=0,                               # 학습 알고리즘 선택 (0=CBOW, 1=Skip-gram)
    window=5,                           # 주변 단어 수 (앞뒤로 n개 고려)
    min_count=5                         # 최소 빈도 (빈도 n개 미만은 제거)
)

model.wv.vectors.shape

(21462, 100)

In [16]:
import pandas as pd

pd.DataFrame(model.wv.vectors, index=model.wv.index_to_key).head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
one,-0.426447,0.008053,-0.203567,-0.044891,0.155034,-0.758397,0.067036,0.584973,-2.454317,-0.495493,...,2.369974,0.735569,-0.427374,-0.097883,0.3236,-1.453666,-0.703005,0.82257,0.661119,0.395817
people,-2.085964,0.694396,0.511066,0.418444,0.462426,-0.988616,-0.779378,1.118007,-1.724901,-2.52478,...,1.748258,6.8e-05,-0.979481,-0.502539,0.311006,-0.020856,-0.656622,0.03962,-2.243593,0.919864
like,-0.477806,-0.362631,-0.807715,-1.439073,0.253955,-0.795757,0.091464,1.315899,-0.958236,0.47173,...,-0.395872,0.682126,0.226646,-0.006821,0.611559,1.00972,0.307204,0.431559,0.870595,-0.400546
know,-0.47349,-0.066556,-0.364803,0.222061,-0.132436,0.129561,-0.284361,0.162976,-0.702368,-1.105048,...,0.200937,0.051417,-0.597488,0.149633,-0.345384,0.341046,0.484398,-0.711603,0.43058,-0.614965
going,-0.779331,0.087293,-0.604736,-0.26717,0.654846,-0.254071,-0.482264,1.136506,-1.570428,-0.565255,...,0.549321,-1.215877,-0.281895,2.044843,-0.03124,0.31449,0.048706,-0.665718,-0.249015,0.430008
think,-0.020931,-0.160887,0.673843,-0.614183,0.046657,-0.419444,0.358997,-0.665391,-1.37873,-1.433096,...,1.531267,1.250574,-0.672463,0.752847,0.928203,-0.404486,-0.190932,-1.09668,0.033618,-0.52375
see,0.050989,0.341243,0.353976,-1.292722,-0.355633,-0.346536,-0.669433,0.497507,-1.907097,0.452011,...,-0.32443,1.145679,-0.31292,0.881507,0.581683,0.71481,1.047979,-0.67646,0.705037,0.037364
would,0.682226,-0.124611,0.877705,-0.026912,1.342556,0.508915,-0.933104,0.163822,-1.416201,-0.479037,...,-0.45177,-1.525664,0.29501,2.186729,-0.082912,0.775969,-0.87758,-0.594085,-0.837899,-0.945552
really,-1.365808,-0.261168,0.164824,0.794755,-0.38534,-1.120882,1.182827,0.826366,-0.595678,-1.178966,...,1.244206,-0.134629,-0.056369,0.53437,0.920315,-0.252224,-0.426226,-1.249485,0.291435,-0.032549
get,-2.311809,-1.184681,-0.9521,-0.132619,0.467133,-0.87165,-0.891329,0.342636,0.02952,-1.170334,...,-0.026691,-0.558083,-0.708294,0.394697,1.42372,-0.123291,0.946036,0.085848,-0.869573,0.846294


In [8]:
# 학습된 임베딩 모델 저장
model.wv.save_word2vec_format('ted_en_w2v')

In [12]:
# 임베딩 모델 로드
from gensim.models import KeyedVectors

load_model = KeyedVectors.load_word2vec_format('ted_en_w2v')

- 유사도 계산

In [17]:
model.wv.most_similar('man')
# model.wv.most_similar('abracadabra')  # 임베딩 벡터에 없는 단어로 조회 시 KeyError 발생

[('woman', 0.9022714495658875),
 ('daughter', 0.8022275567054749),
 ('girl', 0.798689067363739),
 ('son', 0.7826333045959473),
 ('boy', 0.7730448246002197),
 ('father', 0.7700269818305969),
 ('grandfather', 0.7668368816375732),
 ('lady', 0.7649033665657043),
 ('mother', 0.7484723925590515),
 ('sister', 0.7448771595954895)]

In [13]:
load_model.most_similar('man')  # Word2Vec.wv = KeyedVectors

[('woman', 0.8870137929916382),
 ('girl', 0.7925921082496643),
 ('daughter', 0.7883424758911133),
 ('lady', 0.7738549113273621),
 ('son', 0.7699402570724487),
 ('grandfather', 0.7528258562088013),
 ('father', 0.7513311505317688),
 ('boy', 0.7505763173103333),
 ('mother', 0.7311496734619141),
 ('uncle', 0.7251353859901428)]

In [18]:
model.wv.similarity('man', 'husband')

0.7194227

In [19]:
model.wv['man']

array([ 5.2879643e-01, -3.0044821e-01,  4.2521790e-01,  1.8718352e+00,
       -8.4118724e-01,  4.6766347e-01, -7.5917524e-01,  1.6712246e+00,
        4.9140681e-02, -1.4736041e+00, -4.0177089e-01,  4.8642573e-01,
       -1.1644262e-01,  3.3756867e-01,  9.5020527e-01, -2.3840456e-01,
        4.9161723e-01, -6.3909099e-02, -5.1516598e-01, -5.0551754e-01,
        8.5300589e-01,  8.2004225e-01,  6.2023807e-01,  1.2057844e-01,
        5.9389967e-01,  9.8673433e-01, -1.1947743e+00, -2.7701479e-01,
        1.0605298e-03,  4.5462483e-01, -1.2132026e+00, -1.8102828e+00,
       -7.9829782e-02, -1.0600160e+00, -4.8994625e-01,  7.3688495e-01,
       -5.6325179e-01, -2.0269296e-01,  8.4737957e-01,  2.0402491e-01,
        5.9833950e-01,  4.5369023e-01,  4.7204328e-01,  1.0887465e+00,
        2.0235262e+00,  7.2228587e-01, -5.5969357e-01,  8.8723525e-02,
        3.2133234e-01, -1.8958358e-01,  9.5137131e-01, -6.1893636e-01,
       -5.9657997e-01, -3.6298013e-01,  3.7589616e-01,  4.5921963e-01,
      

- 임베딩 시각화

https://projector.tensorflow.org/

- embedding vector(tensor) 파일 (.tsv)
- metadata 파일 (.tsv)

In [20]:
!python -m gensim.scripts.word2vec2tensor --input ted_en_w2v --output ted_en_w2v

2025-04-07 16:14:25,711 - word2vec2tensor - INFO - running c:\Users\Playdata\anaconda3\envs\pystudy_env\Lib\site-packages\gensim\scripts\word2vec2tensor.py --input ted_en_w2v --output ted_en_w2v
2025-04-07 16:14:25,712 - keyedvectors - INFO - loading projection weights from ted_en_w2v
2025-04-07 16:14:26,708 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (21462, 100) matrix of type float32 from ted_en_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-07T16:14:26.605335', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 18:49:16) [MSC v.1929 64 bit (AMD64)]', 'platform': 'Windows-11-10.0.26100-SP0', 'event': 'load_word2vec_format'}
2025-04-07 16:14:27,438 - word2vec2tensor - INFO - 2D tensor file saved to ted_en_w2v_tensor.tsv
2025-04-07 16:14:27,438 - word2vec2tensor - INFO - Tensor metadata file saved to ted_en_w2v_metadata.tsv
2025-04-07 16:14:27,439 - word2vec2tensor - INFO - finished running word2vec2tensor.py


##### 한국어 Word Embedding
- NSMC (Naver Sentiment Movie Corpus)

In [21]:
import numpy as np
import pandas as pd
import urllib.request
from konlpy.tag import Okt

In [22]:
# 데이터 다운로드
urllib.request.urlretrieve(
    "https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt",
    filename="naver_movie_ratings.txt"
)

('naver_movie_ratings.txt', <http.client.HTTPMessage at 0x20a57057500>)

In [23]:
# 데이터 프레임 생성
ratings_df = pd.read_csv('naver_movie_ratings.txt', sep='\t')

In [None]:
# 결측치 확인 및 처리(제거)
display(ratings_df.isnull().sum())

ratings_df = ratings_df.dropna(how='any')

id          0
document    8
label       0
dtype: int64

In [26]:
ratings_df['document'][200:300]

200    많은 생각을 할 수 있는 영화~ 시간여행류의 스토리를 좋아하는 사람이라면 빠트릴 수...
201    고소한 19 정말 재미있게 잘 보고 있습니다^^ 방송만 보면 털털하고 인간적이신 것...
202                                                  가연세
203                         goodgoodgoodgoodgoodgoodgood
204                                           이물감. 시 같았다
                             ...                        
295                                   박력넘치는 스턴트 액션 평작이다!
296                                      엄청 재미있다 명작이다 ~~
297    나는 하정우랑 개그코드가 맞나보다 엄청 재밌게봤네요 특히 단발의사샘 장면에서 계속 ...
298                                                적당 ㅎㅎ
299                                    배경이 이쁘고 캐릭터도 귀엽네~
Name: document, Length: 100, dtype: object

In [27]:
# 한글이 아닌 데이터 제거
ratings_df['document'] = ratings_df['document'].replace(r'[^0-9가-힣ㄱ-ㅎㅏ-ㅣ\s]', '', regex=True)

In [29]:
# 전처리
from tqdm import tqdm   # 진행도 시각화

okt = Okt()
ko_stopwords = ['은', '는', '이', '가', '을', '를', '와', '과', '들', '도', '부터', '까지', '에', '나', '너', '그', '걔', '얘']


preprocessed_data = []

for sentence in tqdm(ratings_df['document']):
    tokens = okt.morphs(sentence, stem=True)
    tokens = [token for token in tokens if token not in ko_stopwords]
    preprocessed_data.append(tokens)


100%|██████████| 199992/199992 [06:11<00:00, 538.18it/s]


In [30]:
model = Word2Vec(
    sentences=preprocessed_data,
    vector_size=100,
    window=5,
    min_count=5,
    sg=0    # CBOW
)

model.wv.vectors.shape

(16841, 100)

In [31]:
model.wv.most_similar('극장')

[('영화관', 0.9426742196083069),
 ('틀어주다', 0.8109181523323059),
 ('학교', 0.7896940112113953),
 ('케이블', 0.7860040664672852),
 ('메가박스', 0.7162373065948486),
 ('티비', 0.7134400606155396),
 ('방금', 0.6961232423782349),
 ('영화제', 0.6838327646255493),
 ('개봉관', 0.6705398559570312),
 ('투니버스', 0.6653599739074707)]

In [34]:
model.wv.similarity('김혜수', '전지현')

0.76677406

In [35]:
# 모델 저장
model.wv.save_word2vec_format('naver_movie_ratings_w2v')

In [36]:
!python -m gensim.scripts.word2vec2tensor --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v

2025-04-07 17:11:10,888 - word2vec2tensor - INFO - running c:\Users\Playdata\anaconda3\envs\pystudy_env\Lib\site-packages\gensim\scripts\word2vec2tensor.py --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v
2025-04-07 17:11:10,888 - keyedvectors - INFO - loading projection weights from naver_movie_ratings_w2v
2025-04-07 17:11:11,715 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (16841, 100) matrix of type float32 from naver_movie_ratings_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-07T17:11:11.614989', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 18:49:16) [MSC v.1929 64 bit (AMD64)]', 'platform': 'Windows-11-10.0.26100-SP0', 'event': 'load_word2vec_format'}
2025-04-07 17:11:12,258 - word2vec2tensor - INFO - 2D tensor file saved to naver_movie_ratings_w2v_tensor.tsv
2025-04-07 17:11:12,258 - word2vec2tensor - INFO - Tensor metadata file saved to naver_movie_ratings_w2v_metadata.tsv
2025-04-07 17

- 사전 훈련된 임베딩

In [37]:
url = "https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c"
output = "GoogleNews_vecs.bins.gz"

gdown.download(url, output)

Downloading...
From (original): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c
From (redirected): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c&confirm=t&uuid=30c1a16c-aba0-491b-80bd-ee02d34f8ec4
To: c:\encore_skn11\07_nlp\03_word_embedding\GoogleNews_vecs.bins.gz
100%|██████████| 1.65G/1.65G [06:25<00:00, 4.27MB/s]


'GoogleNews_vecs.bins.gz'

In [40]:
google_news_wv = KeyedVectors.load_word2vec_format('GoogleNews_vecs.bins.gz', binary=True)
google_news_wv.vectors.shape

(3000000, 300)

In [41]:
google_news_wv.similarity('king', 'man')

0.22942671

In [44]:
google_news_wv.most_similar('king', topn=5)

[('kings', 0.7138044834136963),
 ('queen', 0.6510957479476929),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204219460487366),
 ('prince', 0.6159994602203369)]

In [43]:
google_news_wv.n_similarity(['king', 'queen'], ['man', 'woman'])

0.24791394

In [46]:
google_news_wv.similar_by_word('king', topn=5)

[('kings', 0.7138044834136963),
 ('queen', 0.6510957479476929),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204219460487366),
 ('prince', 0.6159994602203369)]

In [47]:
google_news_wv.has_index_for('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ')

False