# Word Embedding

- **Word Embedding**은 단어를 고정된 차원의 벡터로 변환하는 기술로, 
단어 간의 의미적 유사성을 반영하도록 학습된 벡터를 말한다.
- 이 기술은 자연어 처리에서 문장을 처리하고 이해하는 데 활용된다.
- 숫자로 표현되 단어 목록을 통해 감정을 추출하는 것도 가능하다.
- 연관성 있는 단어들을 군집화하여 다차원 공간에 벡터로 나타낼 수 있으며,
이는 단어나 문장을 벡터 공간에 매핑하는 과정이다.

**Embedding Matrix 예시**

*아래 표의 벡터 값들은 모두 기계 학습을 통해 학습된 결과이다.*  

| Dimension | Man (5391) | Woman (9853) | King (4914) | Queen (7157) | Apple (456) | Orange (6257) |
|-----------|------------|--------------|-------------|--------------|-------------|---------------|
| 성별      | -1         | 1            | -0.95       | 0.97         | 0.00        | 0.01          |
| 귀족      | 0.01       | 0.02         | 0.93        | 0.95         | -0.01       | 0.00          |
| 나이      | 0.03       | 0.02         | 0.7         | 0.69         | 0.03        | -0.02         |
| 음식      | 0.04       | 0.01         | 0.02        | 0.01         | 0.95        | 0.97          |

<br>

*아래는 전치된 표이다.*

| Word          | 성별   | 귀족   | 나이   | 음식   |
|---------------|--------|--------|--------|--------|
| Man (5391)    | -1.00  | 0.01   | 0.03   | 0.04   |
| Woman (9853)  | 1.00   | 0.02   | 0.02   | 0.01   |
| King (4914)   | -0.95  | 0.93   | 0.70   | 0.02   |
| Queen (7157)  | 0.97   | 0.95   | 0.69   | 0.01   |
| Apple (456)   | 0.00   | -0.01  | 0.03   | 0.95   |
| Orange (6257) | 0.01   | 0.00   | -0.02  | 0.97   |

- **의미적 유사성 반영**  
  - 단어를 고정된 크기의 실수 벡터로 표현하며, 비슷한 의미를 가진 단어는 벡터 공간에서 가깝게 위치한다.  
  - 예를 들어, "king"과 "queen"은 비슷한 맥락에서 자주 사용되므로 벡터 공간에서 가까운 위치에 배치된다.  

- **밀집 벡터(Dense Vector)**  
  - BoW, DTM, TF-IDF와 달리 Word Embedding은 저차원 밀집 벡터로 변환되며, 차원이 낮으면서도 의미적으로 풍부한 정보를 담는다.  
  - 벡터 차원은 보통 100 또는 300 정도로 제한된다.  

- **문맥 정보 반영**  
  - Word Embedding은 단어 주변의 단어들을 학습해 단어의 의미를 추론한다.  
  - 예를 들어, "bank"라는 단어가 "river"와 함께 나오면 "강둑"을, "money"와 함께 나오면 "은행"을 의미한다고 학습한다.  

- **학습 기반 벡터**  
  - Word Embedding은 대규모 텍스트 데이터에서 단어 간 연관성을 학습해 벡터를 생성한다.  
  - 반면, BoW나 TF-IDF는 단순한 규칙 기반 벡터화 방법이다.  

### 희소 표현(Sparse Representation) | 분산 표현(Distributed Representation)
- 원-핫 인코딩으로 얻은 원-핫 벡터는 단어의 인덱스 값만 1이고 나머지는 모두 0으로 표현된다.
- 이렇게 대부분의 값이 0인 벡터나 행렬을 사용하는 표현 방식을 희소 표현(sparse representation)이라고 한다.  
- 희소 표현은 단어 벡터 간 유의미한 유사성을 표현할 수 없다는 단점이 있다.
- 이를 해결하기 위해 단어의 의미를 다차원 공간에 벡터화하는 분산 표현(distributed representation)을 사용한다.
- 분산 표현으로 단어 간 의미적 유사성을 벡터화하는 작업을 워드 임베딩(embedding)이라고 하며, 이렇게 변환된 벡터를 임베딩 벡터(embedding vector)라고 한다.  
- **원-핫 인코딩 → 희소 표현**  
- **워드 임베딩 → 분산 표현**  

**분산 표현(Distributed Representation)**
- 분산 표현은 분포 가설(distributional hypothesis)에 기반한 방법이다.
- 이 가설은 "비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다"는 내용을 전제로 한다.
- 예를 들어, '강아지'라는 단어는 '귀엽다', '예쁘다', '애교' 등의 단어와 함께 자주 등장하며, 이를 벡터화하면 해당 단어들은 유사한 벡터값을 갖게 된다.
- 분산 표현은 단어의 의미를 여러 차원에 걸쳐 분산하여 표현한다.  
- 이 방식은 원-핫 벡터처럼 단어 집합 크기만큼의 차원이 필요하지 않으며, 상대적으로 저차원으로 줄어든다.
- 예를 들어, 단어 집합 크기가 10,000이고 '강아지'의 인덱스가 4라면, 원-핫 벡터는 다음과 같다:
  
- **강아지 = [0 0 0 0 1 0 0 ... 0]** (뒤에 9,995개의 0 포함)  
- 그러나 Word2Vec으로 임베딩된 벡터는 단어 집합 크기와 무관하며, 설정된 차원의 수만큼 실수값을 가진 벡터가 된다:  
- **강아지 = [0.2 0.3 0.5 0.7 0.2 ... 0.2]**  

**요약하면,**
- 희소 표현은 고차원에서 각 차원이 분리된 방식으로 단어를 표현하지만, 분산 표현은 저차원에서 단어의 의미를 여러 차원에 분산시켜 표현한다.
- 이를 통해 단어 벡터 간 유의미한 유사도를 계산할 수 있으며, 대표적인 학습 방법으로 Word2Vec이 사용된다.  

### Word2Vec
- 2013년 구글에서 개발한 Word Embedding 방법
- 최초의 neural embedding model
- 매우 큰 corpus에서 자동 학습
    - 비지도 지도 학습 (자기 지도학습)이라 할 수 있음
    - 많은 데이터를 기반으로 label 값 유추하고 이를 지도학습에 사용
- ex) 
    - **이사금**께 충성을 맹세하였다.
    - **왕**께 충성을 맹세하였다.

**WordVec 훈련방식에 따른 구분**
1. CBOW : 주변 단어로 중심 단어를 예측
2. Skip-gram : 중심 단어로 주변 단어를 예측

##### CBOW (Continuous Bag of Words)  
- CBOW는 원-핫 벡터를 사용하지만, 이는 단순히 위치를 가리킬 뿐 vocabulary를 직접적으로 참조하지 않는다.  

**예시:**  

> The fat cat sat on the mat  

주어진 문장에서 'sat'이라는 단어를 예측하는 것이 CBOW의 주요 작업이다.  
- **중심 단어(center word):** 예측하려는 단어 ('sat')  
- **주변 단어(context word):** 예측에 사용되는 단어들  

중심 단어를 예측하기 위해 앞뒤 몇 개의 단어를 참고할지 결정하는 범위를 **윈도우(window)**라고 한다.  
예를 들어, 윈도우 크기가 2이고 중심 단어가 'sat'라면, 앞의 두 단어(fat, cat)와 뒤의 두 단어(on, the)를 입력으로 사용한다.  
윈도우 크기가 n일 경우, 참고하는 주변 단어의 개수는 총 2n이다. 윈도우를 옆으로 이동하며 학습 데이터를 생성하는 방법을 **슬라이딩 윈도우(sliding window)**라고 한다.  

![](https://wikidocs.net/images/page/22660/%EB%8B%A8%EC%96%B4.PNG)


**훈련 과정**

CBOW는 embedding 벡터를 학습하기 위한 구조를 갖는다. 초기에는 가중치가 임의의 값으로 설정되며, 역전파를 통해 최적화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG)

Word2Vec은 은닉층이 하나뿐인 얕은 신경망(shallow neural network) 구조를 사용한다.  
학습 대상이 되는 주요 가중치는 두 가지이다:  

1. **투사층(projection layer):**  
   - 활성화 함수가 없으며 룩업 테이블 연산을 담당한다.  
   - 입력층과 투사층 사이의 가중치 W는 V × M 행렬로 표현되며, 여기서 **V는 단어 집합의 크기, M은 벡터의 차원**이다.  
   - W 행렬의 각 행은 학습 후 단어의 M차원 임베딩 벡터로 간주된다.  
   - 예를 들어, 벡터 차원을 5로 설정하면 각 단어의 임베딩 벡터는 5차원이 된다.  

2. **출력층:**  
   - 투사층과 출력층 사이의 가중치 W'는 M × V 행렬로 표현된다.  
   - 이 두 행렬(W와 W')은 서로 독립적이며, 학습 전에는 랜덤 값으로 초기화된다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_3.PNG)


**예측 과정**
1. CBOW는 계산된 룩업 테이블의 평균을 구한 뒤, 출력층의 가중치 W'와 내적한다.  
2. 결과값은 **소프트맥스(softmax)** 활성화 함수에 입력되어, 중심 단어일 확률을 나타내는 예측값으로 변환된다.  
3. 출력된 예측값(스코어 벡터)은 실제 타겟 원-핫 벡터와 비교되며, **크로스 엔트로피(cross-entropy)** 함수로 손실값을 계산한다.  

![](https://wikidocs.net/images/page/22660/word2vec_renew_5.PNG)

손실 함수 식:  
$
cost(\hat{y}, y) = -\sum_{j=1}^{V} y_{j} \cdot log(\hat{y}_{j})
$  

여기서, $\hat{y}_{j}$는 예측 확률, $y_{j}$는 실제 값이며, V는 단어 집합의 크기를 의미한다.  


**학습 결과**  
- 역전파를 통해 가중치 W와 W'가 학습된다. 
- 학습이 완료되면 W 행렬의 각 행을 단어의 임베딩 벡터로 사용하거나, W와 W' 모두를 이용해 임베딩 벡터를 생성할 수 있다.  
- CBOW는 주변 단어를 기반으로 중심 단어를 예측하는 구조를 갖추고 있으며, 이를 통해 단어 간 의미적 관계를 효과적으로 학습할 수 있다.  

##### Skip-gram
- Skip-gram은 중심 단어에서 주변 단어를 예측한다.
- 윈도우 크기가 2일 때, 데이터셋은 다음과 같이 구성된다.

![](https://wikidocs.net/images/page/22660/skipgram_dataset.PNG)

![](https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG)

- 중심 단어에 대해서 주변 단어를 예측하므로 투사층에서 벡터들의 평균을 구하는 과정은 없다.
- 여러 논문에서 성능 비교를 진행했을 때 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.

In [1]:
!pip install gensim



### 영어 Word Embedding

- 데이터 취득 및 전처리

In [2]:
import gdown

url = "https://drive.google.com/uc?id=1TF1yAHF3qRINbXWFOajFjUCxUF64QZMX"
# output = "ted_en.xml"

# gdown.download(url, output)

In [3]:
from  lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords

In [4]:
#xml 데이터 처리
f = open('ted_en.xml', 'r', encoding='UTF-8')
xml = etree.parse(f)

contents = xml.xpath('//content/text()')
# contents[:5]

corpus = '\n'.join(contents)   #각각 들어있는 것들을 corpus로 만들어줌.
print(len(corpus))

#정규식을 이용해 (Laughter), (Applause)등 키워드 제거
corpus = re.sub(r'\([^)]*\)', '', corpus)
print(len(corpus))

24222849
24062319


In [5]:
#데이터 전처리 (토큰화, 대소문자 정규화, 불용어 처리)
sentences = sent_tokenize(corpus)

preprocessed_sentences = []
en_stopwords = stopwords.words('english')

for sentence in sentences:
    sentence =  sentence.lower()
    sentence = re.sub(r'[^a-z0-9]', ' ', sentence) #영소문자, 숫자 외 제거
    tokens = word_tokenize(sentence)
    tokens = [token for token in tokens if token not in en_stopwords]
    preprocessed_sentences.append(tokens)

preprocessed_sentences[:5]


[['two', 'reasons', 'companies', 'fail', 'new'],
 ['real',
  'real',
  'solution',
  'quality',
  'growth',
  'figuring',
  'balance',
  'two',
  'activities',
  'exploration',
  'exploitation'],
 ['necessary', 'much', 'good', 'thing'],
 ['consider', 'facit'],
 ['actually', 'old', 'enough', 'remember']]

### Embedding 모델 학습

In [6]:
#Embedding 모델 학습
from gensim.models import Word2Vec

model = Word2Vec(
    sentences = preprocessed_sentences, #corpus
    vector_size = 100,                  #임베딩 벡터 차원
    sg=0,                               #학습 알고리즘 선택(0=CROW, 1=Skip-gram)
    window = 5,                         #주변 단어 수 (앞뒤로 n개 고려)
    min_count = 5                       #최소 빈도 (빈도  n개미만은 제거)
)

model.wv.vectors.shape

(21462, 100)

In [7]:
import pandas as pd

pd.DataFrame(model.wv.vectors, index=model.wv.index_to_key).head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
one,-0.835178,-0.119281,-0.440201,0.19275,0.073644,-0.699794,0.977574,0.578437,-2.640824,-0.215296,...,2.062862,0.336131,0.076664,0.108958,0.304847,-1.53294,-0.666886,-0.108505,0.761793,0.945292
people,-1.898524,0.805438,0.192769,0.112155,0.050628,-1.14279,-0.281292,1.008322,-1.641191,-2.92365,...,1.139784,0.489528,-1.488058,-1.124601,-0.585902,0.197538,-1.239247,-0.041986,-1.946663,1.459767
like,-0.852569,0.073068,-0.795189,-0.852964,0.465843,-0.275568,0.171036,1.50921,-0.715329,0.387317,...,-0.233583,0.759793,0.243843,-0.21072,0.65949,0.670538,0.884029,0.539952,0.519874,-0.31447
know,-0.810799,0.276093,-0.23316,-0.071715,-0.062151,0.136346,-0.144619,-0.011745,-0.355997,-1.143154,...,0.705935,-0.117349,-0.209008,-0.275618,-0.320133,0.630917,0.416345,-0.668252,-0.038271,-0.100392
going,-1.182257,1.100788,-0.105712,-0.579604,0.413323,0.278536,-0.838907,0.806007,-0.627346,-0.48631,...,1.274239,-0.773695,-0.644171,1.18018,-0.677068,0.926787,0.647794,-0.538986,-0.337302,0.215343
think,-0.276687,-0.39137,0.563168,-0.799415,-0.170027,-0.328408,0.434936,0.044098,-1.251416,-1.841261,...,1.678413,0.708477,-0.357931,0.415079,0.193413,-0.771103,-0.137921,-0.852931,-0.339916,-0.594707
see,-0.419423,0.047648,0.352409,-1.285433,-0.459013,-0.435604,-0.815479,0.433315,-1.656348,0.661507,...,0.151377,0.902063,-0.022045,0.978881,0.222833,0.03583,1.123409,-0.470635,0.08566,-0.165376
would,0.699847,0.588553,1.259017,-0.44553,1.517912,0.744955,-0.302939,0.081527,-1.575395,-1.017097,...,0.034296,-0.604289,-0.996554,1.322647,-0.197088,0.98619,-0.225849,0.228122,-0.69676,-1.105746
really,-1.351098,-0.6796,0.525605,0.517367,0.467556,-0.473734,0.739027,0.910557,-0.387079,-1.639311,...,1.256897,-0.127821,0.477409,0.156521,0.26624,-0.228874,-0.794952,-0.81793,-0.345293,0.008012
get,-2.174187,-1.395381,-0.367505,-0.444213,-0.158442,-0.585358,-0.976305,0.385204,0.097749,-1.33807,...,-0.23,-0.414148,-0.949915,0.29028,0.283856,-0.273811,0.447147,0.265756,-0.807396,0.670133


In [8]:
# 학습된 임베딩 모델 저장
model.wv.save_word2vec_format('ted_en_w2v')

In [9]:
# 임베딩 모델 로드
from gensim.models import KeyedVectors

load_model = KeyedVectors.load_word2vec_format('ted_en_w2v')

- 유사도 계산

In [10]:
model.wv.most_similar('man')
# model.wv.most_similar('abracadabra')
# 임베딩 벡터에 없는 단어로 조회 시 KeyError발생

[('woman', 0.8994839191436768),
 ('daughter', 0.8118333220481873),
 ('girl', 0.8078429102897644),
 ('boy', 0.7830139994621277),
 ('son', 0.781561553478241),
 ('father', 0.7767151594161987),
 ('lady', 0.7615271210670471),
 ('mother', 0.7605016827583313),
 ('grandfather', 0.7526906728744507),
 ('sister', 0.7464936971664429)]

In [11]:
load_model.most_similar('man')  #Word2Vec.wv = KeyedVectors 

[('woman', 0.8994839191436768),
 ('daughter', 0.8118333220481873),
 ('girl', 0.8078429102897644),
 ('boy', 0.7830139994621277),
 ('son', 0.781561553478241),
 ('father', 0.7767151594161987),
 ('lady', 0.7615271210670471),
 ('mother', 0.7605016827583313),
 ('grandfather', 0.7526906728744507),
 ('sister', 0.7464936971664429)]

In [12]:
model.wv.similarity('man', 'husband')
#두 단어간의 유사도를 계산해서 알려줌.

0.7228153

In [13]:
model.wv['man']

array([ 0.68057466,  0.07299086,  0.8338339 ,  2.3199794 , -0.7012109 ,
       -0.46168062, -0.3453528 ,  1.328402  , -0.28646323, -1.6327552 ,
       -0.07507036,  0.84741825, -0.54242015,  0.45442292,  0.6876908 ,
       -0.22775438,  0.49946275,  0.32352328, -1.1262149 , -0.8850733 ,
        1.0560582 ,  0.48169017,  0.54094917,  0.5267468 ,  0.2508988 ,
        0.4044799 , -1.5711879 , -0.26845998,  0.19729894,  0.9443723 ,
       -1.0728304 , -1.0971597 ,  0.19572815, -1.3189031 , -0.3877103 ,
        0.61173517, -0.16726735, -0.75763243,  0.9267616 ,  0.08264314,
        0.5694112 ,  0.02602324,  0.5099423 ,  0.7711608 ,  1.5683501 ,
        0.07310363, -0.05430914,  0.6580541 ,  0.90930045,  0.33769444,
        0.28642762, -0.38574627, -0.41201454, -0.71984214,  1.0887781 ,
        0.43206123, -0.2541912 ,  0.58020407, -0.38206455, -0.04806631,
        0.08054022, -0.16801128, -0.9421462 ,  1.0940529 , -0.85190177,
        0.76574105, -0.61811066,  0.6296726 ,  0.8995828 ,  1.69

- 임베딩 시각화

https://projector.tensorflow.org/

- embedding vector(tensor) 파일 (.tsv)
- metadat 파일 (.tsv)

In [14]:
!python -m  gensim.scripts.word2vec2tensor --input ted_en_w2v --output ted_en_w2v  

2025-04-08 09:49:08,349 - word2vec2tensor - INFO - running c:\Users\maest\anaconda3\envs\pystudy_env\Lib\site-packages\gensim\scripts\word2vec2tensor.py --input ted_en_w2v --output ted_en_w2v
2025-04-08 09:49:08,349 - keyedvectors - INFO - loading projection weights from ted_en_w2v
2025-04-08 09:49:09,598 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (21462, 100) matrix of type float32 from ted_en_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-08T09:49:09.518506', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 18:49:16) [MSC v.1929 64 bit (AMD64)]', 'platform': 'Windows-11-10.0.22631-SP0', 'event': 'load_word2vec_format'}
2025-04-08 09:49:10,395 - word2vec2tensor - INFO - 2D tensor file saved to ted_en_w2v_tensor.tsv
2025-04-08 09:49:10,395 - word2vec2tensor - INFO - Tensor metadata file saved to ted_en_w2v_metadata.tsv
2025-04-08 09:49:10,396 - word2vec2tensor - INFO - finished running word2vec2tensor.py


### 한국어 Word Embedding
- NSMC (Naver Sentiment Movie Corpus)

In [15]:
import numpy as np
import pandas as pd
import urllib.request
from konlpy.tag import Okt

In [16]:
#데이터 다운로드
urllib.request.urlretrieve(
    "https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", 
    filename = "naver_movie_ratings.txt"
)

('naver_movie_ratings.txt', <http.client.HTTPMessage at 0x240ac0a0500>)

In [17]:
#데이터 프레임 생성
ratings_df = pd.read_csv('naver_movie_ratings.txt', sep='\t')

In [18]:
#결측치 확인 및 처리
display(ratings_df.isnull().sum())

ratings_df = ratings_df.dropna(how='any')

id          0
document    8
label       0
dtype: int64

In [19]:
ratings_df['document'][200:300]

200    많은 생각을 할 수 있는 영화~ 시간여행류의 스토리를 좋아하는 사람이라면 빠트릴 수...
201    고소한 19 정말 재미있게 잘 보고 있습니다^^ 방송만 보면 털털하고 인간적이신 것...
202                                                  가연세
203                         goodgoodgoodgoodgoodgoodgood
204                                           이물감. 시 같았다
                             ...                        
295                                   박력넘치는 스턴트 액션 평작이다!
296                                      엄청 재미있다 명작이다 ~~
297    나는 하정우랑 개그코드가 맞나보다 엄청 재밌게봤네요 특히 단발의사샘 장면에서 계속 ...
298                                                적당 ㅎㅎ
299                                    배경이 이쁘고 캐릭터도 귀엽네~
Name: document, Length: 100, dtype: object

In [20]:
#한글이 아닌 데이터 제거 (숫자와 한글 데이터 전부 포함)
ratings_df['document'] = ratings_df['document'].replace(r'[^0-9가-힣ㄱ-ㅎㅏ-ㅣ\s]', '', regex=True)

In [21]:
#전처리
from tqdm import tqdm   #진행도 시각화

okt = Okt()
ko_stopwords = ['은', '는', '이', '가', '을', '를', '와', '과', '들', '도', '부터', '까지', '에', '나', '너', '그', '걔', '얘']

preprocessed_data = []

for sentence in tqdm(ratings_df['document']):
    tokens = okt.morphs(sentence, stem=True)
    tokens = [token for token in tokens if token not in ko_stopwords]
    preprocessed_data.append(tokens)

100%|██████████| 199992/199992 [06:41<00:00, 498.66it/s]


In [22]:
model = Word2Vec(
    sentences = preprocessed_data,
    vector_size = 100,
    window = 5,
    min_count = 5,
    sg=0        #CBOW
)

model.wv.vectors.shape

(16841, 100)

In [23]:
model.wv.most_similar('극장')

[('영화관', 0.9374942183494568),
 ('틀어주다', 0.7930522561073303),
 ('케이블', 0.7774772644042969),
 ('학교', 0.7411223649978638),
 ('티비', 0.7175014019012451),
 ('메가박스', 0.7062078714370728),
 ('개봉관', 0.6908875107765198),
 ('영화제', 0.687961757183075),
 ('명화극장', 0.6869919896125793),
 ('방금', 0.6835576891899109)]

In [24]:
model.wv.similarity('김혜수', '전지현')

0.793258

In [25]:
#모델 저장
model.wv.save_word2vec_format('naver_movie_ratings_w2v')

In [26]:
!python -m  gensim.scripts.word2vec2tensor --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v 

2025-04-08 09:56:01,716 - word2vec2tensor - INFO - running c:\Users\maest\anaconda3\envs\pystudy_env\Lib\site-packages\gensim\scripts\word2vec2tensor.py --input naver_movie_ratings_w2v --output naver_movie_ratings_w2v
2025-04-08 09:56:01,716 - keyedvectors - INFO - loading projection weights from naver_movie_ratings_w2v
2025-04-08 09:56:02,680 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (16841, 100) matrix of type float32 from naver_movie_ratings_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2025-04-08T09:56:02.579759', 'gensim': '4.3.3', 'python': '3.12.9 | packaged by Anaconda, Inc. | (main, Feb  6 2025, 18:49:16) [MSC v.1929 64 bit (AMD64)]', 'platform': 'Windows-11-10.0.22631-SP0', 'event': 'load_word2vec_format'}
2025-04-08 09:56:03,301 - word2vec2tensor - INFO - 2D tensor file saved to naver_movie_ratings_w2v_tensor.tsv
2025-04-08 09:56:03,301 - word2vec2tensor - INFO - Tensor metadata file saved to naver_movie_ratings_w2v_metadata.tsv
2025-04-08 09:56

- 사전 훈련된 임베딩


In [27]:
url = "https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c"
output = "GoogleNews_vecs.bins.gz"

gdown.download(url, output)

Downloading...
From (original): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c
From (redirected): https://drive.google.com/uc?id=1aL_xpWW-CjfCrLWeflIaipITOZ6zHI5c&confirm=t&uuid=2d350792-36b3-49d5-a9fe-986b651e845d
To: c:\encore-skn11\07_NLP\03_word_embedding\GoogleNews_vecs.bins.gz
100%|██████████| 1.65G/1.65G [00:37<00:00, 44.2MB/s]


'GoogleNews_vecs.bins.gz'

In [28]:
google_news_wv = KeyedVectors.load_word2vec_format('GoogleNews_vecs.bins.gz', binary=True)
google_news_wv.vectors.shape

(3000000, 300)

In [29]:
google_news_wv.similarity('king','man')

0.22942671

In [30]:
google_news_wv.most_similar('king')

[('kings', 0.7138045430183411),
 ('queen', 0.6510957479476929),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864824056625366),
 ('ruler', 0.5797566771507263),
 ('princes', 0.5646551847457886),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422105193138123)]

In [31]:
google_news_wv.n_similarity(['king', 'queen'], ['man', 'woman'])
#리스트 간의 평균 비교

0.24791393

In [32]:
google_news_wv.similarity('king','man')

0.22942671

In [33]:
google_news_wv.most_similar('king', topn=5)

[('kings', 0.7138045430183411),
 ('queen', 0.6510957479476929),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474)]

In [34]:
google_news_wv.n_similarity(['king', 'queen'], ['man', 'woman'])

0.24791393

In [35]:
google_news_wv.similar_by_word('king')  #most_similar 과 같은 결과

[('kings', 0.7138045430183411),
 ('queen', 0.6510957479476929),
 ('monarch', 0.6413194537162781),
 ('crown_prince', 0.6204220056533813),
 ('prince', 0.6159993410110474),
 ('sultan', 0.5864824056625366),
 ('ruler', 0.5797566771507263),
 ('princes', 0.5646551847457886),
 ('Prince_Paras', 0.5432944297790527),
 ('throne', 0.5422105193138123)]

In [36]:
google_news_wv.has_index_for('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ')    
#()안에 있는 텍스트가 있는지 확인

False