# Word2Vec
: 단어를 벡터 공간으로 변환하는 자연어 처리 기법

- 임베딩 : 단어를 고정된 크기의 실수 벡터로 변환

- 분산표현 : 단어를 하나의 차원에서 표현하는 대신 여러 차원에서 분산적으로 표현한다.

- ex) The Quick Brown Fox Jumps Over The Lazy Dog.

1. CBOW : 주어진 문맥을 이용해서 중심단어를 예측하는 방법
- 주어진 문장에서 fox를 예측한다.(다른 단어의 의미를 통해 fox의 의미 파악)

2. Skip-gram' : 중심 단어를 통해 주변 단어를 예측하는 방법
- fox를 통해 나머지 단어를 추측한다.(다른 하나하나 단어가 어떤 의미인지)

=> 단어 벡터 초기화 -> 단어 벡터 업데이트(CBOW, Skip-gram) -> 최적화

In [5]:
import gensim
from gensim.models import Word2Vec

sentences = [
    ['the', 'quick', 'brown', 'fox', 'jumps', 'over' ,'the', 'lazy', 'dog'],
    ['I', 'love', 'natural', 'language', 'processing'],
    ['All', 'we', 'have', 'is', 'now']
]

model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

In [6]:
model.wv['fox']

array([-0.00713902,  0.00124103, -0.00717672, -0.00224462,  0.0037193 ,
        0.00583312,  0.00119818,  0.00210273, -0.00411039,  0.00722533,
       -0.00630704,  0.00464722, -0.00821997,  0.00203647, -0.00497705,
       -0.00424769, -0.00310898,  0.00565521,  0.0057984 , -0.00497465,
        0.00077333, -0.00849578,  0.00780981,  0.00925729, -0.00274233,
        0.00080022,  0.00074665,  0.00547788, -0.00860608,  0.00058446,
        0.00686942,  0.00223159,  0.00112468, -0.00932216,  0.00848237,
       -0.00626413, -0.00299237,  0.00349379, -0.00077263,  0.00141129,
        0.00178199, -0.0068289 , -0.00972481,  0.00904058,  0.00619805,
       -0.00691293,  0.00340348,  0.00020606,  0.00475375, -0.00711994,
        0.00402695,  0.00434743,  0.00995737, -0.00447374, -0.00138926,
       -0.00731732, -0.00969783, -0.00908026, -0.00102275, -0.00650329,
        0.00484973, -0.00616403,  0.00251919,  0.00073944, -0.00339215,
       -0.00097922,  0.00997913,  0.00914589, -0.00446183,  0.00

In [7]:
model.wv.most_similar('fox')

[('processing', 0.25290459394454956),
 ('quick', 0.17018884420394897),
 ('language', 0.15016479790210724),
 ('jumps', 0.13887131214141846),
 ('have', 0.10852647572755814),
 ('over', 0.03476286679506302),
 ('we', 0.016065234318375587),
 ('is', 0.0044950623996555805),
 ('natural', -0.005896796938031912),
 ('the', -0.027750343084335327)]

In [8]:
import re
from lxml import etree
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
nltk.download('punkt') # punkt 토크나이저 다운로드(문장 경계 인식)

targetXML = open('ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML) # etree 라이브러리로 파싱

parse_text = '\n'.join(target_text.xpath('//content/text()')) # <content> 태그 사이의 텍스트들을 추출

content_text = re.sub(r'\([^)]*\)', '', parse_text) # 정규표현식 : () 괄호로 묶인 내용 삭제
sent_text = sent_tokenize(content_text) # 텍스트를 문장 단위로 토큰화

[nltk_data] Downloading package punkt to /Users/jeon-
[nltk_data]     yewon/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [9]:
normalized_text = []

for string in sent_text:
    tokens = re.sub(r'[^a-z0-9]+', ' ', string.lower()) # 구두점 제거, 소문자
    normalized_text.append(tokens)

result = [word_tokenize(sentence) for sentence in normalized_text] # 문장을 단어 단위로 토큰화 처리

In [10]:
print(result[0])

['here', 'are', 'two', 'reasons', 'companies', 'fail', 'they', 'only', 'do', 'more', 'of', 'the', 'same', 'or', 'they', 'only', 'do', 'what', 's', 'new']


In [11]:
print('총 샘플 수 : ', len(result))

총 샘플 수 :  273424


In [12]:
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

# sentences : 학습에 사용할 문장 데이터
# vector_size : 각 단어에 사용할 벡터 차원 수
# window : 단어 예측 시 고려할 문맥의 크기
# min_count : 최소 출현 횟수(희소 단어 제거)
# workers : CPU 스레드 수 설정(몇 명이서 학습할 것인지)
# sg : 학습 알고리즘(0 : CBOW, 1 : Skip-gram)
model = Word2Vec(sentences=result, vector_size=100, window=5, min_count=5, workers=4, sg=0)

In [13]:
model_result = model.wv.most_similar('companies')
print(model_result)

[('organizations', 0.8111226558685303), ('businesses', 0.7698550224304199), ('jobs', 0.7596983909606934), ('programs', 0.7462173104286194), ('farmers', 0.7396450638771057), ('institutions', 0.738227903842926), ('teams', 0.7358756065368652), ('groups', 0.7033401727676392), ('workers', 0.7012938857078552), ('entrepreneurs', 0.6982468366622925)]


In [14]:
model = Word2Vec(sentences=result, vector_size=100, window=5, min_count=5, workers=4, sg=0)
model.wv.save_word2vec_format('eng_ted')

In [15]:
loaded_model = KeyedVectors.load_word2vec_format('eng_ted')

In [16]:
model_result = loaded_model.most_similar('man')
print(model_result)

[('woman', 0.8355895280838013), ('guy', 0.7914246320724487), ('lady', 0.7593194842338562), ('boy', 0.7455564737319946), ('soldier', 0.7229838967323303), ('girl', 0.7186998724937439), ('gentleman', 0.7147846817970276), ('kid', 0.679377555847168), ('poet', 0.678987443447113), ('photographer', 0.6514443755149841)]


In [19]:
# 숙제 1) ted 데이터 GloVec로 유사 단어 예측(상위 5개)
import pandas as pd

similar_words = model.wv.most_similar('man', topn=5)
similar_words_df = pd.DataFrame(similar_words, columns=['Word', 'Similarity'])
print("[ man과 유사한 단어 Top5 ]")
similar_words_df

[ man과 유사한 단어 Top5 ]


Unnamed: 0,Word,Similarity
0,woman,0.83559
1,guy,0.791425
2,lady,0.759319
3,boy,0.745556
4,soldier,0.722984


In [None]:
# GloVec 사용을 위해 파일 불러오기
import os
import numpy as np

embeddings_index = {}

with open('glove.6B.100d.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # print(line)
        values = line.split()
        word = values[0]
        coefs = np.array(values[1:], dtype='float32')
        embeddings_index[word] = coefs

print(f'Found {len(embeddings_index)} word vectors.')

In [None]:
# 코사인 유사도를 이용하여 처리하는 방법
from sklearn.metrics.pairwise import consine_similarity

def find_similar_words(word, embeddings_index, top_n=5):
    if word not in embeddings_index:
        return []

    word_vector = embedding_index[word].reshape(1, -1) # 위에서 만든 딕셔너리에 해당 단어에 대한 값(임베딩 벡터)을 2차원 배열로 변환
    similarities = {}

    for other_word, other_vector in embeddings_index.items():
        if other_word != word:
            similarity = cosine_similarity(word_vector, other_vector.reshape(1, -1))[0][0] # 현재 단어와 다른 모든 단어들의 코사인 유사도를 계산
            # [0][0] : 유사도 점수
            similarities[other_word] = similarity # 위에서 만든 딕셔너리에 방금 계산한 similarity값을 넣어준다.

        similar_words = sorted(similatities.items(), key=lambda item: item[1], reverse=True)[:top_n]
        return similar_words

In [None]:
example_word = 'companies'
similar_words = find_similar_words(example_word, embeddings_index)
print(f"Words similar to '{example_word}':")
for word, score in similar_words:
    print(f'{word} : {score:.3f}')

# Word2Vec & GloVe : 단어 임베딩 기술
1. 학습방식
- Word2Vec : CBOW 또는 Skip-gram 모델을 사용하여 학습한다.
- GLoVe : 단어 간 동시발생행렬을 사용하여 학습한다.

2. 입력 데이터
- Word2Vec : 문서 내 단어 순서를 고려하여 학습한다.
- GLoVe : 전체에서 단어 간 동시 발생 정보를 활용하여 학습한다.

3. 목표
- Word2Vec : 주변 단어 예측
- GloVe : 단어 간 상호관계 학습