# 워드임베딩 (Word Embedding)

<br>

https://wikidocs.net/33520

<br>

- 워드 임베딩이란, 단어를  벡터로 표현하는 방법.
- 단어를 밀집표현으로 변환한다.
- 희소표현(= 원-핫벡터), 밀집표현 그리고 워드 임베딩(단어를 밀집벡터 형태로 표현하는것)
- 이 밀집벡터를 임베딩 과정을 통해 나온 벡터라고 해서 임베딩 벡터라고 한다.
- LSA, Word2Vec, FastText, Glove 등이 있다.

## 워드투벡터(Word2Vec)

<br>

- 원핫벡터는 벡터 간 유의미한 유사도를 측정할 수 없다.
- 단어 벡터간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 할 수 있는 방법으로 Word2Vec을 많이 사용한다.

### 영어 Word2Vec

In [2]:
import re
import urllib.request
import zipfile
from lxml import etree
from nltk.tokenize import word_tokenize, sent_tokenize

In [3]:
# 데이터 다운로드
urllib.request.urlretrieve("https://raw.githubusercontent.com/ukairia777/tensorflow-nlp-tutorial/main/09.%20Word%20Embedding/dataset/ted_en-20160408.xml", filename="ted_en-20160408.xml")

('ted_en-20160408.xml', <http.client.HTTPMessage at 0x1a3022f3cd0>)

In [7]:
targetXML = open('ted_en-20160408.xml','r',encoding = 'UTF8')
target_text = etree.parse(targetXML)

# xml파일로부터 <content>와 </content> 사이의 내용만 가져온다
parse_text  = '\n'.join(target_text.xpath('//content/text()'))

# 정규 표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분 제거
# 해당 코드는 괄호로 구성된 내용을 제거

content_text = re.sub(r'\([^)]*\)','',parse_text)

# 입력 corpus 에 대해서 NLTK 를 사용하여 문장 토큰화 수행
sent_text = sent_tokenize(content_text)

# 각 문장에 대해서 구두점을 제거하고, 대문자를 소문자로 변환
normalized_text = []
for string in sent_text :
    tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
    normalized_text.append(tokens)
    
# 각 문장에 대해서 NLTK 를 이용하여 단어 토큰화를 수행
result = [word_tokenize(sentence) for sentence in normalized_text]

KeyboardInterrupt: 

In [None]:
print("총 샘플의 개수 : {}".format(len(result)))

In [None]:
for line in result[:3] :
    print(line)

#### Word2Vec 훈련시키기

In [None]:
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

model = Word2Vec(sentences = result, size = 100, window = 5, min_count = 5, workers = 4, sg=0)

In [None]:
# man과 유사한 단어 찾기
model_result = model.wv.most_similar("man")
print(model_result)

In [None]:
model.wv.save_word2vec_format('eng_w2v') # 모델 저장
loaded_model = KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드

In [None]:
model_result = loaded_model.most_similar("man")
print(model_result)

## 한국어 Word2Vec 만들기