<a href="https://colab.research.google.com/github/BOSOEK/Machine_Learning_with_Book/blob/main/Deep_Learning_Chatbot_for_First_Time/Embedding/Word2Vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word2Vec
Word2Vec는 2013년 구글에서 발표했으며 가장 많이 쓰이는 단어 임베딩 모델이다.(기존 모델과의 차이점은 __계산량이 획기적으로 적다__ ) Word2Vec는 CBOW와 skip-gram 의 두가지  모델로 제안되었다
*  __CBOW(continuous bag-of-words)__ : 맥락이라 표현되는 __주변 단어들을 이용해 타깃 단어를 예측하는 신경망 모델__ 로 신경망의 입력을 주변 단어들로 구성, 출력을 타깃 단어로 설정해 학습된 가중치 데이터를 임베딩 벡터로 활용한다. 타깃 단어의 손실만 게산하면 되어 __학습 속도가 빠르다는 장점__ 이 있다.
* __skip-gram__ : 하나의 __타깃 단어로 주변 단어들을 예측하는 신경망 모델__ 로 CBOW와 입출력이 반대로 되어 있어 CBOW에 비해 예측하는 맥락이 많아 진다. 때문에 __단어 분산 표현력이 우수해 임베딩 품질이 우수__ 하다.

CBOW 모델에서는 타깃 단어 예측을 위한 앞뒤 단어 개수를 선택 할 수 있으며 이를 __window__ 라고 한다.   

> Word2Vec의 단어 임베딩은 단어를 밀집 벡터로 표현해 학습으로 __의미상 비슷한 단어들을 비슷한 공간에 위치__ 시키며, 벡터 특성상 __의미에 따라 방향성__ 을 갖게 되어 이런 특징으로 자연어 의미를 파악한다.

In [None]:
# 네이버 영화 리뷰 데이터로 Word2Vec 모델 구현하기
from gensim.models import Word2Vec
from konlpy.tag import Komoran
import time

# 네이버 영화 데이터 불러오기
def read_review_data(filename):
    with open(filename, 'r') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[1:]  # 헤더 제거
    return data

# 리뷰 파일 읽어 오기
print('1: 말뭉치 데이터 읽기 시작')
review_data = read_review_data('./ratings.txt')
print(len(review_data))  # 데이터 개수

# 문장 단위로 명사만 추출해 학습 데이터 제작
print('2: 형태소에서 명사만 추출')
komoran = Komoran()
docs = [komoran.nouns(sentence[1]) for sentence in review_data]

# Word2Vec 모델 학습
print('3: 모델 학습')
model = Word2Vec(sentences=docs, size=200, window=4, hs=1, min_count=2, sg=1)

# 모델 저장
#model.save('모델명')
# 모델 로딩
model = Word2Vec.load('위치')

# 학습된 말뭉치 수
print('corpus_count : ', model.corpus_count)
print('corpus_total_words : ', model.corpus_total_words)

# 사랑이라는 단어로 생성한 단어 임베딩 벡터
print('사랑 : ', model.wv['사랑'])

# 단어 유사도
print('일요일 = 월요일\t', model.wv.similarity(w1 = '일요일', w2='월요일'))
print('안성기 = 배우\t', model.wv.similarity(w1 = '일요일', w2='월요일'))
print('대기업 = 삼성\t', model.wv.similarity(w1 = '일요일', w2='월요일'))
print('일요일 != 삼성\t', model.wv.similarity(w1 = '일요일', w2='월요일'))
print('히어로 != 삼성\t', model.wv.similarity(w1 = '일요일', w2='월요일'))