# Word2Vec
https://soojle.gitbook.io/project/requirements/undefined-1/undefined-3/word2vec

In [None]:
import requests
import re
import gensim 

res = requests.get('https://www.gutenberg.org/files/2591/2591-0.txt')
res.status_code


In [None]:
res.text

In [None]:
grimm = res.text[2801:530661]
grimm

In [None]:
# 정규표현식을 이용하여 불필요한 단어는 제외한다.
grimm = re.sub(r'[^a-zA-Z\. ]', ' ', grimm)

In [None]:
#.split('. ')을 이용하여 마침표 단위로 자르자.
sentences = grimm.split('. ')  # 문장 단위로 자름

In [None]:
len(sentences)

In [None]:
# 이번엔 단어(빈칸) 단위로 자르도록 하자.
data = [s.split() for s in sentences]

# 단어 단위로 자른 결과를 확인해보자.
data[0]   # 첫 번째 문장을 단어 단위로 자른 결과를 확인하자

In [None]:
# - word2vec 
# 이제 word2vec 를 필요한 gensim 패키지를 설치해보자.
#!conda install -y gensim

# gensim 패키지에서 Word2Vec을 불러오자.
from gensim.models.word2vec import Word2Vec

In [None]:
# 학습 하기
model = Word2Vec(data,         # 리스트 형태의 데이터
                 sg=1,         # 0: CBOW, 1: Skip-gram
                 vector_size=100,     # 벡터 크기
                 window=3,     # 고려할 앞뒤 폭(앞뒤 3단어)
                 min_count=3,  # 사용할 단어의 최소 빈도(3회 이하 단어 무시)
                 workers=4)    # 동시에 처리할 작업 수(코어 수와 비슷하게 설정)


In [None]:
import gensim
print(gensim.__version__)

In [None]:
# .save()를 통해 word2vec 모델을 저장할 수 있다.
model.save('word2vec.model')

In [None]:

# 저장한 모델을 불러 올 때는 .load()를 사용한다.
model = Word2Vec.load('word2vec.model')


In [None]:
model.wv['princess']

In [None]:
# wv.similarity()에 두 단어를 넘겨주면 코사인 유사도를 구할 수 있다.
model.wv.similarity('princess', 'queen')   #시멀러리


In [None]:
# wv.most_similar()에 단어를 넘겨주면 가장 유사한 단어를 추출할 수 있다.
model.wv.most_similar('princess')     #시멀러


In [None]:
#.wv_most_similar() 에 positive와 negative라는 옵션을 넘겨줄 수 있다.
#  "woman:princess = man:?"의 유비를 풀어보자.
model.wv.most_similar(positive=['man', 'princess'], negative=['woman'])

In [None]:
# 케라스에서 임베딩 레이어에 적용
from keras.models import Sequential
from keras.layers import Embedding

NUM_WORDS, EMB_DIM = model.wv.vectors.shape


In [None]:
# gensim으로 학습된 단어 임베딩 model.wv.vectors를 케라스의 임베딩 레이어의 가중치로 사용한다.
emb = Embedding(input_dim=NUM_WORDS, output_dim=EMB_DIM,
                trainable=False, weights=[model.wv.vectors])
net = Sequential()
net.add(emb)


In [None]:
# 예측으로 gensim과 같은지 확인
i = model.wv.index_to_key.index('princess')

net.predict([i])


In [None]:
# 저장 및 불러오기

model.wv.save_word2vec_format('eng_w2v') # 모델 저장
loaded_model = gensim.models.KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드


In [None]:
loaded_model.most_similar_cosmul

In [None]:
#.wv_most_similar() 에 positive와 negative라는 옵션을 넘겨줄 수 있다.
#  "woman:princess = man:?"의 유비를 풀어보자.
loaded_model.most_similar(positive=['man', 'princess'], negative=['woman'])

In [None]:
#.wv_most_similar() 에 positive와 negative라는 옵션을 넘겨줄 수 있다.
#  "woman:princess = man:?"의 유비를 풀어보자.
model.wv.most_similar(positive=['man', 'princess'], negative=['woman'])