# 5. 워드 임베딩

**워드 임베딩 벡터를 만드는 다양한 기법에 대해 알아보고 널리 사용되는 Word2Vec, FastText, Glove의 원리와 사용법을 실습을 통해 알아본다.**

## 5-1. 벡터화

```bash
$ mkdir -p ~/aiffel/word_embedding
```

## 5-2. 벡터화 실습: 원-핫 인코딩 구현해보기

```bash
$ pip install konlpy
```

In [None]:
import re
from konlpy.tag import Okt
from collections import Counter
print("임포트 완료")

In [None]:
text = "임금님 귀는 당나귀 귀! 임금님 귀는 당나귀 귀! 실컷~ 소리치고 나니 속이 확 뚫려 살 것 같았어."
text

In [None]:
reg = re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]")
text = reg.sub('', text)
print(text)

In [None]:
okt=Okt()
tokens = okt.morphs(text)
print(tokens)

In [None]:
vocab = Counter(tokens)
print(vocab)

In [None]:
vocab['임금님']

In [None]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

In [None]:
word2idx={word[0] : index+1 for index, word in enumerate(vocab)}
print(word2idx)

In [None]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index = word2index[word]
       one_hot_vector[index-1] = 1
       return one_hot_vector
print("슝=3")

In [None]:
one_hot_encoding("임금님", word2idx)

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
print("임포트 완료")

In [None]:
text = [['강아지', '고양이', '강아지'],['애교', '고양이'], ['컴퓨터', '노트북']]
text

In [None]:
t = Tokenizer()
t.fit_on_texts(text)
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

In [None]:
vocab_size = len(t.word_index) + 1
print("슝=3")

In [None]:
sub_text = ['강아지', '고양이', '강아지', '컴퓨터']
encoded = t.texts_to_sequences([sub_text])
print(encoded)

In [None]:
one_hot = to_categorical(encoded, num_classes = vocab_size)
print(one_hot)

## 5-3. 워드 임베딩

## 5-4. Word2Vec (1) 분포 가설

## 5-5. Word2Vec (2) CBoW

## 5-6. Word2Vec (3) Skip-gram과 Negative Sampling

## 5-7. Word2Vec (4) 영어 Word2Vec 실습과 OOV 문제

```bash
$ pip install nltk
$ pip install gensim
```

In [None]:
import nltk
nltk.download('abc')
nltk.download('punkt')

In [None]:
from nltk.corpus import abc
corpus = abc.sents()
print("슝~")

In [None]:
print(corpus[:3])

In [None]:
print('코퍼스의 크기 :',len(corpus))

In [None]:
from gensim.models import Word2Vec

model = Word2Vec(sentences = corpus, vector_size = 100, window = 5, min_count = 5, workers = 4, sg = 0)
print("모델 학습 완료!")

In [None]:
model_result = model.wv.most_similar("man")
print(model_result)

In [None]:
from gensim.models import KeyedVectors

model.wv.save_word2vec_format('~/aiffel/word_embedding/w2v') 
loaded_model = KeyedVectors.load_word2vec_format("~/aiffel/word_embedding/w2v")
print("모델  load 완료!")

In [None]:
model_result = loaded_model.most_similar("man")
print(model_result)

In [None]:
# 에러가 나더라도 놀라지 마세요.
loaded_model.most_similar('overacting')

In [None]:
loaded_model.most_similar('memorry')

## 5-8. 임베딩 벡터의 시각화

```bash
$ python -m gensim.scripts.word2vec2tensor --input ~/aiffel/word_embedding/w2v --output ~/aiffel/word_embedding/w2v
```

## 5-9. FastText

In [None]:
from gensim.models import FastText
fasttext_model = FastText(corpus, window=5, min_count=5, workers=4, sg=1)
print("FastText 학습 완료!")

In [None]:
fasttext_model.wv.most_similar('overacting')

In [None]:
fasttext_model.wv.most_similar('memoryy')

## 5-10. GloVe

In [None]:
import gensim.downloader as api
glove_model = api.load("glove-wiki-gigaword-50")  # glove vectors 다운로드
glove_model.most_similar("dog")  # 'dog'과 비슷한 단어 찾기

In [None]:
glove_model.most_similar('overacting')

In [None]:
glove_model.most_similar('memoryy')  # 'memoryy' 단어 인식 불가 -> 오류 발생