---
---
---
# ***Word Embedding***
---
---
---
***Word Embedding1***
1. *Word Embedding*
2. *Word2Vec*
3. *Skip-Gram with Negative Sampling, SGNS*
4. *GloVe*  
5. *FastText*
***Word Embedding2*** 
1. *Pre-trained Word Embedding*
2. *Embeddings from Language Model, ELMo*
3. *Embedding Visualization*
4. *Recommendation System using Document Embedding*
5. *Average Word Embedding*

---
## 1. ***Word Embedding***
---

- 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환

<br>

#### 1. ***희소 표현(Sparse Representation)***
- 앞서 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법
- 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고하며 원-핫백터는 희소백터라고 할 수 있음
- 희소 표현의 일종인 DTM과 같은 경우에도 특정 문서에 여러 단어가 다수 등장하였으나, 다른 많은 문서에서는 해당 특정 문서에 등장했던 단어들이 전부 등장하지 않는다면 희소성을 가짐
- 이러한 희소 벡터들은 공간적인 낭비를 일으킴

<br>

#### 2. ***밀집 표현(Dense Representation)***
- 희소 표현과 반대되는 표현
- 사용자가 밀집 표현의 차원을 128로 설정한다면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됨

<br>

#### 3. ***워드 임베딩(Word Embedding)***
- 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 함
- 워드 임베딩 방법론으로는 **LSA, Word2Vec, FastText, Glove** 등이 있음


-|	원-핫 벡터|	임베딩 벡터
:---:|---|---
**차원**|	고차원(단어 집합의 크기)|	저차원
**다른 표현**|	희소 벡터의 일종|	밀집 벡터의 일종
**표현 방법**|	수동	|훈련 데이터로부터 학습함
**값의 타입**|	1과 0|	실수


---
## 2. ***Word2Vec***
---

- 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 대표적인 방법

<br>

#### 1. ***희소 표현(Sparse Representation)***

- 벡터 또는 행렬의 값 대부분이 0으로 표현되는 방법을 희소 표현이라고 함
- **고차원**에 각 차원이 분리된 표현 방법
- 희소 벡터는 단어간 유사성을 표현할 수 없는 단점이 존재

#### 2. ***분산 표현(Distributed Representation)***
- **저차원**에 단어의 의미를 여러 차원에 분산하여 표현
- 단어 간 유사도 계산이 가능

<br>

#### 3. ***CBOW(Continuous Bag Of Words)***

- 주변에 있는 단어들로 중간 단어를 예측하는 방법

![](https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG)

#### 4. ***Skip-gram***

- 중간에 있는 단어로 주변 단어들을 예측하는 방법

![](https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG)

<br>

#### 5. ***Word2Vec Traning***
1. data load
2. data preprocessing
3. train word2vec
4. model save


> #### ***`Word2Vec Module`***
***sentences*** : word2vec을 진행할 문장들 <br>
***vector_size*** : 사용자가 설정할 벡터 차원 <br>
***window*** : window size 설정 (기준단어 앞뒤 단어 수) <br>
***min_count*** : 단어 빈도수 제한 <br>
***workers*** : 학습 프로세스 수 (동시처리) <br>
***sg*** : 0 = 'CBOW' / 1 = 'Skip-gram'


- 실습 
    - English
    - Kokean (예정)

In [2]:
import nltk
nltk.download('punkt')

import urllib.request
import zipfile
from lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize

# 데이터 다운로드
urllib.request.urlretrieve("https://raw.githubusercontent.com/GaoleMeng/RNN-and-FFNN-textClassification/master/ted_en-20160408.xml", filename="ted_en-20160408.xml")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ntels\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


('ted_en-20160408.xml', <http.client.HTTPMessage at 0x226fdc01408>)

In [3]:
# Data Load
targetXML=open('ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML)
parse_text = '\n'.join(target_text.xpath('//content/text()'))

# 특수 문자 제거
content_text = re.sub(r'\([^)]*\)', '', parse_text)

# 문장 토큰화
sent_text = sent_tokenize(content_text)

# 각 문장에 대해서 구두점을 제거하고, 소문자 변환
normalized_text = []
for string in sent_text:
     tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
     normalized_text.append(tokens)

# 단어 토큰화
result = [word_tokenize(sentence) for sentence in normalized_text]

print('총 샘플의 개수 : {}'.format(len(result)))
print('샘플 3개만 출력')
for line in result[:3]:
    print(line)

총 샘플의 개수 : 273424
샘플 3개만 출력
['here', 'are', 'two', 'reasons', 'companies', 'fail', 'they', 'only', 'do', 'more', 'of', 'the', 'same', 'or', 'they', 'only', 'do', 'what', 's', 'new']
['to', 'me', 'the', 'real', 'real', 'solution', 'to', 'quality', 'growth', 'is', 'figuring', 'out', 'the', 'balance', 'between', 'two', 'activities', 'exploration', 'and', 'exploitation']
['both', 'are', 'necessary', 'but', 'it', 'can', 'be', 'too', 'much', 'of', 'a', 'good', 'thing']


In [4]:
!pip3 install gensim

Collecting gensim
  Downloading gensim-4.0.1-cp38-cp38-macosx_10_9_x86_64.whl (23.9 MB)
[K     |████████████████████████████████| 23.9 MB 1.0 MB/s eta 0:00:01
Collecting smart-open>=1.8.1
  Downloading smart_open-5.1.0-py3-none-any.whl (57 kB)
[K     |████████████████████████████████| 57 kB 3.1 MB/s eta 0:00:01
[?25hInstalling collected packages: smart-open, gensim
Successfully installed gensim-4.0.1 smart-open-5.1.0


In [4]:
from gensim.models import Word2Vec
model = Word2Vec(sentences=result, vector_size=100, window=5, min_count=5, workers=4, sg=0)

# 완성된 임베딩 매트릭스의 크기 확인
print('result vector size : ', model.wv.vectors.shape)
print('one word size : ', model.wv['princess'].shape)
model_result = model.wv.most_similar("man")
print(model_result)

result vector size :  (21613, 100)
one word size :  (100,)
[('woman', 0.8376989960670471), ('guy', 0.810554563999176), ('lady', 0.783030092716217), ('boy', 0.7661250829696655), ('girl', 0.7360955476760864), ('gentleman', 0.7119325399398804), ('soldier', 0.7082277536392212), ('kid', 0.6837635636329651), ('friend', 0.6609455943107605), ('son', 0.6510811448097229)]


In [5]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('eng_w2v') # 모델 저장
loaded_model = KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드
model_result = loaded_model.most_similar("man")
print(model_result)

[('woman', 0.8376989960670471), ('guy', 0.810554563999176), ('lady', 0.783030092716217), ('boy', 0.7661250829696655), ('girl', 0.7360955476760864), ('gentleman', 0.7119325399398804), ('soldier', 0.7082277536392212), ('kid', 0.6837635636329651), ('friend', 0.6609455943107605), ('son', 0.6510811448097229)]


#### ***Pre-trained Word2Vec embedding***

In [8]:
# import gensim
# # https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit 다운로드 후 실행
# model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin 파일 경로', binary=True)  
# print('model size : ', model.vectors.shape) # 모델의 크기 확인
# print(model.wv.most_similar("book")) 

---
## 3. ***Skip-Gram with Negative Sampling, SGNS***
---

<br>