# Ch06. Word Embedding

- frequency, 유사도 등 적용하더라도, 여전히 sparse vector - 차원의 저주 문제
- 가능한 낮은 차원으로 표현, 쉽게 모델링, 학습할 수 있도록, dense vector로 표현할 필요성

## PCA; principal component analysis, 주성분 분석

- 대표적인 차원 축소 방법
- SVD ; singular value decomposition, 특잇값 분해
- 차원 축소 과정에서 정보 손실 불가피
- 특히 데이터가 비선형적으로 구성될수록 더욱 어려워짐

## Manifold Hypothesis

![https://gblobscdn.gitbook.com/assets%2F-LFzjkZt6ljMBd4YGVCn%2F-LX4NCwvtTXyg_vzXhF0%2F-LX4NGyqIODsdqDXE9kz%2F06-02-05.png?alt=media](https://gblobscdn.gitbook.com/assets%2F-LFzjkZt6ljMBd4YGVCn%2F-LX4NCwvtTXyg_vzXhF0%2F-LX4NGyqIODsdqDXE9kz%2F06-02-05.png?alt=media)

- 높은 차원에 존재하는 데이터들의 경우, 해당 데이터들을 아우르는 낮은 차원의 manifold다양체가 존재한다는 가정
- 고차원상에서 가까운 거리에 있는 데이터 포인트들이 저차원 공간에서 거리가 멀어질 수 있음
- 저차원 공간상 가까운 점끼리는 실제로 비슷한 특징 가짐
- 대부분의 딥러닝 차원 축소 과정은 고차원상의 manifold를 찾는 과정; 비선형적 방식으로 차원 축소를 하기 때문, 딥러닝이 성공적으로 동작하는 이유일 것

## AutoEncoder

- Original High Dimension -> encoder -> latent low dimension -> decoder -> high dimension
- 저차원으로 축소된 bottle-neck 차원에서 복원에 필요한 정보만 남기고 필요없는 정보 제거; 복원 오차

## 주의사항

- word2vec을 통해 얻은 pre-training embedding vector는 NLP 최적의 embedding vector가 아니다; classification / translation 등 문제 종류에 따라, 목적 함수는 word2vec과 다른 형태로 존재

### word2vec 없이 nn 훈련하기

- embedding layer; one-hot vector 대신 단어 index 값만 lookup으로 return
- PyTorch 등 대부분의 DL framework에서 제공

### word2vec을 사용해야 하는 경우

- 준비된 corpus 양이 너무 적은 경우
- 정석대로 baseline model 만든 후, 성능 끌어올리기 위한 방법 시도하는 경우
- transfer learning 전이학습에서 고도화된 언어 모델 사용하는 경우

## word2vec

embedding 방식 ; 두 방법 모두, 함께 등장하는 단어 비슷할수록 비슷한 벡터 값 가진다는 가정, 특정 단어 기준으로 윈도우 내 주변 단어들 사용해 embedding 학습, 윈도우 내 위치는 고려하지 않지만 위치 정보는 포함

### CBOW

- 주변 단어들의 one-hot-encoding vector 입력 받아 단어 예측

### Skip-gram

- 해당 단어의 one-hot-encoding vector 입력 받아 주변 단어 예측하는 네트워크 구성
- 보통 CBOW 보다 성능 더 뛰어난 것으로 알려져 더 널리 쓰임

## GloVe

- Global Vectors for word representation
- 대상 단어에 대해 corpus에 함께 나타난 단어별 출현 빈도 예측
- Skip-gram 네트워크와 거의 유사, 다만 classification 문제가 아닌 출현 빈도를 근사하는 regression 문제가 되었기 때문에 MSE 평균제곱오차 사용
- 단어 x 자체의 출현 빈도 또는 사전확률 prior probability에 따라 MSE 손실함수 값이 매우 달라짐, 따라서 단어 빈도에 따라 손실함수에 가중치 부여
- GloVe 논문에서는 thres = 100, alpha = 3/4 일 때 가장 좋은 결과 나온다고 언급


## word2vec Example.

- 대표적인 embedding open library : Gensim, FastText

### Gensim

- 공개 연혁이 상대적으로 오래되어, 학습 속도가 더 느림

### FastText

- Facebook에서 공개, 빠른 속도가 장점
- https://github.com/facebookresearch/fastText
- 단어 embedding vector, 텍스트 분류 훈련 기능 등



In [0]:
import os

os.getcwd()

'/workspaces/Java_Spring/Python/MLDL/MLDL_Study/lecture_notes/NLP_with_PyTorch(2020)'

In [0]:
!git clone https://github.com/facebookresearch/fastText.git

Cloning into 'fastText'...
remote: Enumerating objects: 14, done.[K
remote: Counting objects: 100% (14/14), done.[K
remote: Compressing objects: 100% (12/12), done.[K
remote: Total 3840 (delta 1), reused 7 (delta 1), pack-reused 3826[K
Receiving objects: 100% (3840/3840), 8.21 MiB | 1.69 MiB/s, done.
Resolving deltas: 100% (2410/2410), done.
Checking out files:  50% (263/526)Checking out files:  51% (269/526)Checking out files:  52% (274/526)Checking out files:  53% (279/526)Checking out files:  53% (284/526)Checking out files:  54% (285/526)Checking out files:  55% (290/526)Checking out files:  56% (295/526)Checking out files:  57% (300/526)Checking out files:  57% (301/526)Checking out files:  58% (306/526)Checking out files:  59% (311/526)Checking out files:  60% (316/526)Checking out files:  61% (321/526)Checking out files:  62% (327/526)Checking out files:  63% (332/526)Checking out files:  64% (337/526)Checking out files:  64% (338/526)Checking out files:  65% (342/526)Checki

***linux / mac에서 설치시 g++(C++ compiler) 필요***

In [0]:
!pip install ./fastText/

Processing ./fastText
Building wheels for collected packages: fasttext
  Building wheel for fasttext (setup.py) ... [?25ldone
[?25h  Created wheel for fasttext: filename=fasttext-0.9.2-cp37-cp37m-linux_x86_64.whl size=4441067 sha256=4161f3645d04bad4bdf3cdb02675c5b031dae43a90e9aaab1173d310176ed47c
  Stored in directory: /tmp/pip-ephem-wheel-cache-cs0k5eq9/wheels/fe/36/ec/e22824ef645889bcbaa50970d5ca2eab23d31d9dab6f273fd7
Successfully built fasttext
Installing collected packages: fasttext
Successfully installed fasttext-0.9.2


In [0]:
import fasttext

dir(fasttext)

['BOW',
 'EOS',
 'EOW',
 'FastText',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 'absolute_import',
 'cbow',
 'division',
 'load_model',
 'print_function',
 'skipgram',
 'supervised',
 'tokenize',
 'train_supervised',
 'train_unsupervised',
 'unicode_literals']

In [0]:
from fasttext import skipgram

dir(skipgram)

['__annotations__',
 '__call__',
 '__class__',
 '__closure__',
 '__code__',
 '__defaults__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__get__',
 '__getattribute__',
 '__globals__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__kwdefaults__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__']

In [0]:
skipgram?

[0;31mSignature:[0m [0mskipgram[0m[0;34m([0m[0;34m*[0m[0mkargs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m <no docstring>
[0;31mFile:[0m      /opt/conda/envs/py37/lib/python3.7/site-packages/fasttext/FastText.py
[0;31mType:[0m      function


## Visualization

- PyTorch에는 자체 시각화 툴 없음
- Tensorflow의 Tensor Board 활용