# Word2Vec model
> * 단어를 vector로 바꿔주는 알고리즘 : Embedding
> * Neural Network Language Model(NNLM)을 계승하면서도 학습 속도와 성능을 끌어올림
> * 단어를 vectorization할 때 단어의 문맥적 의미를 보존함

* 이론 참고 

> [ratsgo's blog](https://ratsgo.github.io/)  
>> 1. [Word2Vec으로 문장 분류하기](https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/)  
>> 2. [빈도수 세기의 놀라운 마법 Word2Vec, Glove, Fasttext](https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/11/embedding/)  
>> 3. [Neural Network Language Model](https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/29/NNLM/)  
>> 4. [Word2Vec의 학습 방식](https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/30/word2vec/)  

> [data scienceschool](https://datascienceschool.net)  
>> 1. [단어 임베딩과 word2vec](https://datascienceschool.net/view-notebook/6927b0906f884a67b0da9310d3a581ee/)  
>> 2. [Scikit-Learn의 문서 전처리 기능](https://datascienceschool.net/view-notebook/3e7aadbf88ed4f0d87a76f9ddc925d69/)  
>> 3. [확률론적 언어 모형](https://datascienceschool.net/view-notebook/a0c848e1e2d343d685e6077c35c4203b/)  

> [BEOMSU KIM](https://shuuki4.wordpress.com/category/deep-learning/)
>>  1. [word2vec 관련 이론 정리](https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%A6%AC/)  

## Neural Network Language Model (NNLM)
> * Feed-Forward Neural Network Language Model
> * 단어를 vector로 바꾸는 neural network 기반 방법론
> * 컴퓨터는 단어를 숫자로 바꿔서 입력해야 컴퓨터는 연산을 수행
> * Input Layer, Projection Layer, Hidden Layer, Output Layer로 이우러진 Neural Network
> ![image](./nnlm.png)

>> 1. 현재 보고 있는 단어 이전의 단어들 N개를 one-hot encoding으로 벡터화
>> 2. 사전의 크기를 V라고 하고 Projection Layer의 크기를 P라고 했을 때, 각각의 벡터들은 V*P 크기의 Projection Matrix에 의해 다음 layer로 넘어가게 된다.
>> 3. Projection Layer의 값을 input이라고 생각하고, 크기 H인 hidden layer를 거쳐서 output layer에서 **각 단어들이 나올 확률**을 계산
>> 4. 실제 단어의 one-hot encoding 벡터와 비교하여 에러를 계산하고, 이를 back-propagation해서 네트워크의 weight들을 최적화해나가는 것

* 단점
> * 몇 개의 단어를 볼 건지에 대한 parameter N이 고정되어 있고, 정해주어야 한다. 
> * 이전의 단어들에 대해서만 신경쓸 수 있고, 현재 보고 있는 단어 앞에 있는 단어들을 고려하지 못한다. 
> * **느리다.**

## Recurrent Neural Network Language Model ( RNNLM)
> * NNLM을 Recurrent Neural Network의 형태로 변형한 것
> * Projection Layer없이 input, hidden, output layer로만 구성
> * **hidden layer에 recurrent한 연결이 있어 이전 시간의 Hidden Layer의 입력이 다시 입력되는 형식으로 구성**
> ![image](./rnnlm.png)
> * 그림에서 U라고 나타나 있는 부분이 Word Embedding으로 사용되며, **Hidden layer의 크기를 H라고 할 때 각 단어는 길이 H의 벡터로 표현**
> * NNLM과 달리 몇 개의 단어인지에 대해 정해줄 필요가 없이, 학습시켜줄 단어를 순차적으로 입력해주는 방식으로 학습
> * NNLM보다 연산량이 적다

## * Continuous Bag of Words (CBOW)  
* 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식
> ex) 나는 _에 간다.

![cbow](./cbow.png)
* 주어진 단어에 대해 앞 뒤로 c/2개 씩 총 C개의 단어를 Input으로 사용하여, 주어진 단어를 맞추기 위한 네트워크를 만든다. 
* Input Layer, Projection Layer, Output Layer로 구성
* Input Layer에서 중간 레이어로 가는 과정이 weight를 곱해주는 것이라기 보다는 단순히 Projection하는 과정에 가까움
* Input Layer에서 Projection Layer로 갈 때는 모든 단어들이 공통적으로 사용하는 V*N 크기의 Projection Matrix W가 있다. (N은 Projection Layer의 길이 = 사용할 벡터의 길이)
* Projection Layer에서 Output Layer로 갈 때는 N*V 크기의 Weight Matrix W'가 있다. 
* Input layer에서는 NNLM모델과 똑같이 단어를 One-hot encoding으로 넣어주고, 여러 개의 단어를 각각 Projection시킨 후 그 벡터들의 평균을 구해서 Projection Layer에 보낸다. 
* 그 뒤는 여기에 Weight Matrix를 곱해서 Output Layer로 보내고 softmax계산을 한후, 이 결과를 진짜 단어의 one-hot encoding과 비교하여 에러를 계산

## * Skip-Gram
* 중심에 있는 단어로 주변 단어를 예측하는 방법
> ex) _ 외나무다리 __

![skip-gram](./skip-gram.png)
* 예측하는 단어들의 경우 현재 단어 주위에서 샘플링하는데, '가까이 위치해있는 단어일수록 현재 단어와 관련이 더 많은 단어일것이다'라는 생각을 적용하기 위해 멀리 떨어져 있는 단어수록 낮은 확률로 택하는 방법을 사용한다. 
* 나머지 구조는 CBOW와 방향만 반대일 뿐 굉장히 유사하

* 참고  
> [Gensim](https://radimrehurek.com/gensim/index.html)  
> [Gensim Tutorial](https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/) 

In [1]:
import pickle
import numpy as np
from tqdm import tqdm
from numba import jit
from konlpy.utils import pprint

## Word2Vec model 생성을 위한 함수 정의

In [2]:
import multiprocessing
cores = multiprocessing.cpu_count() 
#sg (int {1, 0}) – Defines the training algorithm. If 1, CBOW is used, otherwise, skip-gram is employed.
def Make_Word2Vec_Model(data, size, epoch, sg, window,min_count, cbow_mean, workers, negative, hs, tagger):
    from tqdm import tqdm
    tqdm.pandas(desc="progress-bar")
    from datetime import datetime
    from gensim.models import Word2Vec
    start = datetime.now()
    modelPath = './model/'
    modelName = 'word2vec_size-{}_epoch-{}_window-{}_negative-{}_hs-{}_sg-{}_cbow_mean-{}_min_count-{}_by-{}.model'.format(
        size, epoch, window, negative, hs, sg, cbow_mean, min_count, tagger)
    modelName = modelPath+modelName
    print (modelName)
    w2v_model = Word2Vec(size = size, sg = sg, cbow_mean = cbow_mean, negative = negative,
                                  hs = hs, window = window, workers = workers, iter=epoch, min_count = min_count)
    w2v_model.build_vocab(tqdm(data))
    w2v_model.train(tqdm(data),  total_examples=w2v_model.corpus_count, epochs=w2v_model.iter, compute_loss = True)
    w2v_model.init_sims(replace = True)
    w2v_model.save(modelName)
    end = datetime.now()
    print ("Total running time: ", end-start)
    return w2v_model

## rawdata

In [None]:
import pandas as pd

In [None]:
rawdata = pd.read_csv('./data/sentiment_data/raw_data_for_sentiment.txt',header=None,encoding='utf-8')
print (rawdata.shape)

In [None]:
rawdata.head()

### STOPWORDS 

In [None]:
stopwords = open('./data/stopwordsList.txt',encoding='utf-8').readlines()
stopwords = list(map(lambda x: x.strip(), stopwords))

### Word2Vec 포맷으로 만들기

In [None]:
def Tagging(sentence, tagger, stopwords):
    pos = tagger.pos(sentence)
    pos = [x[0] for x in pos]
    pos = [x for x in pos if not x in stopwords]
    return pos

In [None]:
@jit
def Tagging2(sentence, tagger, stopwords):
    pos = pd.Series(tagger.pos(sentence)).str[0]
    pos = pos[~pos.isin(stopwords)]
    return pos.tolist()

In [None]:
def Make_Pre_Data_Sub(series, tagger, stopwords):
    from gensim.models.doc2vec import TaggedDocument
    pos = Tagging2(series[0], tagger, stopwords)
    label = series[1]
    return TaggedDocument(pos, [label])

In [None]:
@jit
def Make_Pre_Data(rawdata, tagger, stopwords):
    outList = list()
    for idx in tqdm(rawdata.index):
        outList.append([Tagging2(rawdata.loc[idx, 0], tagger, stopwords), rawdata.loc[idx, 1]])
    return outList

#### Tagging Twitter

In [None]:
from ckonlpy.tag import Twitter as ctwitter
ct = ctwitter()

In [None]:
%%time
tqdm.pandas(desc="progress")
pre_data = rawdata.progress_apply(lambda x: Make_Pre_Data_Sub(x, ct, stopwords), axis = 1).tolist()

In [None]:
pickle.dump(pre_data,open('./data/pre_data/tagged_data/pre_data__for_word2vec_sentiment_by_ct.pickled','wb'))

In [None]:
del ct

In [None]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(pre_data, test_size = 0.1)

In [None]:
del pre_data

In [None]:
pickle.dump(train,open('./data/pre_data/train_test_Data/pre_data_train_for_word2vec_sentiment_by_ct.pickled','wb'))
pickle.dump(test,open('./data/pre_data/train_test_Data/pre_data_test_for_word2vec_sentiment_by_ct.pickled','wb'))

In [3]:
train = pickle.load(open('./data/pre_data/train_test_Data/pre_data_train_for_word2vec_sentiment_by_ct.pickled','rb'))
test = pickle.load(open('./data/pre_data/train_test_Data/pre_data_test_for_word2vec_sentiment_by_ct.pickled','rb'))



In [4]:
x_train = [ x.words for x in tqdm(train)] 
y_train = [ x.tags for x in tqdm(train)] 
x_test = [ x.words for x in tqdm(test)] 
y_test = [ x.tags for x in tqdm(test)] 

100%|██████████| 442359/442359 [00:00<00:00, 1484524.27it/s]
100%|██████████| 442359/442359 [00:00<00:00, 1512929.06it/s]
100%|██████████| 49151/49151 [00:00<00:00, 1291482.82it/s]
100%|██████████| 49151/49151 [00:00<00:00, 1363264.60it/s]


In [5]:
del train
del test

In [6]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 0, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 1, hs = 0, tagger = 'ct')

./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-0_cbow_mean-1_min_count-2_by-ct.model


100%|██████████| 442359/442359 [00:10<00:00, 41323.88it/s]
100%|██████████| 442359/442359 [03:19<00:00, 2220.81it/s]


Total running time:  1:01:02.137368
Wall time: 1h 1min 3s


In [7]:
del model

In [8]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 0, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 0, hs = 0, tagger = 'ct')

./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-0_cbow_mean-0_min_count-2_by-ct.model


100%|██████████| 442359/442359 [00:09<00:00, 46835.69it/s]
100%|██████████| 442359/442359 [02:49<00:00, 2607.38it/s]


Total running time:  0:43:09.908259
Wall time: 43min 9s


In [9]:
del model

In [10]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 1, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 0, hs = 0, tagger = 'ct')


./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-1_cbow_mean-0_min_count-2_by-ct.model


100%|██████████| 442359/442359 [00:09<00:00, 45301.04it/s]
100%|██████████| 442359/442359 [25:00<00:00, 294.88it/s]


Total running time:  7:49:37.103990
Wall time: 7h 49min 37s


In [11]:
del model

#### Tagging Mecab

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()

In [None]:
%%time
tqdm.pandas(desc="progress-bar")
pre_data = rawdata.progress_apply(lambda x: Make_Pre_Data_Sub(x, mecab, stopwords), axis = 1).tolist()

In [None]:
%%time
pre_data = Make_Pre_Data(rawdata, mecab, stopwords)

In [None]:
pickle.dump(pre_data,open('./data/pre_data/tagged_data/pre_data__for_word2vec_sentiment_by_mecab.pickled','wb'))

In [None]:
del mecab

In [None]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(pre_data, test_size = 0.1)

In [None]:
del pre_data

In [None]:
pickle.dump(train,open('./data/pre_data/train_test_Data/pre_data_train_for_word2vec_sentiment_by_mecab.pickled','wb'))
pickle.dump(test,open('./data/pre_data/train_test_Data/pre_data_test_for_word2vec_sentiment_by_mecab.pickled','wb'))

In [12]:
train = pickle.load(open('./data/pre_data/train_test_Data/pre_data_train_for_word2vec_sentiment_by_mecab.pickled','rb'))
test = pickle.load(open('./data/pre_data/train_test_Data/pre_data_test_for_word2vec_sentiment_by_mecab.pickled','rb'))

In [13]:
x_train = [ x.words for x in tqdm(train)] 
y_train = [ x.tags for x in tqdm(train)] 
x_test = [ x.words for x in tqdm(test)] 
y_test = [ x.tags for x in tqdm(test)] 

100%|██████████| 442359/442359 [00:00<00:00, 1457736.54it/s]
100%|██████████| 442359/442359 [00:00<00:00, 1528298.60it/s]
100%|██████████| 49151/49151 [00:00<00:00, 1362913.10it/s]
100%|██████████| 49151/49151 [00:00<00:00, 1486739.24it/s]


In [14]:
del train
del test

In [15]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 0, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 1, hs = 0, tagger = 'mecab')


./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-0_cbow_mean-1_min_count-2_by-mecab.model


100%|██████████| 442359/442359 [00:10<00:00, 40336.77it/s]
100%|██████████| 442359/442359 [03:02<00:00, 2421.80it/s]


Total running time:  0:58:07.911579
Wall time: 58min 7s


In [16]:
del model

In [17]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 0, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 0, hs = 0, tagger = 'mecab')


./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-0_cbow_mean-0_min_count-2_by-mecab.model


100%|██████████| 442359/442359 [00:09<00:00, 44282.71it/s]
100%|██████████| 442359/442359 [02:43<00:00, 2710.13it/s]


Total running time:  0:41:33.832084
Wall time: 41min 33s


In [18]:
del model

In [19]:
%%time
model = Make_Word2Vec_Model(data = x_train, size = 2000, epoch = 20, 
                   sg = 1, window = 10, workers = cores, negative = 7, min_count = 2,
                    cbow_mean = 0, hs = 0, tagger = 'mecab')


./model/word2vec_size-2000_epoch-20_window-10_negative-7_hs-0_sg-1_cbow_mean-0_min_count-2_by-mecab.model


100%|██████████| 442359/442359 [00:09<00:00, 44309.46it/s]
100%|██████████| 442359/442359 [22:25<00:00, 328.86it/s]


Total running time:  7:12:20.963696
Wall time: 7h 12min 20s


In [20]:
del model