# Example 11-1. Word Embeddings with GloVe and Sentiment Analysis 


- GloVe
    - window 안에 속하는 단어들만을 반영하는 word2vec의 단점을 해결하기 위한 아이디어
    - 전체 dictionary에서 두 단어의 동시등장(co-occurrence)하는 확률을 계산하고 동시에 등장하는 확률이 높을 수록 두 단어 벡터가 가까워지도록 학습
    

## Toy example

In [None]:
!pip install glove_python

In [None]:
input_text = [['the', 'da', 'vinci', 'code', 'book', 'is', 'just', 'awesome', '.'],
              ['i', 'liked', 'the', 'da', 'vinci', 'code', 'a', 'lot', '.']]

- 입력 데이터는 각 문장을 단어들의 list로 표현하여 준비

In [None]:
from glove import Corpus, Glove
corpus = Corpus() 
corpus.fit(input_text, window=10)

- Co-occurrence를 계산

In [None]:
corpus.dictionary

In [None]:
print(corpus.matrix)

In [None]:
glove = Glove(no_components=5)
glove.fit(corpus.matrix, epochs=30)

- 위에서 생성한 co-occurrence matrix를 입력값으로 받아 glove 학습

In [None]:
glove.add_dictionary(corpus.dictionary)

In [None]:
glove.word_vectors # embedding matrix

## Sentiment Analysis

#### Data preprocessing


- 문서를 line별로 읽어들이면서 단어의 빈도 계산

In [None]:

MAX_FEATURES = 2000   
MAX_SENTENCE_LENGTH = 40  

import collections
import os 
import numpy as np
import nltk
nltk.download('punkt')

maxlen = 0
word_freqs = collections.Counter()
num_recs = 0
ftrain = open("data/umich-sentiment-train.txt", 'rb')
for line in ftrain:
    label, sentence = line.decode('utf8').strip().split("\t")
    words = nltk.word_tokenize(sentence.lower())
    if len(words) > maxlen:
        maxlen = len(words)  # the maximum number of words in a sentence
    for word in words:
        word_freqs[word] += 1  # frequency for each word
    num_recs += 1 # total number of records
ftrain.close()

- 등장 빈도를 기준으로 `MAX_FEATURES` 만큼의 단어를 vocabulary로 결정
- vocabulary에 속하지 않는 단어는 "UNK"로 표시하면서 문장을 단어 단위로 tokenize 하고 list로 저장

In [None]:
vocab = [v for v, _ in word_freqs.most_common(MAX_FEATURES)]

sentences = np.empty((num_recs, ), dtype=list)
i = 0
ftrain = open("data/umich-sentiment-train.txt", 'rb')

for line in ftrain:
    label, sentence = line.decode('utf8').strip().split("\t")
    words = nltk.word_tokenize(sentence.lower())
    sentence = []
    for word in words:
        if word in vocab:
            sentence.append(word)
        else:
            sentence.append("UNK")
    sentences[i] = sentence
    i += 1
    
ftrain.close()

sentences=list(sentences)

<font color=blue>

TO DO: GloVe 알고리즘을 통해 word embedding을 하고 embedding matrix를 `embedding_matrix_glove`의 이름으로 저장하시오. 

In [None]:
EMBEDDING_SIZE = 128

# Your answer comes here.










<font color=blue>

TO DO: Word2vec 알고리즘을 사용하는 Lecture 11의 예제와 동일하게 이후 과정 진행

- Embedding matrix에 "UNK"을 나타내는 0 행을 추가 
- Look-up dictionary 생성


In [None]:
embedding_matrix_glove =                 


index2word = 


word2index = 


vocab_size = len(index2word)

- Keras embedding layer에 입력하기 위해 단어 인덱스를 사용하여 문장을 list로 변환하여 저장하고 각 문장의 sentiment label 저장

In [None]:
from keras.preprocessing import sequence


X = np.empty((num_recs, ), dtype=list)
y = np.zeros((num_recs, ))
i = 0
ftrain = open("data/umich-sentiment-train.txt", 'rb')

for line in ftrain:
    label, sentence = line.decode('utf8').strip().split("\t")
    words = nltk.word_tokenize(sentence.lower())
    seqs = []
    for word in words:
        if word in word2index:
            seqs.append(word2index[word])
        else:
            seqs.append(word2index["UNK"])
    X[i] = seqs
    y[i] = int(label)
    i += 1
ftrain.close()
X = sequence.pad_sequences(X, maxlen=MAX_SENTENCE_LENGTH)

In [None]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=0)
print(Xtrain.shape, Xtest.shape, ytrain.shape, ytest.shape)

<font color=blue>

TO DO: 

GloVe에 의해 학습된 embedding matrix를 사용하여 word2vec를 사용해 학습했던 모형과 동일한 구조의 모형을 학습하고 test set에 대한 accuracy를 계산하시오.

In [None]:
BATCH_SIZE = 512
NUM_EPOCHS = 100
EMBEDDING_SIZE = 128

from keras.models import Sequential
from keras.layers import Embedding, Dropout, LSTM, Dense
from keras.callbacks import TensorBoard, ModelCheckpoint, EarlyStopping

# Your answer comes here.










