## word embedding의 의미??

learned representation of words를 의미한다.

- similar meanings => similar representation 전제에서 출발.

Dense, low dimensional representations 형태로, NN에 적용시켜 학습하기 편하다. (원 핫 인코딩에 비해서)

(특정 word가 나타났는지 여부 확인 + 해당 단어의 의미를 encapsulate할 수 있는 거라고 보면 된다)

예컨대 20000개 단어를 one_hot 하면 input은 20000개일 거고, 대부분의 값은 0일 것이다. 이거 대신 사용하려는 것.

ex) this is awful movie / this is terrible movie. 두 개의 단어는 형용사만 제외하면 동일한 의미이다.

이 경우는 contextual operation을 할 수 있다. by performing vector operations on these learned representations.

King - men + women = Queen...


워드 임베딩 알고리즘의 종류
- embedding layer -> Neural network의 한 레이어를 아예 embedding으로 할애하는 것
- word2vec -> predicts words in similar context. 
- glove -> similar context의 word count를 바탕으로 한 알고리즘





In [1]:
import gensim

In [2]:
def load_data():
    reviewsFile = open("./Hands-on-NLP-with-PyTorch-master/data/reviews.txt",'r')
    reviews = list(map(lambda x:x[:-1],reviewsFile.readlines()))
    reviewsFile.close()

    labelsFile = open("./Hands-on-NLP-with-PyTorch-master/data/labels.txt",'r')
    labels = list(map(lambda x:x[:-1],labelsFile.readlines()))
    labelsFile.close()
    
    return reviews,labels

reviews, labels = load_data()

In [3]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("\w+\'?\w+|\w+")

from nltk.corpus import stopwords
stop_words = stopwords.words('english')

from spacy.lang.en.stop_words import STOP_WORDS

exceptionStopWords = {
    'again',
    'against',
    'ain',
    'almost',
    'among',
    'amongst',
    'amount',
    'anyhow',
    'anyway',
    'aren',
    "aren't",
    'below',
    'bottom',
    'but',
    'cannot',
    'couldn',
    "couldn't",
    'didn',
    "didn't",
    'doesn',
    "doesn't",
    'don',
    "don't",
    'done',
    'down',
    'except',
    'few',
    'hadn',
    "hadn't",
    'hasn',
    "hasn't",
    'haven',
    "haven't",
    'however',
    'isn',
    "isn't",
    'least',
    'mightn',
    "mightn't",
    'move',
    'much',
    'must',
    'mustn',
    "mustn't",
    'needn',
    "needn't",
    'neither',
    'never',
    'nevertheless',
    'no',
    'nobody',
    'none',
    'noone',
    'nor',
    'not',
    'nothing',
    'should',
    "should've",
    'shouldn',
    "shouldn't",
    'too',
    'top',
    'up',
    'wasn',
    "wasn't",
    'well',
    'weren',
    "weren't",
    'won',
    "won't",
    'wouldn',
    "wouldn't",
}

stop_words = set(stop_words).union(STOP_WORDS)

final_stop_words = stop_words-exceptionStopWords

import spacy
nlp = spacy.load("en",disable=['parser', 'tagger', 'ner'])

def make_token(review):
    return tokenizer.tokenize(str(review))

def remove_stopwords(review):
    return [token for token in review if token not in final_stop_words]

def lemmatization(review):
    lemma_result = []
    
    for words in review:
        doc = nlp(words)
        for token in doc:
            lemma_result.append(token.lemma_)
    return lemma_result

def pipeline(review):
    review = make_token(review)
    review = remove_stopwords(review)
    return lemmatization(review)

# %%time
reviews = list(map(lambda review: pipeline(review),reviews))

In [6]:
reviews[:2]
# base form이며, stopwords는 제거된 상태.

[['bromwell',
  'high',
  'cartoon',
  'comedy',
  'run',
  'time',
  'program',
  'school',
  'life',
  'teacher',
  'year',
  'teach',
  'profession',
  'lead',
  'believe',
  'bromwell',
  'high',
  'satire',
  'much',
  'close',
  'reality',
  'teacher',
  'scramble',
  'survive',
  'financially',
  'insightful',
  'student',
  'right',
  'pathetic',
  'teacher',
  'pomp',
  'pettiness',
  'situation',
  'remind',
  'school',
  'know',
  'student',
  'see',
  'episode',
  'student',
  'repeatedly',
  'try',
  'burn',
  'down',
  'school',
  'immediately',
  'recall',
  'high',
  'classic',
  'line',
  'inspector',
  'sack',
  'teacher',
  'student',
  'welcome',
  'bromwell',
  'high',
  'expect',
  'adult',
  'age',
  'think',
  'bromwell',
  'high',
  'far',
  'fetch',
  'pity',
  'isn'],
 ['story',
  'man',
  'unnatural',
  'feeling',
  'pig',
  'start',
  'open',
  'scene',
  'terrific',
  'example',
  'absurd',
  'comedy',
  'formal',
  'orchestra',
  'audience',
  'turn',
  '

In [7]:
from gensim.models import Word2Vec

In [8]:
embedding_dim = 100
# 이 값은 보통 vocab size & text couples에 따라 다르다.

In [9]:
model = Word2Vec(reviews, size = embedding_dim, window = 3, min_count = 3, workers = 4)
# window = N of words that the embedding has to consider for a given words.
# min_count는 3. 최소 3번은 등장한 단어부터 model에 포함된다는 소리
# train을 마치면, model을 삭제하는 걸 추천한다고 함. 메모리 소모가 많기 때문이라고.
# embedding에 필요한 모든 정보를 가지고 있는 model.wv를 쓴다.

In [10]:
word_vectors = model.wv
del model

In [12]:
len(word_vectors.vocab)

28165

word embedding이 찾아 준, similar words 조합을 찾아보자


In [13]:
word_vectors.similar_by_word(word='good', topn=5)
# 상위 5개 조합. 비슷해 보이는 의미라고 유추 가능하다.

[('decent', 0.7098484039306641),
 ('alright', 0.670569121837616),
 ('darn', 0.6590393781661987),
 ('okay', 0.6483892202377319),
 ('great', 0.6436715126037598)]

In [14]:
word_vectors.similar_by_word(word='bad', topn=5)
# 상위 5개 조합. 비슷해 보이는 의미라고 유추 가능하다.

[('terrible', 0.7132728099822998),
 ('horrible', 0.7132444381713867),
 ('suck', 0.6856053471565247),
 ('lousy', 0.679572343826294),
 ('awful', 0.6717656850814819)]

In [15]:
word_vectors.most_similar(positive='bad', topn=5)

[('terrible', 0.7132728099822998),
 ('horrible', 0.7132444381713867),
 ('suck', 0.6856053471565247),
 ('lousy', 0.679572343826294),
 ('awful', 0.6717656850814819)]

In [16]:
word_vectors.similarity('good','bad')
# 두 단어가 similar context에서 등장할 경우 높고, 아닐 경우 낮은 값이 나온다
# 다시말해 this is a good movie / this is a bad movie와 같이 유사한 형태로 많이 등장하는 단어라는 뜻이고

0.5713808953482875

In [17]:
word_vectors.similarity('good', 'be')
# when they don't appear in simliar context.
# this is a good movie와 같은 문장 맥락에서 be라는 단어는 잘 안 쓰였다는 의미다.

0.29746172755519396

In [18]:
word_vectors.similar_by_word('sad',topn=5)

[('depress', 0.7849045991897583),
 ('cry', 0.7138973474502563),
 ('heartwarming', 0.6890783905982971),
 ('happy', 0.679260790348053),
 ('scary', 0.6663157939910889)]

In [19]:
# contextual relationship btwn words
# king - men + women = queen 같은
word_vectors.most_similar(negative = ['bad'], positive=['decent'],topn=5)
# positive = needs to be added, negative= needs to be substracted
# contextual relationship의 workout을 이런 식으로 확인할 수 있다고 함

[('solid', 0.3796919882297516),
 ('fine', 0.3740949034690857),
 ('nicely', 0.3674663305282593),
 ('support', 0.3629467189311981),
 ('splendid', 0.36054667830467224)]

## Pretrained Embedding models

- word embedding = statistic method to learn standalone word embeddings from a text corpus. 2 Different types of models.

2 dif types {
    continuous bag of words : current word is predicted from its surroundings.
    continuous skip gram model : surrounding words are predicted from a current words.
}
두 개의 모델을 바탕으로 만들어지는 게 word embedding

pretrained 모델을 쓸 수 있다고 함.

``from gensim.models import KeyedVectors``

``model = KeyedVectors.load_word2vec_format('data/GoogleGoogleNews-vectors-negative300.bin/', binary=True)``

구글 뉴스데이터를 바탕으로 한 값들. 특정 디렉토리에 다운로드해 저장한 다음 필요할 때 꺼내쓰는 게 일반적이다.

