# NLP

## Embedding

In [1]:
import torch
import numpy as np

```
embedding = torch.nn.Embedding(
    num_embeddings,
    embedding_dim,
    padding_idx = None,
    max_norm = None,
    norm_type = 2.0
)
```

num_embeddings = 단어 사전의 크기

embedding_dim = 임베딩 벡터의 차원 수. 임베딩 벡터의 크기

padding_idx = 패딩 토큰의 인덱스를지정하여 해당 인덱스의 임베딩 벡터를 0으로 설정. 입력한 문장들을 일정 길이로 맞추는 역할을 수행.

norm_type = 임베딩 벡터의 크기를 제한하는 방법을 선택. 기본값은 2(Ridge, L2). 1을 선택하면 L1(Lasso) 방식을 사용.

max_norm = embedding vector의 최대 크기를 지정. 각 임베딩 벡터의 크기가 최대 norm값 이상이라면 임베딩 벡터를 최대 norm 크기로 잘라내고 크기를 감소.

In [2]:
from torch import nn

In [71]:
class VanillaSkipgram(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super().__init__()
        self.embedding = nn.Embedding(
            num_embeddings=vocab_size,
            embedding_dim=embedding_dim
        )
        self.linear = nn.Linear(
            in_features=embedding_dim,
            out_features=vocab_size
        )
        
    def forward(self, input_ids):
        embeddings = self.embedding(input_ids)
        output = self.linear(embeddings)
        return output

계층적 softmax나 negative sampling과 같은 효율적인 기법이 사용되지 않은 기본 형식의 skip-gram 모델.

입력 단어와 주변 단어를 lookup table에서 가져와서 내적을 계산하고 손실 함수를 통해 예측 오차를 최소화하는 방식으로 학습.

기본 형식의 skip-gram 모델을 선언했다면, 모델 학습에 사용할 데이터세트를 불러와야 함.

이 경우 데이터세트는 kopora library의 네이버 영화 리뷰 감성 분석 데이터셋.

In [4]:
import pandas as pd
from Korpora import Korpora
from konlpy.tag import Okt

In [5]:
corpus = Korpora.load('nsmc')
corpus = pd.DataFrame(corpus.test)


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\dohyeong\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\

In [6]:
corpus

Unnamed: 0,text,label
0,굳 ㅋ,1
1,GDNTOPCLASSINTHECLUB,0
2,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...
49995,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


In [7]:
tokenizer = Okt()
tokens = [tokenizer.morphs(review) for review in corpus.text]

print(tokens[:3])

[['굳', 'ㅋ'], ['GDNTOPCLASSINTHECLUB'], ['뭐', '야', '이', '평점', '들', '은', '....', '나쁘진', '않지만', '10', '점', '짜', '리', '는', '더', '더욱', '아니잖아']]


In [8]:
from collections import Counter

In [9]:
def build_vocab(corpus, n_vocab, special_tokens):
    counter = Counter()
    for tokens in corpus:
        counter.update(tokens)
    vocab = special_tokens
    for token, count in counter.most_common(n_vocab):
        vocab.append(token)
    return vocab

In [10]:
vocab = build_vocab(corpus = tokens, n_vocab=5000, special_tokens = ['<unk>'])
token_to_id = {token: idx for idx, token in enumerate(vocab)}
id_to_token = {idx: token for idx, token in enumerate(vocab)}

print(vocab[:10])
print(len(vocab))

['<unk>', '.', '이', '영화', '의', '..', '가', '에', '...', '을']
5001


In [14]:
def get_word_pairs(tokens, window_size):
    pairs = []
    for sentence in tokens:
        sentence_length = len(sentence)
        for idx, center_word in enumerate(sentence):
            window_start = max(0, idx-window_size)
            window_end = min(sentence_length, idx+window_size+1)
            center_word = sentence[idx]
            context_words = sentence[window_start:idx] + sentence[idx+1:window_end]
            
            for context_word in context_words:
                pairs.append([center_word, context_word])
                
    return pairs

In [15]:
word_pairs = get_word_pairs(tokens, window_size=2)

In [16]:
print(word_pairs[:5])

[['굳', 'ㅋ'], ['ㅋ', '굳'], ['뭐', '야'], ['뭐', '이'], ['야', '뭐']]


In [27]:
print(word_pairs[:10])

[['굳', 'ㅋ'], ['ㅋ', '굳'], ['뭐', '야'], ['뭐', '이'], ['야', '뭐'], ['야', '이'], ['야', '평점'], ['이', '뭐'], ['이', '야'], ['이', '평점']]


In [28]:
len(word_pairs)

2589946

In [43]:
def get_index_pairs(word_pairs, token_to_id):
    pairs = []
    unk_index = token_to_id['<unk>']
    for word_pair in word_pairs:
        center_word, context_word = word_pair
        center_index = token_to_id.get(center_word, unk_index)
        context_index = token_to_id.get(context_word, unk_index)        
        pairs.append([center_index, context_index])
    return pairs

In [44]:
index_pairs = get_index_pairs(word_pairs, token_to_id)

In [45]:
print(index_pairs[:5])

[[595, 100], [100, 595], [77, 176], [77, 2], [176, 77]]


In [29]:
import torch
from torch.utils.data import TensorDataset, DataLoader

In [50]:
index_pairs = torch.tensor(index_pairs)
center_indexes = index_pairs[:, 0]
content_indexes = index_pairs[:, 1]

dataset = TensorDataset(center_indexes, content_indexes)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

  index_pairs = torch.tensor(index_pairs)


In [51]:
from torch import optim

In [72]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
word2vec = VanillaSkipgram(vocab_size = len(token_to_id), embedding_dim = 128).to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.SGD(word2vec.parameters(), lr=0.1)

In [77]:
for epoch in range(25):
    cost = 0.0
    for input_ids, target_ids in dataloader:
        input_ids = input_ids.to(device)
        target_ids = target_ids.to(device)
        
        logits = word2vec(input_ids)
        loss = criterion(logits, target_ids)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        cost += loss
        
    cost = cost/len(dataloader)
    
    if epoch > 1:
        if previous - 0.0001 > cost:
            print(f"Epoch : {epoch+1:4d}, Cost: {cost:.3f}")
            break
    previous = cost
    
    print(f"Epoch : {epoch+1:4d}, Cost: {cost:.3f}")

Epoch :    1, Cost: 5.792
Epoch :    2, Cost: 5.783
Epoch :    3, Cost: 5.775


In [78]:
token_to_embedding = dict()
embedding_matrix = word2vec.embedding.weight.detach().cpu().numpy()

In [79]:
for word, embedding in zip(vocab, embedding_matrix):
    token_to_embedding[word] = embedding

In [80]:
index = 30
token = vocab[30]
token_embedding = token_to_embedding[token]
print(token)
print(token_embedding)

연기
[-1.1470925  -0.45353258 -1.4100281  -0.4359115   0.45776555 -1.0378495
 -0.5793153  -1.0564619  -0.0040138   0.31449902  0.8191109   0.6205507
  0.25863805  0.90914685 -1.034102    1.1804768  -0.8231319  -0.28133342
 -0.73907053 -0.3992155   0.10631946 -0.12566547  0.98546356 -0.24158162
 -0.16468984 -0.7064888   0.00693423 -1.4487778   1.2125809  -0.16144711
  0.6580337   0.29140827  0.5636844   0.23774803 -0.5729031  -1.0407064
 -1.1420559  -0.48986226 -0.5752811  -0.01549503 -0.39826065  0.521287
 -0.22195017 -0.00792905  0.3537114   2.490282   -0.36432886  0.89823234
  0.13147224 -0.10786215 -1.5473667  -0.94905186  1.115509   -0.04999183
 -1.806789   -0.34175512  0.8161983  -0.5417446  -0.20808673 -1.8825325
 -1.1143032   0.10481103  1.135397    0.16712715 -0.82443273 -0.3895439
 -0.53490967 -1.7814435   0.16670318  0.15598522  0.13907772 -0.6384126
 -1.8532416   0.82332444  0.4496294   0.11585472  1.7476325   0.6590356
  0.85262185  0.1694762   0.14345947 -0.78168476  0.64653

word2vec 모델의 임베딩 행렬을 이용, 각 단어의 embedding 값을 매핑.

임베딩의 유사도 측정에 있어서는 cosine similarity를 일반적으로 사용.

In [82]:
import numpy as np
from numpy.linalg import norm

In [85]:
def cosine_similarity(a, b):
    cosine = np.dot(b, a) / (norm(b, axis=1) * norm(a))
    
    return cosine

def top_n_index(cosine_matrix, n):
    closest_indexes = cosine_matrix.argsort()[::-1]
    top_n = closest_indexes[1 : n+1]
    return top_n

In [86]:
cosine_matrix = cosine_similarity(token_embedding, embedding_matrix)
top_n = top_n_index(cosine_matrix, n=5)

In [87]:
print('5 words')
for index in top_n:
    print(f"{id_to_token[index]} - sim: {cosine_matrix[index]:.4f}")

5 words
있는지 - sim: 0.3006
재밌던 - sim: 0.2864
연기력 - sim: 0.2824
살리지 - sim: 0.2792
cg - sim: 0.2653


## Gensim

using hierarchical softmax or negative sampling to be more effective

In [88]:
import gensim

adopting negative sampling by Cython

```
word2vec = gensim.models.Word2Vec(
    sentences = None, # 학습 데이터
    corpus_file = None, # 파일 경로. 입력 문장(sentence) 대신 사용
    vector_size = 100, # 임베딩 벡터 크기
    alpha = 0.025 # Word2Vec 학습률
    window = 5, # 학습 데이터 생성 윈도우 크기. e.g. window=3이라면, 중심 단어로부터 3거리만큼의 단어까지 고려
    min_count = 5, # 학습에 사용할 단어의 최소 빈도. 말뭉치 내 최소 빈도만큼 등장하지 아니한 경우라면 학습에 사용하지 아니함.
    workers = 3, # 빠른 학습을 위해 병렬 학습할 스레드의 수
    sg = 0, # Skip-gram 모델의 사용 여부를 설정. 1이면 skip gram, 0이면 CBoW 모델
    hs = 0, # 계층적 소프트맥스. 
    cbow_mean = 1, # CBoW 모델로 구성 시 사용되는 하이퍼파라미터. 주변 단어를 합쳐 하나의 벡터로 만들 때, 합한 벡터의 평균화 여부를 설정. 1이면 평균화
    negative = 5, #  
    ns_exponent = 0.75, # 네거티브 샘플링 확률의 지수. 
    max_final_vocab = None, # 단어 사전의 최대 크기. 최소 빈도를 충족하는 단어가 최대 최종 단어 사전보다 많다면, 등장률이 높은 순으로 사전을 구축
    epochs = 5,
    batch_words = 10000 # 몇 개의 단어로 학습 배치를 구성할지 결정. 컴퓨팅 자원이 모자란다면, 배치 단어 수를 낮추어 학습을 진행.
)
```

In [89]:
from gensim.models import Word2Vec

In [94]:
word2vec = gensim.models.Word2Vec(
    sentences = tokens,
    vector_size=128,  
    window=5,
    min_count=1,
    sg=1,
    epochs=3,
    max_final_vocab=10000
)

In [96]:
word2vec.save('./word2vec.model')

In [97]:
word2vec = Word2Vec.load('./word2vec.model')

In [98]:
word = '연기'
print(word2vec.wv[word])
print(word2vec.wv.most_similar(word, topn=10))
print(word2vec.wv.similarity(w1=word, w2='연기력'))

[-0.25246373 -0.3491199   0.38122186  0.25815445 -0.05388842 -0.04009622
 -0.05378585 -0.22577009 -0.6477572   0.42385954 -0.05005813 -0.25666878
 -0.16922015 -0.07851492  0.05295365 -0.02408049 -0.21038438  0.26429063
 -0.14678991  0.12876222  0.48424977  0.06698535 -0.32169378 -0.06314953
 -0.23801267  0.08292168 -0.39624816  0.05241839  0.28025323 -0.08086042
 -0.33615294  0.1661649   0.5135952  -0.05084412 -0.16073489  0.21309592
  0.23913004 -0.11016405  0.05802022 -0.14048728  0.00995715  0.2961721
  0.03572152 -0.38330662 -0.5463036   0.0364121  -0.62656003  0.07114148
  0.08507526 -0.00488687  0.589722    0.07030232  0.25247985  0.28395632
 -0.34245312 -0.1888582  -0.01957356  0.08395969 -0.04283346  0.14319025
 -0.04381518 -0.07038638  0.060624    0.28508776 -0.4624694   0.13415839
  0.00784608  0.2480188   0.47224653 -0.20374437 -0.23252682 -0.25931555
 -0.39035228  0.17183472 -0.11554734 -0.208209   -0.22948785 -0.39710212
 -0.10575233  0.15993853 -0.3142133   0.06665111  0.

## fastText

an opensource embedding model. algorithme for text classification and text mining.

this technique is similar with word2vec, but has higher accuracy and efficiency, cause it calculate sub-word of target word

use '<', '>', to vectorise words

symbol attached word is being distributed to subword set by using N-gram. e.g. '서울특별시' => '서울', '울특', '특별', '별시' etc. and also subword set contains the origin word('서울특별시')

```
fasttext = gensim.Models.FastText(
    sentences=None,
    corpus_file=None,
    vector_size=100,
    alpha=0.025,
    window=5,
    min_count=5,
    workers=3,
    sg=0,
    hs=0,
    cbow_mean=1,
    negative=5,
    ns_exponent=0.75,
    max_final_vocab=None,
    epochs=5,
    batch_words=10000,
    min_n=3,
    max_n=6
)
```

ngram에서 최소n이 2고, 최대n이 4라면, 2-gram, 3-gram, 4-gram으로 나뉘어 하위단어집합을 생성.