In [None]:
!pip install Korpora konlpy

Collecting Korpora
  Downloading Korpora-0.2.0-py3-none-any.whl (57 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.8/57.8 kB[0m [31m880.9 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m74.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dataclasses>=0.6 (from Korpora)
  Downloading dataclasses-0.6-py3-none-any.whl (14 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m49.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: dataclasses, JPype1, Korpora, konlpy
Successfully installed JPype1-1.5.0 Korpora-0.2.0 dataclasses-0.6 konlpy-0.6.0


# N-gram

N개의 연속된 단어 시퀀스를 하나의 단위로 취급하여 특정 단어 시퀀스가 등장할 확률을 추정한다.
<br><br>
다음은 간단하게 N-gram을 구현한 함수이다.

In [None]:
def ngrams(sentence, n):
  words = sentence.split()
  ngrams = zip(*[words[i:] for i in range(n)])
  return list(ngrams)

In [None]:
sentence = "안녕하세요 만나서 진심으로 반가워요"

unigram = ngrams(sentence, 1)
bigram = ngrams(sentence, 2)
trigram = ngrams(sentence, 3)

print(unigram)
print(bigram)
print(trigram)

[('안녕하세요',), ('만나서',), ('진심으로',), ('반가워요',)]
[('안녕하세요', '만나서'), ('만나서', '진심으로'), ('진심으로', '반가워요')]
[('안녕하세요', '만나서', '진심으로'), ('만나서', '진심으로', '반가워요')]


또는 NLTK 라이브러리로 구현할 수 있다.

In [None]:
import nltk

unigram = nltk.ngrams(sentence.split(), 1)
bigram = nltk.ngrams(sentence.split(), 2)
trigram = nltk.ngrams(sentence.split(), 3)

print(list(unigram))
print(list(bigram))
print(list(trigram))

[('안녕하세요',), ('만나서',), ('진심으로',), ('반가워요',)]
[('안녕하세요', '만나서'), ('만나서', '진심으로'), ('진심으로', '반가워요')]
[('안녕하세요', '만나서', '진심으로'), ('만나서', '진심으로', '반가워요')]


- 작은 규모의 데이터세트에서 연속된 문자열 패턴을 분석하는 데 큰 효과를 보인다.
- 예를 들어 '입이 무겁다'라는 표현 처럼 자주 등장하는 연속된 단어나 구를 추출하고, 이를 분석함으로써 관용적 표현을 파악할 수 있다.
- 단어의 순서가 중요한 자연어 처리 작업 및 문자열 패턴 분석에 활용된다.

# TF-IDF

**TF-IDF(Term Frequency-Inverse Document Frequency)**란 텍스트에서 특정 단어의 중요도를 계산하는 방법으로, 문서 내에서 단어의 중요도를 평가하는 데 사용되는 통계적인 가중치를 의미한다. 즉, **BoW(Bag of Words)**에 가중치를 부여하는 방법이다.  
<br>
BoW는 문서나 문장을 단어의 집합으로 표현하는 방법으로, 단어의 중복을 허용해 빈도를 기록한다.

- TF: 문서 내에서 특정 단어의 빈도수
- DF: 한 단어가 얼마나 많은 문서에 나타나는지 의미
- IDF: 전체 문서수를 DF로 나눈 뒤 로그를 취한 값이다. 즉, 특정 단어의 등장 횟수가 적으면 IDF 값은 상대적으로 커진다.

TF-IDF는 TF와 IDF를 곱한 값이다. 어떤 단어가 문서 내에서 자주 등장하지만 전체 문서 내에서는 적게 등장한다면 TF-IDF 값은 커진다. 그러므로 자주 등할 확률이 높은 관사나 관용어 등의 가중치는 낮아진다.
<br><br>
사이킷런을 활용해 TF-IDF를 계산할 수 있다.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer


corpus = [
    "That movie is famous movie",
    "I like that actor",
    "I don’t like that actor"
]

tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(corpus)
tfidf_matrix = tfidf_vectorizer.transform(corpus)
# tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

print(tfidf_matrix.toarray())
print(tfidf_vectorizer.vocabulary_)

[[0.         0.         0.39687454 0.39687454 0.         0.79374908
  0.2344005 ]
 [0.61980538 0.         0.         0.         0.61980538 0.
  0.48133417]
 [0.4804584  0.63174505 0.         0.         0.4804584  0.
  0.37311881]]
{'that': 6, 'movie': 5, 'is': 3, 'famous': 2, 'like': 4, 'actor': 0, 'don': 1}


- 문서마다 중요한 단어만 추출할 수 있으며, 벡터값을 활용해 문서 내 핵심 단어를 추출할 수 있다.
- 빈도기반 덱터화는 문자으이 순서나 문맥을 고려하지 않는다. 그러므로 문장 생성과 같이 순서가 중요한 작업에는 부적합하다.
- 벡터가 단어의 의미를 담고 있지는 않다.

# Word2Vec

Word2Vec은 임베딩 모델로 단어 간의 유사성을 측정하기 위해 **분포 가설**을 기반으로 개발됐다.
<br><br>
분포 가설이란 같은 문맥에서 함께 자주 나타나는 단어들은 서로 유사한 의미를 가질 가능성이 높다는 가정이다. 분포 가설은 ㄷ나어 간의 동시 발생 확률 분포를 이용해 단어 간의 유사성을 측정한다.

## Skip-gram

Skip-gram은 중심 단어를 입력으로 받아서 주변 단어를 예측하는 모델이다.
<br><br>
학습 데이터가 어떻게 만들어지는지 알아보기 위해 "A B C D E"라는 문장이 있고 window를 2로 설정한다고 가정한다. 처음의 중심 단어는 A이고 주변 단어는 B, C이다. 학습 데이터는 (A | B), (A | C)이다. 중심 단어가 C일 때는 학습 데이터가 4개 만들어진다.
<br><br>
CBoW와 비교하여 여러 학습 데이터를 추출할 수 있어 더 높은 성능을 보인다. 계층적 소프트맥스나 네거티브 샘플링을 사용하지 않는 기본 Skip-gram 클래스는 다음과 같이 정의할 수 있다.

In [None]:
from torch import nn

class VanillaSkipGram(nn.Module):
  def __init__(self, vocab_size, embedding_dim):
    super().__init__()
    self.embedding = nn.Embedding(
        num_embeddings=vocab_size,
        embedding_dim=embedding_dim
    )
    self.linear = nn.Linear(
        in_features=embedding_dim,
        out_features=vocab_size
    )

  def forward(self, input_ids):
    embeddings = self.embedding(input_ids)
    output = self.linear(embeddings)
    return output

영화 리뷰 데이터세트 전처리

In [None]:
import pandas as pd
from Korpora import Korpora
from konlpy.tag import Okt

corpus = Korpora.load('nsmc')
corpus = pd.DataFrame(corpus.test)

tokenizer = Okt()
tokens = [tokenizer.morphs(review) for review in corpus.text]
print(tokens[:3])


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/



[nsmc] download ratings_train.txt: 14.6MB [00:00, 241MB/s]
[nsmc] download ratings_test.txt: 4.90MB [00:00, 141MB/s]


[['굳', 'ㅋ'], ['GDNTOPCLASSINTHECLUB'], ['뭐', '야', '이', '평점', '들', '은', '....', '나쁘진', '않지만', '10', '점', '짜', '리', '는', '더', '더욱', '아니잖아']]


단어 사전 구축

In [None]:
from collections import Counter

def build_vocab(corpus, n_vocab, special_tokens):
  counter = Counter()
  for tokens in corpus:
    counter.update(tokens)
  vocab = special_tokens
  for token, count in counter.most_common(n_vocab):
    vocab.append(token)
  return vocab

vocab = build_vocab(tokens, 5000, ['<unk>'])
token_to_id = {token: idx for idx, token in enumerate(vocab)}
id_to_token = {idx: token for idx, token in enumerate(vocab)}

print(vocab[:10])
print(len(vocab))

['<unk>', '.', '이', '영화', '의', '..', '가', '에', '...', '을']
5001


Skip-gram의 단어 쌍 추출

In [None]:
def get_word_pairs(tokens, window_size):
  pairs = []
  for sentence in tokens:
    sentence_length = len(sentence)
    for idx, center_word in enumerate(sentence):
      window_start = max(0, idx - window_size)
      window_end = min(sentence_length, idx + window_size + 1)
      center_word = sentence[idx]
      context_words = sentence[window_start:idx] + sentence[idx+1:window_end]
      for context_word in context_words:
        pairs.append([center_word, context_word])
  return pairs

word_pairs = get_word_pairs(tokens, window_size=2)
print(word_pairs[:5])

[['굳', 'ㅋ'], ['ㅋ', '굳'], ['뭐', '야'], ['뭐', '이'], ['야', '뭐']]


단어 쌍을 인덱스 쌍으로 변환

In [None]:
def get_index_pairs(word_pairs, token_to_id):
  pairs = []
  unk_index = token_to_id['<unk>']
  for word_pair in word_pairs:
    centor_word, context_word = word_pair
    centor_word_index = token_to_id.get(centor_word, unk_index)
    context_word_index = token_to_id.get(context_word, unk_index)
    pairs.append([centor_word_index, context_word_index])
  return pairs

index_pairs = get_index_pairs(word_pairs, token_to_id)
print(index_pairs[:5])
print(len(vocab))

[[595, 100], [100, 595], [77, 176], [77, 2], [176, 77]]
5001


데이터 로더 적용

In [None]:
import torch
from torch.utils.data import TensorDataset, DataLoader

index_pairs = torch.tensor(index_pairs)
center_indexs = index_pairs[:, 0]
context_indexs = index_pairs[:, 1]

dataset = TensorDataset(center_indexs, context_indexs)
dataloader = DataLoader(dataset, batch_size=256, shuffle=True)

Skip-gram 모델 준비 작업

In [None]:
from torch import optim

device = "cuda" if torch.cuda.is_available() else "cpu"
word2vec = VanillaSkipGram(vocab_size=len(token_to_id), embedding_dim=128).to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.SGD(word2vec.parameters(), lr=0.1)

모델 학습

In [None]:
for epoch in range(20):
    cost = 0.0
    for input_ids, target_ids in dataloader:
        input_ids = input_ids.to(device)
        target_ids = target_ids.to(device)

        logits = word2vec(input_ids)
        loss = criterion(logits, target_ids)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        cost += loss

    cost = cost / len(dataloader)
    print(f"Epoch : {epoch+1:4d}, Cost : {cost:.3f}")

Epoch :    1, Cost : 6.618
Epoch :    2, Cost : 6.191
Epoch :    3, Cost : 6.090
Epoch :    4, Cost : 6.035
Epoch :    5, Cost : 6.000
Epoch :    6, Cost : 5.974
Epoch :    7, Cost : 5.954
Epoch :    8, Cost : 5.938
Epoch :    9, Cost : 5.925
Epoch :   10, Cost : 5.914
Epoch :   11, Cost : 5.904
Epoch :   12, Cost : 5.895
Epoch :   13, Cost : 5.887
Epoch :   14, Cost : 5.880
Epoch :   15, Cost : 5.874
Epoch :   16, Cost : 5.868
Epoch :   17, Cost : 5.862
Epoch :   18, Cost : 5.857
Epoch :   19, Cost : 5.853
Epoch :   20, Cost : 5.848


임베딩 값 추출

In [None]:
token_to_embedding = dict()
embedding_matrix = word2vec.embedding.weight.data.cpu().numpy()

for word, embedding in zip(vocab, embedding_matrix):
  token_to_embedding[word] = embedding

index = 30
token = vocab[30]
token_embedding = token_to_embedding[token]
print(token)
print(token_embedding)

연기
[ 0.45873535 -1.4125738  -1.3788592   0.7086098   1.2213398  -0.26372698
 -0.28037128 -1.4234469   1.5022029   1.2094473  -1.0158551   0.18843827
  0.50370085 -2.3361244  -0.06898285  0.9282817  -0.48920494  2.3391287
  1.9510529   1.0244179  -1.0589218   0.45513138 -0.26152292 -0.92398655
 -0.8618328  -0.23008227 -0.38347512  0.5492202   0.11639255  0.26918137
  1.3105102   0.93400407  0.02157224 -0.38650048 -1.4645252  -1.9102594
  0.7985533  -0.5641499  -0.67817944 -1.8232611   0.39260313  0.1452537
 -1.4572662   0.8155799   0.68955433  2.3247154  -2.3831      0.07159209
  1.9544561  -1.3041784   1.6265767  -0.47780564 -0.13338266 -1.2765781
  1.2211463  -0.54078066 -1.0523287  -0.11295447 -0.63868177 -0.6317604
  0.05026022 -1.5645266  -1.7714697   0.38536918  0.1453347   0.82799226
  0.5879392   1.2119329  -1.1189276  -1.6172574  -1.4835991  -1.2073246
  0.1977502   0.9653218  -0.16744262  1.2672088  -1.0045105   0.83066016
  0.93309015 -1.4094567  -0.04989136  1.165612   -2.34

단어 임베딩 코사인 유사도 계산

In [None]:
import numpy as np
from numpy.linalg import norm

def cosine_similarity(a, b):
  # a : token_embedding
  # b : embedding_matrix
  cosine = np.dot(b, a) / (norm(b, axis=1) * norm(a))
  return cosine

def top_n_index(cosine_matrix, n):
  closest_indexes = cosine_matrix.argsort()[::-1]
  top_n = closest_indexes[1:n+1]
  return top_n

In [None]:
cosine_matrix = cosine_similarity(token_embedding, embedding_matrix)
top_n = top_n_index(cosine_matrix, n=5)

print(f"{token}와 가장 유사한 5 개 단어")
for index in top_n:
    print(f"{id_to_token[index]} - 유사도 : {cosine_matrix[index]:.4f}")

연기와 가장 유사한 5 개 단어
처리 - 유사도 : 0.3358
어쩌면 - 유사도 : 0.3080
인들 - 유사도 : 0.3048
해야 - 유사도 : 0.2952
찬사 - 유사도 : 0.2937


## Gensim

Gensim 라이브러리는 대용량 텍스트 데이터의 처리를 위한 메모리 효륭적인 방법을 제공해 대규모 데이터셋에서도 효과적으로 모델을 학습할 수 있다. 또한 학습된 모델을 저장하여 관리할 수 있고, 단어 유사도 등 관련된 기능도 제공한다.
<br><br>
다음은 Gensim을 Word2Vec 모델을 학습하는 예시이다.

In [None]:
from gensim.models import Word2Vec

word2vec = Word2Vec(
    sentences=tokens,
    vector_size=128,
    window=5,
    min_count=1,
    sg=1,
    epochs=3,
    max_final_vocab=10000
)

# word2vec.save("../models/word2vec.model")
# word2vec = Word2Vec.load("../models/word2vec.model")

In [None]:
word = "연기"
print(word2vec.wv[word])
print(word2vec.wv.most_similar(word, topn=5))
print(word2vec.wv.similarity(w1=word, w2="연기력"))

[-4.93290693e-01 -2.84351289e-01  3.69010538e-01  3.36962819e-01
 -9.64935124e-02 -5.49013987e-02 -4.85488214e-02 -1.27716467e-01
 -4.83507395e-01  3.21379542e-01  3.13959308e-02 -6.15233421e-01
 -2.92426646e-01  1.64555550e-01  3.66918594e-02 -8.56545269e-02
 -4.61444676e-01  3.18951048e-02 -1.03940899e-02  2.39758268e-01
  6.29726827e-01  4.55769122e-01 -1.13298431e-01 -9.43350568e-02
 -1.88041314e-01 -1.82925742e-02 -3.41772169e-01  1.44763231e-01
  1.03929475e-01 -1.62047133e-01 -3.31691086e-01 -6.38810918e-02
  2.35159218e-01 -1.64621472e-01  8.18434730e-02 -3.45117805e-05
  1.10119991e-02 -1.04571640e-01 -2.07111433e-01 -3.48203599e-01
  1.55132841e-02 -9.32942927e-02 -3.38449746e-01 -5.04595220e-01
 -2.27043867e-01  3.99443597e-01 -2.41629705e-01 -1.28127426e-01
  3.01755011e-01  8.97378400e-02  4.04503345e-01  2.81150848e-01
  2.06287652e-01  2.97228843e-01 -1.80032998e-01 -2.71678925e-01
 -2.24731162e-01  2.29277089e-01 -1.68268502e-01  2.22951025e-01
  5.27729876e-02 -1.21088

# fastText

fastText 모델도 CBow와 Skip-Gram으로 구성된 임베딩 모델이다. Word2Vec과의 차이점은 Word2Vec은 단어를 기본 단위로 학습하지만, FastText는 하위 단어 집합으로 학습한다.

In [None]:
corpus = Korpora.load("kornli")
corpus_texts = corpus.get_all_texts() + corpus.get_all_pairs()
tokens = [sentence.split() for sentence in corpus_texts]

print(tokens[:3])


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : KakaoBrain
    Repository : https://github.com/kakaobrain/KorNLUDatasets
    References :
        - Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). KorNLI and KorSTS: New Benchmark
           Datasets for Korean Natural Language Understanding. arXiv preprint arXiv:2004.03289.
           (https://arxiv.org/abs/2004.03289)

    This is the dataset repository for our paper
    "KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding."
    (https://arxiv.org/abs/2004.03289)
    We introduce KorNLI and KorSTS, which are NLI and STS datasets in Korean.

    # License
    Creative Commons Attribution-ShareAlike license (CC BY-SA 4.0)
    Details in https://creativecommons.org/licenses

[kornli] download multinli.train.ko.tsv: 83.6MB [00:00, 304MB/s]                            
[kornli] download snli_1.0_train.ko.tsv: 78.5MB [00:00, 184MB/s]                            
[kornli] download xnli.dev.ko.tsv: 516kB [00:00, 11.6MB/s]
[kornli] download xnli.test.ko.tsv: 1.04MB [00:00, 23.4MB/s]


[['개념적으로', '크림', '스키밍은', '제품과', '지리라는', '두', '가지', '기본', '차원을', '가지고', '있다.'], ['시즌', '중에', '알고', '있는', '거', '알아?', '네', '레벨에서', '다음', '레벨로', '잃어버리는', '거야', '브레이브스가', '모팀을', '떠올리기로', '결정하면', '브레이브스가', '트리플', 'A에서', '한', '남자를', '떠올리기로', '결정하면', '더블', 'A가', '그를', '대신하러', '올라가고', 'A', '한', '명이', '그를', '대신하러', '올라간다.'], ['우리', '번호', '중', '하나가', '당신의', '지시를', '세밀하게', '수행할', '것이다.']]


fastText 모델 학습

In [None]:
from gensim.models import FastText


fastText = FastText(
    sentences=tokens,
    vector_size=128,
    window=5,
    min_count=5,
    sg=1,
    epochs=3,
    min_n=2,
    max_n=6
)

# fastText.save("../models/fastText.model")
# fastText = FastText.load("../models/fastText.model")

fastText OOV 처리

In [None]:
oov_token = "사랑해요"
oov_vector = fastText.wv[oov_token]

print(oov_token in fastText.wv.index_to_key)
print(fastText.wv.most_similar(oov_vector, topn=5))

False
[('사랑해', 0.9106492400169373), ('사랑', 0.8731779456138611), ('사랑한', 0.8662685751914978), ('사랑해서', 0.8453728556632996), ('사랑해.', 0.8408307433128357)]
