# Word2Vec CBOW and Skipgram
## written by: [Jehwan Kim](github.com/kreimben)
## date: 10th Feb 2024 ~ 12th Feb 2024
## corpus data: [kaggle](https://www.kaggle.com/datasets/junbumlee/kcbert-pretraining-corpus-korean-news-comments?resource=download)

In [4]:
import logging  # Setting up the loggings to monitor gensim

from gensim.models import Word2Vec
from soynlp import DoublespaceLineCorpus

from src.util import *

logging.basicConfig(format="%(levelname)s - %(asctime)s: %(message)s", datefmt='%H:%M:%S', level=logging.INFO)

# Data Preprocessing

Of course there are great library `KoNLPy`, But I found more accurate library [`soynlp`](https://github.com/lovit/soynlp) so I will use that.
soynlp learns new words automatically and calculate words statistically.
soynlp use `Cohesion score`, `Branching Entropy` and `Accessor Variety` internally.

In [5]:
corpus = DoublespaceLineCorpus("data.txt", iter_sent=True, num_sent=100_000)
len(corpus)

100000

In [6]:
%%time
from soynlp.word import WordExtractor

word_extractor = WordExtractor()
word_extractor.train(corpus)

training was done. used memory 0.900 Gbmory 0.059 Gb
CPU times: user 7.86 s, sys: 166 ms, total: 8.03 s
Wall time: 8.2 s


In [7]:
# to check the score of each method.
word_score = word_extractor.extract()

all cohesion probabilities was computed. # words = 97511
all branching entropies was computed # words = 127443
all accessor variety was computed # words = 127443


## Cohension
Cohesion은 문자열을 글자단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 주어졌을 때 그 다음 글자가 나올 확률을 계산하여 누적곱을 한 값이다.

![](img1.png)

예를 들어 “연합뉴스가”라는 문자열이 있는 경우, 각 부분문자열의 cohesion은 다음과 같다. 한 글자는 cohesion을 계산하지 않는다.

![](img2.png)

하나의 단어를 중간에서 나눈 경우, 다음 글자를 예측하기 쉬우므로 조건부확률의 값은 크다. 하지만 단어가 종료된 다음에 여러가지 조사나 결합어가 오는 경우에는 다양한 경우가 가능하므로 조건부확률의 값이 작아진다. 따라서 cohesion값이 가장 큰 위치가 하나의 단어를 이루고 있을 가능성이 높다.

In [None]:
word_score["문"].cohesion_forward

In [None]:
word_score["문재"].cohesion_forward

In [None]:
word_score["문재인"].cohesion_forward

In [None]:
word_score["문재인은"].cohesion_forward

In [None]:
word_score["문재인이"].cohesion_forward

## Branching Entropy
Branching Entropy는 조건부 확률의 값이 아니라 확률분포의 엔트로피값을 사용한다. 
만약 하나의 단어를 중간에서 끊으면 다음에 나올 글자는 쉽게 예측이 가능하다. 
즉, 여러가지 글자 중 특정한 하나의 글자가 확률이 높다. 따라서 엔트로피값이 0에 가까운 값으로 작아진다. 
하지만 하나의 단어가 완결되는 위치에는 다양한 조사나 결합어가 올 수 있으므로 여러가지 글자의 확률이 비슷하게 나오고 따라서 엔트로피값이 높아진다.

In [None]:
word_score["문"].right_branching_entropy

In [None]:
# '핵실' 다음에는 항상 '험'만 나온다.
word_score["문재"].right_branching_entropy

In [None]:
word_score["문재인"].right_branching_entropy

In [None]:
word_score["문재인은"].right_branching_entropy

# Accessor Variety
Accessor Variety는 확률분포를 구하지 않고 단순히 특정 문자열 다음에 나올 수 있는 글자의 종류만 계산한다. 
글자의 종류가 많다면 엔트로피가 높아지리 것이라고 추정하는 것이다.

In [None]:
word_score["문"].right_accessor_variety

In [None]:
# '핵실' 다음에는 항상 '험'만 나온다.
word_score["문재"].right_accessor_variety

In [None]:
word_score["문재인"].right_accessor_variety

In [None]:
word_score["문재인은"].right_accessor_variety

We can assume the corpus is from social network and better `Max Score` tokenising for this corpus cuz it's not cultured writing.

# Max Score Tokenising

최대 점수 토큰화(max score tokenizing)는 띄어쓰기가 되어 있지 않는 긴 문자열에서 가능한 모든 종류의 부분문자열을 만들어서 가장 점수가 높은 것을 하나의 토큰으로 정한다. 
이 토큰을 제외하면 이 위치를 기준으로 전체 문자열이 다시 더 작은 문자열들로 나누어지는데 이 문자열들에 대해 다시 한번 가장 점수가 높은 부분문자열을 찾는 것을 반복한다. 

In [8]:
from soynlp.tokenizer import LTokenizer

scores = {word: score.cohesion_forward for word, score in word_score.items()}

# maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
ltokenizer = LTokenizer(scores=scores)

In [9]:
import pickle

with open('ltokenizer.pickle', 'wb') as handle:
    pickle.dump(ltokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

In [None]:
%%time

from src.stopwords import *

# Dataset example
count = 500_000
data = get_data()
tokenised_sentences = []

while count:
    if count % 10_000 == 0: print(f'{count}', end=' ')
    temp = ltokenizer.tokenize(next(data))
    approve = []
    for word in temp:
        if not word in STOP_WORDS: approve.append(word)
    tokenised_sentences.append(approve)
    count -= 1

In [None]:
len(tokenised_sentences)

In [None]:
import multiprocessing

cores = multiprocessing.cpu_count()

In [None]:
%%time
cbow_model = Word2Vec(sentences=tokenised_sentences,
                      sg=0,
                      hs=1,
                      min_count=20,
                      window=10,
                      vector_size=100,
                      sample=6e-5,
                      alpha=0.03,  # initial learning rate
                      min_alpha=0.0007,  #minimum learning rate
                      negative=20,
                      workers=cores - 1)

In [None]:
%%time
skipgram_model = Word2Vec(sentences=tokenised_sentences,
                          sg=1,
                          hs=1,
                          min_count=20,
                          window=10,
                          vector_size=100,
                          sample=6e-5,
                          alpha=0.03,
                          min_alpha=0.0007,
                          negative=20,
                          workers=cores - 1)

In [None]:
cbow_model.init_sims(replace=True)
skipgram_model.init_sims(replace=True)

In [None]:
skipgram_model.wv.most_similar(positive='문재인')

In [None]:
cbow_model.wv.most_similar(positive='문재인')

In [None]:
cbow_model.wv.doesnt_match(['김정은', '북한', '문재인', '트럼프'])

In [None]:
skipgram_model.wv.doesnt_match(['김정은', '북한', '문재인', '트럼프'])

In [None]:
cbow_model.wv.similarity('트럼프', '김정은')

In [None]:
skipgram_model.wv.similarity('김정은', '북한')

In [None]:
cbow_model.wv.most_similar(positive=['김정은', '남한'], negative=['문재인'])

In [None]:
skipgram_model.wv.most_similar(positive=['김정은', '남한'], negative=['문재인'])

In [None]:
cbow_model.predict_output_word(['새끼'], topn=5)

In [None]:
skipgram_model.predict_output_word(['새끼'], topn=10)

In [None]:
# save the model
cbow_model.wv.save_word2vec_format('./model/cbow.model')
skipgram_model.wv.save_word2vec_format('./model/skipgram.model')

## Visualisation about model

In [None]:
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
from gensim.models import KeyedVectors

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
mpl.rcParams['axes.unicode_minus'] = False

plt.rc('font', family='D2Coding')  # Set proper font


def show_tsne(vocab_show, X_show):
    tsne = TSNE(n_components=2)
    X = tsne.fit_transform(X_show)

    df = pd.DataFrame(X, index=vocab_show, columns=['x', 'y'])
    fig = plt.figure()
    fig.set_size_inches(30, 20)
    ax = fig.add_subplot(1, 1, 1)
    ax.scatter(df['x'], df['y'])

    for word, pos in df.iterrows():
        ax.annotate(word, pos, fontsize=10)

    plt.xlabel("t-SNE 특성 0")
    plt.ylabel("t-SNE 특성 1")
    plt.show()


def show_pca(vocab_show, X_show):
    # PCA 모델을 생성합니다
    pca = PCA(n_components=2)
    pca.fit(X_show)
    # 처음 두 개의 주성분으로 숫자 데이터를 변환합니다
    x_pca = pca.transform(X_show)

    plt.figure(figsize=(30, 20))
    plt.xlim(x_pca[:, 0].min(), x_pca[:, 0].max())
    plt.ylim(x_pca[:, 1].min(), x_pca[:, 1].max())
    for i in range(len(X_show)):
        plt.text(x_pca[i, 0], x_pca[i, 1], str(vocab_show[i]),
                 fontdict={'weight': 'bold', 'size': 9})
    plt.xlabel("첫 번째 주성분")
    plt.ylabel("두 번째 주성분")
    plt.show()
    return None

def visualise(model_name):
    model = KeyedVectors.load_word2vec_format(model_name)
    
    vocab = model.index_to_key
    X = model[vocab]
    
    # sz개의 단어에 대해서만 시각화
    sz = 800
    X_show = X[:sz, :]
    vocab_show = vocab[:sz]
    
    show_tsne(vocab_show, X_show)
    show_pca(vocab_show, X_show)
    return None

In [None]:
visualise('./model/cbow.model')

In [None]:
visualise('./model/skipgram.model')