In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

In [2]:
from Korpora import Korpora
corpus = Korpora.load("korean_petitions")


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/petitions_archive
    References :

    청와대 국민청원 게시판의 데이터를 월별로 수집한 것입니다.
    청원은 게시판에 글을 올린 뒤, 한달 간 청원이 진행됩니다.
    수집되는 데이터는 청원종료가 된 이후의 데이터이며, 청원 내 댓글은 수집되지 않습니다.
    단 청원의 동의 개수는 수집됩니다.
    자세한 내용은 위의 repository를 참고하세요.

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `korean_petitions` is already installed at C:\Users\ImedisynRnD2\Korpora\korean_petitions\petitions_2017-08
[Korpora] Corpus `korean_petitions` is already installed at C:\Users\ImedisynRnD2\Korpora\korean_petitions\petitions_2017-09
[Korpora] Corpus `korean_petitions` is already

In [2]:
# all_text = corpus.train.texts

# text = []
# for i in range(10):              # 게시글 100개만 추출
#     text.append(all_text[i])

text = ['대한민국의 수도는 서울이다',
       '독일의 수도는 베를린이다',
       '프랑스의 수도는 파리다',
       '스위스의 수도는 취리히다',
       '일본의 수도는 도쿄다',
       '이탈리아의 수도는 로마다',
       '영국의 수도는 런던이다',
       '이집트의 수도는 카이로다'
       ]

In [3]:
import kss
import re
from konlpy.tag import Mecab

class Prep():
        
    def Clean_text(self, text):

        self.sentences = []
        
        for i in range(len(text)):
            if (i+1) % 10 == 0:
                print(str(i+1) + 'th sentence is spliting...')
        
            temp = re.sub("[^가-힣a-z0-9.?]", ' ', text[i]) #한글, 영어, 숫자, 온점, 물음표가 아닌 것을 공백으로 삭제
            temp = re.sub("[.]{2,}", ".", temp) # 반복되는 온점 (...) 삭제
            temp = re.sub("[?]{2,}", "?", temp) # 반복되는 물음표 (?) 삭제
            temp = re.sub("[!]{2,}", "!", temp) # 반복되는 느낌표 (!) 삭제
            temp = re.sub("[' ']{2,}", " ", temp) # 반복되는 공백 삭제 
            temp = kss.split_sentences(temp)  #문장 분리

            for tmp in temp:
                self.sentences.append(tmp)
        
        return self.sentences

        
    def Tokenizer(self, sentences):
        
        self.corpus = []
        self.words = []
        self.vocab = []
        
        tokenizer = Mecab(dicpath=r"C:\mecab\mecab-ko-dic")
        
        for sent in self.sentences:
            temp = tokenizer.morphs(sent)
            self.corpus.append(temp)
            
            for tmp in temp:
                self.words.append(tmp)

        self.vocab = set(self.words)
        
        return self.corpus, self.words, self.vocab
    
    def Get_clean(self, text):
        sentences =  prep.Clean_text(text)
        corpus, words, vocab = prep.Tokenizer(self.sentences)
        print('Done!')
        
        return sentences, corpus, words, vocab
        

prep = Prep()
sentences, corpus, words, vocab = prep.Get_clean(text)
        

[Korean Sentence Splitter]: Initializing Pynori...


Done!


In [4]:
print('# of sentences : ' , len(sentences)) # 전체 문장 수 확인
print('# of corpus : ', len(corpus)) # 전체 corpus 문장 수 확인 (corpus는 각 문장을 형태소단위로 분리해놓은 것)
print('# of all words : ' , len(words)) # 전체 단어 수 확인(단어 중복 포함)
print('# of words in vocabulary : ' , len(vocab)) # vocabulary 확인 (단어 중복 제거) 

# of sentences :  8
# of corpus :  8
# of all words :  52
# of words in vocabulary :  24


In [5]:
word_dict = {w: i for i, w in enumerate(vocab)}
index_dict = {i: w for i, w in enumerate(vocab)}

In [6]:
from collections import defaultdict
wordFreq = defaultdict(int)

for word in words:
     wordFreq[word] += 1

SumFreq = sum([freq**(3/4) for freq in wordFreq.values()])
wordProb = {word:((freq**(3/4))/SumFreq) for word, freq in wordFreq.items()}

import numpy as np
def Negative_sampling(wordProb, n_sample):
    negsam = []
    for i in range(n_sample):
        negsam.append( np.random.choice(list(wordProb.keys()), p=list(wordProb.values())))
    
    return negsam

In [7]:
input = []
targets = []
labels = []

def make_pairs(window_size, n_negsam):
    k=0
    for c in corpus: # for each sentence
        k+=1
        if k % 100 == 0:
            print(str(k) + ' / ' + str(len(corpus)) + ' pairs is making ...')
                  
        for idx in range(len(c)): # for each idx
            start = max(0,idx - window_size)
            tail = min(idx + window_size, len(c)-1)
            
            #add negative samples to context
            context = c[start:idx] + c[idx+1:tail+1]
            needed_negsam = 2*window_size+n_negsam - len(context) # needed number of negative samples
            negsam = Negative_sampling(wordProb, needed_negsam)
            
            #stack pairs
            input.append(c[idx])
            targets.append(context+negsam)
            labels.append([1]*len(context) + [0]*needed_negsam)
    print('Done!')
                  
    return input, targets, labels

input, targets, labels = make_pairs(2,3)
            
    

Done!


In [20]:
vocab_size = len(vocab)

from torch.autograd import Variable
def train(input, targets, labels, emb_dim, lr, n_epoch):
    
    target_size = len(targets[0])
    center_mat = Variable(torch.nn.init.xavier_normal(torch.empty(emb_dim, vocab_size)),requires_grad=True).float()
    context_mat = Variable(torch.nn.init.xavier_normal(torch.empty(vocab_size, emb_dim)),requires_grad=True).float()
    
    
    for epoch in range(n_epoch): 
        loss_value = 0
        for batch in range(len(input)): 
            x = word_dict[input[batch]] # word index of input
            h = center_mat[:,x]
            
            tar_ind = [word_dict[tar] for tar in targets[batch]]
                
            
            context_tmp = Variable(context_mat[tar_ind,:], requires_grad=True).float()
            z = torch.matmul(context_tmp,h)
            y = torch.LongTensor(labels[batch])

            y_hat = F.log_softmax(z)
            loss = F.nll_loss(y_hat, y)
            loss_value += loss.item()
            loss.backward()
            
            center_mat.data -= lr * center_mat.grad.data
            context_mat.data[tar_ind,:] -= lr * context_tmp.grad.data
            
            center_mat.grad.data.zero_()
            context_tmp.grad.data.zero_()
        
        if epoch % 10 == 0:
            print(f"Loss at this epoch {epoch+10}: {loss_value / vocab_size}")
        
    return center_mat
            
center_mat = train(input, targets, labels, 20, 0.01, 1000)
         

  center_mat = Variable(torch.nn.init.xavier_normal(torch.empty(emb_dim, vocab_size)),requires_grad=True).float()
  context_mat = Variable(torch.nn.init.xavier_normal(torch.empty(vocab_size, emb_dim)),requires_grad=True).float()
  y_hat = F.log_softmax(z)


Loss at this epoch 10: 4.015708853801091
Loss at this epoch 20: 3.194626495242119
Loss at this epoch 30: 2.563560888171196
Loss at this epoch 40: 2.229290969669819
Loss at this epoch 50: 2.009007896607121
Loss at this epoch 60: 1.8344070849319298
Loss at this epoch 70: 1.6894201887771487
Loss at this epoch 80: 1.570629511338969
Loss at this epoch 90: 1.4760777310778697
Loss at this epoch 100: 1.4024855044359963
Loss at this epoch 110: 1.3457751019547384
Loss at this epoch 120: 1.3020566689471404
Loss at this epoch 130: 1.2681208156670134
Loss at this epoch 140: 1.2415480843434732
Loss at this epoch 150: 1.2206195844337344
Loss at this epoch 160: 1.2041409192606807
Loss at this epoch 170: 1.1912662923956912
Loss at this epoch 180: 1.181365706026554
Loss at this epoch 190: 1.173939594378074
Loss at this epoch 200: 1.168570267346998
Loss at this epoch 210: 1.1648980596413214
Loss at this epoch 220: 1.1626075558985274
Loss at this epoch 230: 1.1614206042140722
Loss at this epoch 240: 1.161

In [9]:
import matplotlib.pyplot as plt
#matplotlib 패키지 한글 깨짐 처리 시작
plt.rc('font', family='Malgun Gothic') #윈도우, 구글 콜랩
#plt.rc('font', family='AppleGothic') #맥
plt.rcParams['axes.unicode_minus'] = False #한글 폰트 사용시 마이너스 폰트 깨짐 해결
#matplotlib 패키지 한글 깨짐 처리 끝

In [21]:
wordvec = np.array(center_mat.data.T.data)

from sklearn.manifold import TSNE
wordvec_2d = TSNE(n_components=2, perplexity=10, learning_rate='auto', init='random').fit_transform(wordvec)

from matplotlib import pyplot as plt
%matplotlib notebook

plt.scatter(wordvec_2d[:,0], wordvec_2d[:,1], s=0.5)

test_words=[]
for i in range(len(vocab)):
    test_words.append(index_dict[i])
    
for i, word in enumerate(test_words):
    plt.annotate(word, xy=(wordvec_2d[i, 0], wordvec_2d[i, 1]))
#     plt.rc("font", family="NanumGothic")


<IPython.core.display.Javascript object>

In [19]:
len(vocab)

24