## Configuration

In [1]:
corpus_fname = '../../../data/corpus_10days/news/2016-10-28_article_all_normed.txt'

max_l_length = 6
max_r_length = 5
min_count = 30

In [2]:
from corpus import Corpus
corpus = Corpus(corpus_fname, iter_sent=True)
len(corpus)

176597

## Branching Entropy

Branching Entropy 역시 문장 단위로 for loop을 돌면서 subword가 어떻게 branching 하는지 카운트를 하면 됩니다. 

L은 '어린 --> 어린이'처럼 오른쪽에 어떤 글자가 등장하는지 카운트 하는 dict_dict 입니다. 
R은 '어린이 <-- 린이'처럼 왼쪽에 어떤 글자가 등장하는지 카운트 하는 dict_dict 입니다. 

In [3]:
from collections import defaultdict
import sys

L = defaultdict(lambda: defaultdict(lambda: 0)) # 어린 --> 어린이
R = defaultdict(lambda: defaultdict(lambda: 0)) # 어린이 <-- 린이

for num_sent, sent in enumerate(corpus):
    
    if num_sent % 5000 == 0:
        sys.stdout.write('\risnerting %d sents... ' % num_sent)
        
    for token in sent.split():
        
        if len(token) < 2:
            continue
    
        for e in range(2, min(max_l_length, len(token)) + 1):
            subword_from = token[:e-1]
            subword_to = token[:e]
            L[subword_from][subword_to] += 1
            
        for b in range(2, min(max_r_length + 1, len(token))):
            subword_from = token[-b+1:]
            subword_to = token[-b:]
            R[subword_from][subword_to] += 1


isnerting 175000 sents... 

av_l = 0 if not word in R else len(R[word])는 word가 R에 존재하지 않는 경우에는 0을 할당하고, word가 R에 존재한다면 R[word]를 가져온 뒤, 해당 dict의 길이를 av_l 값으로 할당하라는 의미입니다. 

In [4]:
def get_accessor_variety(word):
    
    # av_l: ?-린이
    # av_r: 어린-?
    
    av_l = 0 if not word in R else len(R[word])
    av_r = 0 if not word in L else len(L[word])
    return (av_l, av_r)


for word in ['박근', '박근혜', '국방', '국방부', '국방부는', '국방장', '국방장관', '트와이', '트와이스']:
    av = get_accessor_variety(word)
    print('%s\t(%d, %d)' % (word, av[0], av[1]))

박근	(0, 7)
박근혜	(5, 23)
국방	(1, 24)
국방부	(1, 13)
국방부는	(0, 0)
국방장	(0, 1)
국방장관	(0, 7)
트와이	(0, 1)
트와이스	(0, 8)


Branching Entropy는 단어의 경계 부분에서 entropy가 증가합니다. 

    국방	(-0.000, 1.097)
    국방부	(-0.000, 1.601)
    국방부는	(0.000, 0.000)
    국방장	(0.000, -0.000)
    국방장관	(0.000, 1.575)
    
'국방' 다음에는 여러 단어가 올 수 있기 때문에 right-side entropy가 1.097입니다. 하지만 '국방장' 다음에는 반드시 '-관'이 나타나서 '국방장관'이 되었기 때문에 right-side entropy가 0임을 볼 수 있습니다. 
    

In [5]:
import numpy as np

def get_branching_entropy(word):
    
    def entropy(extensions):
        '''extensions: dict[str]: int
        '''
        sum_ = sum(extensions.values())
        if sum_ == 0:
            return 0
        
        entropy = 0
        for v in extensions.values():
            if v == 0: continue
            prob = v / sum_
            entropy += (prob * np.log(prob))
        return -1 * entropy

    # be_l: ?-린이
    # be_r: 어린-?
    
    be_l = 0 if not word in R else entropy(R[word])
    be_r = 0 if not word in L else entropy(L[word])    
    return (be_l, be_r)


for word in ['박근', '박근혜', '국방', '국방부', '국방부는', '국방장', '국방장관', '트와이', '트와이스']:
    be = get_branching_entropy(word)
    print('%s\t(%.3f, %.3f)' % (word, be[0], be[1]))

박근	(0.000, 0.082)
박근혜	(1.523, 2.305)
국방	(-0.000, 1.097)
국방부	(-0.000, 1.601)
국방부는	(0.000, 0.000)
국방장	(0.000, -0.000)
국방장관	(0.000, 1.575)
트와이	(0.000, -0.000)
트와이스	(0.000, 1.313)


Entropy가 높은 subword는 단어일 가능성이 높습니다. 왜냐하면 좌/우에 등장할 다른 단어들의 종류가 다양하기 때문입니다. 

그렇기 때문에 길이가 1인 글자의 entropy는 항상 높습니다. 그래서 길이가 1인 L들은 큰 의미를 지니지 못합니다. 또한 의미를 알아볼 수 있는 길이가 1인 L의 단어는 그리 많지 않으니까요. 하지만 조사/어미 같은 경우에는 길이가 1인 경우가 많습니다. 그래서 left-side entropy 역시 매우 높게 나타납니다. 

In [6]:
for word in ['은', '는', '이', '가', '에게', '에서']:
    be = get_branching_entropy(word)
    print('%s\t(%.3f, %.3f)' % (word, be[0], be[1]))

은	(4.807, 2.379)
는	(3.736, 1.895)
이	(4.952, 4.214)
가	(4.386, 3.724)
에게	(3.507, 1.024)
에서	(4.818, 0.539)


## Tokenizer with Cohesion and Branching entropy

Cohesion probability는 interior word scoring 방법이며, Branching entropy는 exterior word scoring 방법입니다. L_tokenizer를 cohesion만의 관점이 아니라 cohesion과 branching entropy를 함께 이용할 수도 있습니다. 단어의 경계가 더 강조될 수 있습니다. 


In [7]:
from cohesion import CohesionProbability
cohesion_probability = CohesionProbability()
cohesion_probability.train(corpus)

inserting subwords into L: done
num subword = 578867
num subword = 30922 (after pruning with min count 30)


sorted 함수는 key를 두 개를 이용할 수 있습니다. 

    key=lambda x:(x[1], x[2])
    
위 구문은 x라는 item이 들어오면 1차 기준으로 x[1]을 이용하고, x[1]이 같을 경우 x[2]를 이용하라는 의미입니다. reverse=True이므로 x[1]이 큰 순서대로 정렬되며, x[1]이 같을 경우에는 x[2]가 같은 순서대로 정렬됩니다. 

In [8]:
def cpbe_tokenize(word):
    if (not word) or (len(word) <= 2):
        return word
    
    score = []
    for e in range(2, min(len(word), max_l_length)+1):
        subword = word[:e]
        be_l, be_r = get_branching_entropy(subword)
        cp_l = cohesion_probability.get_cohesion(subword)
        score.append((subword, cp_l * be_r, e)) # (word, cohesion * branching entropy, length)
        
    return sorted(score, key=lambda x:(x[1], x[2]), reverse=True)[0][0]

for word in ['청와대', '청와대는', '민정수석', '민정수석이', '공연을', '공연하게', '박근혜', '박근혜의']:
    print('%s --> %s\n' % (word, cpbe_tokenize(word)))

청와대 --> 청와대

청와대는 --> 청와대

민정수석 --> 민정수석

민정수석이 --> 민정수석

공연을 --> 공연

공연하게 --> 공연

박근혜 --> 박근혜

박근혜의 --> 박근혜

