## Configuration

In [1]:
corpus_fname = '../../../data/corpus_10days/news/2016-10-28_article_all_normed.txt'

max_l_length = 10
min_count = 30

텍스트로 된 파일을 항상 with open으로 열지 않고 클래스로 만들 수도 있습니다. 특히 iteration을 문서 단위로 돌지, 문장 단위로 돌지를 설정한다거나, 각 문서마다 특별한 전처리를 하고 싶다면 클래스화하는 것이 유용합니다.

Corpus라는 class는 fname이라는 파일 주소와 iter_sent를 argument로 받습니다. 

def __iter__(self) 함수를 작성하면 for loop을 돌 수 있으며, __len__이라는 함수를 작성하면 아래와 같이 내장함수 len을 이용할 수 있습니다. 
    
    corpus = Corpus(fname, iter_sent=False)
    len(corpus)
    
아래의 Corpus라는 class는 iter_sent가 True일 때에는 double space로 나눠진 문장들을 출력하며, 이 때 len은 해당 fname에 있는 문장의 개수입니다. iter_sent가 False 일 때에는 문서의 개수, 즉 line number가 출력됩니다. 

In [2]:
class Corpus:
    
    def __init__(self, fname, iter_sent=False):
        self.fname = fname
        self.iter_sent = iter_sent
        self.doc_length = 0
        self.sent_length = 0
        
    def __iter__(self):
        with open(self.fname, encoding='utf-8') as f:
            for doc in f:
                doc = doc.strip()
                if not self.iter_sent:
                    yield doc
                    continue
                for sent in doc.split('  '):
                    yield sent
                    
    def __len__(self):
        if self.iter_sent:
            if self.sent_length == 0:
                with open(self.fname, encoding='utf-8') as f:
                    for doc in f:
                        self.sent_length += len(doc.strip().split('  '))
            return self.sent_length
        else:
            if self.doc_length == 0:
                with open(self.fname, encoding='utf-8') as f:
                    for num_doc, doc in enumerate(f):
                        continue
                    self.doc_length = (num_doc + 1)
            return self.doc_length

In [3]:
corpus = Corpus(corpus_fname, iter_sent=False)

for num_doc, doc in enumerate(corpus):
    if num_doc >= 3: break
    print('%s ...\n '% doc[:100])

 ...
 
위키리크스 클린턴 전 대통령 최측근 메모 공개  워싱턴 연합뉴스 신지홍 특파원 미국 민주당 대선후보 힐러리 클린턴의 남편인 빌 클린턴 전 대통령이 자신이 고문으로 속한 한 기업을  ...
 
워싱턴 연합뉴스 심인성 특파원 미국 공화당 대선후보 도널드 트럼프가 26일 현지시간 민주당 지도부와 민주당 대선후보 힐러리 클린턴 캠프 내부 이메일해킹 사건의 배후와 관련해 북한이 ...
 


self.num_sentence == 0 이나 self.num_docs == 0을 확인하여, 이전에 한 번이라도 문서의 길이를 읽었을 경우, 이전에 읽었던 정보를 return 하도록 작성할 수 있습니다. 

In [4]:
%%time
len(corpus)

CPU times: user 260 ms, sys: 20 ms, total: 280 ms
Wall time: 229 ms


22754

In [5]:
%%time
len(corpus)

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 7.15 µs


22754

iter_sent = True로 바꾸면 for loop에 의하여 출력되는 객체가 문서가 아닌 문장임을 볼 수 있습니다

In [6]:
corpus.iter_sent = True
for num_sent, sent in enumerate(corpus):
    if num_sent >= 3: break
    print('sent %d: %s\n' % (num_sent, sent))

sent 0: 

sent 1: 위키리크스 클린턴 전 대통령 최측근 메모 공개

sent 2: 워싱턴 연합뉴스 신지홍 특파원 미국 민주당 대선후보 힐러리 클린턴의 남편인 빌 클린턴 전 대통령이 자신이 고문으로 속한 한 기업을 통해 고액강연을 주선 받거나 가족재단인 클린턴재단 에 수천만 달러의 기부금이 흘러들어가도록 한 것으로 밝혀졌다고 미 언론이 27일 현지시간 전했다



## Python: range 함수와 str slice

range() 함수는 range(begin=0, end)로 입력되며, end 숫자 전의 숫자까지를 yield 합니다

In [7]:
for i in range(3):
    print(i)
    
print()
for i in range(2, 5):
    print(i)

0
1
2

2
3
4


Python에서 str 슬라이싱은 list와 동일합니다

In [8]:
'abcde'[:3]

'abc'

## Cohesion probability

sys.stdout.write('\rYOUR MESSAGE')는 progress를 출력하는데 용이합니다

Corpus를 돌면서 각 문장의 어절마다 Left-side subwords인 L의 빈도수를 defaultdict를 이용하여 카운트합니다.

In [9]:
from collections import defaultdict
import sys

corpus.iter_sent = True

L = defaultdict(lambda: 0)

for num_sent, sent in enumerate(corpus):
    if num_sent % 5000 == 0:
        sys.stdout.write('\risnerting %d sents... ' % num_sent)
    for token in sent.split():
        for e in range(1, min(max_l_length, len(token)) + 1):
            subword = token[:e]
            L[subword] += 1
print('\rinserting subwords into L: done')
print('num subword = %d' % len(L))

L = {subword:freq for subword, freq in L.items() if freq >= min_count}
print('num subword = %d (after pruning with min count %d)' % (len(L), min_count))

inserting subwords into L: done
num subword = 578867
num subword = 30922 (after pruning with min count 30)


Cohesion은 길이가 2이상인 subword 에 대하여 정의가 되기 때문에 길이가 1인 단어에 대해서는 1.0을 return 하였습니다. 

또한 word가 L에 없는 경우 (빈도수가 min_count 이하이거나 아예 코퍼스에 등장하지 않았던 경우)에는 0.0을 return 하는 예외 처리를 합니다. 

cohesion은 결국 (word의 빈도수 / 맨 왼쪽의 글자 빈도수) 의 1 / (n-1) 승 입니다. numpy.power는 지수승 계산을 할 수 있도록 해줍니다. 

In [10]:
import numpy as np

def get_cohesion(word):
    
    # 글자가 아니거나 공백, 혹은 희귀한 단어인 경우
    if (not word) or ((word in L) == False): 
        return 0.0
    
    if len(word) == 1:
        return 1.0
    
    word_freq = L.get(word, 0)
    base_freq = L.get(word[:1], 0)
    
    if base_freq == 0:
        return 0.0
    else:
        return np.power((word_freq / base_freq), 1 / (len(word) - 1))

print('청와대 : ', get_cohesion('청와대'))

청와대 :  0.722212060689


길이가 2 이상인 subwords에 대하여 cohesion을 미리 계산해 둡니다. 앞에서 min_count로 필터링을 한 번 했기 때문에 적은 개수의 subwords만 cohesion을 계산하였습니다. 

In [11]:
cohesion_dict = {word:get_cohesion(word) for word in L if len(word) >= 2}
len(cohesion_dict)

29908

예시 단어들의 cohesion을 실제로 계산해 봅시다. L+[R]의 경계가 되는 지점들에서 cohesion 값이 하락함을 볼 수 있습니다. 

    청와 = 0.522
    청와대 = 0.722
    
청와라는 글자가 등장하면 대부분 청와대가 등장했기 때문에 '청와대'의 cohesion이 '청와'의 cohesion 보다 큽니다. 

In [12]:
for word in ['청와', '청와대', '청와대는', '민정수석', '민정수석이', '박근', '박근혜', '박근혜의']:
    print('%s = %.3f\n' % (word, cohesion_dict.get(word, 0.0)))

청와 = 0.522

청와대 = 0.722

청와대는 = 0.283

민정수석 = 0.474

민정수석이 = 0.313

박근 = 0.294

박근혜 = 0.539

박근혜의 = 0.144



어절 word가 입력되었을 때, L들에서 cohesion이 가장 높은 subword를 잘라내는 토크나이저를 만들어 봅시다. 

길이가 2 이상일 때 cohesion이 정의되기 때문에 길이가 2 이하인 단어는 그대로 return 합니다. 

subword 의 ending point e는 길이가 2부터 'word의 길이 혹은 L의 최대 길이'의 min까지 입니다. range(b,e)에서 e는 포함되지 않기 때문에 +1을 해주는 것을 잊지 맙시다. 

## L tokenize

In [13]:
def L_tokenize(word):
    
    if len(word) <= 2:
        return word
    
    score = []
    for e in range(2, min(len(word), max_l_length)+1):
        subword = word[:e]
        score.append((subword, cohesion_dict.get(subword, 0), e)) # (word, cohesion, length)
        
    return sorted(score, key=lambda x:(x[1], x[2]), reverse=True)[0][0]

for word in ['청와대', '청와대는', '민정수석', '민정수석이', '박근혜', '박근혜의']:
    print('%s --> %s\n' % (word, L_tokenize(word)))

청와대 --> 청와대

청와대는 --> 청와대

민정수석 --> 민정수석

민정수석이 --> 민정수석

박근혜 --> 박근혜

박근혜의 --> 박근혜



L_tokenizer는 상황에 맞게 튜닝할 수도 있습니다. Cohesion의 최대값을 지니는 subword를 선택하는 것이 아니라, 최대값과의 크기가 0.1 이하로 차이가 나는 subword 중에서는 가장 긴 subword를 추출하고 싶다면 아래와 같이 tolerance를 argument로 넣을 수도 있습니다. 

In [14]:
my_cohesion_dict = {
    '기자': 0.5,
    '기자단': 0.45
}

def L_tokenize_w_tolerance(word, tolerance=0.1):
    
    if len(word) <= 2:
        return word
    
    score = []
    for e in range(2, min(len(word), max_l_length)+1):
        subword = word[:e]
        score.append((subword, my_cohesion_dict.get(subword, 0), e)) # (word, cohesion, length)
    
    max_score = max([s[1] for s in score])
    score = [s for s in score if (max_score - s[1]) <= tolerance]
    
    return sorted(score, key=lambda x:x[2], reverse=True)[0][0]


for word in ['기자단에']:
    print('w tolerance: %s --> %s' % (word, L_tokenize(word)))
    print('wo tolerance: %s --> %s\n' % (word, L_tokenize_w_tolerance(word)))

w tolerance: 기자단에 --> 기자
wo tolerance: 기자단에 --> 기자단

