# Group Assignment 2: Cross Entropy

## Goal
- Language Modeling에 따른 Cross Entropy 구현
- N-gram Generation, Word Counting, Cleaning Revisit
- Smoothing (Add-1) implementation

### Entropy

In Information Theory, entropy (denoted $H(X)$) of a random variable X is the expected log probabiltiy:

\begin{equation}
    H(X) = - \sum P(x)log_2 P(x)
\end{equation}

and is a measure of uncertainty. 


### Defn: Cross Entropy

The cross entropy, H(p,m), of a true distribution **p** and a model distribution **m** is defined as:

\begin{equation}
    H(p,m) = - \sum_{x} p(x) log_2 m(x)
\end{equation}

The lower the cross entropy is the closer it is to the true distribution.

## Contents
- Assignment1에서 사용했던 NIRW1900000011.json 은 전자신문 뉴스기사이다. (training data로 사용)
- NWRW1800000045.json 은 동아일보 뉴스 기사이다. (test data로 사용)
- 국립국어원의 웹 코퍼스 (WEB) 중의 하나인 EBRW1908000138.json (첨부)은 블로그 자료이다. (test data로 사용)
- training data에서 학습한 한글 자소/글자(음절)/어절 별 unigram, Bigram, trigram 모델이 같은 신문기사와 웹자료에 얼마나 잘 부합하는지를 교차 엔트로피로 살펴봄
- 세 데이터에서 "form"에 해당하는 부분만을 각각 추출하여, 한글 글자들만 남긴 후 (스페이스도 고려) unigram, bigram, trigram 구성을 만들고 빈도를 구함

- training 코퍼스에서는 entropy와 cross entropy는 같고 따라서 그 차이는 0이다
- 코퍼스에서 테스트 하기 위한 테스트 코퍼스의 교차엔트로피는 각 모델의 확률을 구하고 이를 교차 엔트로피 공식에 따라 구하면 되는데, **이 경우 P(x)는 이 test 코퍼스의 자소별/글자별/어절별 unigram/bigram/trigram의 확률이고 모델의 확률인 logp(m)은 training 코퍼스인 코퍼스에서 구해진 각 모델의 확률이다.** 각 글자별로 이를 다 곱해서 더 하면 교차엔트로피가 구해진다. 즉 training테스트에서 설정한 언어모델이 test 코퍼스에 더 부합할수록 test에서의 각 구성의 확률이 training의 해당 확률에 근접하게 될 것임. 완벽한 경우 두 모델이 일치한다면, 즉 교차엔트로피가 실제 엔트로피와 동일하게 되면 그 차이는 0이 된다. 따라서 H(P,m) - H(p)의 차이가 작을수록 더 좋은 모델이 된다. 
- 이 경우 training 코퍼스에 없는 n-gram 구성이  test 코퍼스에 있을 경우 문제가 되니 이 구성의 확률을 얻기 위해 ADD-1을 사용해서 smoothing하라.
(힌트: training 데이터의 각 n-gram모델의 구성과 test-data의 n-gram모델의 구성을 비교하여 빠져 있는 구성을 보충하고 add-1을 사용해서 확률을 구함)

## General
- 마감: 10월 7일 목요일 오후 12시!
- 이 노트북 화일에 이름을 변경하여 작업하고 제출. 제출시 화일명을 Assignment2_[DS또는 CL]_학과_이름.ipynb
- 화일에 각 조원 이름 명시
- 코드, 또는 셀 마다 자세한 설명 요함

In [9]:
import os, re, json, warnings
from sys import platform
from tqdm import tqdm
from soynlp.hangle import decompose
from collections import Counter
from IPython.display import clear_output
from nltk.util import flatten
import numpy as np
import pandas as pd

warnings.filterwarnings('ignore')
print(f'Current OS: {platform}')

FILE_NAME = 'NIRW1900000011.json' ; test_NAME = 'NWRW1800000045.json' ; test2_NAME = 'EBRW1908000138.json'

def load_data(name):
    with open(os.path.join(os.getcwd(), name), 'r', encoding='utf8') as f:
        data = json.load(f)
    
    cle = []
    for documents in tqdm(data['document']):
        for document in documents['paragraph']:
            cle.append(document['form'])
    return cle


Current OS: win32


In [10]:
class RE_huniv2:
    def __init__(self, input=None, sample=False):
        self.input = input
        self.sample = sample
    
    @staticmethod
    def preprocessing(input_text):
        output = re.sub('[^ㄱ-ㅣ가-힣]', '', input_text)
        return output
    
    def preprocessing2(input_text):
        output = re.sub('[^ㄱ-ㅣ가-힣\s]', '', input_text)
        return output

    @staticmethod
    def list_cleaning(ls, type=1):
        temp = []
        for sentence in ls:
            if type == 1:
                temp2 = RE_huniv2.preprocessing(sentence)
            elif type == 2:
                temp2 = RE_huniv2.preprocessing2(sentence)
            temp.append(temp2)
        return temp



class ngram_huni:
    def __init__(self): pass

    def fit(ls, N=1, split_type='글자'):   # sklearn style로 만들 수 없을까?
        assert type(ls[0]) == str
        basic= Counter()
        if split_type=='글자':
            if N == 1:
                for sentence in ls:
                    assert type(sentence) == str 
                    for letter in sentence: 
                        assert len(letter) == 1
                        basic.update(letter) # 글자를 계산해서 업데이트
                            
            elif N==2:
                for sentence in ls:
                    assert type(sentence) == str
                    # print(sentence)
                    temp = list(zip(sentence, sentence[1:]))
                    basic.update(temp)
                
            elif N==3: 
                for sentence in ls:
                    temp = list(zip(sentence, sentence[1:], sentence[2:]))
                    basic.update(temp)
        
        elif split_type == '자모':
            if N==1:
                for sentence in ls:
                    for letter in sentence:
                        decoded = decompose(letter) # 글자별로 자모쪼개기
                        for jamo in decoded:
                            basic.update(jamo) # 하나의 자모별로 업데이트
            elif N==2:
                temp = []
                for sentence in ls:
                    for letter in sentence:
                        decoded = decompose(letter) # 초중종 구분하지 않음: '김밥' -> (ㄱ, ㅣ), (ㅣ, ㅁ), (ㅁ, ㅂ) 
                        temp.append(decoded)
                flattened = flatten(temp)
                window = list(zip(flattened, flattened[1:]))
                basic.update(window) 
            
            elif N==3:
                temp = []
                for sentence in ls:
                    for letter in sentence:
                        decoded = decompose(letter) # 초중종 구분하지 않음: '김밥' -> (ㄱ, ㅣ), (ㅣ, ㅁ), (ㅁ, ㅂ)
                        temp.append(decoded)
                flattened = flatten(temp)
                window = list(zip(flattened, flattened[1:], flattened[2:]))
                basic.update(window) 
            
        elif split_type=='어절':
            temp = []
            for sentence in ls:
                temp1 = sentence.split() # \s 기준으로 분리
                if len(temp1)==0: continue # 가끔 비어있는 애들이 있음
                assert type(temp1[0])==str, print(f'>>>>여기여기 {idx}')
                temp.append(temp1)
            
            temp2 = flatten(temp)
            assert type(temp2[0]) == str

            if N==1:    
                basic.update(temp2)
            
            elif N==2:
                temp3 = list(zip(temp2, temp2[1:]))
                basic.update(temp3)
            elif N==3: 
                temp3 = list(zip(temp2, temp2[1:], temp2[2:]))
                basic.update(temp3)

        return basic

    def entropy(count_dict, sample=False): # 계산 샘플 출력할 수 있게 추가하기
        val = 0 ; total_cnt = sum(count_dict.values())
        
        for value in count_dict.values():
            prob = value/total_cnt
            vl_log = np.log2(prob) # base 2
            val -= prob*vl_log

        # if sample == True: print(window_not_in_training, '\n', support_set)
        return val

    def cross_entropy(true_d, model_d, sample=False):
        val = 0 
        window_not_in_training = [window  for window in model_d.keys() if window not in list(true_d.keys())]
        window_not_in_training_dict = {i: 1 for i in window_not_in_training}
        
        support_set_ = Counter(true_d)
        support_set = {k: v+1 for k, v in support_set_.items()}
        support_set.update(window_not_in_training_dict)
        total_true = sum(support_set.values()) ; total_model = sum(model_d.values()) 
        
        for key, model_value in model_d.items():
            prob_true = support_set[key]/total_true
            prob_model = model_value/total_model
            # log_model = np.log2(prob_model)
            log_true = np.log2(prob_true)
            
            val -= prob_model * log_true
        
        if sample == True: print(window_not_in_training, '\n', support_set)
        return val







In [11]:
# ngram 테스트
train = ['나는 과제를 잘했다']
print(
'>>>>>>>>>>>>>>> 자모',
ngram_huni.fit((train), N=2, split_type='자모'), '\n',
'>>>>>>>>>>>>>>> 글자',
ngram_huni.fit((train), N=2, split_type='글자'), '\n',
'>>>>>>>>>>>>>>> 어절',
ngram_huni.fit((train), N=2, split_type='어절'), '\n', 
)

>>>>>>>>>>>>>>> 자모 Counter({('ㅏ', ' '): 2, ('ㄴ', 'ㅏ'): 1, (' ', 'ㄴ'): 1, ('ㄴ', 'ㅡ'): 1, ('ㅡ', 'ㄴ'): 1, ('ㄴ', None): 1, (None, 'ㄱ'): 1, ('ㄱ', 'ㅘ'): 1, ('ㅘ', ' '): 1, (' ', 'ㅈ'): 1, ('ㅈ', 'ㅔ'): 1, ('ㅔ', ' '): 1, (' ', 'ㄹ'): 1, ('ㄹ', 'ㅡ'): 1, ('ㅡ', 'ㄹ'): 1, ('ㄹ', None): 1, (None, 'ㅈ'): 1, ('ㅈ', 'ㅏ'): 1, ('ㅏ', 'ㄹ'): 1, ('ㄹ', 'ㅎ'): 1, ('ㅎ', 'ㅐ'): 1, ('ㅐ', 'ㅆ'): 1, ('ㅆ', 'ㄷ'): 1, ('ㄷ', 'ㅏ'): 1}) 
 >>>>>>>>>>>>>>> 글자 Counter({('나', '는'): 1, ('는', ' '): 1, (' ', '과'): 1, ('과', '제'): 1, ('제', '를'): 1, ('를', ' '): 1, (' ', '잘'): 1, ('잘', '했'): 1, ('했', '다'): 1}) 
 >>>>>>>>>>>>>>> 어절 Counter({('나는', '과제를'): 1, ('과제를', '잘했다'): 1}) 



In [12]:
# 엔트로피 테스트
training = {'나는': 10, '과제를': 2, '잘': 3, '했다': 7}
ngram_huni.entropy(training, True)

1.74917466839001

In [13]:
# 교차 엔트로피 테스트
training = {'나는': 10, '과제를': 2, '잘': 3, '했다': 7}
test = {'힝': 2, '그거그거':1}
ngram_huni.cross_entropy(training, test, True)

['힝', '그거그거'] 
 {'나는': 11, '과제를': 3, '잘': 4, '했다': 8, '힝': 1, '그거그거': 1}


4.807354922057605

In [39]:
NLP = RE_huniv2()
set_ls = [FILE_NAME, test_NAME, test2_NAME] ; split_ls = '자모 글자 어절'.split()
df = pd.DataFrame(columns=['데이터셋', '분리유형', 'N-gram', 'Entropy', 'Cross Entropy', 'KL_divergence'],
                                                    index = range(27))

training = {}
for data_set in set_ls:
    loaded = load_data(data_set)
    
    for splt in tqdm(split_ls): # 자모, 글자 분리는 어절 분리와 다르게 처리해야함
        print(f'>>>>>>>> {splt} 분리 시작')
        if splt != '어절':
            cleaned = NLP.list_cleaning(loaded, type=1)
        
        elif splt == '어절':
            cleaned = NLP.list_cleaning(loaded, type=2)
        
        for ngram in range(1,3):
            rs1 = ngram_huni.fit(cleaned, N=ngram, split_type=splt)
            if data_set == FILE_NAME: training[splt] = rs1 # 훈련자료의 경우 저장함
    
            val = ngram_huni.entropy(rs1)
            print(data_set, splt, ngram, f'>>> 코퍼스 규모: {len(rs1.keys())}')
            
            if data_set == FILE_NAME: cros_val = val
            else: cros_val = ngram_huni.cross_entropy(training[splt], rs1)
            temp = pd.DataFrame([data_set, splt, ngram, val, cros_val, cros_val - val]).T
            temp = pd.DataFrame([data_set, splt, ngram, val, 'X', 'X']).T
            temp.columns = ['데이터셋', '분리유형', 'N-gram', 'Entropy', 'Cross Entropy', 'KL_divergence']
            df = pd.concat([df, temp], axis=0)


df.dropna(inplace=True)
df.reset_index(inplace=True, drop=True)
df

100%|██████████| 625/625 [00:00<00:00, 256878.00it/s]
  0%|          | 0/3 [00:00<?, ?it/s]

>>>>>>>> 자모 분리 시작
NIRW1900000011.json 자모 1 >>> 코퍼스 규모: 50


 33%|███▎      | 1/3 [00:08<00:17,  8.70s/it]

NIRW1900000011.json 자모 2 >>> 코퍼스 규모: 782
>>>>>>>> 글자 분리 시작
NIRW1900000011.json 글자 1 >>> 코퍼스 규모: 1370


 67%|██████▋   | 2/3 [00:10<00:06,  6.69s/it]

NIRW1900000011.json 글자 2 >>> 코퍼스 규모: 72296
>>>>>>>> 어절 분리 시작
NIRW1900000011.json 어절 1 >>> 코퍼스 규모: 81221


100%|██████████| 3/3 [00:11<00:00,  3.89s/it]
100%|██████████| 406/406 [00:00<00:00, 328172.56it/s]
  0%|          | 0/3 [00:00<?, ?it/s]

NIRW1900000011.json 어절 2 >>> 코퍼스 규모: 277289
>>>>>>>> 자모 분리 시작
NWRW1800000045.json 자모 1 >>> 코퍼스 규모: 50


 33%|███▎      | 1/3 [00:02<00:05,  2.78s/it]

NWRW1800000045.json 자모 2 >>> 코퍼스 규모: 772
>>>>>>>> 글자 분리 시작
NWRW1800000045.json 글자 1 >>> 코퍼스 규모: 1346


 67%|██████▋   | 2/3 [00:03<00:02,  2.15s/it]

NWRW1800000045.json 글자 2 >>> 코퍼스 규모: 53910
>>>>>>>> 어절 분리 시작
NWRW1800000045.json 어절 1 >>> 코퍼스 규모: 46341


100%|██████████| 3/3 [00:03<00:00,  1.28s/it]
100%|██████████| 100/100 [00:00<00:00, 69626.56it/s]
  0%|          | 0/3 [00:00<?, ?it/s]

NWRW1800000045.json 어절 2 >>> 코퍼스 규모: 105067
>>>>>>>> 자모 분리 시작
EBRW1908000138.json 자모 1 >>> 코퍼스 규모: 49


 33%|███▎      | 1/3 [00:01<00:02,  1.35s/it]

EBRW1908000138.json 자모 2 >>> 코퍼스 규모: 719
>>>>>>>> 글자 분리 시작
EBRW1908000138.json 글자 1 >>> 코퍼스 규모: 1128


100%|██████████| 3/3 [00:01<00:00,  1.60it/s]

EBRW1908000138.json 글자 2 >>> 코퍼스 규모: 25318
>>>>>>>> 어절 분리 시작
EBRW1908000138.json 어절 1 >>> 코퍼스 규모: 19208
EBRW1908000138.json 어절 2 >>> 코퍼스 규모: 46804





Unnamed: 0,데이터셋,분리유형,N-gram,Entropy,Cross Entropy,KL_divergence
0,NIRW1900000011.json,자모,1,4.375139,X,X
1,NIRW1900000011.json,자모,2,7.495124,X,X
2,NIRW1900000011.json,글자,1,7.954627,X,X
3,NIRW1900000011.json,글자,2,13.464417,X,X
4,NIRW1900000011.json,어절,1,13.872882,X,X
5,NIRW1900000011.json,어절,2,17.754399,X,X
6,NWRW1800000045.json,자모,1,4.373531,X,X
7,NWRW1800000045.json,자모,2,7.519986,X,X
8,NWRW1800000045.json,글자,1,8.077953,X,X
9,NWRW1800000045.json,글자,2,13.904116,X,X
