# Assignment 2: Cross Entropy

## Goal
- Language Modeling에 따른 Cross Entropy 구현
- N-gram Generation, Word Counting, Cleaning Revisit
- Smoothing (Add-1) implementation

### Entropy

In Information Theory, entropy (denoted $H(X)$) of a random variable X is the expected log probabiltiy:

\begin{equation}
    H(X) = - \sum P(x)log_2 P(x)
\end{equation}

and is a measure of uncertainty.


### Defn: Cross Entropy

The cross entropy, H(p,m), of a true distribution **p** and a model distribution **m** is defined as:

\begin{equation}
    H(p,m) = - \sum_{x} p(x) log_2 m(x)
\end{equation}

The lower the cross entropy is the closer it is to the true distribution.

## Contents
- Group Assignment2에서 사용했던 NLRW1900000011.json 은 강원일보의 뉴스기사이다. (training data로 사용)
- NLRW1900000020.json 은 강원일보 뉴스 기사이다. (test data로 사용)
- 국립국어원의 문어체 코퍼스 (WRITTEN) 중의 하나인 WARW1900003745.json (첨부)은 나니야 연대기 소설 자료이다. (test data로 사용)
- training data에서 학습한 한글 글자(음절) 별 unigram, Bigram, trigram 모델이 같은 신문기사와 소설에 얼마나 잘 부합하는지를 교차 엔트로피로 살펴봄
- 세 데이터에서 "form"에 해당하는 부분만을 각각 추출하여, 한글 글자들만 남긴 후 (스페이스도 고려) unigram, bigram, trigram 구성을 만들고 빈도를 구함
- 한글은 논리적으로 초*중*종 결합인 19 x 21 x 28(받침없는 Filler포함) = 11,172자의 글자(음절) 표현 가능

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202023-09-24%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%208.20.00.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202023-09-24%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%208.20.00.png)

* 총 11,172 가능한 음절 중 실제로 코퍼스에 나타난 각 음절에 대해  엔트로피를 다음과 같이 계산 (유니그램)

H(X) = -p(가) x log2 p(가) -p(각) log2 x p(각) ...- p(힣) x log2 p(힣)

- bigram, trigram의 경우도 각각의 코퍼스에서 나타나는 구성을 구하면 됨.
- 트레이닝 코퍼스에서 학습한 모델이 각각 테스트 데이터에 얼마나 부합하는지를 교차엔트로피를 계산하고 그 차이를 보이는 다음의 표를 출력하라.
Difference: H(P,m) - H(p)


![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202020-10-07%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%209.51.41.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202020-10-07%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%209.51.41.png)

- training 코퍼스에서는 entropy와 cross entropy는 같고 따라서 그 차이는 0이다
- 코퍼스에서 테스트 하기 위한 테스트 코퍼스의 교차엔트로피는 각 모델의 확률을 구하고 이를 교차 엔트로피 공식에 따라 구하면 되는데, **이 경우 P(x)는 이 test 코퍼스의 각 글자별 확률이고 모델의 확률인 logp(m)은 training 코퍼스인 코퍼스에서 구해진 각 모델의 확률이다.** 각 글자별로 이를 다 곱해서 더 하면 교차엔트로피가 구해진다. 즉 training테스트에서 설정한 언어모델이 test 코퍼스에 더 부합할수록 모델의 확률도 training의 확률과 같을 것이고 따라서 엔트로피와 교차엔트로피의 차이는 H(P,m) - H(p)로 그 차이가 작을수록 더 좋은 모델이 된다.
- 이 경우 training 코퍼스에 없는 n-gram 구성이  test 코퍼스에 있을 경우 문제가 되니 이 구성의 확률을 얻기 위해 ADD-1을 사용해서 smoothing하라.
(힌트: training 데이터의 각 n-gram모델의 구성과 test-data의 n-gram모델의 구성을 비교하여 빠져 있는 구성을 보충하고 add-1을 사용해서 확률을 구함)

## General
- 마감: 10월 9일 월요일 밤 11시 59분 59초!
- 화일 이름은 Assignment2_학번_이름.ipynb
- 코드, 또는 셀 마다 자세한 설명 요함

# 0. 필요한 library 다운로드 및 파일 경로 설정
1. sentence tokenize를 위해 kss와 한국어 word tokenize를 위한 mecab,konlpy을 설치한다. 또, table로 결과를 출력하기 위한 prettytable도 설치한다.
* kss version: 2.5.0
* konlpy version: 0.6.0
* MeCab version: 0.996
* prettytable


2. NLRW1900000011.json,NLRW1900000020.json, WARW1900003745.json 파일 각각의 경로를 train_data_path,test_news_data_path, test_naniya_data_path 에 넣는다.

In [120]:
train_data_path="/content/drive/MyDrive/nlp/4주차/NLRW1900000011.json"
test_news_data_path="/content/drive/MyDrive/nlp/4주차/NLRW1900000020.json"
test_naniya_data_path="/content/drive/MyDrive/nlp/4주차/WARW1900003745.json"

In [3]:
!pip install kss==2.5.0
!pip install konlpy
!pip install mecab-python3



In [4]:
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (91.189.91.83)] [Co                                                                               Hit:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (91.189.91.83)] [Co                                                                               Hit:3 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
0% [Connecting to security.ubuntu.com (91.189.91.83)] [Waiting for headers] [Co                                                                               Hit:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
0% [Connecting to security.ubuntu.com (91.189.91.83)] [Waiting for headers] [Wa                                                                               Hit:5 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jamm

In [6]:
!pip install prettytable



In [7]:
import sys
import json
import re
import kss
from konlpy.tag import Mecab
import itertools

# 2. Sentence Tokenize
가져온 json파일에서 sentence들만 가져와서 sentences라는 list에 저장한 뒤 이를 return하는 함수인 sentence_tokenize를 만들었다.

*   processing 과정이 얼마나 진행되었는지 확인시키기 위해, 10000의 배수마다 한 번씩 진행상황을 출력한다.
*   kss 모듈을 이용해 sentence를 tokenize한다.



In [112]:
def senetence_tokenize(data):
    paragraphs = []
    sentences = []
    i=0
    for document in data["document"]:
      for paragraph in document["paragraph"]:
        paragraphs.append(paragraph["form"])
    paragraph_length=len(paragraphs)
    for paragraph in paragraphs:
      paragraph_splited = kss.split_sentences(paragraph)
      if i %10000 == 0:
        print("Processing ",i,"/",paragraph_length,"th paragraph")
      i+=1
      for sentence in paragraph_splited:
          if sentence != '':
              sentences.append(sentence)
    return sentences

# 3. Preprocessing

##3.1 Sentence Cleaning

*   clean_str 함수
  * 한글이거나 공백이 아닌 모든 글자를 지워버린다.

* letter_tokenize
  * 음절별 주어진 문장을 자른다.


In [114]:
def clean_str(text):
    text = re.sub(pattern='[^\s가-힣]+', repl='', string=text)
    return text

In [115]:
def letter_tokenize(sentence):
  sen=clean_str(sentence)
  characters = list(sen)
  return characters

#3.4 make_merged_list
편의를 위해 json_path를 받아서 음절을 담은 merged list를 생성하는 과정까지를 make_merged_list라는 wrapper function으로 만들었다.

필자는

In [117]:
def make_merged_list(json_path):
  with open(json_path) as f:
    data = json.load(f)
  sentences=senetence_tokenize(data)
  token_list=[]
  for sent in sentences:
    token_list.append(letter_tokenize(sent))
  merged_list=list(itertools.chain(*token_list))
  return merged_list

In [118]:
train_merged_list=make_merged_list(train_data_path)
test_news_merged_list=make_merged_list(test_news_data_path)
test_naniya_merged_list=make_merged_list(test_naniya_data_path)

Processing  0 / 69731 th paragraph
Processing  10000 / 69731 th paragraph
Processing  20000 / 69731 th paragraph
Processing  30000 / 69731 th paragraph
Processing  40000 / 69731 th paragraph
Processing  50000 / 69731 th paragraph
Processing  60000 / 69731 th paragraph
Processing  0 / 8300 th paragraph
Processing  0 / 11535 th paragraph
Processing  10000 / 11535 th paragraph


In [123]:
print(train_merged_list[0:200])

print(test_news_merged_list[0:200])

print(test_naniya_merged_list[0:200])

['새', '로', '운', ' ', '희', '망', ' ', '공', '유', '하', '고', ' ', '새', ' ', '출', '발', '하', '자', '기', '축', '년', ' ', '새', '해', '다', '새', '로', '운', ' ', '희', '망', '을', ' ', '공', '유', '하', '고', ' ', '새', ' ', '출', '발', '을', ' ', '다', '짐', '할', ' ', '때', '다', '짙', '푸', '른', ' ', '동', '해', '바', '다', '를', ' ', '뚫', '고', ' ', '이', '글', '거', '리', '는', ' ', '광', '채', '를', ' ', '뿜', '으', '며', ' ', '힘', '차', '게', ' ', '솟', '아', '오', '르', '는', ' ', '태', '양', '을', ' ', '안', '는', '다', '어', '제', '와', ' ', '다', '른', ' ', '이', ' ', '아', '침', '의', ' ', '햇', '살', '을', ' ', '받', '으', '며', ' ', '왜', ' ', '간', '절', '한', ' ', '소', '망', '이', ' ', '없', '겠', '는', '가', '지', '난', '날', '의', ' ', '갈', '등', '과', ' ', '혼', '란', ' ', '회', '한', '을', ' ', '뒤', '로', '하', '고', ' ', '새', '로', ' ', '일', '어', '서', '야', ' ', '한', '다', '올', '해', '는', ' ', '불', '신', '과', ' ', '증', '오', ' ', '암', '투', '와', ' ', '음', '모', ' ', '좌', '절', '과', ' ', '절', '망', ' ', '등', ' ', '어', '둡', '고', ' ', '참', '담', '한', ' ', '것', '들', '이', ' ', '걷']

# 4. ngram 만들기

## 4.1 generate_ngrams
리스트 컴프리헨션을 사용하여, 입력 리스트의 각 항목을 기준으로 n개의 연속적인 항목들을 묶어서 리스트로 만든다.
zip(*...)을 사용하여 n개의 리스트를 병렬로 묶어 튜플의 리스트로 변환하고, 최종적으로 n-gram들이 튜플로 묶인 리스트를 반환한다. n값에 따라 unigram, bigram, trigram을 만들 수 있다.

In [125]:
def generate_ngrams(input_list, n):
    return list(zip(*[input_list[i:] for i in range(n)]))

## 4.2 generate_ngram_counter

Counter 클래스를 사용하여 각 n-gram의 빈도를 계산한다.
n-gram과 해당 빈도를 포함하는 딕셔너리 형태로 반환한다.

In [126]:
from collections import Counter
def generate_ngram_counter(merged_list,n):
  seq=generate_ngrams(merged_list, n)
  count=Counter(seq)
  #print(sorted(count.items(), key = lambda x: x[1], reverse = True))
  return count

In [156]:
unigram_count=generate_ngram_counter(train_merged_list,1)
bigram_count=generate_ngram_counter(train_merged_list,2)
trigram_count=generate_ngram_counter(train_merged_list,3)
print(unigram_count)
print(bigram_count)
print(trigram_count)


test_news_unigram_count=generate_ngram_counter(test_news_merged_list,1)
test_news_bigram_count=generate_ngram_counter(test_news_merged_list,2)
test_news_trigram_count=generate_ngram_counter(test_news_merged_list,3)
print(test_news_unigram_count)
print(test_news_bigram_count)
print(test_news_trigram_count)

test_naniya_unigram_count=generate_ngram_counter(test_naniya_merged_list,1)
test_naniya_bigram_count=generate_ngram_counter(test_naniya_merged_list,2)
test_naniya_trigram_count=generate_ngram_counter(test_naniya_merged_list,3)
print(test_naniya_unigram_count)
print(test_naniya_bigram_count)
print(test_naniya_trigram_count)

Counter({(' ',): 1300729, ('이',): 128572, ('다',): 117351, ('는',): 87371, ('지',): 83792, ('에',): 79441, ('을',): 78660, ('의',): 74153, ('고',): 66063, ('로',): 62214, ('가',): 61483, ('도',): 60410, ('하',): 56876, ('한',): 56646, ('기',): 53440, ('원',): 47168, ('대',): 46104, ('해',): 44447, ('사',): 44328, ('시',): 42470, ('은',): 40832, ('를',): 40467, ('서',): 39575, ('수',): 37176, ('정',): 37033, ('있',): 34465, ('인',): 34409, ('전',): 33381, ('으',): 32942, ('자',): 31811, ('부',): 31586, ('장',): 28875, ('과',): 28127, ('제',): 27863, ('주',): 25812, ('리',): 25346, ('들',): 25319, ('상',): 25038, ('어',): 25031, ('일',): 24024, ('만',): 22947, ('등',): 22616, ('업',): 22561, ('강',): 22098, ('성',): 22005, ('보',): 21822, ('국',): 21668, ('경',): 21594, ('관',): 21434, ('적',): 21406, ('나',): 21400, ('회',): 20665, ('공',): 20057, ('동',): 19779, ('했',): 19700, ('위',): 19163, ('선',): 19051, ('아',): 19011, ('역',): 18632, ('라',): 18343, ('계',): 18141, ('구',): 17911, ('개',): 17850, ('소',): 17356, ('화',): 17331, ('산',): 1725

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



Counter({(' ',): 227619, ('다',): 22837, ('이',): 22096, ('는',): 15386, ('을',): 13379, ('지',): 12612, ('에',): 12262, ('의',): 11958, ('고',): 10739, ('한',): 10701, ('가',): 10459, ('로',): 10239, ('하',): 10153, ('도',): 9524, ('기',): 8159, ('대',): 7979, ('은',): 7384, ('시',): 7341, ('를',): 6998, ('해',): 6822, ('서',): 6489, ('수',): 6090, ('인',): 6066, ('원',): 6043, ('정',): 5903, ('사',): 5881, ('있',): 5683, ('자',): 5223, ('전',): 5190, ('으',): 5085, ('리',): 5047, ('과',): 4822, ('제',): 4738, ('보',): 4670, ('장',): 4666, ('어',): 4567, ('아',): 4332, ('성',): 4311, ('부',): 4282, ('들',): 4129, ('만',): 4062, ('화',): 4032, ('상',): 3943, ('동',): 3908, ('나',): 3892, ('주',): 3727, ('적',): 3702, ('국',): 3650, ('일',): 3597, ('선',): 3552, ('경',): 3492, ('강',): 3424, ('스',): 3395, ('공',): 3342, ('라',): 3313, ('계',): 3308, ('관',): 3298, ('위',): 3191, ('업',): 3183, ('했',): 3129, ('문',): 3007, ('산',): 2995, ('역',): 2990, ('등',): 2961, ('개',): 2945, ('면',): 2909, ('구',): 2904, ('회',): 2875, ('올',): 2795, ('중',): 279

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



Counter({(' ',): 216816, ('다',): 25511, ('이',): 23921, ('는',): 16576, ('가',): 13253, ('에',): 12418, ('고',): 12138, ('을',): 11969, ('지',): 11646, ('아',): 11451, ('그',): 11008, ('리',): 10181, ('어',): 9606, ('들',): 9389, ('은',): 9187, ('나',): 8974, ('하',): 8436, ('로',): 8066, ('서',): 6987, ('있',): 6618, ('도',): 6517, ('기',): 6447, ('었',): 6431, ('의',): 6132, ('한',): 6086, ('말',): 5453, ('니',): 5377, ('자',): 5366, ('를',): 5341, ('게',): 5096, ('라',): 5061, ('시',): 4846, ('사',): 4827, ('했',): 4824, ('스',): 4630, ('으',): 4408, ('만',): 4149, ('마',): 3941, ('보',): 3749, ('거',): 3644, ('것',): 3340, ('해',): 3248, ('무',): 3189, ('수',): 3106, ('러',): 3089, ('대',): 3004, ('소',): 2923, ('야',): 2882, ('내',): 2846, ('면',): 2814, ('요',): 2753, ('여',): 2718, ('드',): 2623, ('일',): 2560, ('없',): 2504, ('려',): 2493, ('모',): 2479, ('우',): 2439, ('았',): 2411, ('오',): 2342, ('왕',): 2280, ('물',): 2206, ('주',): 2143, ('까',): 2116, ('않',): 2108, ('과',): 2098, ('인',): 2096, ('제',): 2084, ('저',): 2015, ('바',): 2013

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



# 5. ngram probability 구하기

##5.1 find
token들의 list와 ngram_count에서를 받아, 이가 전체 언어에서, 즉, n-gram 빈도수를 count한 ngram_count에 저장된 빈도수를 구한다.

In [157]:
def find(array,ngram_count):
  #print("tuple",tuple(array))
  return ngram_count.get(tuple(array),0)

## 5.2 estimate_n-gram_prob



*   estimate_unigram_prob
  * 확률을 계산할 token w_i의 확률을 구하기 위해서
\begin{equation}
    P(w_i) = \frac{count(w_i)}{전체 count의 합}
\end{equation}
함수를 그대로 정의한 것이다.
단, is_add_one이라는 매개변수를 이용해서, 만약 이를 사용한다면, \begin{equation}
    P(w_i) = \frac{count(w_i)+1}{전체 count의 합+vocabulary 개수}
\end{equation}
를 계산해주는 것을 넣었다.
  * 이 때, 각 count는 앞서 정의한 find함수를 이용한다. 이를 위해, token을 list에 담아, unigram_count와 함께 find의 매개변수로 전달한다.
*   estimate_bigram_prob
  * estimate_unigram_prob과 비슷하게
  \begin{equation}
    P(w_i|w_{i-1}) = \frac{count(w_{i-1},w_i)}{count(w_{i-1})}
\end{equation} 이를 구하는 과정을 그대로 구현했다. is_add_one 사용도 동일하다.
*   estimate_trigram_prob
 * trigram 식을 위와 동일한 방법으로 구현했다.



In [129]:
def estimate_unigram_prob(w_curr, unigram_count, is_add_one):
    numerator = find([w_curr], unigram_count)
    denominator = sum(unigram_count.values())
    if is_add_one:
        vocabulary_size = len(unigram_count)
        return (numerator + 1) / (denominator + vocabulary_size)
    else:
        return numerator / denominator

In [130]:
def estimate_bigram_prob(w_prev, w_curr, unigram_count, bigram_count, is_add_one):
    numerator = find([w_prev, w_curr], bigram_count)
    denominator = find([w_prev],unigram_count)
    if is_add_one:
        vocabulary_size = len(unigram_count)
        #print("is_add_one : ",is_add_one,"\n w_prev :",w_prev,"\n w_curr : ",w_curr,"\n numerator",(numerator + 1) , "\n deno",(denominator + vocabulary_size))
        return (numerator + 1) / (denominator + vocabulary_size)
    else:
        #print("\nis_add_one : ",is_add_one,"\nw_prev :",w_prev,"\nw_curr : ",w_curr,"\nnumerator",(numerator ) , "\ndeno",(denominator))
        return numerator / denominator

In [131]:
def estimate_trigram_prob(w_prev1,w_prev2, w_curr, unigram_count, bigram_count,trigram_count, is_add_one):
    numerator = find([w_prev1, w_prev2, w_curr], trigram_count)
    denominator = find([w_prev1,w_prev2],bigram_count)
    if is_add_one:
        vocabulary_size = len(bigram_count)
        #print("is_add_one : ",is_add_one,"\n w_prev :",w_prev,"\n w_curr : ",w_curr,"\n numerator",(numerator + 1) , "\n deno",(denominator + vocabulary_size))
        return (numerator + 1) / (denominator + vocabulary_size)
    else:
        #print("\nis_add_one : ",is_add_one,"\nw_prev :",w_prev,"\nw_curr : ",w_curr,"\nnumerator",(numerator ) , "\ndeno",(denominator))
        return numerator / denominator

In [132]:
estimate_unigram_prob('다',unigram_count,0)

0.02079341760605394

#6. 각 corpus 각 음절의 probability 값 구하기

각 corpus에 counter를 이용해 각 음절이 나타낸 개수를 세어 만든 dictionary를 기반으로, 각 음절의 unigram, bigram, trigram으로 확률을 구한다. 이 확률은 앞서 만든 n-gram 확률 구하는 함수를 이용한다.
이를 unigram_dict, bigram_dict, trigram_dict에 각각 담는다.

In [136]:
unigram_dict = {}
for key in unigram_count:
  if key[0] in unigram_dict:
    continue
  else:
    unigram_dict[key[0]]=estimate_unigram_prob(key[0],unigram_count,0)
print(unigram_dict['다'])
print(unigram_dict)

0.02079341760605394
{'새': 0.0004116122495663719, '로': 0.011023695434576953, '운': 0.0016289071933980443, ' ': 0.23047610407499672, '희': 0.00035136766719333427, '망': 0.0006288471260056194, '공': 0.003553898790164753, '유': 0.0024108464346104417, '하': 0.010077855491320262, '고': 0.01170569954502937, '출': 0.0014903446539400577, '발': 0.0024181112224848375, '자': 0.005636589440790296, '기': 0.009469030829456269, '축': 0.00097241843548009, '년': 0.0024342355077670327, '해': 0.007875561625689424, '다': 0.02079341760605394, '을': 0.013937761321950414, '짐': 6.768656019558935e-05, '할': 0.0020890694887591584, '때': 0.0009467258929974709, '짙': 7.796357718863696e-06, '푸': 4.890442569105409e-05, '른': 0.0006104193713973961, '동': 0.003504639984577387, '바': 0.0008595484385047224, '를': 0.007170345632028572, '뚫': 1.665585512666335e-05, '이': 0.022781666014312342, '글': 9.97579408118241e-05, '거': 0.0017359299220842642, '리': 0.0044910564259618, '는': 0.01548126296033727, '광': 0.0012885253029903817, '채': 0.000335066191962

In [137]:
bigram_dict = {}
for key in bigram_count:
  if (key[0],key[1]) in bigram_dict:
    continue
  else:
    bigram_dict[(key[0],key[1])]=estimate_bigram_prob(key[0],key[1],unigram_count,bigram_count,0)
print(bigram_dict['새','로'])


0.37925096857511836


In [138]:
trigram_dict = {}
for key in trigram_count:
  if (key[0],key[1],key[2]) in trigram_dict:
    continue
  else:
    trigram_dict[(key[0],key[1],key[2])]=estimate_trigram_prob(key[0],key[1],key[2],unigram_count,bigram_count,trigram_count,0)
print(trigram_dict['으', '로', ' '])


0.9356004481225833


위의 과정을 caclulate_dictionary 함수로 만들었다. isAddOne이라는 매개변수를 추가하여, estimate_ngram_prob 함수에 매개변수를 전달할 수 있도록 구현했다.

In [139]:
def caclulate_dictionary(n,counts,isAddOne):
  if n==1:
    unigram_count=counts[0]
    unigram_dict = {}
    for key in unigram_count:
      if key[0] in unigram_dict:
        continue
      else:
        unigram_dict[key[0]]=estimate_unigram_prob(key[0],unigram_count,isAddOne)
    return unigram_dict
  if n==2:
    bigram_dict = {}
    unigram_count=counts[0]
    bigram_count=counts[1]
    for key in bigram_count:
      if (key[0],key[1]) in bigram_dict:
        continue
      else:
        bigram_dict[(key[0],key[1])]=estimate_bigram_prob(key[0],key[1],unigram_count,bigram_count,isAddOne)
    return bigram_dict
  if n==3:
    trigram_dict = {}
    unigram_count=counts[0]
    bigram_count=counts[1]
    trigram_count=counts[2]
    for key in trigram_count:
      if (key[0],key[1],key[2]) in trigram_dict:
        continue
      else:
        trigram_dict[(key[0],key[1],key[2])]=estimate_trigram_prob(key[0],key[1],key[2],unigram_count,bigram_count,trigram_count,isAddOne)
    return trigram_dict

In [158]:
unigram_dict=caclulate_dictionary(1,[unigram_count],0)
print(unigram_dict['다'])
bigram_dict=caclulate_dictionary(2,[unigram_count,bigram_count],0)
print(bigram_dict['새','로'])
trigram_dict=caclulate_dictionary(3,[unigram_count,bigram_count,trigram_count],0)
print(trigram_dict['으', '로', ' '])


test_news_unigram_dict=caclulate_dictionary(1,[test_news_unigram_count],0)
print(test_news_unigram_dict['다'])
test_news_bigram_dict=caclulate_dictionary(2,[test_news_unigram_count,test_news_bigram_count],0)
print(test_news_bigram_dict['새','로'])
test_news_trigram_dict=caclulate_dictionary(3,[test_news_unigram_count,test_news_bigram_count,test_news_trigram_count],0)
print(test_news_trigram_dict['으', '로', ' '])


test_naniya_unigram_dict=caclulate_dictionary(1,[test_naniya_unigram_count],0)
print(test_naniya_unigram_dict['다'])
test_naniya_bigram_dict=caclulate_dictionary(2,[test_naniya_unigram_count,test_naniya_bigram_count],0)
print(test_naniya_bigram_dict['새','로'])
test_naniya_trigram_dict=caclulate_dictionary(3,[test_naniya_unigram_count,test_naniya_bigram_count,test_naniya_trigram_count],0)
print(test_naniya_trigram_dict['으', '로', ' '])


0.02079341760605394
0.37925096857511836
0.9356004481225833
0.023357713507216375
0.4517241379310345
0.9294464609800362
0.02903474358580392
0.11543810848400557
0.9443666899930021


#7. entropy 계산

* caculate_entropy
  * 각 값에 대해 확률과 로그 값을 곱한 후, 이를 합하여 엔트로피를 구합니다.

In [159]:
import math

def caculate_entropy(my_dict):
  entropy = -sum(p * math.log2(p) if p != 0 else 0 for p in my_dict.values())
  return entropy

unigram_entropy=caculate_entropy(unigram_dict)
print(unigram_entropy)
bigram_entropy=caculate_entropy(bigram_dict)
print(bigram_entropy)
trigram_entropy=caculate_entropy(trigram_dict)
print(trigram_entropy)

6.918573889464519
3909.763250755927
70287.10998592763


# 8. Cross-entropy 계산

* caculate_cross_entropy
  * n이 1일 경우: 주어진 test_dict에 대한 unigram 엔트로피를 계산합니다.
unigram_count와 test_dict의 값들을 이용하여 엔트로피를 계산하고 반환합니다.

  * n이 2일 경우: 주어진 test_dict에 대한 bigram 엔트로피를 계산합니다.
unigram_count, bigram_count, test_dict의 값들을 이용하여 엔트로피를 계산하고 반환합니다.

  * n이 3일 경우: 주어진 test_dict에 대한 trigram 엔트로피를 계산합니다.
unigram_count, bigram_count, trigram_count, test_dict의 값들을 이용하여 엔트로피를 계산하고 반환합니다.

  * 각 경우에 대해 먼저 주어진 test_dict의 키들을 기반으로 train_dict에 빠진 키를 채워넣고, 이를 이용하여 새로운 n-gram 사전을 새롭게 계산한다. 이 때는 addone smoothing을 train dataset에 적용해준다. 그러나, test_dict 키들이 train_dict에 원래 모두 있는 경우에는 addone smoothing을 적용하지 않을 것이기 때문에, 이를 반영할 flag라는 변수를 도입했다. 이후, 새로운 dictionary와 원래의 test_dict을 이용해 cross entropy를 계산해준다.

In [160]:
def caculate_cross_entropy(n,counts,test_dict,train_dict):
  if n==1:
    flag=0
    unigram_count=counts[0]
    for key in test_dict:
      if key not in train_dict:
        flag=1
        unigram_count[key]=0
    if flag==1:
      new_unigram_dict=caclulate_dictionary(1,[unigram_count],1)
    else:
      new_unigram_dict=caclulate_dictionary(1,[unigram_count],0)
    cross_entropy=0
    for key in test_dict:
      p1=test_dict[key]
      p2=new_unigram_dict[key]
      cross_entropy+=-(p1*math.log2(p2))
    return cross_entropy
  if n==2:
    flag=0
    unigram_count=counts[0]
    bigram_count=counts[1]
    for key in test_dict:
      if key not in train_dict:
        flag=1
        bigram_count[key]=0
    if flag==1:
      new_bigram_dict=caclulate_dictionary(2,[unigram_count,bigram_count],1)
    else:
      new_bigram_dict=caclulate_dictionary(2,[unigram_count,bigram_count],0)
    cross_entropy=0
    for key in test_dict:
      p1=test_dict[key]
      p2=new_bigram_dict[key]
      cross_entropy+=-(p1*math.log2(p2))
    return cross_entropy
  if n==3:
    flag=0
    unigram_count=counts[0]
    bigram_count=counts[1]
    trigram_count=counts[2]
    for key in test_dict:
      if key not in train_dict:
        flag=1
        trigram_count[key]=0
    if flag==1:
      new_trigram_dict=caclulate_dictionary(3,[unigram_count,bigram_count,trigram_count],1)
    else:
      new_trigram_dict=caclulate_dictionary(3,[unigram_count,bigram_count,trigram_count],0)
    cross_entropy=0
    for key in test_dict:
      p1=test_dict[key]
      p2=new_trigram_dict[key]
      cross_entropy+=-(p1*math.log2(p2))
    return cross_entropy

In [161]:
caculate_cross_entropy(3,[unigram_count,bigram_count,trigram_count],trigram_dict,trigram_dict)

70287.10998592763

#9. 결과값 구하고 table에 넣기

In [162]:

unigram_entropy=caculate_entropy(unigram_dict)
print(unigram_entropy)
bigram_entropy=caculate_entropy(bigram_dict)
print(bigram_entropy)
trigram_entropy=caculate_entropy(trigram_dict)
print(trigram_entropy)

unigram_cross_entropy=caculate_cross_entropy(1,[unigram_count],unigram_dict,unigram_dict)
print(unigram_cross_entropy)
bigram_cross_entropy=caculate_cross_entropy(2,[unigram_count,bigram_count],bigram_dict,bigram_dict)
print(bigram_cross_entropy)
trigram_cross_entropy=caculate_cross_entropy(3,[unigram_count,bigram_count,trigram_count],trigram_dict,trigram_dict)
print(trigram_cross_entropy)

6.918573889464519
3909.763250755927
70287.10998592763
6.918573889464519
3909.763250755927
70287.10998592763


In [163]:
test_news_unigram_entropy=caculate_entropy(test_news_unigram_dict)
print(test_news_unigram_entropy)
test_news_bigram_entropy=caculate_entropy(test_news_bigram_dict)
print(test_news_bigram_entropy)
test_news_trigram_entropy=caculate_entropy(test_news_trigram_dict)
print(test_news_trigram_entropy)

test_news_unigram_cross_entropy=caculate_cross_entropy(1,[unigram_count],test_news_unigram_dict,unigram_dict)
print(test_news_unigram_cross_entropy)
test_news_bigram_cross_entropy=caculate_cross_entropy(2,[unigram_count,bigram_count],test_news_bigram_dict,bigram_dict)
print(test_news_bigram_cross_entropy)
test_news_trigram_cross_entropy=caculate_cross_entropy(3,[unigram_count,bigram_count,trigram_count],test_news_trigram_dict,trigram_dict)
print(test_news_trigram_cross_entropy)

6.964263059555806
3251.4648297905946
31438.400880271678
7.00196204249028
9663.209829520385
590071.2102943466


In [165]:
test_naniya_unigram_entropy=caculate_entropy(test_naniya_unigram_dict)
print(test_naniya_unigram_entropy)
test_naniya_bigram_entropy=caculate_entropy(test_naniya_bigram_dict)
print(test_naniya_bigram_entropy)
test_naniya_trigram_entropy=caculate_entropy(test_naniya_trigram_dict)
print(test_naniya_trigram_entropy)

test_naniya_unigram_cross_entropy=caculate_cross_entropy(1,[unigram_count],test_naniya_unigram_dict,unigram_dict)
print(test_naniya_unigram_cross_entropy)
test_naniya_bigram_cross_entropy=caculate_cross_entropy(2,[unigram_count,bigram_count],test_naniya_bigram_dict,bigram_dict)
print(test_naniya_bigram_cross_entropy)
test_naniya_trigram_cross_entropy=caculate_cross_entropy(3,[unigram_count,bigram_count,trigram_count],test_naniya_trigram_dict,trigram_dict)
print(test_naniya_trigram_cross_entropy)

6.777597610430927
2891.735825185718
19188.71862095627
7.26944637052508
10737.48629941422
393885.96375630767


In [167]:
from prettytable import PrettyTable

# Define the table and set column names
table = PrettyTable()
table.field_names = [' ', '', 'Entropy', 'Cross-entropy', 'Difference']

table.add_row(['NLRW1900000011.json', 'unigram', '{:.3f}'.format(unigram_entropy),'{:.3f}'.format(unigram_cross_entropy),'{:.3f}'.format(unigram_cross_entropy-unigram_entropy)])
table.add_row(['(training)', 'bigram', '{:.3f}'.format(bigram_entropy),'{:.3f}'.format(bigram_cross_entropy),'{:.3f}'.format(bigram_cross_entropy-bigram_entropy)])
table.add_row(['', 'trigram', '{:.3f}'.format(trigram_entropy),'{:.3f}'.format(trigram_cross_entropy),'{:.3f}'.format(trigram_cross_entropy-trigram_entropy)])
table.add_row(['NLRW1900000020.json', 'unigram', '{:.3f}'.format(test_news_unigram_entropy),'{:.3f}'.format(test_news_unigram_cross_entropy),'{:.3f}'.format(test_news_unigram_cross_entropy-test_news_unigram_entropy)])
table.add_row(['(test data)', 'bigram', '{:.3f}'.format(test_news_bigram_entropy),'{:.3f}'.format(test_news_bigram_cross_entropy),'{:.3f}'.format(test_news_bigram_cross_entropy-test_news_bigram_entropy)])
table.add_row(['', 'trigram', '{:.3f}'.format(test_news_trigram_entropy),'{:.3f}'.format(test_news_trigram_cross_entropy),'{:.3f}'.format(test_news_trigram_cross_entropy-test_news_trigram_entropy)])
table.add_row(['WARW1900003745.json', 'unigram', '{:.3f}'.format(test_naniya_unigram_entropy),'{:.3f}'.format(test_naniya_unigram_cross_entropy),'{:.3f}'.format(test_naniya_unigram_cross_entropy-test_naniya_unigram_entropy)])
table.add_row(['(test data)', 'bigram', '{:.3f}'.format(test_naniya_bigram_entropy),'{:.3f}'.format(test_naniya_bigram_cross_entropy),'{:.3f}'.format(test_naniya_bigram_cross_entropy-test_naniya_bigram_entropy)])
table.add_row(['', 'trigram', '{:.3f}'.format(test_naniya_trigram_entropy),'{:.3f}'.format(test_naniya_trigram_cross_entropy),'{:.3f}'.format(test_naniya_trigram_cross_entropy-test_naniya_trigram_entropy)])

# Print the table
print(table)


+---------------------+---------+-----------+---------------+------------+
|                     |         |  Entropy  | Cross-entropy | Difference |
+---------------------+---------+-----------+---------------+------------+
| NLRW1900000011.json | unigram |   6.919   |     6.919     |   0.000    |
|      (training)     |  bigram |  3909.763 |    3909.763   |   0.000    |
|                     | trigram | 70287.110 |   70287.110   |   0.000    |
| NLRW1900000020.json | unigram |   6.964   |     7.002     |   0.038    |
|     (test data)     |  bigram |  3251.465 |    9663.210   |  6411.745  |
|                     | trigram | 31438.401 |   590071.210  | 558632.809 |
| WARW1900003745.json | unigram |   6.778   |     7.269     |   0.492    |
|     (test data)     |  bigram |  2891.736 |   10737.486   |  7845.750  |
|                     | trigram | 19188.719 |   393885.964  | 374697.245 |
+---------------------+---------+-----------+---------------+------------+
