<a href="https://colab.research.google.com/github/UiinKim/UiinKim/blob/main/Bilingual_Evaluation_Understudy_Score.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install nltk



In [3]:
import numpy as np
from collections import Counter
from nltk import ngrams

In [4]:
#토큰화 된 문장에서n-gram카운트
def simple_count(tokens, n):
  return Counter(ngrams(tokens, n))

In [5]:
candidate="It is a guide to action which ensures that the military always obeys the commands of the party."
tokens=candidate.split()
result=simple_count(tokens, 1) #n-gram을 1로 설정하면 유니그램
print("유니그램 카운트 : ", result)

유니그램 카운트 :  Counter({('the',): 3, ('It',): 1, ('is',): 1, ('a',): 1, ('guide',): 1, ('to',): 1, ('action',): 1, ('which',): 1, ('ensures',): 1, ('that',): 1, ('military',): 1, ('always',): 1, ('obeys',): 1, ('commands',): 1, ('of',): 1, ('party.',): 1})


In [6]:
candidate="the the the the the the the"
tokens=candidate.split()
result=simple_count(tokens, 1)
print("유니그램 카운트 : ", result)

유니그램 카운트 :  Counter({('the',): 7})


In [12]:
#단순 count가 아닌 candidate와 reference중에서 더 적게 출현한 횟수를 카운트
def count_clip(candidate, reference_list, n):
  #Ca 문장에서 n-gram 카운트
  ca_cnt=simple_count(candidate, n)
  max_ref_cnt_dict=dict()

  for ref in reference_list:
    #Ref 문장에서 n-gram카운트
    ref_cnt=simple_count(ref, n)

    #각 Ref 문장들을 비교하여 n-gram의 최대 등장 횟수를 계산
    for n_gram in ref_cnt: #현재 ref문장에 들어있는 사전의 단어를 차례대로
      if n_gram in max_ref_cnt_dict: #이미 모든 ref문장의 사전에 있는 단어라면
        max_ref_cnt_dict[n_gram]=max(ref_cnt[n_gram], max_ref_cnt_dict[n_gram]) #횟수가 더 큰 것으로 대체
      else:
        max_ref_cnt_dict[n_gram]=ref_cnt[n_gram] #없으면 사전에 추가
  return{
        #count_clip=min(coutn, max_ref_count)
        n_gram:min(ca_cnt.get(n_gram,0), max_ref_cnt_dict.get(n_gram,0)) for n_gram in ca_cnt #Ca문장에서 나온 단어 중 횟수가 더 적은 쪽으로 저장하고 반환
    }


In [13]:
candidate = 'the the the the the the the'
references = [
    'the cat is on the mat',
    'there is a cat on the mat'
]
result = count_clip(candidate.split(),list(map(lambda ref: ref.split(), references)),1)
print('보정된 유니그램 카운트 :',result)

보정된 유니그램 카운트 : {('the',): 2}


In [15]:
def modified_precision(candidate, reference_list, n):
  clip_cnt=count_clip(candidate, reference_list, n)
  total_clip_cnt=sum(clip_cnt.values()) #분자를 구한다.

  cnt=simple_count(candidate, n)
  total_cnt=sum(cnt.values()) #분모

  #분모가 0이 되는 것을 방지
  if total_cnt==0:
    total_cnt=1

  #분자 : count_clip의 합, 분모 : 단순 count의 합 ==> 보정된 정밀도

  return (total_clip_cnt/total_cnt)

In [16]:
result=modified_precision(candidate.split(), list(map(lambda ref:ref.split(), references)), 1)
print("보정된 유니그램 정밀도 : ", result)

보정된 유니그램 정밀도 :  0.2857142857142857


In [17]:
#Ca 길이와 가장 근접한 Ref의 길이를 리턴하는 함수
def closest_ref_length(candidate, reference_list):
  ca_len=len(candidate)
  ref_lens=(len(ref) for ref in reference_list)
  #길이 차이를 최소화하는 Ref를 찾아서 Ref으 ㅣ길이를 리턴
  closest_ref_len=min(ref_lens, key=lambda ref_len:(abs(ref_len-ca_len), ref_len)) #ref_len-ca_len의 절댓값
  return closest_ref_len

In [18]:
#BP(brevity penalty) 함수 -> Ca의 길이가 ref보다 짧아서 높은 효율이 나오는 것을 방지하기 위해 곱하는 수
def brevity_penalty(candidate, reference_list):
  ca_len=len(candidate)
  ref_len=closest_ref_length(candidate, reference_list)

  if ca_len>ref_len: #ca의 길이가 더 길면 BP곱할필요가 없음
    return 1
  elif ca_len==0:#Ca의 길이가 0이면 확률은 0
    return 0
  else: #나머지의 경우 BP를 구하여 반환
    return np.exp(1-ref_len/ca_len)


In [21]:
#BLEU(Bilingual Evaluation Understudy Score) 계산 함수
def bleu_score(candidate, reference_list, weights=[0.25, 0.25,0.25,0.25]):
  bp=brevity_penalty(candidate, reference_list)

  p_n=[modified_precision(candidate, reference_list, n=n) for n, _ in enumerate(weights, start=1)]
  #p1, p2, p3, p4
  score=np.sum([w_i*np.log(p_i) if p_i!=0 else 0 for w_i, p_i in zip(weights, p_n)])
  return bp*np.exp(score)

In [22]:
#nltk의 bleu측정
import nltk.translate.bleu_score as bleu
candidate = 'It is a guide to action which ensures that the military always obeys the commands of the party'
references = [
    'It is a guide to action that ensures that the military will forever heed Party commands',
    'It is the guiding principle which guarantees the military forces always being under the command of the Party',
    'It is the practical guide for the army always to heed the directions of the party'
]

print("실습 코드의 BLEU : ", bleu_score(candidate.split(), list(map(lambda ref:ref.split(), references))))
print("패키지 NLTK의 BLEU : ", bleu.sentence_bleu(list(map(lambda ref:ref.split(), references)), candidate.split()))

실습 코드의 BLEU :  0.5045666840058485
패키지 NLTK의 BLEU :  0.5045666840058485
