## N-Gram and BLEU

#### N-Gram

In [3]:
from collections import Counter
import numpy as np

# N-Gram 추출 함수
def get_ngrams(text, n):
    words = text.split()
    return [tuple(words[i:i+n]) for i in range(len(words)-n+1)]

text = "The quick brown fox jumps over the lazy dog" # 예시 텍스트

print("N-Gram 예시 ")
for n in range(1, 4):
    ngrams = get_ngrams(text, n)
    print(f"{n}-gram: {ngrams}")

# N-gram 빈도 분석
print(f"\nBigram 빈도 분석 ")
bigrams = get_ngrams(text, 2)
bigram_counts = Counter(bigrams)
for bigram, count in bigram_counts.items():
    print(f"'{' '.join(bigram)}': {count}")

texts = [
    "I love machine learning",
    "Machine learning is amazing", 
    "Deep learning loves data"
] # 다양한 텍스트로 테스트

print(f"\n 여러 텍스트의 Bigram ")
for text in texts:
    bigrams = get_ngrams(text, 2)
    print(f"'{text}' → {bigrams}")

N-Gram 예시 
1-gram: [('The',), ('quick',), ('brown',), ('fox',), ('jumps',), ('over',), ('the',), ('lazy',), ('dog',)]
2-gram: [('The', 'quick'), ('quick', 'brown'), ('brown', 'fox'), ('fox', 'jumps'), ('jumps', 'over'), ('over', 'the'), ('the', 'lazy'), ('lazy', 'dog')]
3-gram: [('The', 'quick', 'brown'), ('quick', 'brown', 'fox'), ('brown', 'fox', 'jumps'), ('fox', 'jumps', 'over'), ('jumps', 'over', 'the'), ('over', 'the', 'lazy'), ('the', 'lazy', 'dog')]

Bigram 빈도 분석 
'The quick': 1
'quick brown': 1
'brown fox': 1
'fox jumps': 1
'jumps over': 1
'over the': 1
'the lazy': 1
'lazy dog': 1

 여러 텍스트의 Bigram 
'I love machine learning' → [('I', 'love'), ('love', 'machine'), ('machine', 'learning')]
'Machine learning is amazing' → [('Machine', 'learning'), ('learning', 'is'), ('is', 'amazing')]
'Deep learning loves data' → [('Deep', 'learning'), ('learning', 'loves'), ('loves', 'data')]


#### BLEU

In [4]:
def simple_bleu(reference, candidate, n=2): # BLEU Score 계산
    ref_ngrams = Counter(get_ngrams(reference, n))
    cand_ngrams = Counter(get_ngrams(candidate, n))
    
    # n-gram 매칭 개수
    matches = sum((ref_ngrams & cand_ngrams).values())
    total = sum(cand_ngrams.values())
    
    return matches / total if total > 0 else 0

print("BLEU Score 예시")
reference = "The cat is on the mat"  # 정답 문장
candidates = [
    "The cat is on the mat",        # 완전 일치
    "A cat is on the mat",          # 거의 일치  
    "The dog is on the bed",        # 부분 일치
    "Hello world programming"       # 완전 다름
]

for candidate in candidates:
    bleu = simple_bleu(reference, candidate, n=2)
    print(f"정답: '{reference}'")
    print(f"후보: '{candidate}'")
    print(f"BLEU: {bleu:.3f}")
    print()

print("번역 품질 평가 예시")
ref_ko = "고양이가 매트 위에 있다"
translations = [
    "고양이가 매트 위에 있다",      # 완벽한 번역
    "고양이는 매트 위에 있다",      # 조사 다름
    "고양이가 침대 위에 있다",      # 단어 다름
    "개가 매트 위에 있다"          # 주체 다름
]

for trans in translations:
    bleu = simple_bleu(ref_ko, trans, n=1)  # 한글은 1-gram으로
    print(f"번역: '{trans}' → BLEU: {bleu:.3f}")

BLEU Score 예시
정답: 'The cat is on the mat'
후보: 'The cat is on the mat'
BLEU: 1.000

정답: 'The cat is on the mat'
후보: 'A cat is on the mat'
BLEU: 0.800

정답: 'The cat is on the mat'
후보: 'The dog is on the bed'
BLEU: 0.400

정답: 'The cat is on the mat'
후보: 'Hello world programming'
BLEU: 0.000

번역 품질 평가 예시
번역: '고양이가 매트 위에 있다' → BLEU: 1.000
번역: '고양이는 매트 위에 있다' → BLEU: 0.750
번역: '고양이가 침대 위에 있다' → BLEU: 0.750
번역: '개가 매트 위에 있다' → BLEU: 0.750
