# BLEU-1


In [None]:
import jieba
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction


# 计算 BLEU 分数（带平滑）
def calculate_bleu_smooth(generated, references, n=1):
    """
    计算 BLEU-N 分数（带平滑）
    :param generated: 生成文本（字符串或列表）
    :param references: 参考文本（字符串或列表）
    :param n: BLEU-N 的 n 值（默认为 1）
    :return: BLEU-N 分数
    """
    # 统一格式：将字符串转换为列表
    if isinstance(generated, str):
        generated = [generated]
    if isinstance(references, str):
        references = [references]

    # 对生成文本和参考文本分词
    generated_tokens = list(jieba.cut(generated[0]))  # 直接使用 jieba 分词
    reference_tokens_list = [
        list(jieba.cut(ref)) for ref in references
    ]  # 对参考文本分词

    # 设置权重（BLEU-N）
    weights = [0] * n
    weights[-1] = 1  # 设置第 N 个权重为 1

    # 使用平滑技术
    smoothing = SmoothingFunction().method1  # 选择平滑方法

    # 计算 BLEU 分数
    bleu_score = sentence_bleu(
        reference_tokens_list,
        generated_tokens,
        weights=weights,
        smoothing_function=smoothing,
    )
    return bleu_score


# 示例数据（字符串格式）
generated_answer = "我喜欢吃苹果"
reference_answers = "我不爱吃雪梨和香蕉"

# 计算 BLEU-1 到 BLEU-4（带平滑）
for n in range(1, 5):
    score = calculate_bleu_smooth(generated_answer, reference_answers, n)
    print(f"BLEU-{n} 分数（带平滑）:", score)

# ROUGE

“f” 表示 f1_score, “p” 表示 precision, “r” 表示 recall


In [None]:
from rouge_chinese import Rouge
import jieba  # you can use any other word cutting library

hypothesis = "我喜欢吃苹果"
hypothesis = " ".join(jieba.cut(hypothesis))

reference = "我不爱吃雪梨和香蕉"
reference = " ".join(jieba.cut(reference))

rouge = Rouge()
scores = rouge.get_scores(hypothesis, reference)
scores