## 기본적인 함수 선언 & 모델 다운로드

In [None]:
# Google Colab에 필요한 패키지 설치
!pip install konlpy rouge-score
!apt-get install -y openjdk-11-jdk
from google.colab import drive
from rouge_score import rouge_scorer
import json
import requests
import random
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from collections import Counter
from konlpy.tag import Kkma
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

# Kkma 형태소 분석기 초기화
kkma = Kkma()

# 형태소 분석 함수
def morphological_analysis(sentence):
    return kkma.morphs(sentence)

# BLEU 점수 계산 함수
def calculate_bleu(reference_tokens, candidate_tokens):
    return sentence_bleu([reference_tokens], candidate_tokens, smoothing_function=SmoothingFunction().method1)

# ROUGE-1 점수 계산 함수
def calculate_rouge_1(reference_tokens, candidate_tokens):
    ref_count = Counter(reference_tokens)
    cand_count = Counter(candidate_tokens)
    overlap = sum((ref_count & cand_count).values())

    precision = overlap / len(candidate_tokens) if len(candidate_tokens) > 0 else 0.0
    recall = overlap / len(reference_tokens) if len(reference_tokens) > 0 else 0.0
    f1_score = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0.0

    return precision, recall, f1_score

# ROUGE-L 점수 계산 함수
def calculate_rouge_l(reference_tokens, candidate_tokens):
    def lcs(X, Y):
        m = len(X)
        n = len(Y)
        L = [[0] * (n + 1) for _ in range(m + 1)]
        for i in range(m + 1):
            for j in range(n + 1):
                if i == 0 or j == 0:
                    L[i][j] = 0
                elif X[i - 1] == Y[j - 1]:
                    L[i][j] = L[i - 1][j - 1] + 1
                else:
                    L[i][j] = max(L[i - 1][j], L[i][j - 1])
        return L[m][n]

    lcs_length = lcs(reference_tokens, candidate_tokens)

    precision = lcs_length / len(candidate_tokens) if len(candidate_tokens) > 0 else 0.0
    recall = lcs_length / len(reference_tokens) if len(reference_tokens) > 0 else 0.0
    f1_score = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0.0

    return precision, recall, f1_score
#==========================================================================

huggingface_token = "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"

# 모델 및 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
    use_auth_token=huggingface_token
)
tokenizer = AutoTokenizer.from_pretrained(
    "LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
    use_auth_token=huggingface_token
)

#=========================================================================
# ROUGE 점수 계산기 초기화=
scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)
smoothing_function = SmoothingFunction().method1

# GitHub의 JSONL 파일 URL
url = "https://raw.githubusercontent.com/beefed-up-geek/HCLT-KACL2024/main/Taeyoon_notebooks/240830_final_data.jsonl"

# JSONL 파일 다운로드
response = requests.get(url)
lines = response.text.strip().split('\n')

#인공지능의 마지막 대답만 추출하는 함수
def extract_last_response(input_text):
    start_index = input_text.rfind('[|assistant|]')
    if start_index != -1:
        return input_text[start_index + len('[|assistant|]'): len(input_text)-len("[|endofturn|]")].strip()
    return input_text

# 인공지능과 대화하는 함수
def chat_with_ai(user_inputs, print_all=False):
    messages = [
        {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."}
    ]

    for user_input in user_inputs:
        if user_input == "":
            break

        # 사용자 입력 추가
        messages.append({"role": "user", "content": user_input})

        # 대화 템플릿 적용 및 토큰화
        input_ids = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt"
        )

        # 모델을 사용해 응답 생성
        output = model.generate(
            input_ids.to("cuda"),
            eos_token_id=tokenizer.eos_token_id,
            max_new_tokens=512
        )

        # 인공지능 응답 추출
        ai_response = tokenizer.decode(output[0])
        ai_response = extract_last_response(ai_response)

        # 인공지능 응답을 대화에 추가
        messages.append({"role": "assistant", "content": ai_response})

    # 전체 대화 내역 출력 여부
    if print_all:
        for message in messages:
            role = message["role"].capitalize()
            print(f"{role}: {message['content']}\n")

    # 마지막 응답 반환
    return messages[-1]['content']


## 여기서 점수 측정용 데이터 n개 랜덤하게 추출
만약 데이터를 새로 추출하고 싶거나, 추출하는 데이터의 갯수를 바꾸고 싶으면 <br>**n을 수정하고 다시 실행**

In [None]:
n=20 # 추출할 데이터의 갯수

# JSONL 파일 다운로드
response = requests.get(url)
lines = response.text.strip().split('\n')

# 무작위로 10개의 데이터를 샘플링
sampled_data = random.sample(lines, n)

# 평가 실행
data_pairs = []

for line in sampled_data:
    data = json.loads(line)
    input_data = data['input']
    output_data = data['output']

    # input을 딕셔너리 형태의 문자열로 변환
    input_str = json.dumps(input_data, ensure_ascii=False)

    data_pairs.append({
        "id": data['id'],
        "input": input_str,
        "output": output_data
    })

## 여기서 프롬프트 엔지니어링

In [None]:
def create_user_inputs(input_data):
    user_inputs = [
        f"{input_data}표에서 highlighted_cells들이 무엇을 나타내고 있는지 알려줘.",  # 여기부터 5개의 문자열들을 프롬프트 엔지니어링
        "너는 신문 기자고, 표를 참고해서 기사를 쓰고 있어. 사람들에게 한 문장으로 정보를 전달해야해. {og_data_input_str} 이 표에서 highlighted_cells에 대해 한 문장으로 기사를 써줘. 다른 말은 하지 말고 한문장의 기사만 얘기해줘",
        "",
        "",  # 빈 문자열로 대화를 종료
        ""
    ]
    return user_inputs


## 바로 점수 측정

In [None]:
def evaluate_and_print_scores(data_pairs):
    total_bleu = 0
    total_rouge1 = 0
    total_rougeL = 0
    count = len(data_pairs)

    print("데이터 ID                      | ROUGE-1 | ROUGE-L | BLEU | 인공지능 대답")
    print("-------------------------------+---------+---------+------+---------------")

    for data in data_pairs:
        input_data = data['input']
        output_data = data['output']
        ai_response = chat_with_ai(create_user_inputs(input_data), print_all=False)
        ai_response_tokens = morphological_analysis(ai_response)

        best_bleu = 0
        best_rouge1 = 0
        best_rougeL = 0
        best_avg = 0  # 이전에 계산한 평균 점수 초기화

        for ref in output_data:
            ref_tokens = morphological_analysis(ref)

            # BLEU 점수 계산
            bleu_score = calculate_bleu(ref_tokens, ai_response_tokens)
            # ROUGE-1 점수 계산
            _, _, rouge1_f1 = calculate_rouge_1(ref_tokens, ai_response_tokens)
            # ROUGE-L 점수 계산
            _, _, rougeL_f1 = calculate_rouge_l(ref_tokens, ai_response_tokens)

            # 새로운 평균 계산
            current_avg = (rouge1_f1 + rougeL_f1 + bleu_score) / 3

            # 평균 점수가 이전보다 높다면 갱신
            if current_avg > best_avg:
                best_bleu = bleu_score
                best_rouge1 = rouge1_f1
                best_rougeL = rougeL_f1
                best_avg = current_avg

        total_bleu += best_bleu
        total_rouge1 += best_rouge1
        total_rougeL += best_rougeL

        # 결과 출력
        print(f"{data['id']} | {best_rouge1:.4f} |  {best_rougeL:.4f} | {best_bleu:.4f} | {ai_response[:40]}...")

    # 평균 점수 계산 및 출력
    avg_bleu = total_bleu / count
    avg_rouge1 = total_rouge1 / count
    avg_rougeL = total_rougeL / count

    print("\n======================================================")
    print(f"Average ROUGE-1: {avg_rouge1:.4f}")
    print(f"Average ROUGE-L: {avg_rougeL:.4f}")
    print(f"Average BLEU: {avg_bleu:.4f}")

# 데이터 평가 및 출력 실행
evaluate_and_print_scores(data_pairs)



In [None]:
# Kkma 형태소 분석기 초기화
from konlpy.tag import Kkma
kkma = Kkma()

# 형태소 분석 함수
def morphological_analysis(sentence):
    tokenized = kkma.morphs(sentence)
    return tokenized

# ROUGE 점수 계산기 초기화
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)

# 예제 문장
ai_response = "오늘 날씨가 매우 좋다."
reference_1 = "오늘 날씨가 좋다."
reference_2 = "날씨가 매우 좋다."

# 형태소 분석 수행
ai_response_tokens = morphological_analysis(ai_response)
ref_tokens_1 = morphological_analysis(reference_1)
ref_tokens_2 = morphological_analysis(reference_2)

# 디버깅 함수
def debug_rouge_scores(ai_response_tokens, ref_tokens):
    # 토큰들을 공백으로 연결하여 문자열로 변환
    ai_response_str = " ".join(ai_response_tokens)
    ref_str = " ".join(ref_tokens)

    # ROUGE 점수 계산
    rouge_scores = scorer.score(ai_response_str, ref_str)
    rouge1_score = rouge_scores['rouge1'].fmeasure
    rougeL_score = rouge_scores['rougeL'].fmeasure

    print(f"AI Response Tokens: {ai_response_tokens}")
    print(f"Reference Tokens: {ref_tokens}")
    print(f"ROUGE-1 F1 Score: {rouge1_score}")
    print(f"ROUGE-L F1 Score: {rougeL_score}")
    print(f"ROUGE-1 Precision: {rouge_scores['rouge1'].precision}")
    print(f"ROUGE-1 Recall: {rouge_scores['rouge1'].recall}")
    print(f"ROUGE-L Precision: {rouge_scores['rougeL'].precision}")
    print(f"ROUGE-L Recall: {rouge_scores['rougeL'].recall}")
    print("-----------------------------------------------------\n")

# 두 개의 예제 참조 문장과 비교
print("Comparing with reference 1:")
debug_rouge_scores(ai_response_tokens, ref_tokens_1)

print("Comparing with reference 2:")
debug_rouge_scores(ai_response_tokens, ref_tokens_2)
