In [1]:
import pandas as pd
valid_path = "./data/가구인테리어_validation.csv"
df = pd.read_csv(valid_path, nrows = 5000, low_memory=False)

In [2]:
df

Unnamed: 0,IDX,발화자,발화문,카테고리,QA번호,QA여부,감성,인텐트,가격,수량,크기,장소,조직,사람,시간,날짜,상품명,상담번호,상담내순번
0,1,c,어반 무드와 엣지 라인의 차이는 뭐에요?,가구인테리어,231830,q,m,제품_일반_비교,,,,,,,,,어반 무드|엣지 라인,231830,1
1,2,s,100퍼센트 국산 원단이구요.,가구인테리어,231830,a,m,제품_일반_비교,,,,,,,,,,231830,2
2,3,c,제품 문의요 화이트 원단 차이가 뭔가요?,가구인테리어,215255,q,m,제품_일반_비교,,,,,,,,,화이트,215255,1
3,4,s,천 같은 재질을 원하신다면 베이직 제품을 구매해 주시면 됩니다.라텍스 추가 하시고 ...,가구인테리어,215255,a,m,제품_일반_비교,,,,,,,,,베이직|라텍스,215255,2
4,5,c,접이식의 A타입 B타입은 접는 방식은 같은데 상판 넓이만 다른 가요?,가구인테리어,98730,q,m,제품_일반_비교,,,,,,,,,접이식|A타입|B타입,98730,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,4996,s,베이스원지 기준으로 말씀드리겠습니다. 대부분의 사이즈는 영국 코닥사의 베이스원지를 ...,가구인테리어,126879,a,m,제품_원산지_질문,,,,영국|일본,코닥사|미쯔비시,,,,,126879,2
4996,4997,c,구성품도 많고 가격도 너무 싼데 혹시 해외 배송인가요?,가구인테리어,290630,q,m,제품_원산지_질문,,,,,,,,,,290630,1
4997,4998,s,아닙니다 1시 이전 주문 당일 출고이며 위치에 따라 약 1 - 3일 정도 소요됩니다.,가구인테리어,290630,a,m,제품_원산지_질문,,,,,,,,,,290630,2
4998,4999,c,원산지는 중국 상품 설명에는 스웨덴이라고 되어 있는데 어떻게 이해하면 될까요?,가구인테리어,199290,q,m,제품_원산지_질문,,,,중국|스웨덴,,,,,,199290,1


In [3]:
# 그룹별 row 수 계산
group_sizes = df.groupby('상담번호').size()

# row 수가 2인 그룹의 상담번호만 필터링
valid_ids = group_sizes[group_sizes == 2].index

# row 수가 2인 그룹만 필터링하여 grouped_data 생성
grouped_data = []
for idx, group in df[df['상담번호'].isin(valid_ids)].groupby('상담번호'):
    group_dict = {
        "Q": group.loc[group['QA여부'] == 'q', '발화문'].tolist(),
        "A": group.loc[group['QA여부'] == 'a', '발화문'].tolist(),
        "id": idx
    }
    # 리스트 형태로 변환된 데이터만 추가
    group_dict['Q'] = ' '.join(group_dict['Q'])  # 각 질문을 하나의 문자열로 결합
    group_dict['A'] = ' '.join(group_dict['A'])  # 각 답변을 하나의 문자열로 결합
    grouped_data.append(group_dict)

# 딕셔너리 리스트를 DataFrame으로 변환
grouped_df = pd.DataFrame(grouped_data)

In [4]:
grouped_df[:5]

Unnamed: 0,Q,A,id
0,커튼봉 포함으로 해서 상품 뜨는데 커튼봉 포함이라 하길래 구매했는데 맞나요?,봉 포함 구성 아니세요,37
1,골드베이지 주문하고 싶은데 언제 주문 가능할까요?,현재 단품으로는 판매되고 있으며 세트 물량은 품절로 인해 구매가 불가합니다.,40
2,언제 입고되나요?,관심 가져주셔서 감사합니다.,90
3,재입고 언제 될까욥?,조금만 기다려주시면 빠르게 상품 준비해서 구매 가능하시도록 도와드리겠습니다.,104
4,다크 그레이는 언제 입고되나요?,금일부터 구매 가능하십니다.,169


In [5]:
from flask import Flask, request, jsonify, render_template, url_for
from transformers import GPT2Tokenizer, GPT2LMHeadModel, PreTrainedTokenizerFast, pipeline
import torch
import math
import pandas as pd
import re
import requests
from evaluate import load
import nltk

In [6]:
# GPU 사용가능하면 로드
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [7]:
# 모델과 토크나이저 로드
model_paths = {
    "BASE_MODEL": "./results/checkpoint-1720",
    "SR_MODEL": "./AUG_SR_MODEL/checkpoint-2720",
    "RI_MODEL": "./AUG_RI_MODEL/checkpoint-2720",
    "RS_MODEL": "./AUG_RS_MODEL/checkpoint-2720",
    "RD_MODEL": "./AUG_RD_MODEL/checkpoint-2720",
}

models = {}

for name, path in model_paths.items():
    models[name] = GPT2LMHeadModel.from_pretrained(path).to(device)
    models[name].eval()

In [8]:
# 토크나이저는 공통으로 사용한다.
Q_TKN = "<usr>"
A_TKN = "<sys>"
BOS = "</s>"
EOS = "</s>"
MASK = "<unused0>"
SENT = "<unused1>"
PAD = "<pad>"

tokenizer = PreTrainedTokenizerFast.from_pretrained(  # koGPT2를 사용하는데 필요한 토크나이저 정의
    "skt/kogpt2-base-v2",
    bos_token=BOS,
    eos_token=EOS,
    unk_token="<unk>",
    pad_token=PAD,
    mask_token=MASK,
)

additional_special_tokens = [Q_TKN, A_TKN, SENT]
tokenizer.add_special_tokens({'additional_special_tokens': additional_special_tokens})

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


0

In [9]:
grouped_dict = grouped_df.to_dict()

In [10]:
# 'Q'의 값들을 리스트로 변환
q_values = list(grouped_dict['Q'].values());

In [11]:
q_values[:5]

['커튼봉 포함으로 해서 상품 뜨는데 커튼봉 포함이라 하길래 구매했는데 맞나요?',
 '골드베이지 주문하고 싶은데 언제 주문 가능할까요?',
 '언제 입고되나요?',
 '재입고 언제 될까욥?',
 '다크 그레이는 언제 입고되나요?']

In [12]:
a_values = list(grouped_dict['A'].values());

In [13]:
a_values[:5]

['봉 포함 구성 아니세요',
 '현재 단품으로는 판매되고 있으며 세트 물량은 품절로 인해 구매가 불가합니다.',
 '관심 가져주셔서 감사합니다.',
 '조금만 기다려주시면 빠르게 상품 준비해서 구매 가능하시도록 도와드리겠습니다.',
 '금일부터 구매 가능하십니다.']

In [14]:
# Perplexity 계산 함수
def calculate_perplexity(sentences):
    perplexities = []
    for sentence in sentences:
        inputs = perplexity_tokenizer(sentence, return_tensors="pt")
        input_ids = inputs.input_ids
        with torch.no_grad():
            outputs = perplexity_model(input_ids, labels=input_ids)
            loss = outputs.loss.item()
            perplexity = torch.exp(torch.tensor(loss)).item()
            perplexities.append(perplexity)
    return sum(perplexities) / len(perplexities)

In [15]:
# BLEU, ROUGE, METEOR, ChrF 등의 평가 모듈 로드
metrics = {
    "bleu": load("bleu"),
    "rouge": load("rouge"),
    "meteor": load("meteor"),
    "chrf": load("chrf")
}

[nltk_data] Downloading package wordnet to
[nltk_data]     /home/team_user/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/team_user/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/team_user/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [16]:
pipelines = {
    "default": pipeline("text-generation",
                                model=models["BASE_MODEL"],
                                tokenizer=tokenizer, 
                                device=0),
    "SR": pipeline("text-generation",
                                model=models["SR_MODEL"],
                                tokenizer=tokenizer, 
                                device=0),
    "RI": pipeline("text-generation",
                                model=models["RI_MODEL"],
                                tokenizer=tokenizer, 
                                device=0),
    "RS": pipeline("text-generation",
                                model=models["RS_MODEL"],
                                tokenizer=tokenizer, 
                                device=0),
    "RD": pipeline("text-generation",
                                model=models["RD_MODEL"],
                                tokenizer=tokenizer, 
                                device=0),
}

In [17]:
from datasets import Dataset
from transformers import pipeline
from multiprocessing import set_start_method

# 예제 validation_Q 리스트
validation_Q = q_values[:200]

# 데이터를 Dataset으로 변환
dataset = Dataset.from_dict({"questions": validation_Q})

results = {}

for pipeline_name, pipe in pipelines.items():
    # Pipeline으로 데이터셋 처리
    outputs = dataset.map(
        lambda x: {"answer": [pipe(q, max_length=70, truncation=True, num_return_sequences=1)[0]["generated_text"] for q in x["questions"]]},
        batched=True,
        batch_size=1024,
    )
    
    # 입력 질문 제거 및 답변만 추출
    answers = []
    for question, output in zip(validation_Q, outputs["answer"]):
        # 질문 제거
        if output.startswith(question):
            answer = output[len(question):].strip()
        else:
            answer = output.strip()
        answers.append(answer)
    
    # 결과 저장
    results[f"{pipeline_name}"] = answers

# 결과 출력
# for pipeline_name, answers in results.items():
#     print(f"Pipeline: {pipeline_name}")
#     for i, answer in enumerate(answers):
#         print(f"  Q{i+1}: {validation_Q[i]}")
#         print(f"  A{i+1}: {answer}")
#     print("\n")

Map:   0%|          | 0/200 [00:00<?, ? examples/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Map:   0%|          | 0/200 [00:00<?, ? examples/s]

Map:   0%|          | 0/200 [00:00<?, ? examples/s]

Map:   0%|          | 0/200 [00:00<?, ? examples/s]

Map:   0%|          | 0/200 [00:00<?, ? examples/s]

In [34]:
def calculate_metrics_for_all_predictions(predictions_dict, references):
    """
    딕셔너리를 입력받아, (key=모델명, value=해당 모델의 prediction 리스트)에 대해
    4개 지표(BLEU, ROUGE, METEOR, ChrF)를 계산 후 결과를 반환한다.

    references는 a_values[:200]으로 고정.
    """
    # 전역 혹은 상위 스코프에서 a_values가 존재한다고 가정
    # 필요에 따라 파라미터로 넘겨받아도 됨.
    #global a_values
    #references = a_values[:200]
    
    # 최종 결과를 담을 딕셔너리
    overall_results = {}
    
    # predictions_dict 예: {"RS": [...predictions...], "default": [...predictions...]}
    for method_name, preds in predictions_dict.items():
        # 한 모델/파이프라인(method_name)에 대한 결과를 계산
        method_results = {}
        method_results["name"] = method_name

        # 1. BLEU
        bleu = metrics["bleu"].compute(
            predictions=preds, 
            references=[[ref] for ref in references]
        )
        method_results["bleu"] = bleu["bleu"]

        # 2. ROUGE
        rouge = metrics["rouge"].compute(
            predictions=preds, 
            references=references
        )
        if isinstance(rouge, dict):
            # 여러 ROUGE 지표가 dict로 반환될 경우 그대로 저장
            method_results["rouge"] = rouge
        else:
            # 단일 값(예: ROUGE-L만 계산)이면 기본 키로 저장
            method_results["rouge"] = {"rougeL": rouge}

        # 3. METEOR
        meteor = metrics["meteor"].compute(
            predictions=preds, 
            references=references
        )
        method_results["meteor"] = meteor["meteor"]

        # 4. ChrF
        chrf = metrics["chrf"].compute(
            predictions=preds, 
            references=references
        )
        method_results["chrf"] = chrf["score"]

        # 전체 결과에 method_name으로 추가
        overall_results[method_name] = method_results
    
    return overall_results

In [35]:
calculate_metrics_for_all_predictions(results, a_values[:200])

{'default': {'name': 'default',
  'bleu': 0.010411384320371874,
  'rouge': {'rougeL': {'rouge1': 0.02458766233766234,
    'rouge2': 0.005333333333333333,
    'rougeL': 0.02490692640692641,
    'rougeLsum': 0.026080086580086585}},
  'meteor': 0.07585318856982357,
  'chrf': 8.452090885691067},
 'SR': {'name': 'SR',
  'bleu': 0.009852781197467774,
  'rouge': {'rougeL': {'rouge1': 0.025371794871794875,
    'rouge2': 0.011666666666666665,
    'rougeL': 0.025288461538461537,
    'rougeLsum': 0.02611538461538461}},
  'meteor': 0.07516540176323762,
  'chrf': 8.247974789174837},
 'RI': {'name': 'RI',
  'bleu': 0.009913869739769139,
  'rouge': {'rougeL': {'rouge1': 0.032214285714285716,
    'rouge2': 0.008,
    'rougeL': 0.030285714285714287,
    'rougeLsum': 0.031023809523809523}},
  'meteor': 0.0714854512238962,
  'chrf': 7.843256103144237},
 'RS': {'name': 'RS',
  'bleu': 0.006695145811353948,
  'rouge': {'rougeL': {'rouge1': 0.04169871794871795,
    'rouge2': 0.0069696969696969695,
    'roug