In [None]:
# **💁🏻🗨️💁🏻‍♂️대화 요약 Baseline code**
> **Dialogue Summarization** 경진대회에 오신 여러분 환영합니다! 🎉
> 본 대회에서는 최소 2명에서 최대 7명이 등장하여 나누는 대화를 요약하는 BART 기반 모델의 baseline code를 제공합니다.
> 주어진 데이터를 활용하여 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 만들어봅시다!
## ⚙️ 데이터 및 환경설정
### 1) 필요한 라이브러리 설치
- 필요한 라이브러리를 설치한 후 불러옵니다.

!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118


# 필요한 라이브러리 설치
!pip install wandb
!pip install matplotlib
!pip install pandas
!pip install lightning
!pip install pytorch-lightning
!pip install --upgrade lightning
!pip install rouge
!pip install transformers
!pip install transformers[torch]
!pip install accelerate -U


import pandas as pd
import os
import re
import json
import yaml
from glob import glob
from tqdm import tqdm
from pprint import pprint
import torch
import pytorch_lightning as pl
from rouge import Rouge # 모델의 성능을 평가하기 위한 라이브러리입니다.

from torch.utils.data import Dataset , DataLoader
from transformers import AutoTokenizer, BartForConditionalGeneration, BartConfig
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
from transformers import Trainer, TrainingArguments
from transformers import EarlyStoppingCallback

import wandb # 모델 학습 과정을 손쉽게 Tracking하고, 시각화할 수 있는 라이브러리입니다.


from transformers import T5TokenizerFast, T5ForConditionalGeneration, T5Config
from transformers import AutoModelForSeq2SeqLM, AutoConfig
### 2) Config file 만들기 (선택)
- 모델 생성에 필요한 다양한 매개변수 정보를 저장할 수 있습니다.
  따라서, 코드 상에서 모델의 매개변수를 설정할 수도 있지만 독립적인 매개변수 정보 파일을 생성하여 관리할 수 있습니다.
# config 설정에 tokenizer 모듈이 사용되므로 미리 tokenizer를 정의해줍니다.
#tokenizer = AutoTokenizer.from_pretrained("digit82/kobart-summarization")

model_name = "lcw99/t5-large-korean-text-summary"
tokenizer = AutoTokenizer.from_pretrained(model_name)
config_data = {
    "general": {
        "data_path": "/root/home/data/", # 모델 생성에 필요한 데이터 경로를 사용자 환경에 맞게 지정합니다.
        "model_name": f"{model_name}", # 불러올 모델의 이름을 사용자 환경에 맞게 지정할 수 있습니다.
        "output_dir": "/root/home/data/" # 모델의 최종 출력 값을 저장할 경로를 설정합니다.
    },
    "tokenizer": {
        "encoder_max_len": 512,
        "decoder_max_len": 100,
        "bos_token": f"{tokenizer.bos_token}",
        "eos_token": f"{tokenizer.eos_token}",
        # 특정 단어들이 분해되어 tokenization이 수행되지 않도록 special_tokens을 지정해줍니다.
        "special_tokens": ['#Person1#', '#Person2#', '#Person3#', '#PhoneNumber#', '#Address#', '#PassportNumber#']
    },
    "training": {
        "overwrite_output_dir": True,
        "num_train_epochs": 20,
        "learning_rate": 1e-5,
        "per_device_train_batch_size": 4, #50, - out of memory
        "per_device_eval_batch_size": 3, #32, - out of memory
        "warmup_ratio": 0.1,
        "weight_decay": 0.01,
        "lr_scheduler_type": 'cosine',
        "optim": 'adamw_torch',
        "gradient_accumulation_steps": 1,
        "evaluation_strategy": 'epoch',
        "save_strategy": 'epoch',
        "save_total_limit": 5,
        "fp16": True,
        "load_best_model_at_end": True,
        "seed": 42,
        "logging_dir": "./logs",
        "logging_strategy": "epoch",
        "predict_with_generate": True,
        "generation_max_length": 100,
        "do_train": True,
        "do_eval": True,
        "early_stopping_patience": 5, #3,
        "early_stopping_threshold": 0.001,
        "report_to": "wandb" # (선택) wandb를 사용할 때 설정합니다.
    },
    # (선택) wandb 홈페이지에 가입하여 얻은 정보를 기반으로 작성합니다.
    "wandb": {
        "entity": "newwhy2",
        "project": "NLP-project",
        "name": "BaseLineCode-2"
    },
    "inference": {
        "ckt_path": "/root/home/data/ckt/", # 사전 학습이 진행된 모델의 checkpoint를 저장할 경로를 설정합니다.
        "result_path": "/root/home/data/prediction/",
        "no_repeat_ngram_size": 2,
        "early_stopping": True,
        "generate_max_length": 100,
        "num_beams": 4,
        "batch_size" : 4, #32 - out of memory
        # 정확한 모델 평가를 위해 제거할 불필요한 생성 토큰들을 정의합니다.
        "remove_tokens": ['<usr>', f"{tokenizer.bos_token}", f"{tokenizer.eos_token}", f"{tokenizer.pad_token}"]
    }
}
- 참고✅
: wandb 라이브러리를 사용하기 위해선 entity, project, name를 지정해주어야 합니다. wandb 홈페이지에 가입한 후 얻은 정보를 입력하여 작동할 수 있습니다.
# 모델의 구성 정보를 YAML 파일로 저장합니다.
config_path = "/root/home/data/config.yaml"
with open(config_path, "w") as file:
    yaml.dump(config_data, file, allow_unicode=True)
### 3) Configuration 불러오기
# 저장된 config 파일을 불러옵니다.
config_path = "/root/home/data/config.yaml"

with open(config_path, "r") as file:
    loaded_config = yaml.safe_load(file)

# 불러온 config 파일의 전체 내용을 확인합니다.
pprint(loaded_config)
# 실험에 쓰일 데이터의 경로, 사용될 모델, 모델의 최종 출력 결과를 저장할 경로에 대해 확인합니다.
loaded_config['general']
# 이곳에 사용자가 저장한 데이터 dir 설정하기
loaded_config['general']['data_path'] = "data_path"
# 데이터 전처리를 하기 위해 tokenization 과정에서 필요한 정보들을 확인합니다.
loaded_config['tokenizer']
# 모델이 훈련 시 적용될 매개변수를 확인합니다.
loaded_config['training']
# 모델 학습 과정에 대한 정보를 제공해주는 wandb 설정 내용을 확인합니다.
loaded_config['wandb']
# (선택) 이곳에 사용자가 사용할 wandb config 설정
loaded_config['wandb']['entity'] = "newwhy2"
loaded_config['wandb']['name'] = "BaseLineCode-2"
loaded_config['wandb']['project'] = "NLP-project"
# 모델이 최종 결과를 출력하기 위한 매개변수 정보를 확인합니다.
loaded_config['inference']
### 4) 데이터 불러와서 확인해보기
- 실험에서 쓰일 데이터를 load하여 데이터의 구조와 내용을 살펴보겠습니다.
- Train, dev, test 순서대로 12457, 499, 250개 씩 데이터가 구성되어 있습니다.
# config에 저장된 데이터 경로를 통해 train과 validation data를 불러옵니다.
data_path = loaded_config['general']['data_path']

# train data의 구조와 내용을 확인합니다.
train_df = pd.read_csv(os.path.join(data_path,'train.csv'))
train_df.tail()
# validation data의 구조와 내용을 확인합니다.
val_df = pd.read_csv(os.path.join(data_path,'dev.csv'))
val_df.tail()
## 1. 데이터 가공 및 데이터셋 클래스 구축
- csv file 을 불러와서 encoder 와 decoder의 입력형태로 가공해줍니다.
- 가공된 데이터를 torch dataset class 로 구축하여 모델에 입력가능한 형태로 만듭니다.
# 데이터 전처리를 위한 클래스로, 데이터셋을 데이터프레임으로 변환하고 인코더와 디코더의 입력을 생성합니다.
class Preprocess:
    def __init__(self,
            bos_token: str,
            eos_token: str,
        ) -> None:

        self.bos_token = bos_token
        self.eos_token = eos_token

    @staticmethod
    # 실험에 필요한 컬럼을 가져옵니다.
    def make_set_as_df(file_path, is_train = True):
        if is_train:
            df = pd.read_csv(file_path)
            train_df = df[['fname','dialogue','summary']]
            return train_df
        else:
            df = pd.read_csv(file_path)
            test_df = df[['fname','dialogue']]
            return test_df

    # BART 모델의 입력, 출력 형태를 맞추기 위해 전처리를 진행합니다.
    def make_input(self, dataset,is_test = False):
        if is_test:
            encoder_input = dataset['dialogue']
            decoder_input = [self.bos_token] * len(dataset['dialogue'])
            return encoder_input.tolist(), list(decoder_input)
        else:
            encoder_input = dataset['dialogue']
            decoder_input = dataset['summary'].apply(lambda x : self.bos_token + str(x)) # Ground truth를 디코더의 input으로 사용하여 학습합니다.
            decoder_output = dataset['summary'].apply(lambda x : str(x) + self.eos_token)
            return encoder_input.tolist(), decoder_input.tolist(), decoder_output.tolist()

# Train에 사용되는 Dataset 클래스를 정의합니다.
class DatasetForTrain(Dataset):
    def __init__(self, encoder_input, decoder_input, labels, len):
        self.encoder_input = encoder_input
        self.decoder_input = decoder_input
        self.labels = labels
        self.len = len

    def __getitem__(self, idx):
        item = {key: val[idx].clone().detach() for key, val in self.encoder_input.items()} # item[input_ids], item[attention_mask]
        # item2 = {key: val[idx].clone().detach() for key, val in self.decoder_input.items()} # item2[input_ids], item2[attention_mask]
        # item2['decoder_input_ids'] = item2['input_ids']
        # item2['decoder_attention_mask'] = item2['attention_mask']
        # item2.pop('input_ids')
        # item2.pop('attention_mask')
        # item.update(item2) #item[input_ids], item[attention_mask] item[decoder_input_ids], item[decoder_attention_mask]
        item['labels'] = self.labels['input_ids'][idx] #item[input_ids], item[attention_mask] item[decoder_input_ids], item[decoder_attention_mask], item[labels]
        return item

    def __len__(self):
        return self.len

# Validation에 사용되는 Dataset 클래스를 정의합니다.
class DatasetForVal(Dataset):
    def __init__(self, encoder_input, decoder_input, labels, len):
        self.encoder_input = encoder_input
        self.decoder_input = decoder_input
        self.labels = labels
        self.len = len

    def __getitem__(self, idx):
        item = {key: val[idx].clone().detach() for key, val in self.encoder_input.items()} # item[input_ids], item[attention_mask]
        # item2 = {key: val[idx].clone().detach() for key, val in self.decoder_input.items()} # item2[input_ids], item2[attention_mask]
        # item2['decoder_input_ids'] = item2['input_ids']
        # item2['decoder_attention_mask'] = item2['attention_mask']
        # item2.pop('input_ids')
        # item2.pop('attention_mask')
        # item.update(item2) #item[input_ids], item[attention_mask] item[decoder_input_ids], item[decoder_attention_mask]
        item['labels'] = self.labels['input_ids'][idx] #item[input_ids], item[attention_mask] item[decoder_input_ids], item[decoder_attention_mask], item[labels]
        return item

    def __len__(self):
        return self.len

# Test에 사용되는 Dataset 클래스를 정의합니다.
class DatasetForInference(Dataset):
    def __init__(self, encoder_input, test_id, len):
        self.encoder_input = encoder_input
        self.test_id = test_id
        self.len = len

    def __getitem__(self, idx):
        item = {key: val[idx].clone().detach() for key, val in self.encoder_input.items()}
        item['ID'] = self.test_id[idx]
        return item

    def __len__(self):
        return self.len

# tokenization 과정까지 진행된 최종적으로 모델에 입력될 데이터를 출력합니다.
def prepare_train_dataset(config, preprocessor, data_path, tokenizer):
    train_file_path = os.path.join(data_path,'train.csv')
    val_file_path = os.path.join(data_path,'dev.csv')

    # train, validation에 대해 각각 데이터프레임을 구축합니다.
    train_data = preprocessor.make_set_as_df(train_file_path)
    val_data = preprocessor.make_set_as_df(val_file_path)

    print('-'*150)
    print(f'train_data:\n {train_data["dialogue"][0]}')
    print(f'train_label:\n {train_data["summary"][0]}')

    print('-'*150)
    print(f'val_data:\n {val_data["dialogue"][0]}')
    print(f'val_label:\n {val_data["summary"][0]}')

    encoder_input_train , decoder_input_train, decoder_output_train = preprocessor.make_input(train_data)
    encoder_input_val , decoder_input_val, decoder_output_val = preprocessor.make_input(val_data)
    print('-'*10, 'Load data complete', '-'*10,)

    tokenized_encoder_inputs = tokenizer(encoder_input_train, return_tensors="pt", padding=True,
                            add_special_tokens=True, truncation=True, max_length=config['tokenizer']['encoder_max_len'], return_token_type_ids=False)
    tokenized_decoder_inputs = tokenizer(decoder_input_train, return_tensors="pt", padding=True,
                        add_special_tokens=True, truncation=True, max_length=config['tokenizer']['decoder_max_len'], return_token_type_ids=False)
    tokenized_decoder_ouputs = tokenizer(decoder_output_train, return_tensors="pt", padding=True,
                        add_special_tokens=True, truncation=True, max_length=config['tokenizer']['decoder_max_len'], return_token_type_ids=False)

    train_inputs_dataset = DatasetForTrain(tokenized_encoder_inputs, tokenized_decoder_inputs, tokenized_decoder_ouputs,len(encoder_input_train))

    val_tokenized_encoder_inputs = tokenizer(encoder_input_val, return_tensors="pt", padding=True,
                        add_special_tokens=True, truncation=True, max_length=config['tokenizer']['encoder_max_len'], return_token_type_ids=False)
    val_tokenized_decoder_inputs = tokenizer(decoder_input_val, return_tensors="pt", padding=True,
                        add_special_tokens=True, truncation=True, max_length=config['tokenizer']['decoder_max_len'], return_token_type_ids=False)
    val_tokenized_decoder_ouputs = tokenizer(decoder_output_val, return_tensors="pt", padding=True,
                        add_special_tokens=True, truncation=True, max_length=config['tokenizer']['decoder_max_len'], return_token_type_ids=False)

    val_inputs_dataset = DatasetForVal(val_tokenized_encoder_inputs, val_tokenized_decoder_inputs, val_tokenized_decoder_ouputs,len(encoder_input_val))

    print('-'*10, 'Make dataset complete', '-'*10,)
    return train_inputs_dataset, val_inputs_dataset
## 2. Trainer 및 Trainingargs 구축하기
- Huggingface 의 Trainer 와 Training arguments를 활용하여 모델 학습을 일괄적으로 처리해주는 클래스를 정의합니다.
# 모델 성능에 대한 평가 지표를 정의합니다. 본 대회에서는 ROUGE 점수를 통해 모델의 성능을 평가합니다.
def compute_metrics(config,tokenizer,pred):
    rouge = Rouge()
    predictions = pred.predictions
    labels = pred.label_ids

    predictions[predictions == -100] = tokenizer.pad_token_id
    labels[labels == -100] = tokenizer.pad_token_id

    decoded_preds = tokenizer.batch_decode(predictions, clean_up_tokenization_spaces=True)
    labels = tokenizer.batch_decode(labels, clean_up_tokenization_spaces=True)

    # 정확한 평가를 위해 미리 정의된 불필요한 생성토큰들을 제거합니다.
    replaced_predictions = decoded_preds.copy()
    replaced_labels = labels.copy()
    remove_tokens = config['inference']['remove_tokens']
    for token in remove_tokens:
        replaced_predictions = [sentence.replace(token," ") for sentence in replaced_predictions]
        replaced_labels = [sentence.replace(token," ") for sentence in replaced_labels]

    print('-'*150)
    print(f"PRED: {replaced_predictions[0]}")
    print(f"GOLD: {replaced_labels[0]}")
    print('-'*150)
    print(f"PRED: {replaced_predictions[1]}")
    print(f"GOLD: {replaced_labels[1]}")
    print('-'*150)
    print(f"PRED: {replaced_predictions[2]}")
    print(f"GOLD: {replaced_labels[2]}")

    # 최종적인 ROUGE 점수를 계산합니다.
    results = rouge.get_scores(replaced_predictions, replaced_labels,avg=True)

    # ROUGE 점수 중 F-1 score를 통해 평가합니다.
    result = {key: value["f"] for key, value in results.items()}
    return result
# 학습을 위한 trainer 클래스와 매개변수를 정의합니다.
def load_trainer_for_train(config,generate_model,tokenizer,train_inputs_dataset,val_inputs_dataset):
    print('-'*10, 'Make training arguments', '-'*10,)
    # set training args
    training_args = Seq2SeqTrainingArguments(
                output_dir=config['general']['output_dir'], # model output directory
                overwrite_output_dir=config['training']['overwrite_output_dir'],
                num_train_epochs=config['training']['num_train_epochs'],  # total number of training epochs
                learning_rate=config['training']['learning_rate'], # learning_rate
                per_device_train_batch_size=config['training']['per_device_train_batch_size'], # batch size per device during training
                per_device_eval_batch_size=config['training']['per_device_eval_batch_size'],# batch size for evaluation
                warmup_ratio=config['training']['warmup_ratio'],  # number of warmup steps for learning rate scheduler
                weight_decay=config['training']['weight_decay'],  # strength of weight decay
                lr_scheduler_type=config['training']['lr_scheduler_type'],
                optim =config['training']['optim'],
                gradient_accumulation_steps=config['training']['gradient_accumulation_steps'],
                evaluation_strategy=config['training']['evaluation_strategy'], # evaluation strategy to adopt during training
                save_strategy =config['training']['save_strategy'],
                save_total_limit=config['training']['save_total_limit'], # number of total save model.
                fp16=config['training']['fp16'],
                load_best_model_at_end=config['training']['load_best_model_at_end'], # 최종적으로 가장 높은 점수 저장
                seed=config['training']['seed'],
                logging_dir=config['training']['logging_dir'], # directory for storing logs
                logging_strategy=config['training']['logging_strategy'],
                predict_with_generate=config['training']['predict_with_generate'], #To use BLEU or ROUGE score
                generation_max_length=config['training']['generation_max_length'],
                do_train=config['training']['do_train'],
                do_eval=config['training']['do_eval'],
                report_to=config['training']['report_to'] # (선택) wandb를 사용할 때 설정합니다.
            )

    # (선택) 모델의 학습 과정을 추적하는 wandb를 사용하기 위해 초기화 해줍니다.
    wandb.init(
        entity=config['wandb']['entity'],
        project=config['wandb']['project'],
        name=config['wandb']['name'],
    )

    # (선택) 모델 checkpoint를 wandb에 저장하도록 환경 변수를 설정합니다.
    os.environ["WANDB_LOG_MODEL"]="true"
    os.environ["WANDB_WATCH"]="false"

    # Validation loss가 더 이상 개선되지 않을 때 학습을 중단시키는 EarlyStopping 기능을 사용합니다.
    MyCallback = EarlyStoppingCallback(
        early_stopping_patience=config['training']['early_stopping_patience'],
        early_stopping_threshold=config['training']['early_stopping_threshold']
    )
    print('-'*10, 'Make training arguments complete', '-'*10,)
    print('-'*10, 'Make trainer', '-'*10,)

    # Trainer 클래스를 정의합니다.
    trainer = Seq2SeqTrainer(
        model=generate_model, # 사용자가 사전 학습하기 위해 사용할 모델을 입력합니다.
        args=training_args,
        train_dataset=train_inputs_dataset,
        eval_dataset=val_inputs_dataset,
        compute_metrics = lambda pred: compute_metrics(config,tokenizer, pred),
        callbacks = [MyCallback]
    )
    print('-'*10, 'Make trainer complete', '-'*10,)

    return trainer
# 학습을 위한 tokenizer와 사전 학습된 모델을 불러옵니다.
def load_tokenizer_and_model_for_train(config,device):
    print('-'*10, 'Load tokenizer & model', '-'*10,)
    print('-'*10, f'Model Name : {config["general"]["model_name"]}', '-'*10,)
    model_name = config['general']['model_name']
    T5_config = T5Config.from_pretrained(model_name)
    tokenizer = T5TokenizerFast.from_pretrained(model_name)
    generate_model = T5ForConditionalGeneration.from_pretrained(config['general']['model_name'],config=T5_config)

    special_tokens_dict={'additional_special_tokens':config['tokenizer']['special_tokens']}
    tokenizer.add_special_tokens(special_tokens_dict)

    generate_model.resize_token_embeddings(len(tokenizer)) # 사전에 special token을 추가했으므로 재구성 해줍니다.
    generate_model.to(device)
    print(generate_model.config)

    print('-'*10, 'Load tokenizer & model complete', '-'*10,)
    return generate_model , tokenizer
## 3. 모델 학습하기
- 앞에서 구축한 클래스 및 함수를 활용하여 학습 진행합니다.
def main(config):
    # 사용할 device를 정의합니다.
    device = torch.device('cuda:0' if torch.cuda.is_available()  else 'cpu')
    print('-'*10, f'device : {device}', '-'*10,)
    print(torch.__version__)

    # 사용할 모델과 tokenizer를 불러옵니다.
    generate_model , tokenizer = load_tokenizer_and_model_for_train(config,device)
    print('-'*10,"tokenizer special tokens : ",tokenizer.special_tokens_map,'-'*10)

    # 학습에 사용할 데이터셋을 불러옵니다.
    preprocessor = Preprocess(config['tokenizer']['bos_token'], config['tokenizer']['eos_token']) # decoder_start_token: str, eos_token: str
    data_path = config['general']['data_path']
    train_inputs_dataset, val_inputs_dataset = prepare_train_dataset(config,preprocessor, data_path, tokenizer)

    # Trainer 클래스를 불러옵니다.
    trainer = load_trainer_for_train(config, generate_model,tokenizer,train_inputs_dataset,val_inputs_dataset)
    trainer.train()   # 모델 학습을 시작합니다.

    # (선택) 모델 학습이 완료된 후 wandb를 종료합니다.
    wandb.finish()
!pip show accelerate


if __name__ == "__main__":
    main(loaded_config)
## 4. 모델 추론하기
# 이곳에 내가 사용할 wandb config 설정
loaded_config['inference']['ckt_path'] = "./checkpoint-31150" #"추론에 사용할 ckt 경로 설정"
- test data를 사용하여 모델의 성능을 확인합니다.
# tokenization 과정까지 진행된 최종적으로 모델에 입력될 데이터를 출력합니다.
def prepare_test_dataset(config,preprocessor, tokenizer):

    test_file_path = os.path.join(config['general']['data_path'],'test.csv')

    test_data = preprocessor.make_set_as_df(test_file_path,is_train=False)
    test_id = test_data['fname']

    print('-'*150)
    print(f'test_data:\n{test_data["dialogue"][0]}')
    print('-'*150)

    encoder_input_test , decoder_input_test = preprocessor.make_input(test_data,is_test=True)
    print('-'*10, 'Load data complete', '-'*10,)

    test_tokenized_encoder_inputs = tokenizer(encoder_input_test, return_tensors="pt", padding=True,
                    add_special_tokens=True, truncation=True, max_length=config['tokenizer']['encoder_max_len'], return_token_type_ids=False,)
    test_tokenized_decoder_inputs = tokenizer(decoder_input_test, return_tensors="pt", padding=True,
                    add_special_tokens=True, truncation=True, max_length=config['tokenizer']['decoder_max_len'], return_token_type_ids=False,)

    test_encoder_inputs_dataset = DatasetForInference(test_tokenized_encoder_inputs, test_id, len(encoder_input_test))
    print('-'*10, 'Make dataset complete', '-'*10,)

    return test_data, test_encoder_inputs_dataset
# 추론을 위한 tokenizer와 학습시킨 모델을 불러옵니다.
def load_tokenizer_and_model_for_test(config,device):
    print('-'*10, 'Load tokenizer & model', '-'*10,)

    model_name = config['general']['model_name']
    ckt_path = config['inference']['ckt_path']
    print('-'*10, f'Model Name : {model_name}', '-'*10,)
    tokenizer = T5TokenizerFast.from_pretrained(model_name)
    special_tokens_dict = {'additional_special_tokens': config['tokenizer']['special_tokens']}
    tokenizer.add_special_tokens(special_tokens_dict)

    generate_model = T5ForConditionalGeneration.from_pretrained(ckt_path)
    generate_model.resize_token_embeddings(len(tokenizer))
    generate_model.to(device)
    print('-'*10, 'Load tokenizer & model complete', '-'*10,)

    return generate_model , tokenizer
# 학습된 모델이 생성한 요약문의 출력 결과를 보여줍니다.
def inference(config):
    device = torch.device('cuda:0' if torch.cuda.is_available()  else 'cpu')
    print('-'*10, f'device : {device}', '-'*10,)
    print(torch.__version__)

    generate_model , tokenizer = load_tokenizer_and_model_for_test(config,device)

    data_path = config['general']['data_path']
    preprocessor = Preprocess(config['tokenizer']['bos_token'], config['tokenizer']['eos_token'])

    test_data, test_encoder_inputs_dataset = prepare_test_dataset(config,preprocessor, tokenizer)
    dataloader = DataLoader(test_encoder_inputs_dataset, batch_size=config['inference']['batch_size'])

    summary = []
    text_ids = []
    with torch.no_grad():
        for item in tqdm(dataloader):
            text_ids.extend(item['ID'])
            generated_ids = generate_model.generate(input_ids=item['input_ids'].to('cuda:0'),
                            no_repeat_ngram_size=config['inference']['no_repeat_ngram_size'],
                            early_stopping=config['inference']['early_stopping'],
                            max_length=config['inference']['generate_max_length'],
                            num_beams=config['inference']['num_beams'],
                        )
            for ids in generated_ids:
                result = tokenizer.decode(ids)
                summary.append(result)

    # 정확한 평가를 위하여 노이즈에 해당되는 스페셜 토큰을 제거합니다.
    remove_tokens = config['inference']['remove_tokens']
    preprocessed_summary = summary.copy()
    for token in remove_tokens:
        preprocessed_summary = [sentence.replace(token," ") for sentence in preprocessed_summary]

    output = pd.DataFrame(
        {
            "fname": test_data['fname'],
            "summary" : preprocessed_summary,
        }
    )
    result_path = config['inference']['result_path']
    if not os.path.exists(result_path):
        os.makedirs(result_path)
    output.to_csv(os.path.join(result_path, "output.csv"), index=False)

    return output
# 학습된 모델의 test를 진행합니다.
if __name__ == "__main__":
    output = inference(loaded_config)
output  # 각 대화문에 대한 요약문이 출력됨을 확인할 수 있습니다.
import pandas as pd

# 예측 파일 불러오기
pred1 = pd.read_csv("output (5).csv")
pred2 = pd.read_csv("output (6).csv")
pred3 = pd.read_csv("output (7).csv")
pred4 = pd.read_csv("output (8).csv")
pred5 = pd.read_csv("output (9).csv")

# 예측 결과를 리스트로 저장
predictions = [pred1['summary'], pred2['summary'], pred3['summary'], pred4['summary'], pred5['summary']]

# 데이터프레임으로 변환하여 각 row마다 하드보팅을 적용
pred_df = pd.DataFrame(predictions).T  # 행(row)은 각 샘플, 열(column)은 각 모델의 예측값

# 하드 보팅을 적용
def hard_voting(row):
    return row.value_counts().idxmax()

final_predictions = pred_df.apply(hard_voting, axis=1)

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'summary': final_predictions})

# output.csv 파일로 저장
output.to_csv("output.csv", index=False)

print("output.csv 파일이 생성되었습니다.")

# CSV 파일 불러오기
pred1 = pd.read_csv("output (9).csv")
pred2 = pd.read_csv("output (8).csv")
pred3 = pd.read_csv("output (7).csv")
pred4 = pd.read_csv("output (6).csv")
pred5 = pd.read_csv("output (5).csv")




# 각 예측 결과를 리스트로 저장
predictions = [pred1['target'], pred2['target'], pred3['target'], pred4['target'], pred5['target']]

# 투표를 통해 최종 예측 결정
final_predictions = []

# 각 샘플에 대해 투표
for preds in zip(*predictions):
    vote_result = Counter(preds).most_common(1)[0][0]
    final_predictions.append(vote_result)

# 최종 예측 결과를 데이터프레임으로 저장
submission = pd.DataFrame({'ID': pred1['ID'], 'target': final_predictions})

# 결과를 CSV 파일로 저장
submission.to_csv("ensemble_voting_submission.csv", index=False)

import pandas as pd

# 예측 파일 불러오기
pred1 = pd.read_csv("output (16).csv")
pred2 = pd.read_csv("output (17).csv")
pred3 = pd.read_csv("output ().csv")
pred4 = pd.read_csv("output (8).csv")
pred5 = pd.read_csv("output (9).csv")

# 예측 결과를 리스트로 저장
predictions = [pred1['summary'], pred2['summary'], pred3['summary'], pred4['summary'], pred5['summary']]

# 데이터프레임으로 변환하여 각 row마다 하드보팅을 적용
pred_df = pd.DataFrame(predictions).T  # 행(row)은 각 샘플, 열(column)은 각 모델의 예측값

# 하드 보팅을 적용
def hard_voting(row):
    return row.value_counts().idxmax()

final_predictions = pred_df.apply(hard_voting, axis=1)

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'summary': final_predictions})

# output.csv 파일로 저장
output.to_csv("output.csv", index=False)

print("output.csv 파일이 생성되었습니다.")

import pandas as pd

# 예측 파일 불러오기
pred1 = pd.read_csv("output (16).csv")
pred2 = pd.read_csv("output (17).csv")
pred3 = pd.read_csv("output (18).csv")
pred4 = pd.read_csv("output (19).csv")
pred5 = pd.read_csv("output (20).csv")

# 각 파일의 행 수 확인 (499개의 행이 확인됨)
print(len(pred1), len(pred2), len(pred3), len(pred4), len(pred5))

# 예측 결과를 리스트로 저장
predictions = [pred1['summary'], pred2['summary'], pred3['summary'], pred4['summary'], pred5['summary']]

# 데이터프레임으로 변환 (transpose)
pred_df = pd.DataFrame(predictions).T  # 행(row)은 각 샘플, 열(column)은 각 모델의 예측값

# 소프트보팅 흉내내기: 각 예측 단어의 가중치를 합산
def soft_voting(row):
    word_counts = row.value_counts()  # 각 단어의 빈도를 계산
    return word_counts.idxmax()  # 가장 빈도가 높은 단어를 선택

# 최종 예측값
final_predictions = pred_df.apply(soft_voting, axis=1)

# 'fname' 열 생성 (test_0부터 test_498까지)
fname = [f"test_{i}" for i in range(len(final_predictions))]  # 데이터 길이에 맞게 생성

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'fname': fname, 'summary': final_predictions})

# 행 수가 499개인지 확인
print("Output row count:", len(output))

# output.csv 파일을 UTF-8 인코딩으로 저장
output.to_csv("output.csv", index=False, encoding='utf-8')

print("output.csv 파일이 UTF-8 형식으로 생성되었습니다.")

import pandas as pd

# output.csv 파일 불러오기
df = pd.read_csv("output.csv")

# 첫 번째 열의 값 추출
test_ids = df.iloc[:, 0]

# 모든 숫자를 포함하는 세트 생성
expected_ids = set(f"test_{i}" for i in range(500))

# 실제로 존재하는 세트 생성
actual_ids = set(test_ids)

# 빠진 숫자 찾기
missing_ids = expected_ids - actual_ids

# 빠진 숫자들을 정렬하여 배열
missing_ids_sorted = sorted(missing_ids, key=lambda x: int(x.split('_')[1]))

# 출력
print("빠진 숫자들:")
for missing_id in missing_ids_sorted:
    print(missing_id)

# 빠진 숫자들을 리스트로 반환
missing_ids_sorted

import pandas as pd

# 파일 이름 리스트
file_names = [f"output ({i}).csv" for i in range(16, 26)]

# 예측 결과를 저장할 리스트
predictions = []

# 각 파일을 불러와서 예측 결과를 리스트에 저장
for file_name in file_names:
    df = pd.read_csv(file_name)
    predictions.append(df['summary'])

# 데이터프레임으로 변환하여 각 row마다 하드 보팅을 적용
pred_df = pd.DataFrame(predictions).T  # 행(row)은 각 샘플, 열(column)은 각 모델의 예측값

# 하드 보팅을 적용
def hard_voting(row):
    return row.value_counts().idxmax()

final_predictions = pred_df.apply(hard_voting, axis=1)

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'summary': final_predictions})

# 행 이름 지정
num_rows = len(output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

output.index = row_names

# CSV 파일로 저장 (UTF-8 인코딩)
output.to_csv("output.csv", index_label='fname', encoding='utf-8')

print("output.csv 파일이 생성되었습니다.")

import pandas as pd
import numpy as np

# 파일 이름 리스트
file_names = [f"output ({i}).csv" for i in range(16, 26)]

# 예측 결과를 저장할 리스트
predictions = []

# 각 파일을 불러와서 예측 결과를 리스트에 저장
for file_name in file_names:
    df = pd.read_csv(file_name)
    predictions.append(df['summary'])

# 데이터프레임으로 변환
pred_df = pd.DataFrame(predictions).T

# 소프트 보팅 함수 정의
def soft_voting(row):
    # 각 예측의 빈도를 계산
    value_counts = row.value_counts()

    # 전체 예측 수
    total_predictions = len(row)

    # 각 예측의 빈도를 확률로 변환
    probabilities = value_counts / total_predictions

    # 가장 높은 확률을 가진 예측 선택
    return probabilities.index[0]

# 소프트 보팅 적용
final_predictions = pred_df.apply(soft_voting, axis=1)

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'summary': final_predictions})

# 행 이름 지정
num_rows = len(output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

output.index = row_names

# CSV 파일로 저장 (UTF-8 인코딩)
output.to_csv("output_soft_voting.csv", index_label='fname', encoding='utf-8')

print("output_soft_voting.csv 파일이 생성되었습니다.")
!pip install openai


import pandas as pd
import openai

# OpenAI API 키 설정
openai.api_key = 'sk-uDS_ZTGi5aPxxxxxxxxxxxxxxxxxxxxxx'

# CSV 파일 불러오기
output_df = pd.read_csv("/root/home/output_soft_voting.csv")

# 번역 함수 정의
def translate_text(text, target_language='en'):
    response = openai.Completion.create(
        engine="text-davinci-003",  # 사용할 모델 이름
        prompt=f"Please translate the following text to {target_language}:\n\n{text}",
        max_tokens=500,
        temperature=0.3
    )
    return response.choices[0].text.strip()

# 번역할 요약문 목록
summaries = output_df['summary'].tolist()

# 번역 결과를 저장할 리스트
translated_summaries = []

# 각 요약문을 번역
for summary in summaries:
    translated_summary = translate_text(summary)
    translated_summaries.append(translated_summary)

# 번역된 요약문으로 새로운 DataFrame 생성
translated_output = pd.DataFrame({'summary': translated_summaries})

# 행 이름 설정
num_rows = len(translated_output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

translated_output.index = row_names

# 번역된 결과를 CSV 파일로 저장 (UTF-8 인코딩)
translated_output.to_csv("translated_output.csv", index_label='fname', encoding='utf-8')

print("translated_output.csv 파일이 생성되었습니다.")

!pip uninstall openai
!pip install openai==0.28

import pandas as pd
import openai

# OpenAI API 키 설정

# CSV 파일 불러오기
import pandas as pd
import openai

# OpenAI API 키 설정
openai.api_key = 'sk-uDS_ZTGi5aP0f-xxxxxxxxxxxxxx'

# CSV 파일 불러오기
output_df = pd.read_csv("/root/home/output_soft_voting.csv")
import pandas as pd
import openai

# OpenAI API 키 설정
openai.api_key = 'sk-uDS_ZTGi5aP0f-xxxxxx'

# CSV 파일 불러오기
output_df = pd.read_csv("/root/home/output_soft_voting.csv")

# 문장 개선 함수 정의
def improve_text(text):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",  # 사용할 모델 이름
        messages=[
            {"role": "system", "content": "You are a helpful assistant who improves the fluency of Korean text."},
            {"role": "user", "content": f"Please improve the fluency and naturalness of the following Korean text:\n\n{text}"}
        ],
        max_tokens=500,
        temperature=0.5
    )
    return response.choices[0].message['content'].strip()

# 개선할 요약문 목록
summaries = output_df['summary'].tolist()

# 개선된 문장 결과를 저장할 리스트
improved_summaries = []

# 각 문장을 개선
for summary in summaries:
    improved_summary = improve_text(summary)
    improved_summaries.append(improved_summary)

# 개선된 문장으로 새로운 DataFrame 생성
improved_output = pd.DataFrame({'summary': improved_summaries})

# 행 이름 설정
num_rows = len(improved_output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

improved_output.index = row_names

# 개선된 결과를 CSV 파일로 저장 (UTF-8 인코딩)
improved_output.to_csv("improved_output.csv", index_label='fname', encoding='utf-8')

print("improved_output.csv 파일이 생성되었습니다.")

import pandas as pd
import numpy as np
from scipy import stats

def translate_with_claude(text):
    prompt = f"Translate the following Korean text to English: {text}"
    try:
        message = client.messages.create(
            model="claude-3-opus-20240229",
            max_tokens=300,
            temperature=0.7,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        return message.content[0].text.strip()
    except Exception as e:
        print(f"Error in translation: {e}")
        return text  # Return original text if translation fails

# Anthropic API 키 설정 (이 부분을 코드 시작 부분으로 옮깁니다)
os.environ["ANTHROPIC_API_KEY"] = "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"
client = anthropic.Anthropic()

# 결과를 DataFrame으로 저장하고 번역 적용
output = pd.DataFrame({'summary': final_predictions})
output['translated_summary'] = [translate_with_claude(text) for text in tqdm(output['summary'], desc="Translating")]


# 파일 이름 리스트
file_names = [f"output ({i}).csv" for i in range(16, 26)]

# 예측 결과를 저장할 리스트
predictions = []

# 각 파일을 불러와서 예측 결과를 리스트에 저장
for file_name in file_names:
    df = pd.read_csv(file_name)
    predictions.append(df['summary'])

# 데이터프레임으로 변환
pred_df = pd.DataFrame(predictions).T

# 모델 가중치 설정 (예: 성능이 좋은 모델에 더 높은 가중치 부여)
model_weights = np.random.dirichlet(np.ones(len(file_names)), size=1)[0]

def improved_voting(row):
    # 각 예측의 빈도 계산
    value_counts = row.value_counts()

    # 가중치를 적용한 투표
    weighted_votes = {}
    for i, pred in enumerate(row):
        if pred in weighted_votes:
            weighted_votes[pred] += model_weights[i]
        else:
            weighted_votes[pred] = model_weights[i]

    # 최대 투표 수 확인
    max_votes = max(weighted_votes.values())

    # 최대 투표를 받은 예측들
    top_predictions = [k for k, v in weighted_votes.items() if v == max_votes]

    # 최빈값이 여러 개일 경우 랜덤 선택
    if len(top_predictions) > 1:
        return np.random.choice(top_predictions)
    else:
        return top_predictions[0]

# 개선된 투표 방식 적용
final_predictions = pred_df.apply(improved_voting, axis=1)

# 결과를 DataFrame으로 저장
output = pd.DataFrame({'summary': final_predictions})

# 행 이름 지정
num_rows = len(output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

output.index = row_names

# CSV 파일로 저장 (UTF-8 인코딩)
output.to_csv("output_improved_voting.csv", index_label='fname', encoding='utf-8')

print("output_improved_voting.csv 파일이 생성되었습니다.")
!pip install numpy
!pip install anthropic
!pip install --upgrade anthropic



import pandas as pd
import numpy as np
from scipy import stats
import anthropic
import os
from tqdm import tqdm

# Import tqdm if not already imported
from tqdm import tqdm

# ... (rest of your code)

# 결과를 DataFrame으로 저장하고 번역 적용
output = pd.DataFrame({'summary': final_predictions})
output['translated_summary'] = [translate_with_claude(text) for text in tqdm(output['summary'], desc="Translating")]


# Anthropic API 키 설정
os.environ["ANTHROPIC_API_KEY"] = "sk-ant-api03-xxxxxxxxxxxxxxxxxxxx8kOGc_O7SbAgnSAFpDhJaMw-F9goewAA"
client = anthropic.Client()

# 파일 이름 리스트
file_names = [f"output ({i}).csv" for i in range(16, 26)]

# 예측 결과를 저장할 리스트
predictions = []

# 각 파일을 불러와서 예측 결과를 리스트에 저장
for file_name in file_names:
    df = pd.read_csv(file_name)
    predictions.append(df['summary'])

# 데이터프레임으로 변환
pred_df = pd.DataFrame(predictions).T

# 모델 가중치 설정 (예: 성능이 좋은 모델에 더 높은 가중치 부여)
model_weights = np.random.dirichlet(np.ones(len(file_names)), size=1)[0]

def improved_voting(row):
    # 각 예측의 빈도 계산
    value_counts = row.value_counts()

    # 가중치를 적용한 투표
    weighted_votes = {}
    for i, pred in enumerate(row):
        if pred in weighted_votes:
            weighted_votes[pred] += model_weights[i]
        else:
            weighted_votes[pred] = model_weights[i]

    # 최대 투표 수 확인
    max_votes = max(weighted_votes.values())

    # 최대 투표를 받은 예측들
    top_predictions = [k for k, v in weighted_votes.items() if v == max_votes]

    # 최빈값이 여러 개일 경우 랜덤 선택
    if len(top_predictions) > 1:
        return np.random.choice(top_predictions)
    else:
        return top_predictions[0]

# 개선된 투표 방식 적용
final_predictions = pred_df.apply(improved_voting, axis=1)

# Claude API를 사용한 번역 함수
def translate_with_claude(text):
    prompt = f"Translate the following Korean text to English: {text}"
    response = client.completion(
        model="claude-2",
        prompt=prompt,
        max_tokens_to_sample=300,
        temperature=0.7,
    )
    return response.completion.strip()

# 결과를 DataFrame으로 저장하고 번역 적용
output = pd.DataFrame({'summary': final_predictions})
output['translated_summary'] = output['summary'].progress_apply(translate_with_claude)

# 행 이름 지정
num_rows = len(output)
row_names = [f'test_{i}' for i in range(num_rows)]

# 466번째 행은 비우고, 467번째 행부터 연속적으로 이름을 설정
for i in range(num_rows):
    if i < 466:
        row_names[i] = f'test_{i}'
    elif i == 466:
        row_names[i] = 'test_467'
    elif i > 466:
        row_names[i] = f'test_{i + 1}'

output.index = row_names

# CSV 파일로 저장 (UTF-8 인코딩)
output.to_csv("output_improved_voting_with_translation.csv", index_label='fname', encoding='utf-8')

print("output_improved_voting_with_translation.csv 파일이 생성되었습니다.")
