In [3]:
!nvidia-smi

Thu Oct 31 04:07:15 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   32C    P0              48W / 400W |      2MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [1]:
path = '/content/drive/MyDrive/DACON/Finance/reprocessed/'
# path = '/content/drive/MyDrive/kdt-EST-AI/project/dacon_fis/src/'
base_directory = path # Your Base Directory

In [2]:
# 이름 정의 - sweep에선 사용되지 않음

model_name="gemma2"
embedding_model="large"
aug_name="NoAug"#"AugGPT" #NoAug, AugAEDA
chunk_size=256
table_process="tab_v1.7"
finetune_mode="dora" #lora, dora

dataset_name = f"kdt3/DACON-QA-{embedding_model}-ensemble-{table_process}-{aug_name}-{chunk_size}"
# train_name = f"kdt3/DACON-QA-{model_name}-{embedding_model}-ensemble-{table_process}-{aug_name}-{chunk_size}-dora"
train_name = "kdt3/1030_1_epoch1"
# fname = f"{model_name}_{embedding_model}_ensemble_{chunk_size}_{aug_name}_5epoch_dora.csv"
fname = "1030_1_epoch1.csv"

#wandb 관련 변수
import os


os.environ["WANDB_ENTITY"]='DACON-FinAI'
os.environ["WANDB_PROJECT"]="DACON_FinAI"
os.environ["WANDB_LOG_MODEL"] = "end"
wandb_run_name=f"{aug_name}-{model_name}-{finetune_mode}-{embedding_model}-seq2seq"

# 설명

## Question - Answering with Retrieval

본 대회의 과제는 중앙정부 재정 정보에 대한 **검색 기능**을 개선하고 활용도를 높이는 질의응답 알고리즘을 개발하는 것입니다. <br>이를 통해 방대한 재정 데이터를 일반 국민과 전문가 모두가 쉽게 접근하고 활용할 수 있도록 하는 것이 목표입니다. <br><br>
베이스라인에서는 평가 데이터셋만을 활용하여 source pdf 마다 Vector DB를 구축한 뒤 langchain 라이브러리와 llama-2-ko-7b 모델을 사용하여 RAG 프로세스를 통해 추론하는 과정을 담고 있습니다. <br>( train_set을 활용한 훈련 과정은 포함하지 않으며, test_set  에 대한 추론만 진행합니다. )

## Mount/Login

구글 드라이브를 마운트하고 허깅페이스에 로그인
- 이때 허깅페이스 토큰은 kdt3 그룹에 대해 읽기/쓰기 권한이 있는 토큰이어야 함

## Download Library
필요/사용 라이브러리 다운로드
이때 버전 문제로 설치를 한 뒤 세션을 한번 재시작해줘야 합니다
<br>(그리고 세션 완전히 끊기면 다운로드 후 재시작을 다시 해줘야...)

## Import Library
한번 재시작했으면 위 과정 없이 Import만 실행해주면 됩니다

## Vector DB
문서를 여러 조각(chunk)로 나누고, 임베딩 유사도를 통해 관련 조각을 찾을 수 있게 DB화하는 함수들이 정의되어 있습니다.

## DB 생성
Vector DB에서 정의된 함수들로 문서 DB를 만들어줍니다.<br><br>
이때 Train과 Test를 한번에 하려고 하면 코랩이 터질 확률이 높으므로 Train하고 Create Dataset까지 실행해 업로드 한 뒤 재시작해서 램을 비우고 Test를 하는 것이 좋습니다.<br> 또한 문서 임베딩을 어떤 모델로 할지 인자로 넘겨줄 수 있습니다

## Create Dataset
DB 생성에서 만든 db와 데이터 dataframe을 사용해 HuggingFace 데이터셋 생성 후 업로드

## Fine-Tuning
학습 데이터셋으로 모델에 대한 파인튜닝 진행 후 Huggingface에 업로드<br>
4비트 양자화 LoRA로 파인튜닝<br>
기반 모델 또는 넣어줄때 사용할 프롬프트, 학습 관련 하이퍼파라미터 수정 가능

## Langchain 을 이용한 추론
모델을 사용한 추론


## 실행
### 기본
Mount/Login -> Download Library -> 재시작 (처음 1번)
Mount/Login -> Import Library (이후)

### 데이터셋 만들기
기본 -> Vector DB -> DB 생성 -> Create Dataset에서 첫 셀 + Train/Valid/Test 중 해당하는 셀

### 모델 학습하기
기본 -> Fine-Tuning(업로드할 위치, 데이터셋 위치, 모델 링크 확인 필수)

### 학습된 모델로 추론하기
기본 -> Langchain을 이용한 추론(모델 링크, 데이터셋 위치 확인) -> Submission(저장할 파일명 확인)

# Mount/Login

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
import os

token_path = os.path.join(base_directory,'data','token')
with open(token_path,'r') as f:
    hf_token = f.readline().strip('\n')
    wandb_token = f.readline().strip('\n')

In [5]:
from huggingface_hub import login

login(token=hf_token, add_to_git_credential=True)

Token is valid (permission: fineGrained).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [6]:
!pip install wandb
import wandb

# wandb 개인 API 키 입력
wandb.login(key=wandb_token)



[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33mps4southwest[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


True

# Download Library

In [None]:
#!pip install unstructured pdfminer.six
#!pip install pillow-heif
#!pip install unstructured_inference
#!pip install unstructured_pytesseract
#!pip install pikepdf pypdf
#!pip install PyMuPDF

In [None]:
!apt-get install tesseract-ocr
!apt-get install poppler-utils

!pip install orjson==3.10.6

!pip install accelerate -U
!pip install -i https://pypi.org/simple/ bitsandbytes
!pip install transformers[torch] -U

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install langchain-teddynote
!pip install sentence-transformers
!pip install faiss-gpu
!pip install peft
!pip install trl

# Import Library

In [7]:
import os
import gc
import time
import unicodedata

import torch
import pandas as pd
import numpy as np
from tqdm.auto import tqdm

from langchain.document_loaders.parsers.pdf import PDFPlumberParser


from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig
)
from accelerate import Accelerator

# peft
from peft import prepare_model_for_kbit_training
from peft import PeftModel
from peft import LoraConfig, get_peft_model


# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough, RunnableParallel
from langchain.schema.output_parser import StrOutputParser

# PDF 로딩/청크화 관련
from langchain.document_loaders.parsers.pdf import PDFPlumberParser
from langchain.document_loaders.pdf import PDFPlumberLoader
from langchain.document_loaders import UnstructuredPDFLoader
from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever


# Fine-Tuning Setup

## Monkey Patching

In [8]:
import torch
from transformers.models.gemma2 import modeling_gemma2
from typing import List, Optional, Tuple, Union
from transformers.cache_utils import Cache, HybridCache
def gemma2_forward(
    self,
    hidden_states: torch.Tensor,
    attention_mask: Optional[torch.Tensor] = None,
    position_ids: Optional[torch.LongTensor] = None,
    past_key_value: Optional[Cache] = None,
    output_attentions: Optional[bool] = False,
    use_cache: Optional[bool] = False,
    cache_position: Optional[torch.LongTensor] = None,
) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
    """
    Args:
        hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
        attention_mask (`torch.FloatTensor`, *optional*):
            attention mask of size `(batch_size, sequence_length)` if flash attention is used or `(batch_size, 1,
            query_sequence_length, key_sequence_length)` if default attention is used.
        output_attentions (`bool`, *optional*):
            Whether or not to return the attentions tensors of all attention layers. See `attentions` under
            returned tensors for more detail.
        use_cache (`bool`, *optional*):
            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding
            (see `past_key_values`).
        past_key_value (`Tuple(torch.FloatTensor)`, *optional*): cached past key and value projection states
        cache_position (`torch.LongTensor` of shape `(sequence_length)`, *optional*):
            Indices depicting the position of the input sequence tokens in the sequence
        kwargs (`dict`, *optional*):
            Arbitrary kwargs to be ignored, used for FSDP and other methods that injects code
            into the model
    """
    if self.is_sliding and attention_mask is not None:  # efficient SDPA and no padding
        # Flash-attn is a 2D tensor
        if self.config._attn_implementation == "flash_attention_2":
            if past_key_value is not None:  # when decoding
                attention_mask = attention_mask[:, -self.sliding_window :]
        else:
            min_dtype = torch.finfo(torch.float16).min
            sliding_window_mask = torch.tril(
                torch.ones_like(attention_mask, dtype=torch.bool), diagonal=-self.sliding_window
            )
            attention_mask = torch.where(sliding_window_mask, min_dtype, attention_mask)
            if attention_mask.shape[-1] <= 1:  # when decoding
                attention_mask = attention_mask[:, :, :, -self.sliding_window :]

    residual = hidden_states

    hidden_states = self.input_layernorm(hidden_states)

    # Self Attention
    hidden_states, self_attn_weights, present_key_value = self.self_attn(
        hidden_states=hidden_states,
        attention_mask=attention_mask,
        position_ids=position_ids,
        past_key_value=past_key_value,
        output_attentions=output_attentions,
        use_cache=use_cache,
        cache_position=cache_position,
    )
    hidden_states = self.post_attention_layernorm(hidden_states)
    hidden_states = residual + hidden_states

    residual = hidden_states
    hidden_states = self.pre_feedforward_layernorm(hidden_states)
    hidden_states = self.mlp(hidden_states)
    hidden_states = self.post_feedforward_layernorm(hidden_states)
    hidden_states = residual + hidden_states

    outputs = (hidden_states,)

    if output_attentions:
        outputs += (self_attn_weights,)

    if use_cache:
        outputs += (present_key_value,)

    return outputs


In [9]:
modeling_gemma2.Gemma2DecoderLayer.forward = gemma2_forward

## Set-up

In [10]:
# 모델 ID
model_cands={
 'llama2' : "beomi/llama-2-ko-7b",
 'yi' : "beomi/Yi-Ko-6B",
 'solar-beom' : "beomi/Solar-Ko-Recovery-11B",
 'gemma2' : "rtzr/ko-gemma-2-9b-it",
 'solar-lee' : "chihoonlee10/T3Q-ko-solar-dpo-v8.0",
 'llama3' : "KISTI-KONI/KONI-Llama3-8B-Instruct-20240729",
 'llama31' : "meta-llama/Llama-3.1-8B-Instruct"
}

# model_id = model_cands['gemma2']
model_id = model_cands[model_name]

In [11]:
# 모델 로드 및 양자화 설정 적용

def load_model_w_setting(model_id,add_output_token=False,**kwargs):
  # 4비트 양자화 설정
  bnb_config = BitsAndBytesConfig(
      load_in_4bit=True,
      bnb_4bit_use_double_quant=True,
      bnb_4bit_quant_type="nf4",
      bnb_4bit_compute_dtype=torch.bfloat16
  )

  # 토크나이저 로드 및 설정
  tokenizer = AutoTokenizer.from_pretrained(model_id)
  tokenizer.use_default_system_prompt = False
  tokenizer.padding_side="right"

#   eot = "<|eot_id|>"
#   eot_id = tokenizer.convert_tokens_to_ids(eot)
#   tokenizer.pad_token = eot
#   tokenizer.pad_token_id = eot_id

  model= AutoModelForCausalLM.from_pretrained(
      model_id,
      quantization_config=bnb_config,
      device_map="auto",
      trust_remote_code=True,
      **kwargs
      )

# 일부 모델의 경우 토크나이저에 답변 토큰 추가 작업 필요
  if add_output_token :
    initial_token_count = len(tokenizer)
    response_template = '답변: '
    added_token_count = tokenizer.add_special_tokens({"additional_special_tokens": [response_template]})
    model.resize_token_embeddings(new_num_tokens=initial_token_count+added_token_count)

  return model, tokenizer

In [12]:
# 학습 프롬프트 - 추론 프롬프트와 통일하는 것이 좋다고 함
template = """
"task_instructions" : [

 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.
 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.
 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.
 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.
 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.
 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, '답변: ', '참고: '를 절대로 출력하지 마세요.

]

"context":
{context},

"question":
{question},

"주어진 질문에 대한 답변만 한 문장으로 생성한다."

"answer":
{answer}<|eot_id|>
"""

template = """
<start_of_turn>user
 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.
 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.
 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.
 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.
 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.
 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, '답변: ', '참고: '를 절대로 출력하지 마세요.

"문서":
{context},

"질문":
{question},

"주어진 질문에 대한 답변만 한 문장으로 생성한다."

"답변":<end_of_turn>
<start_of_turn>model
{answer}<end_of_turn>
"""

response_template = '"answer":\n'
response_template = '<start_of_turn>model\n'

def formatting_prompts_func(example, template=template):
    output_texts = []
    for i in range(len(example['question'])):
        context = example['context'][i]
        question = example['question'][i]
        answer = example['answer'][i]
        output_texts.append(template.format(context=context,question=question,answer=answer))
    return output_texts



In [13]:
valid_dict = {'input': [], 'answer': [], 'pred': []}
valid_df = pd.DataFrame(valid_dict)

In [14]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, roc_auc_score
import collections
# from SQUAD, 메트릭 계산 함수

def compute_f1(y_true, y_pred):
    # y_pred[y_true==-100] = -100
    # y_pred = y_pred[y_true != -100]
    # y_true = y_true[y_true != -100]
    # y_true[y_true==-100] = global_tokenizer.pad_token_id
    # y_pred[y_pred==-100] = global_tokenizer.pad_token_id

    true_counter = collections.Counter(y_true)
    pred_counter = collections.Counter(y_pred)
    common = true_counter & pred_counter
    tp = sum(common.values())
    pred_positive = sum(pred_counter.values())
    actual_positive = sum(true_counter.values())

    precision = 1.0 * tp / pred_positive if pred_positive != 0 else 0
    recall = 1.0 * tp / actual_positive if actual_positive != 0 else 0
    f1 = (2 * precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    return f1, precision, recall

def compute_metrics(pred,compute_result=False):
    # print(pred.label_ids)
    labels = pred.label_ids.detach().cpu().numpy().squeeze()
    preds = pred.predictions.detach().cpu().numpy().squeeze()
    inputs = pred.inputs['input_ids'].detach().cpu().numpy().squeeze()
    inputs[inputs==-100] = global_tokenizer.pad_token_id
    # print('input: ',global_tokenizer.decode(inputs))
    att = pred.inputs['attention_mask'].detach().cpu().numpy().squeeze()
    mask = labels[:min(len(preds),len(labels))]==-100
    if len(preds) > len(labels):
        mask = np.append(mask,[False] * (len(preds) - len(labels)))

    preds[mask] = -100
    labels = labels[labels!=-100]
    preds = preds[preds!=-100]
    preds = preds[preds!=global_tokenizer.pad_token_id]
    valid_df.loc[len(valid_df)] = [global_tokenizer.decode(inputs), global_tokenizer.decode(labels), global_tokenizer.decode(preds)]
    f1, precision, recall = compute_f1(labels,preds)
#    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
    # acc = accuracy_score(labels, preds)
    return {
        # 'accuracy': acc,
        'f1': f1,
        'precision': precision,
        'recall': recall,
    }

In [15]:
def custom_data_collator(features):
    # Your custom collator logic, make sure it does not assign input_ids to labels.
    collate = dict()
    # print(features[0].keys())
    if 'labels' in features[0].keys():
        collate['labels'] = torch.tensor([feature['labels'] for feature in features])
    for k in features[0].keys():
        collate[k] = torch.tensor([feature[k] for feature in features])

    return collate

# Train & Inference with Sweep(Wandb Sweep으로 학습 및 추론)

In [None]:
#create sweep
sweep_config = {
    'method': 'bayes',
    'metric': {'goal': 'maximize', 'name': 'train/loss'},
    'parameters': {
        'batch_size': {
            'values': [1]
        },
        'model': {
            'values': ['gemma2','llama31']
        },
        'learning_rate': {
            'distribution': 'uniform',
            'min':0.0001,
            'max':0.001
        },
        'epochs': {
            'values': [8]
        },
        'lora_target': {
            'values': ['all','part']#['all','linear','part']
        },
        'r': {
            'values': [4,8,16]
        },
        'lora_alpha': {
            'values': [16,32,64]
        },
        'lora_dropout': {
            'values': [0,0.05,0.2]
        },
        'use_dora': {
            'values': [True, False]
        },
        'chunk_size': {
            'values': [256]#,512]
        },
        'embedding': {
            'values': ['base','large']
        },
        'augmentation': {
            'values': ['NoAug','AugGPT','AugAEDA']
        },
        'table_process': {
            'values': ['tab_v1.0']
        }
    }
}

In [None]:
sweep_id = wandb.sweep(sweep=sweep_config, entity='DACON-FinAI', project="DACON_FinAI Sweep-2")

In [None]:
def empty_memory():
    time.sleep(1)
    torch.cuda.empty_cache()
    gc.collect()
    time.sleep(1)
    torch.cuda.empty_cache()
    gc.collect()

In [None]:
import transformers, os
from datetime import datetime
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM
from datasets import load_dataset
from peft import LoraConfig, get_peft_model
from tqdm.auto import trange


MAX_LEN = 4096

def sweep_inference(model_id, instance_name, eval_dataset,fname):

    peft_model_id = instance_name
    trained_model,tokenizer = load_model_w_setting(model_id)

    #Fine-Tune 한 LoRA 어댑터 불러오기
    trained_model.load_adapter(peft_model_id)

    text_generation_pipeline = pipeline(
        model=trained_model,
        tokenizer=tokenizer,
        task="text-generation",
        return_full_text=False,
        max_new_tokens=200,
        # repetition_penalty=1.5,
        eos_token_id = tokenizer.eos_token_id,
        pad_token_id = tokenizer.pad_token_id,
        max_length=MAX_LEN
    )

    llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

    # 결과를 저장할 리스트 초기화
    results = []

    # Dataset 각 행에 대해 처리
    for idx in trange(len(eval_dataset['question']), desc="Answering Questions"):
        #질문, 컨텍스트(문서)
        question = eval_dataset['question'][idx]
        context = eval_dataset['context'][idx]

        # RAG 체인 구성
        prompt = PromptTemplate.from_template(template.split('{answer}')[0])

        # RAG 체인 정의
        if context != "":
            rag_chain = (
                RunnableParallel(context=lambda x: x["context"], question = lambda x: x["question"])
                | prompt
                | llm
                | StrOutputParser()
            )
        else:
            rag_chain = (
                {"question": RunnablePassthrough()}
                | prompt
                | llm
                | StrOutputParser()
            )

        # 답변 추론
        full_response = rag_chain.invoke({"question": question, "context": context})

        # 결과 저장

        if context != "":
            results.append({
                "Context": context,
                "Question": question,
                "Answer": full_response,
                "True_Answer": eval_dataset['answer'][idx]
            })
        else:
            results.append({
                "Question": question,
                "Answer": full_response,
                "True_Answer": eval_dataset['answer'][idx]
            })

    # 제출용 샘플 파일 로드
    submit_df = pd.read_csv(f"{path}sample_submission.csv")

    # 생성된 답변을 제출 DataFrame에 추가
    save_mode = 'submission'

    if save_mode != 'submission' :
        submit_df['Question'] = [item['Question'] for item in results]
        submit_df['Context'] = [item['Context'] for item in results]
        save_dir = os.path.join(path,'eval')
    else : save_dir = os.path.join(path,'sub')

    if not os.path.exists(save_dir) : os.makedirs(save_dir)
    save_path = os.path.join(save_dir,fname)

    submit_df['Answer'] = [item['Answer'] for item in results]
    submit_df['Answer'] = submit_df['Answer'].fillna("데이콘").apply(str.rstrip)     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

    # 결과를 CSV 파일로 저장
    submit_df.to_csv(save_path, encoding='UTF-8-sig', index=False)
    answer_table = wandb.Table(dataframe=submit_df)
    wandb.log({"answer_table": answer_table})

    wandb.save(save_path)

def sweep_train(config=None):
  with wandb.init(config=config):
    # set sweep configuration
    config = wandb.config

    # 모델 ID
    model_cands={
        'llama2' : "beomi/llama-2-ko-7b",
        'yi' : "beomi/Yi-Ko-6B",
        'solar-beom' : "beomi/Solar-Ko-Recovery-11B",
        'gemma2' : "rtzr/ko-gemma-2-9b-it",
        'solar-lee' : "chihoonlee10/T3Q-ko-solar-dpo-v8.0",
        'llama3' : "KISTI-KONI/KONI-Llama3-8B-Instruct-20240729",
    }

    model_id = model_cands[config.model]

    model,tokenizer = load_model_w_setting(model_id,attn_implementation='eager')

    global global_tokenizer
    global_tokenizer = tokenizer

    modules_dict = {
        "all": [
            "q_proj",
            "v_proj",
            "o_proj",
            "gate_proj",
            "up_proj",
            "down_proj",
            "lm_head"
            ],
        "linear": "all-linear",
        "part": ["q_proj", "v_proj"]
    }
    lora_modules = modules_dict[config.lora_target]

    lora_config = LoraConfig(
        r=config.r,
        lora_alpha=config.lora_alpha,
        target_modules=lora_modules,
        bias="none",
        lora_dropout=config.lora_dropout,
        use_dora=config.use_dora,
        task_type="CAUSAL_LM",
    )

    model.enable_input_require_grads()
    model = get_peft_model(model, lora_config)
    dataset_url = f"kdt3/DACON-QA-{config.embedding}-ensemble-{config.table_process}-{config.augmentation}-{config.chunk_size}"
    # dataset_url = f"kdt3/DACON-QA-{config.embedding}-ensemble-markdown-reprocessed-{config.chunk_size}"
    target_dataset = load_dataset(dataset_url)

    # train_args = transformers.TrainingArguments(
    #     do_eval=True,
    #     output_dir='./output',
    #     warmup_ratio=0.05,
    #     per_device_train_batch_size=config.batch_size,
    #     gradient_accumulation_steps=4,
    #     gradient_checkpointing=True,
    #     num_train_epochs = config.epochs,
    #     learning_rate=config.learning_rate,
    #     fp16=True,
    #     optim="paged_adamw_8bit",
    #     logging_strategy='epoch',
    #     report_to="wandb",
    #     run_name=wandb_run_name,
    # ),

    trainer = SFTTrainer(
        model=model,
        tokenizer=tokenizer,
        train_dataset= target_dataset['train'],
        eval_dataset = target_dataset['valid'],
        compute_metrics=compute_metrics,
        args= transformers.TrainingArguments(
            do_eval=True,
            output_dir='./output',
            warmup_ratio=0.05,
            eval_strategy="epoch",
            eval_accumulation_steps=1,
            batch_eval_metrics=True,
            per_device_train_batch_size=config.batch_size,
            per_device_eval_batch_size=config.batch_size,
            gradient_accumulation_steps=4,
            gradient_checkpointing=True,
            num_train_epochs = config.epochs,
            learning_rate=config.learning_rate,
            fp16=True,
            optim="paged_adamw_8bit",
            logging_strategy='epoch',
            load_best_model_at_end=True,
            metric_for_best_model='f1',
            greater_is_better=True,
            save_total_limit=2,    # save only best and the last
            save_strategy='epoch',
            report_to="wandb",
            run_name=wandb_run_name,
        ),
        max_seq_length=MAX_LEN,
        formatting_func=formatting_prompts_func, # 프롬프트 처리하기 위해 필요
        data_collator=DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, mlm=False), #모델에게 답변생성에만 집중하도록 함
    )

    model.config.use_cache = False
    trainer.train()
    trained_model = (trainer.model.module if hasattr(trainer.model, "module") else trainer.model)

    # 모델 업로드
    method = 'dora' if config.use_dora else 'lora'
    instance_name = f"kdt3/DACON-QA-{config.augmentation}-{config.model}-{method}-{config.embedding}-{config.chunk_size}-sweep"
    fname=f"{config.augmentation}-{config.model}-{method}-{config.embedding}-{config.chunk_size}.csv"
    trained_model.push_to_hub(instance_name, private=True,save_embedding_layers=True)


    empty_memory()
    sweep_inference(model_id, instance_name, target_dataset['test'],fname)
    empty_memory()

#로컬에 저장할 경우
# trained_model.save_pretrained(f"{output_dir}/saved_model")

In [None]:
wandb.agent(sweep_id, sweep_train, count=8)

# Train without Sweep(Sweep 사용하지 않고 학습)

In [16]:
# !pip install -q -U flash-attn --no-build-isolation
model,tokenizer = load_model_w_setting(model_id,attn_implementation='eager')

global global_tokenizer
global_tokenizer = tokenizer
# model,tokenizer = load_model_w_setting(model_id,attn_implementation='flash_attention_2')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

In [17]:
#데이터셋 로드
from datasets import load_dataset

# dataset_url = "kdt3/DACON-QA-base-table-preprocessed-v3"
# dataset_url = "kdt3/DACON-QA-base-preprocessed-v2"
# dataset_url = "kdt3/DACON-QA-base-augselect"
# dataset_url = "kdt3/DACON-QA-base-markdown"
# dataset_url = "kdt3/DACON-QA-bge-markdown"
dataset_url = dataset_name


train_dataset = load_dataset(dataset_url)

In [18]:
# 문맥 잘못됐나 확인 - 문맥 길이 체크

amax = np.argmax([len(x) for x in train_dataset['train']['context']])
amax, len(train_dataset['train']['context'][amax])

(280, 1944)

In [19]:
# def print_dataset_ele(data,i):
#   print(data['question'][i])
#   print('--------')
#   print(data['context'][i])
#   print('--------')
#   print(data['answer'][i])

# #예시
# i= amax
# print_dataset_ele(train_dataset['train'],i)

In [20]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,
    lora_alpha=64,
    target_modules=[
        "q_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    use_dora=(finetune_mode=="dora"),
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

model.enable_input_require_grads()
model = get_peft_model(model, config)



In [21]:
from datasets import Dataset
from torch.utils.data import DataLoader
from transformers import Seq2SeqTrainer, DataCollatorForSeq2Seq, DefaultDataCollator
import torch.nn as nn
from typing import Any, Callable, Dict, List, NewType, Optional, Tuple, Union
from transformers.integrations.deepspeed import is_deepspeed_zero3_enabled
from transformers.integrations.fsdp import is_fsdp_managed_module
from torch.distributed.fsdp import FullyShardedDataParallel
import contextlib


class FineTuningTrainer(Seq2SeqTrainer):
    def __init__(self, *args, eval_data_collator=None, **kwargs):
        super().__init__(*args, **kwargs)
        if not eval_data_collator:
                eval_data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer)
        self.eval_data_collator = eval_data_collator

    def get_eval_dataloader(self, eval_dataset: Dataset | None = None) -> DataLoader:
        if eval_dataset is None and self.eval_dataset is None:
            raise ValueError("Trainer: evaluation requires an eval_dataset.")

        # If we have persistent workers, don't do a fork bomb especially as eval datasets
        # don't change during training
        if (
            hasattr(self, "_eval_dataloader")
            and self.args.dataloader_persistent_workers
        ):
            return self.accelerator.prepare(self._eval_dataloader)
        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset
        data_collator = self.eval_data_collator #Here eval_data_collator is called instead of standard data_collator

        if isinstance(eval_dataset, Dataset):
            eval_dataset = self._remove_unused_columns(
                eval_dataset, description="evaluation"
            )
        else:
            data_collator = self._get_collator_with_removed_columns(
                data_collator, description="evaluation"
            )

        dataloader_params = {
            "batch_size": self.args.eval_batch_size,
            "collate_fn": data_collator,
            "num_workers": self.args.dataloader_num_workers,
            "pin_memory": self.args.dataloader_pin_memory,
            "persistent_workers": self.args.dataloader_persistent_workers,
        }

        # if not isinstance(sample_dataset, torch.utils.data.IterableDataset):
        #     dataloader_params["sampler"] = self._get_eval_sampler(eval_dataset)
        #     dataloader_params["drop_last"] = self.args.dataloader_drop_last
        #     dataloader_params["prefetch_factor"] = self.args.dataloader_prefetch_factor

        # accelerator.free_memory() will destroy the references, so
        # we need to store the non-prepared version

        eval_dataloader = DataLoader(eval_dataset, **dataloader_params)
        if self.args.dataloader_persistent_workers:
            self._eval_dataloader = eval_dataloader

        return self.accelerator.prepare(eval_dataloader)


In [22]:
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM
collator = DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, mlm=False) #모델에게 답변생성에만 집중하도록 함

def formatting_prompts_func(example, template=template):
    output_texts = []
    context = example['context']
    question = example['question']
    answer = example['answer']
    output_texts.append(template.format(context=context,question=question,answer=answer))
    return output_texts

def formatting_prompts_func_answer(example, template=template):
    output_texts = []
    context = example['context']
    question = example['question']
    output_texts.append(template.format(context=context,question=question,answer=answer))
    return output_texts


def apply_chat_template(example):
    input = formatting_prompts_func(example)
    example["input_ids"] = tokenizer(input)["input_ids"]
    # example["input_ids"] = tokenizer.convert_tokens_to_ids(example["input_ids"])

    # print(example["input_ids"])
    collated_data = collator(example["input_ids"])
    example["input_ids"] = collated_data["input_ids"][0]
    example["labels"] = collated_data["labels"][0].clone()
    # example["label_ids"] = collated_data["labels"][0].clone()
    # example["label"] = collated_data["labels"][0].clone()
    # print(example)
    return example


def mask_attention_response(example):
    response_len = len(tokenizer(example["answer"]+"<end_of_turn>\n")["input_ids"])
    example["attention_mask"] = torch.tensor([1] * (len(example["input_ids"]) - response_len) + [0] * response_len)
    example["input_ids"][-response_len+1:] = [0] * (response_len-1)
    # example["input_ids"] = example["input_ids"][:-response_len+1]
    # print(example.keys())
    return example


train_dataset['train'] = train_dataset['train'].map(apply_chat_template)
train_dataset['valid'] = train_dataset['valid'].map(apply_chat_template)

train_dataset['valid'] = train_dataset['valid'].map(mask_attention_response, desc="Masking assistant response")

In [23]:
from transformers.integrations.integration_utils import WandbCallback
from transformers import Trainer
import tempfile
from transformers.integrations.integration_utils import save_model_architecture_to_file

class CustomWandbCallback(WandbCallback):
    def __init__(self, trainer):
        super().__init__()
        self._trainer = trainer

    def on_train_end(self, args, state, control, model=None, tokenizer=None, **kwargs):
        if self._wandb is None:
            return
        valid_table = wandb.Table(dataframe=valid_df)
        wandb.log({"valid_table": valid_table})

        if self._log_model.is_enabled and self._initialized and state.is_world_process_zero:
            fake_trainer = Trainer(eval_dataset= self._trainer.eval_dataset, args=args, model=model, processing_class=tokenizer)
            with tempfile.TemporaryDirectory() as temp_dir:
                fake_trainer.save_model(temp_dir)
                metadata = (
                    {
                        k: v
                        for k, v in dict(self._wandb.summary).items()
                        if isinstance(v, numbers.Number) and not k.startswith("_")
                    }
                    if not args.load_best_model_at_end
                    else {
                        f"eval/{args.metric_for_best_model}": state.best_metric,
                        "train/total_floss": state.total_flos,
                        "model/num_parameters": self._wandb.config.get("model/num_parameters"),
                    }
                )
                metadata["final_model"] = True
                model_name = (
                    f"model-{self._wandb.run.id}"
                    if (args.run_name is None or args.run_name == args.output_dir)
                    else f"model-{self._wandb.run.name}"
                )
                # add the model architecture to a separate text file
                save_model_architecture_to_file(model, temp_dir)

                artifact = self._wandb.Artifact(name=model_name, type="model", metadata=metadata)
                for f in Path(temp_dir).glob("*"):
                    if f.is_file():
                        with artifact.new_file(f.name, mode="wb") as fa:
                            fa.write(f.read_bytes())
                self._wandb.run.log_artifact(artifact, aliases=["final_model"])

In [24]:
import transformers, os
from datetime import datetime
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM
from transformers import Seq2SeqTrainer, DataCollatorForSeq2Seq, GenerationConfig

# 로컬에 모델 저장하고 싶은 경우 이름 지정
project = "financeQA-finetune"
base_model_name = "gemma2"
run_name = base_model_name + "_" + project
output_dir = os.path.join(path,run_name)
if not os.path.exists(output_dir) : os.makedirs(output_dir)

MAX_LEN = 4096

trainer = FineTuningTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset['train'],
    eval_dataset = train_dataset['valid'],
    compute_metrics=compute_metrics,
    args=transformers.Seq2SeqTrainingArguments(
        do_eval=True,
        output_dir='./',
        warmup_ratio=0.05,
        eval_strategy="epoch",
        eval_accumulation_steps=1,
        batch_eval_metrics=True,
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        gradient_accumulation_steps=4,
        gradient_checkpointing=True,
        num_train_epochs = 1,
        learning_rate=2e-4,
        fp16=True,
        optim="paged_adamw_8bit",
        logging_strategy='epoch',
        report_to="none",
        run_name=wandb_run_name,
        remove_unused_columns=True,
        predict_with_generate=True,
        include_for_metrics = ["inputs"],
        label_names=["labels"],
        generation_config=GenerationConfig(max_new_tokens=200,eos_token_id = [tokenizer.eos_token_id], pad_token_id = tokenizer.pad_token_id),
        # save_strategy="steps",
        # save_steps=25,
    ),
    data_collator=DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, mlm=False), #모델에게 답변생성에만 집중하도록 함
    eval_data_collator=custom_data_collator,
)

model.config.use_cache = False
wandb_callback = CustomWandbCallback(trainer)
trainer.add_callback(wandb_callback)
# trainer.evaluate([train_dataset['valid'][0]])
# model.config.rms_norm_eps = 1e-6
trainer.train()

trained_model = (trainer.model.module if hasattr(trainer.model, "module") else trainer.model)

#로컬에 저장할 경우
# trained_model.save_pretrained(f"{output_dir}/saved_model")

  super().__init__(*args, **kwargs)
[34m[1mwandb[0m: Currently logged in as: [33mps4southwest[0m ([33mDACON-FinAI[0m). Use [1m`wandb login --relogin`[0m to force relogin


Epoch,Training Loss,Validation Loss,F1,Precision,Recall
1,0.5767,14.856296,0.572864,0.780822,0.452381




ImportError: attempted relative import with no known parent package

In [25]:
trained_model = (trainer.model.module if hasattr(trainer.model, "module") else trainer.model)

In [26]:
# 모델 업로드
trained_model.push_to_hub(train_name, private=True,save_embedding_layers=True)



adapter_model.safetensors:   0%|          | 0.00/2.06G [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/kdt3/1030_1_epoch1/commit/56dfb93821039dac36b065cec1d121d245ecb457', commit_message='Upload model', commit_description='', oid='56dfb93821039dac36b065cec1d121d245ecb457', pr_url=None, pr_revision=None, pr_num=None)

# Inference with Langchain (Langchain을 이용한 추론)

In [27]:
# gpu memory 할당 해제
import gc
torch.cuda.empty_cache()
gc.collect()

286

In [28]:
# HuggingFacePipeline 객체 생성

# 모델 ID
if model_id is None:
    model_id = model_cands[run_name.split('_')[0]]
peft_model_id = train_name
trained_model,tokenizer = load_model_w_setting(model_id)

#Fine-Tune 한 LoRA 어댑터 불러오기
trained_model.load_adapter(peft_model_id)

text_generation_pipeline = pipeline(
    model=trained_model,
    tokenizer=tokenizer,
    task="text-generation",
    return_full_text=False,
    max_new_tokens=200,
    # repetition_penalty=1.5,
    eos_token_id = tokenizer.eos_token_id,
    pad_token_id = tokenizer.pad_token_id,
    max_length=MAX_LEN
)

llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

adapter_config.json:   0%|          | 0.00/724 [00:00<?, ?B/s]



adapter_model.safetensors:   0%|          | 0.00/2.06G [00:00<?, ?B/s]

  llm = HuggingFacePipeline(pipeline=text_generation_pipeline)


In [29]:
#데이터셋 로드
from datasets import load_dataset
dataset_url = dataset_name
dataset = load_dataset(dataset_url)

In [30]:
# 검증 데이터 쓸지, 테스트 데이터 쓸지
eval_mode = 'test' # or 'test'
eval_dataset = dataset[eval_mode]

In [31]:
# 그냥 GPU 메모리 확인용
!nvidia-smi

Thu Oct 31 10:57:04 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   33C    P0              54W / 400W |  31891MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [32]:
template.split('{answer}')[0]

'\n<start_of_turn>user\n 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.\n 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.\n 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.\n 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.\n 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.\n 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.\n 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, \'답변: \', \'참고: \'를 절대로 출력하지 마세요.\n\n"문서":\n{context},\n\n"질문":\n{question},\n\n"주어진 질문에 대한 답변만 한 문장으로 생성한다."\n\n"답변":<end_of_turn>\n<start_of_turn>model\n'

In [33]:
from tqdm.auto import trange

# 결과를 저장할 리스트 초기화
results = []

# DATASET 구조를 dataset[i]={'question':,'context':,...}로 바꾸면 안됨?

# Dataset 각 행에 대해 처리
for idx in trange(len(eval_dataset['question']), desc="Answering Questions"):
    #질문, 컨텍스트(문서)
    question = eval_dataset['question'][idx]
    context = eval_dataset['context'][idx]

    # RAG 체인 구성
    prompt = PromptTemplate.from_template(template.split('{answer}')[0])

    # RAG 체인 정의
    if context != "":
        rag_chain = (
            RunnableParallel(context=lambda x: x["context"], question = lambda x: x["question"])
            | prompt
            | llm
            | StrOutputParser()
        )
    else:
        rag_chain = (
            {"question": RunnablePassthrough()}
            | prompt
            | llm
            | StrOutputParser()
        )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke({"question": question, "context": context})

    print(f"Answer: {full_response}\n")

    # 결과 저장

    if context != "":
        results.append({
            "Context": context,
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })
    else:
        results.append({
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })

Answering Questions:   0%|          | 0/98 [00:00<?, ?it/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Question: 2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2,300,000백만원


Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 기술력과 사업성이 우수하고 미래 성장가능성이 높은 중소벤처기업의 창업을 활성화하고 고용창출 도모입니다.


Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업근거는 어떤 법률에 근거하고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제35조


Question: 2010년에 신규 지원된 혁신창업사업화자금은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2010년에 신규 지원된 혁신창업사업화자금은 '개발기술사업화자금'입니다.


Question: 혁신창업사업화자금 중 2020년에 신규 지원된 자금은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 미래기술육성자금, 고성장촉진자금


Question: 재창업자금이 재도약지원자금으로 이관된 연도는 언제인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2015. 1


Question: 창업기반지원과 신청 대상이 중복인 자금이 어떤 것이며, 이 자금이 폐지된 연도는 언제인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 창업기반지원과 신청 대상이 중복인 자금은 일자리창출촉진자금이며, 이 자금이 폐지된 연도는 2023년입니다.


Question: 혁신창업사업화자금(융자) 사업을 시행하는 주체는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 중소벤처기업진흥공단


Question: 혁신창업사업화자금(융자) 사업 집행절차는 어떻게 되나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 사업계획수립/공고 서류 및 현장실사 ⇨ 사전상담 및 신청 접수 ⇨ 중기부, 중진공 ⇨ 중진공 ⇨ 중소기업


Question: 부모급여 지원 사업의 목적은 무엇인가요?


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 부모급여 지원 사업의 목적은 출산 및 양육으로 손실되는 소득을 보전하고, 주 양육자의 직접돌봄이 중요한 아동발달의 특성에 따라 영아기 돌봄을 두텁게 지원하기 위해 영아수당을 부모급여로 변경‧확대하기 위해 부모급여 지급을 통해 가정양육지원 및 부모의 경제적 부담을 획기적으로 완화하는 것입니다.


Question: 부모급여(영아수당)의 2024년 확정된 예산은 몇백만원인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2,888,694백만원


Question: 부모급여 지원 사업은 어떤 법령상 근거를 갖고 추진되고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 아동수당법 제4조제5항


Question: 영아수당 도입에 대한 추진경위는 어떻게 되나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 영아수당 도입은 2020년 12월에 제4차 저출산‧고령사회 기본계획 5대 핵심과제로 선정되었고, 2021년 8월에 예비타당성조사가 통과하여 2021년 12월에 근거법이 마련되었습니다.


Question: 부모급여 지원사업은 언제부터 시행되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 부모급여 지원사업은 2023년 1월부터 시행되었습니다.


Question: 보건복지부의 부모급여(영아수당) 지원 사업시행방법은 무엇이며, 사업 수혜자는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 사업시행방법은 지자체 보조이며, 사업 수혜자는 만 0~1세 아동이다.


Question: 노인장기요양보험 사업 운영에 대한 목적은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 노인장기요양보험 사업 운영의 목적은 고령이나 노인성 질병으로 일상생활을 혼자서 수행하기 어려운 노인등에게 신체 또는 가사 활동 등을 제공하여 효율적인 정책추진으로 노후의 건강증진 및 생활 안정을 도모하고 가족의 부담을 완화하여 국민 삶의 질을 향상시키는 것입니다.


Question: 노인장기요양보험 운영지원에 대한 사업 내용을 설명해줘.


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국가가 국민건강보험 공단에 지원하는 법정지원금(장기요양보험료 예상수입액의 20% 상당)


Question: 국고지원을 받는 기타 의료급여수급권자는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 이재민, 의사상자, 국가유공자, 입양아동, 국가무형문화재보유자, 북한이탈주민등


Question: 장기요양보험가입자 및 피부양자의 자격취득과 관련하여 어떤 법률을 준용해야 하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국민건강보험법 제5조, 제6조, 제8조부터 제11조까지, 제69조제1항부터 제3항까지, 제76조부터 제86조까지 및 제110조


Question: 노인장기요양보험법이 언제 제정되고 공포되었나?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 노인장기요양보험법은 2007년 4월에 제정되고 공포되었다.


Question: 장기요양인정점수 완화가 언제 이루어졌으며, 어떤 변화가 있었나?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 장기요양인정점수 완화는 2012년 7월과 2013년 7월에 이루어졌으며, 3등급 인정점수가 각각 55~75점에서 53~75점, 53~75점에서 51~75점으로 완화되었다.


Question: 장기요양기관 지정갱신제의 법적 근거가 언제 마련되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 장기요양기관 지정갱신제의 법적 근거는 2018년 12월에 마련되었다.


Question: 22.10월에 요양보호사 1명당 시설수급자 인력배치기준이 개선된 내용은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 요양보호사 1명당 시설수급자 2.5명에서 2.3명으로 개선되었다.


Question: 에너지 바우처 제도의 주요 내용은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지 바우처 제도는 경제적 부담 등으로 에너지 이용에 어려움을 겪는 에너지 소외 계층에게 전기·가스·지역난방 등 에너지 이용에 필요한 비용을 지원하는 제도입니다.


Question: 에너지바우처 사업의 주요 수혜자는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지바우처 사업의 주요 수혜자는 기초생활보장급여 수급세대 중 노인, 장애인, 영유아, 임산부, 중증·희귀‧중증난치질환자, 한부모, 소년소녀가정 포함 세대, 연탄을 사용하는 기초생활수급자, 차상위계층, 기타 소외계층입니다.


Question: 2024년 에너지바우처 사업의 사업시행주체는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 사업시행주체는 한국에너지공단, 한국광해광업공단입니다.


Question: 하절기바우처와 동절기바우처의 2024년 예산 규모는 각각 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 하절기바우처의 2024년 예산 규모는 48,805백만원이며, 동절기바우처의 2024년 예산 규모는 171,337백만원입니다.


Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 에너지복지 홍보에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 사업운영비 중 에너지복지 홍보에 328백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 705백만원


Question: 2023년 에너지바우처 사업 예산에서 콜센터 운영에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 502.7백만원


Question: 2023년 에너지바우처 사업 예산에서 패널조사에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 133.5백만원


Question: 2023년 에너지바우처 사업 예산에서 에너지바우처 전달체계 구축에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지바우처 전달체계 구축에 34.6백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 주택관리공단 운영지원에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 50백만원


Question: 에너지바우처 사업의 향후 기대효과는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지바우처 사업의 향후 기대효과는 저소득층의 적정수준 에너지 접근성이 높아지고, 에너지 소외계층의 에너지 이용 부담이 완화될 것으로 기대됩니다.


Question: 에너지바우처 사업에 대한 예비타당성조사를 어떤 조사기관이 수행했나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지바우처 사업에 대한 예비타당성조사는 KDI(한국개발연구원 공공투자관리센터)가 수행했습니다.


Question: 21년 국정감사에서 에너지 바우처 사업에 대한 주요 지적사항은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 저소득층의 폭염 피해 최소화를 위해 동절기 에너지바우처 일부를 하절기에 사용할 수 있도록 제도 개선할 것


Question: 21년 에너지바우처 사업에 대한 결산 지적사항은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 수급자 변경 등으로 예산부족이 발생하지 않도록 급여 선정기준 등의 변경계획 등에 대하여 보건복지부·지자체와 면밀히 소통하여 예산을 편성하고 사업을 추진해야 합니다.


Question: 에너지 바우처 사업의 향후 추진방향 중 '취약계층의 에너지 비용 부담 완화'를 위한 계획은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 에너지 바우처 사업의 향후 추진방향 중 '취약계층의 에너지 비용 부담 완화'를 위한 계획은 지속적 지원단가 현실화 추진이었습니다.


Question: 행복주택출자 사업은 어떤 근거로 추진되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 행복주택출자 사업은 주택도시기금법 제9조제1항가목과 공공주택특별법 제2조1호가목에 근거하여 추진되고 있다.


Question: 행복주택출자 사업은 어떤 목적으로 시행되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 행복주택출자 사업은 국민의 행복주거 실현을 위한 보편적 주거복지 정책의 일환으로 도심 내 다양한 부지를 활용하여 행복주택을 공급하기 위해 시행된다.


Question: 행복주택출자 사업의 주요 수혜자는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 대학생・사회초년생・신혼부부 등 젊은층(80%), 고령자 및 주거취약계층(20%)


Question: 행복주택출자 사업의 사업비 추이는 어떠한가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 최근 5년 간 투입된 사업비(예산액기준, 추경편성한 연도에는 추경포함)는 2020년 1,548억원, 2021년 1,648억원, 2022년 1,758억원, 2023년 1,878억원, 2024년 1,998억원이다.


Question: 행복주택출자 사업의 사업시행주체는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 한국토지주택공사(LH)와 지자체(지방공사)


Question: 국고보조사업의 보조율은 어떠한 기준에 따라 운용되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국고보조사업의 보조율은 「보조금법」과 함께 일부 개별 법령에 근거하여 운영되며 보조금법에 의해 지방 자치단체의 재정여건을 고려하여 기준보조율과 차등보조율을 적용하여 운용하고 있음


Question: 프랑스의 재정조정제도에서 최근 강조되는 형평교부금은 어떤 역할을 하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 형평교부금은 재정력이 약한 지방자치단체에 필요한 재원을 지원하여 재정 불균형을 해소하는 역할을 한다.


Question: 지방재정조정제도의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지방재정조정제도는 자체 재원만으로 지출책임성을 충족하지 못하는 지방자치단체에 필요한 일종의 제도적 장치에 해당하며, 지방자치단체 간 재정력 격차의 시정, 지역 간 외부 효과의 내부화를 통한 지방공공재 공급, 중앙정부의 위임사무에 대한 비용 부담 등을 목적으로 재정을 조정하는 일련의 조치를 의미합니다.


Question: 국제적으로 성과중심 재정관리 강화 움직임이 확산된 시기는 언제인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2000년대 후반 금융위기로 성과중심 재정관리 강화 움직임이 국제적으로 확산됨에 따라


Question: 한국의 재정사업 성과관리제도는 어떠한 법을 통해 운영되고 있으며, 성과관리 기본계획과 추진계획은 어떻게 의무화되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 한국의 재정사업 성과관리제도는 '21년 12월 법 개정을 통해 '국가재정법'을 통해 운영되고 있으며, 성과관리 기본계획과 추진계획은 '21년 12월 법 개정을 통해 의무화되었다.


Question: 핵심재정사업 성과관리제도를 안착시키기 위해 필요한 노력과 성과 정보를 학습의 도구로 활용하는 방안은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 성과정보를 사용해 목표 진행 상황을 정기적으로 평가·공개하고, 지속적 개선에 대한 약속 공유함으로써 핵심재정사업 성과관리제도를 안착시켜 나갈 수 있기를 기대한다.


Question: 사회보험 사각지대 발생의 주요 원인과 이로 인해 발생하는 문제는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 사회보험 사각지대 발생의 주요 원인은 4대 사회보험의 제도적 틀이 갖추어져 있음에도 불구하고 사각지대 발생 확대가 이루어지고 있기 때문입니다. 이로 인해 저소득 근로자 및 예술인·특수형태근로종사자(특고)가 사회보험의 보호를 받지 못하고 경제적 어려움에 직면할 수 있습니다.


Question: 청년일자리도약장려금은 어떤 대상을 지원하며, 어떤 방식으로 지원되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 청년일자리도약장려금은 우선지원대상기업에서 만 15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 지원됩니다. 이는 우선지원대상기업에서 만 15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 지원됩니다.


Question: 수직적 재정조정제도와 수평적 재정조정제도의 차이는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 수직적 재정조정제도는 중앙정부와 지방정부 간에 재정을 재배분하는 것을 의미하며, 수평적 재정조정제도는 지방정부 상호 간에 재정을 재배분하는 것을 의미합니다.


Question: 지방재정조정제도는 어떤 목적을 가지고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지방재정조정제도는 지방자치단체 간 재정력 격차의 시정, 지역 간 외부 효과의 내부화를 통한 지방공공재 공급, 중앙정부의 위임사무에 대한 비용 부담 등을 목적으로 재정을 조정하는 일련의 조치를 의미합니다.


Question: 중앙-지방 간 재정조정제도에서 어떤 재원을 이전하여 수직적 재정 불균형을 해소하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지방교부세, 국고보조금, 조정교부금(자치구 조정교부금, 시·군 조정교부금) 재원을 이전함


Question: 중앙정부의 예산편성은 어떤 재원 배분 문제를 결정하며, 중앙-지방 간 재정조정제도를 통해 어떤 재원을 이전하고, 이의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 중앙정부의 예산편성은 중앙-지방 간 재정조정제도를 통해 지방교부세, 국고보조금, 조정교부금 등을 이전하고, 이는 자체 재원만으로 지출책임성을 충족하지 못하는 지방자치단체에 필요한 제도적 장치에 해당한다.


Question: 재정사업 성과관리제도의 필요성이 대두된 시기와 한국의 재정사업 성과관리제도가 어떤 법에 근거하여 운영되고 있는지 설명하시오.


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2006년 4대 재정개혁 이후 재정사업 성과관리제도가 필요성이 대두되었으며, 현재는 '국가재정법'에 근거하여 운영되고 있다.


Question: 청년일자리도약장려금은 어떤 대상을 지원하며, 어떤 방식으로 지원되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 청년일자리도약장려금은 우선지원대상기업에서 만 15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 지원됩니다. 이는 우선지원대상기업에서 만 15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 지원됩니다.


Question: 재정성과관리제도는 어떤 측면에서 국정운영과 연결되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리제도는 전략목표와 우선순위를 중심으로 재정사업을 재구조화한다는 점에서 국정운영과 연결된다.


Question: 성과관리의 실효성 강화를 위해 정부가 취한 조치는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부는 2021년 「국가재정법」 개정으로 성과 중심 재정운용 강화를 위해 성과관리를 위한 별도의 장을 신설하고 성과관리 규정을 정비하였다.


Question: 재정성과관리 관련 주요 쟁점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국가재정법상의 재정사업 평가인 재정사업 자율평가의 대상, 범위, 효과, 개편 등은 지속적으로 논의되어야 하며, 개별 법령에 따라 실시되는 평가 대상 간 중복 최소화 노력 필요


Question: 재정성과관리가 왜 중요한가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리는 재정을 결과 또는 산출 지향적으로 운영하는 것으로, 산출의 우선순위를 명확하게 하는 한편 국민에게 재정이 하는 일을 보다 알기 쉽게 설명할 수 있기에 중요하다.


Question: 재정성과관리는 무엇을 목표로 하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리는 재정사업의 기획에서 집행, 환류, 종료에 이르는 전 주기를 체계적으로 관리하여 효율적 재정 운용을 뒷받침하고, 관련 정보를 국민에게 공개하여 책임성을 확보하는 것을 의미합니다.


Question: 어떤 국제기구들이 사업을 기준으로 예산을 나누어 성과 정보를 생산하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: OECD, World Bank


Question: 재정성과관리의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부 재정의 투명성·책임성, 효율성·효과성, 예산재분배 등이 목적이다.


Question: 2021년 「국가재정법」 개정으로 어떤 규정이 신설되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2021년 「국가재정법」 개정으로, 동 법에 의한 재정사업 평가와 개별 법령에 따라 실시되는 평가 대상 중복이 최소화되도록 하는 규정이 신설되었다.


Question: 성과관리제도는 지출 구조조정을 위해 어떤 방향으로 추진되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지출 구조조정을 위해 미흡 등급 배분 기준, 지출구조조정 기준을 도입하여 강력한 지출구조조정 방향 제시


Question: 재정사업 자율평가의 목적은 무엇이며, 어떤 방식으로 제도 개선이 이루어졌는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정사업 자율평가의 목적은 재정관리 합리성 제고이며, 2018년에는 연구개발사업 평가를 다시 분리하고 기존의 재정사업 자율평가 제도로 환원하는 한편, 공통 평가지침과 평가보고서 표준서식을 폐지하고 상위 평가 방식을 메타 평가 방식의 전수 점검에서 80여 개 주요 핵심 사업에 대한 평가로 전환


Question: 2016년 재정성과관리제도의 환류 개선사항은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 평가 결과 미흡 등급 비율을 강제 배정하고 해당 단위사업에 대한 일률적 삭감을 실시하던 과거와 달리, 2016년부터는 평가 대상 사업 전체 예산의 1% 이내에서 부처에서 자율적으로 세출구조조정을 할 수 있도록 개선되었다.


Question: 2018년도에 재정성과관리제도 개선사항과, 이로 인해 어떤 효과가 발생했는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2018년도 제도 개선으로 각 부처에서 지표와 배점 기준을 자율적으로 하도록 하여, 부처의 자율적인 재정사업 성과관리 확대 및 성과관리체계 단순화, 예산과 성과관리의 기계적 연동 폐지, 합리적 재정사업 구조조정 등으로 성과관리 실효성 제고, 부처 자율성 강화, 재정당국의 성과관리 전략성 강화에 기여하였다.


Question: 재정사업 자율평가의 전면 개편을 통해 어떤 중점 추진과제가 제시되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 성과관리 사각지대 해소, 사업성과평가의 예산편성 활용 확대를 위한 중점 추진과제가 제시되었다.


Question: 재정성과관리제도의 중요성과 국정운영과의 연결성은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리제도는 전략목표와 우선순위를 중심으로 재정사업을 재구조화한다는 점에서 국정운영과 연결되고, 지출 우선순위 측면에서 재정을 중장기 시계로 확장시켜 줌


Question: 재정성과관리체계 강화를 위해 정부가 어떤 제도를 제시했으며, 재정성과관리는 무엇을 목표로 하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부는 110대 국정과제 중 재정 정상화 및 재정의 지속 가능성 확보를 위해 재정성과관리체계 강화를 제시했으며, 재정성과관리는 재정사업의 기획에서 집행, 환류, 종료에 이르는 전 주기를 체계적으로 관리하여 효율적 재정 운용을 뒷받침하고, 관련 정보를 국민에게 공개하여 책임성을 확보하는 것을 의미합니다.


Question: 재정성과관리는 어떤 과정에서 수행되며, 무엇을 증진하기 위해 활동하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리는 예산 편성 과정에서 성과계획서를 작성하면서 시작하며, 이를 바탕으로 연간 성과지표와 목표치를 관리하여 국회에 보고하고 국민에게 공개한다. 지출 효율성을 증진하기 위해 재정지출이 달성해야 할 목표를 정확히 설정하고, 이의 달성도를 지속적으로 관리하는 활동이다.


Question: 재정성과관리의 목적과 우리나라의 재정성과관리제도가 프로그램 예산제도로 전환된 시기는?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정성과관리의 목적은 재정을 프로그램 단위로 구분하고, 사전 목표와 사후 평가 결과를 중심으로 관리하는 것이다. 우리나라는 2006년 4대 재정개혁을 통해 프로그램 예산제도로 전환, 프로그램 단위의 재정성과관리제도를 정착시켜 운영하고 있다.


Question: 2007년과 2021년에 각각 「국가재정법」이 개정되면서 성과관리 제도는 어떻게 강화되고 구체화되었으며, 이 개정의 주된 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2007년 개정으로 과거에 단발적으로 이루어진 성과관리 제도를 종합하여, 성과관리의 기본 단위, 성과 측정과 보고를 위한 체계 확립이 이루어졌다. 2021년 개정으로는 성과 중심 재정운용 강화를 위해 성과관리를 위한 별도의 장을 신설하여, 동 법에 의한 재정사업 평가와 개별 법령에 따라 실시되는 평가 대상 중복이 최소화되도록 하는 규정을 신설하여, 재정성과관리를 위한 재정사업 평가와 개별 법령에 따라 실시되는 평가 간의 관계를 최초로 규정하였다. 이러한 개정의 주된 목적은 재정성과관리를 강화하여 재정을 결과 또는 산출

Question: 재정사업 자율평가의 목적과 제도 개선 방식은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정사업 자율평가의 목적은 재정관리 합리성 제고이며, 제도 개선 방식으로는 평가 대상 사업의 범위, 평가 주기, 상위 평가 방식 등이 개편되었다.


Question: 2015년 이전과 2016년에 재정성과 평가 결과 처리 방식과 환류 개선 방식은 어떻게 달라졌는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2015년 이전에는 평가 결과 미흡 등급 비율을 강제 배정하고 해당 단위사업에 대한 일률적 삭감을 실시하였고, 2016년에는 환류 개선을 통해 평가 대상 사업 전체 예산의 1% 이내에서 부처에서 자율적으로 세출구조조정을 방식 등에서 지속적인 제도 개선이 이루어졌다.


Question: 재정관리시스템 구축과 성과관리 개편을 추진하는 주된 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 재정관리시스템 구축과 성과관리 개편을 추진하는 주된 목적은 지속적으로 제도 개선을 통해 변화하는 재정 환경에 적응해 나갈 수 있도록 하기 위한 것이다.


Question: 우리나라에서는 언제부터 발생주의 기준을 적용한 국가결산보고서에서 우발부채를 보고하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우리나라는 2011년부터 발생주의 기준을 적용한 국가결산보고서에서 우발부채를 보고하고 있다.


Question: 우발부채 관련 주요 쟁점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우발부채 개념 및 용어 사용의 혼란, 우발부채 분류기준 재검토, 새로운 분류기준 정립


Question: 우발부채의 관리는 왜 중요한 이슈로 여겨지는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우발부채의 관리는 지속가능한 재정운영 차원에서 중요한 이슈로 여겨지며, 이는 미래의 다양한 의제의무를 포괄하는 우발부채 관리에 대한 중요성 인식 때문이다.


Question: 우발부채와 부채의 차이점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우발부채는 미래에 특정 사건(들)이 일어나지 않는 한 발생하지 않는 의무로, 하나 또는 그 이상의 조건이 충족되어야 금융거래로 인식된다는 점에서 ‘부채’와 차이가 있다.


Question: 발생주의와 현금주의의 차이는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 발생주의는 경제적 거래가 발생하는 시점에 거래를 기록하는 방식이고, 현금주의는 현금을 수취하거나 지급한 시점에 거래를 기록하는 방식이다.


Question: 채무지속가능성분석은 어떤 목적을 가지고 도입되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 채무지속가능성분석은 잠재적 재정위기 감지, 예방, 해결을 위한 IMF의 노력으로 2002년에 도입되었다.


Question: 의제의무란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 발표된 정부방침 또는 구체적이고 유효한 약속이나 과거의 실무관행 등을 통해 중앙관서 또는 기금이 특정 책임을 부담한다는 것을 표명함으로써 상대방이 그 책임을 이행할 것이라는 정당한 기대를 가지게 되는 경우 발생하는 의무를 말한다.


Question: 국제통화기금이 재정통계 작성의 국제기준을 제시하기 위해 발간한 매뉴얼은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국제통화기금은 재정통계 매뉴얼(Government Finance Statistics Manual, GFSM)을 발간하여 재정통계 작성의 국제기준을 제시하였다.


Question: 계류중인 소송사건이란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 계류중인 소송사건은 법원에 소송을 제기하거나 소송에 대응하기 위해 법원에 소송을 제기한 후 법원의 판결이 나오기 전까지 계류 중인 소송사건을 말한다.


Question: 최소운영수입보장(BTO 등) 제도란 무엇을 의미하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 최소운영수입보장(MRG) 제도는 민간투자사업 중 실시협약서 상 추정 수입보다 실제 수입이 미치지 못하는 경우 정부가 최소운영수입을 보장해 주는 제도를 말한다.


Question: 우발부채에 대한 내용으로 대표적으로 어떤 사항이 해당되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우발부채에 대한 내용으로 대표적으로 장기충당부채 중 일부가 우발부채로 재분류될 필요가 있다.


Question: GFSM2014에서는 우발부채를 어떻게 구분하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: GFSM2014에서는 우발부채를 크게 명시적(explicit) 우발부채와 암묵적(implicit) 우발부채로 구분한다.


Question: GFSM은 몇 차례의 개정을 거쳤으며, 어떠한 목적으로 GFSM 2001이 개정되었는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: GFSM은 2차례(2001년, 2014년)의 개정을 거쳤으며, GFSM 2001은 전면 개정을 통해 현재의 발생주의 기준 GFS체계를 구축하였습니다.


Question: 표준화 보증이란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 표준화 보증은 통상 아주 적은 금액에 대해 획일적 조건으로 대규모로 발행하는 보증을 말하며, 수출(무역)신용 보증, 환보증, 다양한 종류의 보험(예금, 농작물, 자연재해 등), 농민융자, 모기지론, 학자금융자, 중소기업융자 등이 있다.


Question: 표준화 보증에서 공공부문의 우발부채는 어떻게 인식되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 표준화 보증에서 공공부문의 우발부채는 아니라 표준화 보증 충당부채로 인식된다.


Question: 재정정책에서 공적보증채무와 다른 일회성 보증은 어떻게 구분되는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 공적보증채무는 보증인이 기타 공공부문과 민간부문 단위 기존 채무의 원리금 상환을 보증한다는 점에서 다른 일회성 보증과 구분된다.


Question: 미래사회보장급여에 대한 순의무란 무엇을 의미하는가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 미래사회보장급여에 대한 순의무는 현행법과 규정에 따라 이미 가입자가 획득한 미래 급여의 현재가치에서 현행법과 규정에 따른 사회보장제도의 미래보험료의 순현재가치를 차감한 것을 인식한다.


Question: 국가결산보고서와 지방자치단체 회계기준에서 우발부채에 대한 용어 및 회계처리가 어떻게 다른가요?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국가결산보고서는 '우발사항'으로 공시하고, 지방자치단체 회계기준은 '우발손실'로 정의하고 있습니다.


Question: 우발부채란 무엇이며, 그 관리가 왜 중요한가?


Both `max_new_tokens` (=200) and `max_length`(=4096) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우발부채는 미래의 다양한 의제의무를 포괄하는 부채로, 지속가능한 재정운영 차원에서 중요한 이슈이며, 국제기준 재정통계 산출에 발생주의 회계기준이 적용되면서 그 관리에 대한 중요성이 더욱 부각되고 있다.


Question: 보증이란 무엇이며, 어떤 형태의 보증이 재정상태표에 부채로 기록되는가? 또한 표준화 보증이란 무엇이며, 어떤 목적으로 발행되는가?
Answer: 보증은 특정 조건이나 사건이 발생하지 않거나 발생하기 전까지 부채로 인식하지 않는 부채로, 파생금융상품 형태의 보증과 표준화 보증이 재정상태표에 부채로 기록된다. 표준화 보증은 통상 아주 적은 금액에 대해 획일적 조건으로 대규모로 발행하는 보증을 말하며, 위험 분산을 목적으로 발행된다.




In [34]:
# i = 28
# print_dataset_ele(eval_dataset,i)

# Evaluation

In [None]:
#검증 데이터 쓸때만 사용 가능
if eval_mode == 'valid':
  for item in results:
      y_hat = item["Answer"]
      y = item["True_Answer"]
      f1, precision, recall = compute_f1(y, y_hat)
      item["F1"] = f1
      item["Precision"] = precision
      item["Recall"] = recall

In [None]:
if eval_mode == 'valid':
  # 제출용 샘플 파일 로드
  eval_df = pd.DataFrame([])

  # 생성된 답변을 제출 DataFrame에 추가
  eval_df['Question'] = [item['Question'] for item in results]
  eval_df['Answer'] = [item['Answer'] for item in results]
  eval_df["F1"] = [item["F1"] for item in results]
  eval_df["Precision"] = [item["Precision"] for item in results]
  eval_df["Recall"] = [item["Recall"] for item in results]
  # eval_df['Answer'] = eval_df['Answer'].fillna("데이콘")     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

  save_dir = os.path.join(path,'eval')
  if not os.path.exists(save_dir) : os.makedirs(save_dir)
  save_name = f'eval_{fname}'
  save_path = os.path.join(save_dir,save_name)

  # 결과를 CSV 파일로 저장
  eval_df.to_csv(save_path, encoding='UTF-8-sig', index=False)

In [None]:
# 평균 F1 확인
# eval_df = pd.read_csv(f"{path}trained_eval.csv",index_col=0)
if eval_mode == 'valid' :
  display(eval_df["F1"].mean())

# Submission

In [35]:
submit_df = pd.read_csv(f"{path}sample_submission.csv")
submit_df.head()

Unnamed: 0,SAMPLE_ID,Answer
0,TEST_000,데이콘
1,TEST_001,데이콘
2,TEST_002,데이콘
3,TEST_003,데이콘
4,TEST_004,데이콘


In [36]:
# 제출용 샘플 파일 로드
submit_df = pd.read_csv(f"{path}sample_submission.csv")

# 생성된 답변을 제출 DataFrame에 추가
save_mode = 'submission'

if save_mode != 'submission' :
  submit_df['Question'] = [item['Question'] for item in results]
  submit_df['Context'] = [item['Context'] for item in results]
  save_dir = os.path.join(path,'eval')
else : save_dir = os.path.join(path,'sub')

if not os.path.exists(save_dir) : os.makedirs(save_dir)
save_path = os.path.join(save_dir,fname)

submit_df['Answer'] = [item['Answer'] for item in results]
submit_df['Answer'] = submit_df['Answer'].fillna("데이콘").apply(str.rstrip)     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

# 결과를 CSV 파일로 저장
submit_df.to_csv(save_path, encoding='UTF-8-sig', index=False)

In [37]:
submit_df['Answer'] = submit_df['Answer'].apply(lambda x: x.split('<|eot_id|>')[0])
submit_df.to_csv(save_path.split('.csv')[0]+'_cleaned.csv', encoding='UTF-8-sig', index=False)