In [1]:
!nvidia-smi

Thu Oct  3 08:18:58 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   30C    P0              42W / 400W |      2MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [2]:
path = '/content/drive/MyDrive/DACON/Finance/reprocessed/'
path = '/content/drive/MyDrive/kdt-EST-AI/project/dacon_fis/src/'
base_directory = path # Your Base Directory

In [3]:
dataset_name = "kdt3/DACON-QA-large-ensemble-markdown-reprocessed-256"
train_name = "kdt3/DACON-QA-large-ensemble-markdown-refactored-256"
fname = "gemma2_large_ensemble_markdown_256_3epoch_refactored.csv"

# 설명

## Question - Answering with Retrieval

본 대회의 과제는 중앙정부 재정 정보에 대한 **검색 기능**을 개선하고 활용도를 높이는 질의응답 알고리즘을 개발하는 것입니다. <br>이를 통해 방대한 재정 데이터를 일반 국민과 전문가 모두가 쉽게 접근하고 활용할 수 있도록 하는 것이 목표입니다. <br><br>
베이스라인에서는 평가 데이터셋만을 활용하여 source pdf 마다 Vector DB를 구축한 뒤 langchain 라이브러리와 llama-2-ko-7b 모델을 사용하여 RAG 프로세스를 통해 추론하는 과정을 담고 있습니다. <br>( train_set을 활용한 훈련 과정은 포함하지 않으며, test_set  에 대한 추론만 진행합니다. )

## Mount/Login

구글 드라이브를 마운트하고 허깅페이스에 로그인
- 이때 허깅페이스 토큰은 kdt3 그룹에 대해 읽기/쓰기 권한이 있는 토큰이어야 함

## Download Library
필요/사용 라이브러리 다운로드
이때 버전 문제로 설치를 한 뒤 세션을 한번 재시작해줘야 합니다
<br>(그리고 세션 완전히 끊기면 다운로드 후 재시작을 다시 해줘야...)

## Import Library
한번 재시작했으면 위 과정 없이 Import만 실행해주면 됩니다

## Vector DB
문서를 여러 조각(chunk)로 나누고, 임베딩 유사도를 통해 관련 조각을 찾을 수 있게 DB화하는 함수들이 정의되어 있습니다.

## DB 생성
Vector DB에서 정의된 함수들로 문서 DB를 만들어줍니다.<br><br>
이때 Train과 Test를 한번에 하려고 하면 코랩이 터질 확률이 높으므로 Train하고 Create Dataset까지 실행해 업로드 한 뒤 재시작해서 램을 비우고 Test를 하는 것이 좋습니다.<br> 또한 문서 임베딩을 어떤 모델로 할지 인자로 넘겨줄 수 있습니다

## Create Dataset
DB 생성에서 만든 db와 데이터 dataframe을 사용해 HuggingFace 데이터셋 생성 후 업로드

## Fine-Tuning
학습 데이터셋으로 모델에 대한 파인튜닝 진행 후 Huggingface에 업로드<br>
4비트 양자화 LoRA로 파인튜닝<br>
기반 모델 또는 넣어줄때 사용할 프롬프트, 학습 관련 하이퍼파라미터 수정 가능

## Langchain 을 이용한 추론
모델을 사용한 추론


## 실행
### 기본
Mount/Login -> Download Library -> 재시작 (처음 1번)
Mount/Login -> Import Library (이후)

### 데이터셋 만들기
기본 -> Vector DB -> DB 생성 -> Create Dataset에서 첫 셀 + Train/Valid/Test 중 해당하는 셀

### 모델 학습하기
기본 -> Fine-Tuning(업로드할 위치, 데이터셋 위치, 모델 링크 확인 필수)

### 학습된 모델로 추론하기
기본 -> Langchain을 이용한 추론(모델 링크, 데이터셋 위치 확인) -> Submission(저장할 파일명 확인)

# Mount/Login

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [5]:
import os

token_path = os.path.join(base_directory,'data','token')
with open(token_path,'r') as f:
    hf_token = f.readline().strip('\n')
    wandb_token = f.readline().strip('\n')

In [6]:
from huggingface_hub import login

login(token=hf_token, add_to_git_credential=True)

Token is valid (permission: fineGrained).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [7]:
!pip install wandb
import wandb

# wandb 개인 API 키 입력
wandb.login(key=wandb_token)

import os

os.environ["WANDB_PROJECT"]="DACON_FinAI"
os.environ["WANDB_LOG_MODEL"] = "checkpoint"
wandb_run_name="noaug-Llama3.1-lora-base"



[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin


# Download Library

In [8]:
!apt-get install tesseract-ocr
!apt-get install poppler-utils

!pip install orjson==3.10.6

!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes
!pip install transformers[torch] -U

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install langchain-teddynote
!pip install sentence-transformers
!pip install faiss-gpu
!pip install peft
!pip install trl

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
poppler-utils is already the newest version (22.02.0-2ubuntu0.5).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Looking in indexes: https://pypi.org/simple/


# Import Library

In [9]:
import os
import unicodedata

import torch
import pandas as pd
from tqdm.auto import tqdm

from langchain.document_loaders.parsers.pdf import PDFPlumberParser


from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig
)
from accelerate import Accelerator

# peft
from peft import prepare_model_for_kbit_training
from peft import PeftModel
from peft import LoraConfig, get_peft_model


# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough, RunnableParallel
from langchain.schema.output_parser import StrOutputParser

# PDF 로딩/청크화 관련
from langchain.document_loaders.parsers.pdf import PDFPlumberParser
from langchain.document_loaders.pdf import PDFPlumberLoader
from langchain.document_loaders import UnstructuredPDFLoader
from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever



For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  from .kiwi_bm25 import KiwiBM25Retriever


# Fine-Tuning

In [11]:
# 모델 ID
model_cands={
 'llama2' : "beomi/llama-2-ko-7b",
 'yi' : "beomi/Yi-Ko-6B",
 'solar-beom' : "beomi/Solar-Ko-Recovery-11B",
 'gemma2' : "rtzr/ko-gemma-2-9b-it",
 'solar-lee' : "chihoonlee10/T3Q-ko-solar-dpo-v8.0",
 'llama31' : "KISTI-KONI/KONI-Llama3-8B-Instruct-20240729",
}

model_id = model_cands['gemma2']

In [12]:
# 모델 로드 및 양자화 설정 적용

def load_model_w_setting(model_id,add_output_token=False,**kwargs):
  # 4비트 양자화 설정
  bnb_config = BitsAndBytesConfig(
      load_in_4bit=True,
      bnb_4bit_use_double_quant=True,
      bnb_4bit_quant_type="nf4",
      bnb_4bit_compute_dtype=torch.bfloat16
  )

  # 토크나이저 로드 및 설정
  tokenizer = AutoTokenizer.from_pretrained(model_id)
  tokenizer.use_default_system_prompt = False
  tokenizer.padding_side="right"

  model= AutoModelForCausalLM.from_pretrained(
      model_id,
      quantization_config=bnb_config,
      device_map="auto",
      trust_remote_code=True,
      **kwargs
      )

# 일부 모델의 경우 토크나이저에 답변 토큰 추가 작업 필요
  if add_output_token :
    initial_token_count = len(tokenizer)
    response_template = '답변: '
    added_token_count = tokenizer.add_special_tokens({"additional_special_tokens": [response_template]})
    model.resize_token_embeddings(new_num_tokens=initial_token_count+added_token_count)

  return model, tokenizer

In [13]:
model,tokenizer = load_model_w_setting(model_id,attn_implementation='eager')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/40.5k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/852 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/39.1k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/10 [00:00<?, ?it/s]

model-00001-of-00010.safetensors:   0%|          | 0.00/1.92G [00:00<?, ?B/s]

model-00002-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00003-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00004-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00005-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00006-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00007-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00008-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00009-of-00010.safetensors:   0%|          | 0.00/1.98G [00:00<?, ?B/s]

model-00010-of-00010.safetensors:   0%|          | 0.00/705M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

In [14]:
#데이터셋 로드
from datasets import load_dataset

# dataset_url = "kdt3/DACON-QA-base-table-preprocessed-v3"
# dataset_url = "kdt3/DACON-QA-base-preprocessed-v2"
# dataset_url = "kdt3/DACON-QA-base-augselect"
# dataset_url = "kdt3/DACON-QA-base-markdown"
# dataset_url = "kdt3/DACON-QA-bge-markdown"
dataset_url = dataset_name


train_dataset = load_dataset(dataset_url)

README.md:   0%|          | 0.00/543 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/583k [00:00<?, ?B/s]

valid-00000-of-00001.parquet:   0%|          | 0.00/156k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/104k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/496 [00:00<?, ? examples/s]

Generating valid split:   0%|          | 0/100 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/98 [00:00<?, ? examples/s]

In [15]:
# 문맥 잘못됐나 확인 - 문맥 길이 체크
import numpy as np
amax = np.argmax([len(x) for x in train_dataset['train']['context']])
amax, len(train_dataset['train']['context'][amax])

(77, 1955)

In [16]:
def print_dataset_ele(data,i):
  print(data['question'][i])
  print('--------')
  print(data['context'][i])
  print('--------')
  print(data['answer'][i])

#예시
i= amax
print_dataset_ele(train_dataset['train'],i)

예산 증감률이 가장 높은 분야는 무엇인가요?
--------
예산개요  
-----  
y g  
제
1  
##### 보건 · 복지 · 고용 분야 부  
## 01  
1-1 재정지원 방향  
2024년 보건·복지·고용분야 재정투자 규모는 242.9조원 수준이며, 총지출 대비 비중이  
37.0%로 12대 분야 중 가장 비중이 크다. 소득·고용·주거 안전망에 대한 투자  
2024년도 예산안 시정연설 및 제안설명  
확충으로 저소득·노인·장애인 등 취약계층을 더욱 두텁게 지원하고, 가족돌봄청년 등
0.9%이다.  
[표 3-2] 2024년 예산지출 규모  
(단위: 조원, %)  
|(nan, '구 (nan, '202|3년 (nan, '|2024년 (nan, '|증감률 \n(B-|
|---|---|---|---|  
분') **\n(A)')** **\n(B)')** **A)/A')**  
0 ■ 예산지출 441.1 438.3 △0.6  
1 •일반회계 369.4 356.5 △3.5  
2 •특별회계 71.6 81.7 14.1
근무복 점퍼도 보온력이 높은 구스 재질로 고품질화하는 한편, 시설관리, 청사방호,  
견위생, 통역 등 공무직 인원 증원도 추진할 예정이다.  
-----  
0 Summary of Budget for FY 2024  
[표 11-4] 경찰 부문 주요 변동내역  
(단위: 억원, %)  
0 합 계 128,064 133,486 4.2  
|구 분 2 (|023년 2 a) (|024년 b)|증감률 ((b-a|)/ 비 고 a)|
계획이다.  
-----  
0 2024년 나라살림예산개  
0 2024  
[표 6-5] 항공·공항 부문 주요 변동내역  
|구 분 2023년 (|b) 2024년 (b|) 증감률 ((b-|a)/a)|
|---|---|---|---|  
1 공항건설 및 관리 1,601 7,374 360.5  
2 항공발전, 운영지원 1,834 1,532 △16.4  
|Col1|Col2|Col3|Col4|
|---|---|---|-

In [17]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,
    lora_alpha=64,
    target_modules=[
        "q_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, config)



In [47]:
# 학습 프롬프트 - 추론 프롬프트와 통일하는 것이 좋다고 함
template = '''
"task_instructions" : [

 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.
 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.
 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.
 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.
 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.
 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, '답변: ', '참고: '를 절대로 출력하지 마세요.

]

"context":
{context},

"question":
{question},

"주어진 질문에 대한 답변만 한 문장으로 생성한다."

"answer":
{answer}'''

response_template = '"answer":\n'

def formatting_prompts_func(example, template=template):
    output_texts = []
    for i in range(len(example['question'])):
        context = example['context'][i]
        question = example['question'][i]
        answer = example['answer'][i]
        output_texts.append(template.format(context=context,question=question,answer=answer))
    return output_texts



In [19]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, roc_auc_score
import collections
# from SQUAD, 메트릭 계산 함수

def compute_f1(y_true, y_pred):
    common = collections.Counter(y_true) & collections.Counter(y_pred)
    num_same = sum(common.values())
    precision = 1.0 * num_same / len(y_pred) if len(y_pred) != 0 else 0
    recall = 1.0 * num_same / len(y_true) if len(y_true) != 0 else 0
    if len(y_pred) == 0 or len(y_true) == 0: f1 = int(y_pred == y_true)
    elif num_same == 0: f1 = 0
    else: f1 = (2 * precision * recall) / (precision + recall)
    return f1, precision, recall

def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    f1, precision, recall = compute_f1(labels,preds)
#    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
    acc = accuracy_score(labels, preds)
    auc = roc_auc_score(labels, preds)
    return {
        'accuracy': acc,
        'f1': f1,
        'precision': precision,
        'recall': recall,
        'auroc': auc
    }

In [50]:
import transformers, os
from datetime import datetime
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM

# 로컬에 모델 저장하고 싶은 경우 이름 지정
project = "financeQA-finetune"
base_model_name = "gemma2"
run_name = base_model_name + "_" + project
output_dir = os.path.join(path,run_name)
if not os.path.exists(output_dir) : os.makedirs(output_dir)

MAX_LEN = 2048

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset['train'],
    eval_dataset = train_dataset['valid'],
    compute_metrics=compute_metrics,
    args=transformers.TrainingArguments(
        do_eval=True,
        output_dir=output_dir,
        warmup_ratio=0.05,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        gradient_checkpointing=True,
        num_train_epochs = 3,
        learning_rate=2e-4,
        fp16=True,
        optim="paged_adamw_8bit",
        logging_strategy='epoch',
        report_to="wandb",
        run_name=wandb_run_name,
        # save_strategy="steps",
        # save_steps=25,

    ),
    max_seq_length=MAX_LEN,
    formatting_func=formatting_prompts_func, # 프롬프트 처리하기 위해 필요
    data_collator=DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, mlm=False), #모델에게 답변생성에만 집중하도록 함
)

model.config.use_cache = False
trainer.train()

trained_model = (trainer.model.module if hasattr(trainer.model, "module") else trainer.model)

#로컬에 저장할 경우
# trained_model.save_pretrained(f"{output_dir}/saved_model")


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map:   0%|          | 0/496 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


Step,Training Loss
124,0.6931
248,0.6625
372,0.644


[34m[1mwandb[0m: Adding directory to artifact (/content/drive/MyDrive/kdt-EST-AI/project/dacon_fis/src/gemma2_financeQA-finetune/checkpoint-372)... Done. 6.7s
  self.scaler = torch.cuda.amp.GradScaler(**kwargs)


In [51]:
train_name

'kdt3/DACON-QA-large-ensemble-markdown-refactored-256'

In [54]:
# 모델 업로드
trained_model.push_to_hub(train_name+'-epoch6', private=True,save_embedding_layers=True)

adapter_model.safetensors:   0%|          | 0.00/2.05G [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/kdt3/DACON-QA-large-ensemble-markdown-refactored-256-epoch6/commit/f2ab3d1c90c4e7f570356ae51ec0d4a4d53313be', commit_message='Upload model', commit_description='', oid='f2ab3d1c90c4e7f570356ae51ec0d4a4d53313be', pr_url=None, pr_revision=None, pr_num=None)

# Langchain 을 이용한 추론

In [63]:
# gpu memory 할당 해제
import gc, time

def free_cuda():
  mem = 1
  while mem > 0 :
    time.sleep(0.5)
    torch.cuda.empty_cache()
    mem = gc.collect()
    print("freed : ",mem)

free_cuda()

freed :  0


In [64]:
# HuggingFacePipeline 객체 생성

# 모델 ID
model_id = model_cands[run_name.split('_')[0]]
peft_model_id = train_name
trained_model,tokenizer = load_model_w_setting(model_id)

#Fine-Tune 한 LoRA 어댑터 불러오기
trained_model.load_adapter(peft_model_id)

text_generation_pipeline = pipeline(
    model=trained_model,
    tokenizer=tokenizer,
    task="text-generation",
    return_full_text=False,
    max_new_tokens=200,
    # repetition_penalty=1.5,
    eos_token_id = tokenizer.eos_token_id,
    pad_token_id = tokenizer.pad_token_id,
    max_length=MAX_LEN
)

llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]



In [65]:
#데이터셋 로드
from datasets import load_dataset
dataset_url = dataset_name
dataset = load_dataset(dataset_url)

In [66]:
# 검증 데이터 쓸지, 테스트 데이터 쓸지
#eval_mode = 'valid
eval_mode = 'test'
eval_dataset = dataset[eval_mode]

In [67]:
# 그냥 GPU 메모리 확인용
!nvidia-smi

Thu Oct  3 10:02:58 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   30C    P0              48W / 400W |  22071MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [68]:
template[:-8]

' \n"task_instructions" : [\n\n 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.\n 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.\n 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.\n 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.\n 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.\n 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.\n 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, \'답변: \', \'참고: \'를 절대로 출력하지 마세요.\n\n]\n\n"context":\n{context},\n\n"question":\n{question},\n\n"주어진 질문에 대한 답변만 한 문장으로 생성한다."\n\n"answer":\n'

In [69]:
from tqdm.auto import trange

# 결과를 저장할 리스트 초기화
results = []

# DATASET 구조를 dataset[i]={'question':,'context':,...}로 바꾸면 안됨?

# Dataset 각 행에 대해 처리
for idx in trange(len(eval_dataset['question']), desc="Answering Questions"):
    #질문, 컨텍스트(문서)
    question = eval_dataset['question'][idx]
    context = eval_dataset['context'][idx]

    # RAG 체인 구성
    prompt = PromptTemplate.from_template(template[:-9])

    # RAG 체인 정의
    if context != "":
        rag_chain = (
            RunnableParallel(context=lambda x: x["context"], question = lambda x: x["question"])
            | prompt
            | llm
            | StrOutputParser()
        )
    else:
        rag_chain = (
            {"question": RunnablePassthrough()}
            | prompt
            | llm
            | StrOutputParser()
        )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke({"question": question, "context": context})

    print(f"Answer: {full_response}\n")

    # 결과 저장

    if context != "":
        results.append({
            "Context": context,
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })
    else:
        results.append({
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })

Answering Questions:   0%|          | 0/98 [00:00<?, ?it/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Question: 2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2022년 혁신창업사업화자금(융자)의 예산은 2,330,000,000원입니다.


Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 중소기업이 보유한 우수 기술의 사장을 방지하고 개발기술의 제품화·사업화를 촉진하여 기술기반 중소기업을 육성하는 것이다.


Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업근거는 어떤 법률에 근거하고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제35조에 근거하고 있습니다.


Question: 2010년에 신규 지원된 혁신창업사업화자금은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2010년에 재창업자금(실패 경영인에 대한 재기지원)이 신규 지원되었습니다.


Question: 혁신창업사업화자금 중 2020년에 신규 지원된 자금은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2020년에는 미래기술육성자금과 고성장촉진자금이 신규로 지원되었습니다.


Question: 재창업자금이 재도약지원자금으로 이관된 연도는 언제인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재창업자금이 재도약지원자금(융자)의 내역사업으로 이관된 연도는 2015.1입니다.


Question: 창업기반지원과 신청 대상이 중복인 자금이 어떤 것이며, 이 자금이 폐지된 연도는 언제인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
창업기반지원과 신청 대상이 중복인 자금은 일자리창출촉진자금이며, 이 자금이 2023년 1월에 폐지되었습니다.


Question: 혁신창업사업화자금(융자) 사업을 시행하는 주체는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
중소벤처기업진흥공단이 혁신창업사업화자금(융자) 사업을 시행하고 있습니다.


Question: 혁신창업사업화자금(융자) 사업 집행절차는 어떻게 되나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
사업계획수립/공고, 사업계획수립/공고 서류 및 현장실사, 융자 실행 지원결정통보 평가 및 승인 순으로 진행됩니다.


Question: 부모급여 지원 사업의 목적은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
출산 및 양육으로 인해 발생하는 소득 손실을 보전하고, 주 양육자의 직접 돌봄이 중요한 영아기의 돌봄을 두텁게 지원하기 위해 부모급여 지급으로 부모의 경제적 부담을 획기적으로 완화한다.


Question: 부모급여(영아수당)의 2024년 확정된 예산은 몇백만원인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
부모급여(영아수당)의 2024년 확정된 예산은 2,888,694백만원입니다.


Question: 부모급여 지원 사업은 어떤 법령상 근거를 갖고 추진되고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
부모급여 지원 사업은 아동수당법 제4조제5항을 근거로 추진되고 있습니다.


Question: 영아수당 도입에 대한 추진경위는 어떻게 되나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
영아수당 지원사업 시행(’22.1~), '부모급여 도입' 대통령 공약사항 및 국정과제에 포함(’22.5.), 부모급여 지급근거를 규정한 ｢아동수당법｣ 개정(’23.5) 이후 부모급여 지원사업 시행(’23.1~) 이루어졌습니다.


Question: 부모급여 지원사업은 언제부터 시행되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
부모급여 지원사업은 2022년 1월부터 시행되었습니다.


Question: 보건복지부의 부모급여(영아수당) 지원 사업시행방법은 무엇이며, 사업 수혜자는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
보건복지부의 부모급여(영아수당) 지원 사업시행방법은 지자체 보조이며, 사업 수혜자는 만 0~1세 아동이다.


Question: 노인장기요양보험 사업 운영에 대한 목적은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
고령이나 노인성 질병으로 일상생활을 혼자서 수행하기 어려운 노인 등에게 신체 또는 가사 활동 등을 제공하여, 효율적인 정책 추진으로 노후의 건강 증진 및 생활 안정을 도모하고 가족의 부담을 완화하여 국민 삶의 질을 향상시키기 위해 노인장기요양보험 사업을 운영한다.


Question: 노인장기요양보험 운영지원에 대한 사업 내용을 설명해줘.


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
노인장기요양보험법에 따라 국가가 국민건강보험 가입자를 장기요양보험 가입자로 본다.


Question: 국고지원을 받는 기타 의료급여수급권자는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
이재민, 의사상자, 국가유공자, 입양아동, 국가무형문화재보유자, 북한이탈주민 등이 있다.


Question: 장기요양보험가입자 및 피부양자의 자격취득과 관련하여 어떤 법률을 준용해야 하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
노인장기요양보험법 제11조에 따라 국민건강보험법 제5조, 제6조, 제8조부터 제11조까지, 제69조제1항부터 제3항까지, 제76조부터 제86조까지 및 제110조를 준용한다.


Question: 노인장기요양보험법이 언제 제정되고 공포되었나?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
노인장기요양보험법은 2007년 4월에 제정되고 공포되었습니다.


Question: 장기요양인정점수 완화가 언제 이루어졌으며, 어떤 변화가 있었나?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
장기요양인정점수 완화는 2012년 7월에 이루어졌으며, 3등급 인정점수가 기존 55~75점에서 53~75점으로 완화되었습니다.
14.7월에 또 한번 3등급 인정점수 완화가 이루어져 기존 53~75점에서 51~75점으로 변경되었습니다.
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1


Question: 장기요양기관 지정갱신제의 법적 근거가 언제 마련되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
장기요양기관 지정갱신제의 법적 근거는 2025년에 시행될 예정으로 2018년 12월에 마련되었습니다.


Question: 22.10월에 요양보호사 1명당 시설수급자 인력배치기준이 개선된 내용은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
요양보호사 1명당 시설수급자 수가 2.5명에서 2.3명으로 변경되었습니다.


Question: 에너지 바우처 제도의 주요 내용은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
에너지 바우처 제도는 경제적 부담으로 에너지 이용에 어려움을 겪는 에너지 소외 계층에게 전기·가스·지역난방 등 에너지 이용에 필요한 비용을 지원하는 제도입니다.


Question: 에너지바우처 사업의 주요 수혜자는 누구인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
노인, 장애인, 영유아, 임산부, 중증·희귀‧중증난치질환자, 한부모, 소년소녀가정 포함 세대


Question: 2024년 에너지바우처 사업의 사업시행주체는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
에너지바우처 사업의 사업시행주체는 한국에너지공단과 한국광해광업공단입니다.


Question: 하절기바우처와 동절기바우처의 2024년 예산 규모는 각각 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
하절기바우처의 2024년 예산은 60,950백만원이며, 동절기바우처의 2024년 예산은 600,521백만원입니다.


Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 에너지복지 홍보에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer:  에너지바우처 사업운영비 중 에너지복지 홍보에 448백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 705백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 콜센터 운영에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2023년 에너지바우처 사업 예산에서 콜센터 운영에 502.7백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 패널조사에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2023년 에너지바우처 사업 예산에서 패널조사에 131.7백만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 에너지바우처 전달체계 구축에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
에너지바우처 전달체계 구축에 3460만원이 할당되었습니다.


Question: 2023년 에너지바우처 사업 예산에서 주택관리공단 운영지원에 얼마가 할당되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2023년 에너지바우처 사업 예산에서 주택관리공단 운영지원에 50백만원이 할당되었습니다.


Question: 에너지바우처 사업의 향후 기대효과는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
저소득층의 적정수준 에너지 접근성이 높아지고, 취약계층의 에너지 비용 부담이 약 115만 세대, 세대당 평균 36.7만원 내외 경감된다.


Question: 에너지바우처 사업에 대한 예비타당성조사를 어떤 조사기관이 수행했나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
에너지바우처 사업에 대한 예비타당성조사는 KDI(한국개발연구원 공공투자관리센터)가 수행했습니다.


Question: 21년 국정감사에서 에너지 바우처 사업에 대한 주요 지적사항은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
저소득층의 폭염 피해 최소화를 위해 동절기 에너지바우처 일부를 하절기에 사용할 수 있도록 제도 개선할 것


Question: 21년 에너지바우처 사업에 대한 결산 지적사항은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
수급자 변경 등으로 예산부족이 발생하지 않도록 급여 선정기준 등의 변경계획 등에 대하여 보건복지부·지자체와 면밀히 소통하여 예산을 편성하고 사업을 추진해야 한다.
"


Question: 에너지 바우처 사업의 향후 추진방향 중 '취약계층의 에너지 비용 부담 완화'를 위한 계획은 무엇이었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
폭염 및 한파 등 기후변화와 에너지가격 상승에 따른 취약계층의 에너지 비용 부담 완화를 위해 지속적 지원단가 현실화 추진


Question: 행복주택출자 사업은 어떤 근거로 추진되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
행복주택출자 사업은 주택도시기금법 제9조제1항가목과 공공주택특별법 제2조1호가목에 근거하여 추진되고 있다.


Question: 행복주택출자 사업은 어떤 목적으로 시행되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
국민의 행복주거 실현을 위한 보편적 주거복지 정책의 일환으로 도심 내 다양한 부지를 활용하여 행복주택을 공급하기 위해 시행된다.


Question: 행복주택출자 사업의 주요 수혜자는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
대학생・사회초년생・신혼부부 등 젊은층(80%), 고령자 및 주거취약계층(20%) 이 행복주택출자 사업의 주요 수혜자이다.


Question: 행복주택출자 사업의 사업비 추이는 어떠한가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
최근 5년간(2018~2024년) 행복주택출자 사업에 투입된 사업비는 각 연도별로 1,267,123백만원, 1,105,291백만원, 775,293백만원, 684,607백만원, 528,783백만원입니다.


Question: 행복주택출자 사업의 사업시행주체는 누구인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
사업시행주체는 한국토지주택공사(LH)와 지자체(지방공사)이다.


Question: 국고보조사업의 보조율은 어떠한 기준에 따라 운용되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
국고보조사업의 보조율은 「보조금법」과 함께 일부 개별 법령에 근거하여 운영된다.


Question: 프랑스의 재정조정제도에서 최근 강조되는 형평교부금은 어떤 역할을 하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
프랑스의 재정조정제도에서 최근 강조되는 수평적 형평교부금은 중앙정부의 재정적자로 인한 수평적 재정 불균형을 완화하기 위해 사용된다.


Question: 지방재정조정제도의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
지방자치단체 간 재정력 격차의 시정, 지역 간 외부 효과의 내부화를 통한 지방공공재 공급, 중앙정부의 위임사무에 대한 비용 부담 등을 목적으로 재정을 조정하는 일련의 조치를 의미합니다.


Question: 국제적으로 성과중심 재정관리 강화 움직임이 확산된 시기는 언제인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2000년대 후반 금융위기 이후로 성과중심 재정관리 강화 움직임이 국제적으로 확산되었습니다.


Question: 한국의 재정사업 성과관리제도는 어떠한 법을 통해 운영되고 있으며, 성과관리 기본계획과 추진계획은 어떻게 의무화되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
한국의 재정사업 성과관리는 '21년 12월 국가재정법 개정을 통해 별도의 장(章) 신설로 개념 및 체계 명확화되고, 성과관리 기본계획(5개년) 및 추진계획(연간) 수립이 의무화되었다.


Question: 핵심재정사업 성과관리제도를 안착시키기 위해 필요한 노력과 성과 정보를 학습의 도구로 활용하는 방안은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
성과정보를 사용해 목표 진행 상황을 정기적으로 평가·공개하고, 지속적 개선에 대한 약속 공유함으로써 핵심재정사업 성과관리제도를 안착시켜 나갈 수 있다.


Question: 사회보험 사각지대 발생의 주요 원인과 이로 인해 발생하는 문제는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
사회보험 가입이 법적 의무가 아니고 사업주의 비용 절감, 보험 가입에 따른 근로자의 실질 가처분 소득 감소 등으로 고용 취약계층 및 소규모 사업장일수록 사회보험 가입이 저조하여 사각지대가 발생하고, 이로 인해 저소득 근로자, 예술인, 특수형태 근로 종사자 등이 사회보험의 보호 대상 범위 밖에 놓이게 됩니다.
"


Question: 청년일자리도약장려금은 어떤 대상을 지원하며, 어떤 방식으로 지원되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
만15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 청년일자리도약장려금을 통해 최대 1,200만원을 지원한다.


Question: 수직적 재정조정제도와 수평적 재정조정제도의 차이는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
수직적 재정조정제도는 정부 층위에 따라 발생하는 지출과 자체수입 간 차이를 해소하기 위해 중앙-지방 간 또는 광역-기초 간에 재원을 이전하는 반면, 수평적 재정조정제도는 지방자치단체 간에 재원을 재배분하는 것을 말합니다.


Question: 지방재정조정제도는 어떤 목적을 가지고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
지방자치단체 간 재정력 격차의 시정, 지역 간 외부 효과의 내부화를 통한 지방공공재 공급, 중앙정부의 위임사무에 대한 비용 부담 등을 목적으로 재정을 조정하는 일련의 조치를 의미합니다.


Question: 중앙-지방 간 재정조정제도에서 어떤 재원을 이전하여 수직적 재정 불균형을 해소하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
지방교부세와 국고보조금을 중심으로 재정이 이전되어 수직적 재정 불균형을 해소한다.


Question: 중앙정부의 예산편성은 어떤 재원 배분 문제를 결정하며, 중앙-지방 간 재정조정제도를 통해 어떤 재원을 이전하고, 이의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
중앙정부의 예산편성은 지방자치단체에 얼마의 재원을 어떤 기준에 따라 배분할 것인가에 대한 문제를 결정하며, 중앙-지방 간 재정조정제도는 지방교부세와 국고보조금을 이전하여 지방자치단체의 재정력을 강화하고 국가 재정의 재배분을 통해 지방자치단체의 기본적인 수요에 대한 지출을 촉진하고자 한다.


Question: 재정사업 성과관리제도의 필요성이 대두된 시기와 한국의 재정사업 성과관리제도가 어떤 법에 근거하여 운영되고 있는지 설명하시오.


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2007년 '국가재정법' 시행 이후 최소한의 법 조항으로 운영되었던 한국의 재정사업 성과관리제도는 2021년 12월 법 개정을 통해 별도의 장(章) 신설로 개념 및 체계 명확화


Question: 청년일자리도약장려금은 어떤 대상을 지원하며, 어떤 방식으로 지원되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
만15~34세의 취업애로청년을 정규직으로 채용 후 6개월 고용유지하는 경우 최장 2년간 청년일자리도약장려금을 통해 최대 1,200만원을 지원한다.


Question: 재정성과관리제도는 어떤 측면에서 국정운영과 연결되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리제도는 전략목표와 우선순위를 중심으로 재정사업을 재구조화한다는 점에서 국정운영과 연결된다.


Question: 성과관리의 실효성 강화를 위해 정부가 취한 조치는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
정부는 2021년 「국가재정법」 개정으로 성과 중심 재정운용 강화를 위해 성과관리를 위한 별도의 장을 신설하고 성과관리 규정을 정비하였다.


Question: 재정성과관리 관련 주요 쟁점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
국가재정법상 재정사업 평가인 재정사업 자율평가의 대상, 범위, 효과, 개편 등은 지속적으로 논의되어야 하며, 개별 법령에 따라 실시되는 평가 대상 간 중복 최소화 노력 필요, 재정성과관리 결과를 재정 운용에 반영하고, 또 국민에게 알기 쉽게 홍보할 수 있도록 공개하기 위한 지속적 인 조치 필요



Question: 재정성과관리가 왜 중요한가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리는 재정을 결과 또는 산출 지향적으로 운영하여 산출의 우선순위를 명확히 하고 국민에게 재정이 하는 일을 보다 알기 쉽게 설명할 수 있기 때문에 중요하다.


Question: 재정성과관리는 무엇을 목표로 하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리는 재정사업의 기획에서 집행, 환류, 종료에 이르는 전 주기를 체계적으로 관리하여 효율적 재정 운용을 뒷받침하고, 관련 정보를 국민에게 공개하여 책임성을 확보하는 것을 목표로 한다.


Question: 어떤 국제기구들이 사업을 기준으로 예산을 나누어 성과 정보를 생산하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
OECD, World Bank 등이 사업을 기준으로 예산을 나누어 성과 정보를 생산하고 있습니다.


Question: 재정성과관리의 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
정부 재정의 투명성·책임성, 효율성·효과성, 예산재분배 등이 재정성과관리의 목적이다.


Question: 2021년 「국가재정법」 개정으로 어떤 규정이 신설되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2021년 「국가재정법」 개정으로 동 법에 의한 재정사업 평가와 개별 법령에 따라 실시되는 평가 대상 중복이 최소화되도록 하는 규정이 신설되었습니다.


Question: 성과관리제도는 지출 구조조정을 위해 어떤 방향으로 추진되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2022년도 재정사업평가에서는 평가 확대, 평가의 환류 기준 강화, 의무적 지출구조조정 재도입을 추진하고 있다.


Question: 재정사업 자율평가의 목적은 무엇이며, 어떤 방식으로 제도 개선이 이루어졌는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정사업 자율평가의 목적은 성과관리의 실효성 제고, 환경 변화에 대한 적응, 평가 및 피평가자 피로도 경감, 기계적인 예산과 성과관리 연동 폐지를 통한 재정사업 구조조정 합리화 등을 목적으로 하며, 평가 대상 사업의 범위, 평가 주기, 상위 평가 방식 등에서 지속적인 제도 개선이 이루어졌습니다.


Question: 2016년 재정성과관리제도의 환류 개선사항은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2016년도 환류 개선을 통해 평가 대상 사업 전체 예산의 1% 이내에서 부처에서 자율적으로 세출구조조정을 마련하도록 하고 우수 등급 사업도 지출구조조정이 가능하게 하는 한편, 구조조정이 어려운 사업에 대해서는 성과관리 개선대책을 제출하게 하였으며 현재도 이 틀에서 환류 수행하였다.


Question: 2018년도에 재정성과관리제도 개선사항과, 이로 인해 어떤 효과가 발생했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2018년도 재정성과관리제도 개선으로 각 부처에서 지표와 배점 기준을 자율적으로 하도록 하여 부처의 자율적인 재정사업 성과관리 확대, 성과관리체계 단순화, 예산과 성과관리의 기계적 연동 폐지, 합리적 재정사업 구조조정 등으로 성과관리 실효성 제고, 부처 자율성 강화, 재정당국의 성과관리 전략성 강화에 기여하였다.


Question: 재정사업 자율평가의 전면 개편을 통해 어떤 중점 추진과제가 제시되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
성과관리 사각지대 해소, 사업성과평가의 예산편성 활용 확대를 위한 중점 추진과제가 제시되었다.


Question: 재정성과관리제도의 중요성과 국정운영과의 연결성은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리제도는 전략목표와 우선순위를 중심으로 재정사업을 재구조화하여 지출 우선순위 측면에서 재정을 중장기 시계로 확장시켜 국정운영과 연결된다.


Question: 재정성과관리체계 강화를 위해 정부가 어떤 제도를 제시했으며, 재정성과관리는 무엇을 목표로 하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
정부는 110대 국정과제 중 재정 정상화 및 재정의 지속 가능성 확보를 위해 재정성과관리체계 강화를 제시했으며, 재정성과관리는 단순 예산·결산 중심에서 벗어나 재정을 결과 또는 산출 지향적으로 운영하는 것을 목표로 한다.


Question: 재정성과관리는 어떤 과정에서 수행되며, 무엇을 증진하기 위해 활동하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리는 예산 편성에서 집행, 결산에 이르는 전 과정에서 수행되며, 지출 효율성을 증진하기 위해 재정지출이 달성해야 할 목표를 정확히 설정하고, 이의 달성도를 지속적으로 관리하는 활동이다.


Question: 재정성과관리의 목적과 우리나라의 재정성과관리제도가 프로그램 예산제도로 전환된 시기는?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정성과관리의 목적은 정부 재정의 투명성·책임성, 효율성·효과성, 예산재분배 등이며, 우리나라는 2006년에 프로그램 예산제도로 전환하였다.


Question: 2007년과 2021년에 각각 「국가재정법」이 개정되면서 성과관리 제도는 어떻게 강화되고 구체화되었으며, 이 개정의 주된 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2007년 개정으로 성과계획서 제출이 의무화되었고, 2021년 개정으로 성과관리의 내용을 성과목표관리 및 성과평가로 구체화하고 성과관리 규정을 정비하여 성과 중심 재정운용을 강화하고자 했다.


Question: 재정사업 자율평가의 목적과 제도 개선 방식은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
성과관리의 실효성 제고, 환경 변화에 대한 적응, 평가 및 피평가자 피로도 경감, 기계적인 예산과 성과관리 연동 폐지를 통한 재정사업 구조조정 합리화 등을 목적으로 평가 대상 사업의 범위, 평가 주기, 상위 평가 방식 등에서 지속적인 제도 개선이 이루어지고 있다.


Question: 2015년 이전과 2016년에 재정성과 평가 결과 처리 방식과 환류 개선 방식은 어떻게 달라졌는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
2015년 이전에는 평가 결과에 따라 일률적으로 사업에 삭감이 이루어졌지만, 2016년부터는 평가 대상 사업 전체 예산의 1% 이내에서 부처에서 자율적으로 세출구조조정을 마련하도록 하여 우수 등급 사업도 지출구조조정이 가능하게 되었고, 구조조정이 어려운 사업에 대해서는 성과관리 개선대책을 제출하게 되었다.


Question: 재정관리시스템 구축과 성과관리 개편을 추진하는 주된 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
재정관리시스템 구축과 성과관리 개편을 통해 지속적으로 제도 개선, 인프라 개선을 해나가 재정 운용의 효율성, 책임성을 제고하고자 함



Question: 우리나라에서는 언제부터 발생주의 기준을 적용한 국가결산보고서에서 우발부채를 보고하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
우리나라는 2011년부터 발생주의 기준을 적용한 국가결산보고서에서 우발부채를 보고하고 있다.


Question: 우발부채 관련 주요 쟁점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
우발부채 개념 및 용어 사용의 혼란, 우발부채 분류기준 재검토, 새로운 분류기준 정립이 주요 쟁점이다.


Question: 우발부채의 관리는 왜 중요한 이슈로 여겨지는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
우발부채의 관리가 지속 가능한 재정 운영 차원에서 중요한 이슈로 여겨지기 때문이다.


Question: 우발부채와 부채의 차이점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
우발부채는 예기치 못한 사건으로 인해 발생하는 재정위험의 구체적 원인이 되는 반면, 부채는 의도적인 공공정책이나 재정위기와 같이 계획된 금융거래로 인식된다.


Question: 발생주의와 현금주의의 차이는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
발생주의는 경제적 거래가 발생하는 시점에 거래를 기록하는 방식이며, 현금주의는 현금을 수취하거나 지급하는 시점에 거래를 기록하는 방식이다.


Question: 채무지속가능성분석은 어떤 목적을 가지고 도입되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
채무지속가능성분석(DSA)는 잠재적 재정위기 감지, 예방, 해결을 위한 IMF의 노력으로 2002년에 도입되었다.


Question: 의제의무란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
의제의무(擬制義務, constructive obligation)란 발표된 정부방침 또는 구체적이고 유효한 약속이나 과거의 실무관행 등을 통해 중앙관서 또는 기금이 특정 책임을 부담한다는 것을 표명함으로써 상대방이 그 책임을 이행할 것이라는 정당한 기대를 가지게 되는 경우 발생하는 의무를 말한다.


Question: 국제통화기금이 재정통계 작성의 국제기준을 제시하기 위해 발간한 매뉴얼은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
국제통화기금(IMF)은 재정통계 작성의 국제기준을 제시하기 위해 1986년 재정통계 매니얼(Government Finance Statistics Manual, GFSM)을 처음 발간하였으며, 이후 2001년과 2014년 총 2차례의 개정이 있었다.


Question: 계류중인 소송사건이란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
계류중인 소송사건은 정부가 원고인 경우와 피고인 경우 각각을 주석으로 공시하며, 다만 자원의 유출 가능성이 매우 높은 경우에는 소송충당부채로 공시한다.


Question: 최소운영수입보장(BTO 등) 제도란 무엇을 의미하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
최소운영수입보장 제도는 주로 BTO 민간투자사업 중 실시협약서 상 추정 수입보다 실제 수입이 미치지 못하는 경우 정부가 최소운영수입을 보장해 주는 제도이다.


Question: 우발부채에 대한 내용으로 대표적으로 어떤 사항이 해당되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
대표적으로 장기임차토지의 원상회복의무, 공공금융비용, 공공손실부담 등이 우발부채에 해당한다.


Question: GFSM2014에서는 우발부채를 어떻게 구분하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
GFSM2014는 우발부채를 명시적(explicit) 우발부채와 암묵적(implicit) 우발부채로 구분합니다.


Question: GFSM은 몇 차례의 개정을 거쳤으며, 어떠한 목적으로 GFSM 2001이 개정되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
GFSM은 총 2차례(2001년, 2014년)의 개정을 거쳤으며, GFSM 2001은 전면 개정을 통해 현재의 발생주의 기준 GFS체계를 구축하기 위해 개정되었다.


Question: 표준화 보증이란 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
표준화 보증은 통상 아주 적은 금액에 대해 획일적 조건으로 대규모로 발행하는 보증을 말한다.


Question: 표준화 보증에서 공공부문의 우발부채는 어떻게 인식되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
표준화 보증은 부채로 인식되지만, 공공부문의 우발부채로는 분류되지, 대신 표준화 보증 충당부채로 인식된다.


Question: 재정정책에서 공적보증채무와 다른 일회성 보증은 어떻게 구분되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
공적보증채무는 보증인이 기타 공공부문과 민간부문 단위 기존 채무의 원리금 상환을 보증한다는 점에서 다르며, 재정정책 및 분석에서 중요


Question: 미래사회보장급여에 대한 순의무란 무엇을 의미하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
미래사회보장급여에 대한 순의무는 현행법과 규정에 따라 이미 가입자가 획득한 미래 급여의 현재가치에서 현행법과 규정에 따른 사회보장제도의 미래보험료의 순현재가치를 차감한 것을 인식한다.


Question: 국가결산보고서와 지방자치단체 회계기준에서 우발부채에 대한 용어 및 회계처리가 어떻게 다른가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
국가결산보고서는 '우발사항'으로 공시하는 반면, 지방자치단체 회계기준은 '우발손실'로 정의하고 있습니다.


Question: 우발부채란 무엇이며, 그 관리가 왜 중요한가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 
우발부채는 미래의 다양한 의제의무를 포괄하는 재정위험을 발생시키는 구체적 원인으로, 재정위기나 예기치 못한 사건으로 인해 발생할 수 있으며, 지속가능한 재정운영을 위해 관리가 중요합니다.


Question: 보증이란 무엇이며, 어떤 형태의 보증이 재정상태표에 부채로 기록되는가? 또한 표준화 보증이란 무엇이며, 어떤 목적으로 발행되는가?
Answer: 
보증이란 피보증처의 부채에 대해 지급을 보증하는 것을 말하며, 파생금융상품 형태의 보증과 표준화 보증은 재정상태표에 부채로 기록되며, 표준화 보증은 통상 아주 적은 금액에 대해 획일적 조건으로 대규모로 발행하는 보증으로 수출, 환보증 등 다양한 목적으로 발행된다.




In [71]:
i = 28
print_dataset_ele(eval_dataset,i)

2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 얼마가 할당되었나요?
--------
-  대상자 확대 등에 따른 홍보, 시스템 고도화, 콜센터 운영 비용 증액  
-  (산출) 에너지복지 홍보(448백만원), 시스템 고도화(705백만원), 콜센터 운영(502.7백만원), 패널조사  
(131.7백만원), 전달체계 구축(34.6백만원), 주택관리공단 운영지원(50백만원)  
ㅇ 2023년도 예산 및 2024년도 예산 산출 세부내역 비교
업운영비 (1,349백만원) ㆍ 에너지복 0.33만 세대 × 31만원 = 1,023백만원
지 홍보: 328백만원 ㆍ 시스템 고도 마. 사업운영비 (1,872백만원) ㆍ 에너지
화 : 520백만원 ㆍ 콜센터 운영 : 280 복지 홍보: 448백만원 ㆍ 시스템 고도화 :
백만원 ㆍ 패널조사 : 133.5백만원 705백만원 ㆍ 콜센터 운영 : 502.7백만원
ㆍ 에너지바우처 전달체계 구축 : ㆍ 패널조사 : 131.7백만원 ㆍ 에너지바우
-「새정부 에너지정책 방향(국무회의 의결)」을 통해 필수 에너지복지 확대[*] 발표(’22.7)  
-  (에너지바우처) 에너지바우처 지원 확대를 통해 에너지복지 사각지대 해소 추진  
-  2023년도 에너지바우처 사업 시행(‘23.5~’23.12월 신청·접수, ‘23.7~’24.4월 사용)  
□ 주요내용  
① 사업규모  
-  총사업비(해당되는 경우에만 기재) : 해당없음  
-  사업기간 : ’15년 ~ 계속
## 9) 최근 3년간 동 사업에 대한 주요 외부지적사항 및 평가, 문제점 및 대책  
□ ‘21년 국정감사 지적사항  
ㅇ 저소득층의 폭염 피해 최소화를 위해 동절기 에너지바우처 일부를 하절기에 사용  
할 수 있도록 제도 개선할 것  
- 희망세대 대상으로 동절기 에너지바우처 중 일부를 하절기에 사용할 수 있도록  
시스템 개선하였음(‘22.5월)  
□ ‘21년 결산 지적사항
백만원 라. 등유바우처 (1,023백만원) ㆍ 0.33만 세대 × 31만원 = 1,02

In [72]:
def post_process(ans):
  ans = ans.strip()
  return ans.split('\n')[0]

# Evaluation

In [73]:
rslt_df = pd.DataFrame(results)
rslt_df['Answer_post'] = rslt_df['Answer'].apply(post_process)

if eval_mode == 'valid':
  temp0 = rslt_df[['Answer','True_Answer']].apply(compute_f1,axis=1)
  temp1 = rslt_df[['Answer_post','True_Answer']].apply(compute_f1,axis=1)
  display(temp0)
  rslt_df[['F1_0','Precision_0','Recall_0']] = pd.DataFrame(temp0.tolist(), index= temp0.index)
  rslt_df[['F1_1','Precision_1','Recall_1']] = pd.DataFrame(temp1.tolist(), index= temp1.index)

rslt_df

Unnamed: 0,Context,Question,Answer,True_Answer,Answer_post
0,- 2022. 1 미래기술육성자금 및 고성장촉진자금 사업 폐지 \n- 2023...,2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?,"\n2022년 혁신창업사업화자금(융자)의 예산은 2,330,000,000원입니다.\n",,"2022년 혁신창업사업화자금(융자)의 예산은 2,330,000,000원입니다."
1,## 4. 사업목적 \nㅇ (창업기반지원) 기술력과 사업성이 우수하고 미래 성장가...,중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 무엇인가요?,\n중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 중소기업이 보유한 우수 기술...,,중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 중소기업이 보유한 우수 기술의 ...
2,|0 코드|5100 5152|301||\n|1 명칭|창업환경조성 창업기업지원|융자(...,중소벤처기업부의 혁신창업사업화자금(융자) 사업근거는 어떤 법률에 근거하고 있나요?,"\n중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제3...",,"중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제35조..."
3,"- 2014. 2 경제혁신 3개년 계획에 반영(청년전용창업자금, 재창업자금) \...",2010년에 신규 지원된 혁신창업사업화자금은 무엇인가요?,\n2010년에 재창업자금(실패 경영인에 대한 재기지원)이 신규 지원되었습니다.\n,,2010년에 재창업자금(실패 경영인에 대한 재기지원)이 신규 지원되었습니다.
4,"- 2014. 2 경제혁신 3개년 계획에 반영(청년전용창업자금, 재창업자금) \...",혁신창업사업화자금 중 2020년에 신규 지원된 자금은 무엇인가요?,\n2020년에는 미래기술육성자금과 고성장촉진자금이 신규로 지원되었습니다.\n,,2020년에는 미래기술육성자금과 고성장촉진자금이 신규로 지원되었습니다.
...,...,...,...,...,...
93,하는 공적보증채무(publicly guaranteed debt)에 해당 \n- ...,재정정책에서 공적보증채무와 다른 일회성 보증은 어떻게 구분되는가?,\n공적보증채무는 보증인이 기타 공공부문과 민간부문 단위 기존 채무의 원리금 상환을...,,공적보증채무는 보증인이 기타 공공부문과 민간부문 단위 기존 채무의 원리금 상환을 보...
94,"다고 여겨 정부의 계약상 부채를 초래하지 않는 것으로 간주하며, 우발부채로 인식 ...",미래사회보장급여에 대한 순의무란 무엇을 의미하는가?,\n미래사회보장급여에 대한 순의무는 현행법과 규정에 따라 이미 가입자가 획득한 미래...,,미래사회보장급여에 대한 순의무는 현행법과 규정에 따라 이미 가입자가 획득한 미래 급...
95,"- 「국가회계기준에 관한 규칙」은 제50조에서 ‘충당부채’, ‘우발부채’ 및 ‘우...",국가결산보고서와 지방자치단체 회계기준에서 우발부채에 대한 용어 및 회계처리가 어떻게...,"\n국가결산보고서는 '우발사항'으로 공시하는 반면, 지방자치단체 회계기준은 '우발손...",,"국가결산보고서는 '우발사항'으로 공시하는 반면, 지방자치단체 회계기준은 '우발손실'..."
96,사용에 혼란이 있고 분류상 오류가 있는 등 체계적 관리 대안에 대한 논의가 필요한 ...,"우발부채란 무엇이며, 그 관리가 왜 중요한가?",\n우발부채는 미래의 다양한 의제의무를 포괄하는 재정위험을 발생시키는 구체적 원인으...,,"우발부채는 미래의 다양한 의제의무를 포괄하는 재정위험을 발생시키는 구체적 원인으로,..."


In [74]:
if eval_mode == 'valid' :
  display("결과 : ",rslt_df["F1_0"].mean())
  display("결과 : ",rslt_df["F1_1"].mean())

In [75]:
if eval_mode == 'valid':
  # 제출용 샘플 파일 로드
  eval_df = rslt_df
  save_dir = os.path.join(path,'eval')
  if not os.path.exists(save_dir) : os.makedirs(save_dir)
  save_name = f'eval_{fname}'
  save_path = os.path.join(save_dir,save_name)

  # 결과를 CSV 파일로 저장
  eval_df.to_csv(save_path, encoding='UTF-8-sig', index=False)

In [76]:
#검증 데이터 쓸때만 사용 가능
if eval_mode == 'valid':
  for item in results:
      y_hat = item["Answer"]
      y = item["True_Answer"]
      f1, precision, recall = compute_f1(y, y_hat)
      item["F1"] = f1
      item["Precision"] = precision
      item["Recall"] = recall

# Submission

In [77]:
submit_df = pd.read_csv(f"{path}sample_submission.csv")
submit_df.head()

Unnamed: 0,SAMPLE_ID,Answer
0,TEST_000,데이콘
1,TEST_001,데이콘
2,TEST_002,데이콘
3,TEST_003,데이콘
4,TEST_004,데이콘


In [78]:
fname

'gemma2_large_ensemble_markdown_256_3epoch_refactored.csv'

In [79]:
fname = 'gemma2_large_ensemble_markdown_256_6epoch_refactored.csv'

In [80]:
# 제출용 샘플 파일 로드
submit_df = pd.read_csv(f"{path}sample_submission.csv")

# 생성된 답변을 제출 DataFrame에 추가
save_mode = 'submission'

if save_mode != 'submission' :
  submit_df['Question'] = [item['Question'] for item in results]
  submit_df['Context'] = [item['Context'] for item in results]
  save_dir = os.path.join(path,'eval')
else : save_dir = os.path.join(path,'sub')

if not os.path.exists(save_dir) : os.makedirs(save_dir)
save_path1 = os.path.join(save_dir,fname[:-4]+'_1.csv')
save_path2 = os.path.join(save_dir,fname[:-4]+'_2.csv')

submit_df['Answer'] = [item['Answer'] for item in results]
submit_df['Answer'] = submit_df['Answer'].fillna("데이콘").apply(str.strip)

# 결과를 CSV 파일로 저장
submit_df.to_csv(save_path1, encoding='UTF-8-sig', index=False)

# 후처리
#submit_df['Answer'] = submit_df.Answer.str.split('\n').str[0]
submit_df['Answer'] = submit_df.Answer.apply(post_process)
display(submit_df)
submit_df.to_csv(save_path2, encoding='UTF-8-sig', index=False)

Unnamed: 0,SAMPLE_ID,Answer
0,TEST_000,"2022년 혁신창업사업화자금(융자)의 예산은 2,330,000,000원입니다."
1,TEST_001,중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 중소기업이 보유한 우수 기술의 ...
2,TEST_002,"중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제35조..."
3,TEST_003,2010년에 재창업자금(실패 경영인에 대한 재기지원)이 신규 지원되었습니다.
4,TEST_004,2020년에는 미래기술육성자금과 고성장촉진자금이 신규로 지원되었습니다.
...,...,...
93,TEST_093,공적보증채무는 보증인이 기타 공공부문과 민간부문 단위 기존 채무의 원리금 상환을 보...
94,TEST_094,미래사회보장급여에 대한 순의무는 현행법과 규정에 따라 이미 가입자가 획득한 미래 급...
95,TEST_095,"국가결산보고서는 '우발사항'으로 공시하는 반면, 지방자치단체 회계기준은 '우발손실'..."
96,TEST_096,"우발부채는 미래의 다양한 의제의무를 포괄하는 재정위험을 발생시키는 구체적 원인으로,..."
