In [None]:
!nvidia-smi

Tue Oct  1 13:43:11 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   32C    P0              46W / 400W |      2MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [None]:
df

In [None]:
path = '/content/drive/MyDrive/DACON/Finance/reprocessed/'
path = '/content/drive/MyDrive/kdt-EST-AI/project/dacon_fis/src/'
base_directory = path # Your Base Directory

In [None]:
dataset_name = "kdt3/DACON-QA-large-ensemble-markdown-reprocessed-256"
train_name = "kdt3/DACON-QA-large-ensemble-markdown-refactored-256"
fname = "gemma2_large_ensemble_markdown_256_3epoch_refactored.csv"

# 설명

## Question - Answering with Retrieval

본 대회의 과제는 중앙정부 재정 정보에 대한 **검색 기능**을 개선하고 활용도를 높이는 질의응답 알고리즘을 개발하는 것입니다. <br>이를 통해 방대한 재정 데이터를 일반 국민과 전문가 모두가 쉽게 접근하고 활용할 수 있도록 하는 것이 목표입니다. <br><br>
베이스라인에서는 평가 데이터셋만을 활용하여 source pdf 마다 Vector DB를 구축한 뒤 langchain 라이브러리와 llama-2-ko-7b 모델을 사용하여 RAG 프로세스를 통해 추론하는 과정을 담고 있습니다. <br>( train_set을 활용한 훈련 과정은 포함하지 않으며, test_set  에 대한 추론만 진행합니다. )

## Mount/Login

구글 드라이브를 마운트하고 허깅페이스에 로그인
- 이때 허깅페이스 토큰은 kdt3 그룹에 대해 읽기/쓰기 권한이 있는 토큰이어야 함

## Download Library
필요/사용 라이브러리 다운로드
이때 버전 문제로 설치를 한 뒤 세션을 한번 재시작해줘야 합니다
<br>(그리고 세션 완전히 끊기면 다운로드 후 재시작을 다시 해줘야...)

## Import Library
한번 재시작했으면 위 과정 없이 Import만 실행해주면 됩니다

## Vector DB
문서를 여러 조각(chunk)로 나누고, 임베딩 유사도를 통해 관련 조각을 찾을 수 있게 DB화하는 함수들이 정의되어 있습니다.

## DB 생성
Vector DB에서 정의된 함수들로 문서 DB를 만들어줍니다.<br><br>
이때 Train과 Test를 한번에 하려고 하면 코랩이 터질 확률이 높으므로 Train하고 Create Dataset까지 실행해 업로드 한 뒤 재시작해서 램을 비우고 Test를 하는 것이 좋습니다.<br> 또한 문서 임베딩을 어떤 모델로 할지 인자로 넘겨줄 수 있습니다

## Create Dataset
DB 생성에서 만든 db와 데이터 dataframe을 사용해 HuggingFace 데이터셋 생성 후 업로드

## Fine-Tuning
학습 데이터셋으로 모델에 대한 파인튜닝 진행 후 Huggingface에 업로드<br>
4비트 양자화 LoRA로 파인튜닝<br>
기반 모델 또는 넣어줄때 사용할 프롬프트, 학습 관련 하이퍼파라미터 수정 가능

## Langchain 을 이용한 추론
모델을 사용한 추론


## 실행
### 기본
Mount/Login -> Download Library -> 재시작 (처음 1번)
Mount/Login -> Import Library (이후)

### 데이터셋 만들기
기본 -> Vector DB -> DB 생성 -> Create Dataset에서 첫 셀 + Train/Valid/Test 중 해당하는 셀

### 모델 학습하기
기본 -> Fine-Tuning(업로드할 위치, 데이터셋 위치, 모델 링크 확인 필수)

### 학습된 모델로 추론하기
기본 -> Langchain을 이용한 추론(모델 링크, 데이터셋 위치 확인) -> Submission(저장할 파일명 확인)

# Mount/Login

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os

token_path = os.path.join(base_directory,'data','token')
with open(token_path,'r') as f:
    hf_token = f.readline().strip('\n')
    wandb_token = f.readline().strip('\n')

In [None]:
from huggingface_hub import login

login(token=hf_token, add_to_git_credential=True)

Token is valid (permission: fineGrained).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
!pip install wandb
import wandb

# wandb 개인 API 키 입력
wandb.login(key=wandb_token)

import os

os.environ["WANDB_PROJECT"]="DACON_FinAI"
os.environ["WANDB_LOG_MODEL"] = "checkpoint"
wandb_run_name="noaug-Llama3.1-lora-base"

# Download Library

In [None]:
#!pip install unstructured pdfminer.six
#!pip install pillow-heif
#!pip install unstructured_inference
#!pip install unstructured_pytesseract
#!pip install pikepdf pypdf
#!pip install PyMuPDF

In [None]:
!apt-get install tesseract-ocr
!apt-get install poppler-utils

!pip install orjson==3.10.6

!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes
!pip install transformers[torch] -U

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install langchain-teddynote
!pip install sentence-transformers
!pip install faiss-gpu
!pip install peft
!pip install trl

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
poppler-utils is already the newest version (22.02.0-2ubuntu0.5).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Looking in indexes: https://pypi.org/simple/


# Import Library

In [None]:
import os
import unicodedata

import torch
import pandas as pd
from tqdm.auto import tqdm

from langchain.document_loaders.parsers.pdf import PDFPlumberParser


from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig
)
from accelerate import Accelerator

# peft
from peft import prepare_model_for_kbit_training
from peft import PeftModel
from peft import LoraConfig, get_peft_model


# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter, MarkdownHeaderTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough, RunnableParallel
from langchain.schema.output_parser import StrOutputParser

# PDF 로딩/청크화 관련
from langchain.document_loaders.parsers.pdf import PDFPlumberParser
from langchain.document_loaders.pdf import PDFPlumberLoader
from langchain.document_loaders import UnstructuredPDFLoader
from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever



For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  from .kiwi_bm25 import KiwiBM25Retriever


# Fine-Tuning

In [None]:
# 모델 ID
model_cands={
 'llama2' : "beomi/llama-2-ko-7b",
 'yi' : "beomi/Yi-Ko-6B",
 'solar-beom' : "beomi/Solar-Ko-Recovery-11B",
 'gemma2' : "rtzr/ko-gemma-2-9b-it",
 'solar-lee' : "chihoonlee10/T3Q-ko-solar-dpo-v8.0",
 'llama3' : "KISTI-KONI/KONI-Llama3-8B-Instruct-20240729",
}

model_id = model_cands['gemma2']

In [None]:
# 모델 로드 및 양자화 설정 적용

def load_model_w_setting(model_id,add_output_token=False,**kwargs):
  # 4비트 양자화 설정
  bnb_config = BitsAndBytesConfig(
      load_in_4bit=True,
      bnb_4bit_use_double_quant=True,
      bnb_4bit_quant_type="nf4",
      bnb_4bit_compute_dtype=torch.bfloat16
  )

  # 토크나이저 로드 및 설정
  tokenizer = AutoTokenizer.from_pretrained(model_id)
  tokenizer.use_default_system_prompt = False
  tokenizer.padding_side="right"

  model= AutoModelForCausalLM.from_pretrained(
      model_id,
      quantization_config=bnb_config,
      device_map="auto",
      trust_remote_code=True,
      **kwargs
      )

# 일부 모델의 경우 토크나이저에 답변 토큰 추가 작업 필요
  if add_output_token :
    initial_token_count = len(tokenizer)
    response_template = '답변: '
    added_token_count = tokenizer.add_special_tokens({"additional_special_tokens": [response_template]})
    model.resize_token_embeddings(new_num_tokens=initial_token_count+added_token_count)

  return model, tokenizer

In [None]:
model,tokenizer = load_model_w_setting(model_id,attn_implementation='eager')

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

In [None]:
#데이터셋 로드
from datasets import load_dataset

# dataset_url = "kdt3/DACON-QA-base-table-preprocessed-v3"
# dataset_url = "kdt3/DACON-QA-base-preprocessed-v2"
# dataset_url = "kdt3/DACON-QA-base-augselect"
# dataset_url = "kdt3/DACON-QA-base-markdown"
# dataset_url = "kdt3/DACON-QA-bge-markdown"
dataset_url = dataset_name


train_dataset = load_dataset(dataset_url)

In [None]:
# 문맥 잘못됐나 확인 - 문맥 길이 체크
import numpy as np
amax = np.argmax([len(x) for x in train_dataset['train']['context']])
amax, len(train_dataset['train']['context'][amax])

(77, 1955)

In [None]:
def print_dataset_ele(data,i):
  print(data['question'][i])
  print('--------')
  print(data['context'][i])
  print('--------')
  print(data['answer'][i])

#예시
i= amax
print_dataset_ele(train_dataset['train'],i)

예산 증감률이 가장 높은 분야는 무엇인가요?
--------
예산개요  
-----  
y g  
제
1  
##### 보건 · 복지 · 고용 분야 부  
## 01  
1-1 재정지원 방향  
2024년 보건·복지·고용분야 재정투자 규모는 242.9조원 수준이며, 총지출 대비 비중이  
37.0%로 12대 분야 중 가장 비중이 크다. 소득·고용·주거 안전망에 대한 투자  
2024년도 예산안 시정연설 및 제안설명  
확충으로 저소득·노인·장애인 등 취약계층을 더욱 두텁게 지원하고, 가족돌봄청년 등
0.9%이다.  
[표 3-2] 2024년 예산지출 규모  
(단위: 조원, %)  
|(nan, '구 (nan, '202|3년 (nan, '|2024년 (nan, '|증감률 \n(B-|
|---|---|---|---|  
분') **\n(A)')** **\n(B)')** **A)/A')**  
0 ■ 예산지출 441.1 438.3 △0.6  
1 •일반회계 369.4 356.5 △3.5  
2 •특별회계 71.6 81.7 14.1
근무복 점퍼도 보온력이 높은 구스 재질로 고품질화하는 한편, 시설관리, 청사방호,  
견위생, 통역 등 공무직 인원 증원도 추진할 예정이다.  
-----  
0 Summary of Budget for FY 2024  
[표 11-4] 경찰 부문 주요 변동내역  
(단위: 억원, %)  
0 합 계 128,064 133,486 4.2  
|구 분 2 (|023년 2 a) (|024년 b)|증감률 ((b-a|)/ 비 고 a)|
계획이다.  
-----  
0 2024년 나라살림예산개  
0 2024  
[표 6-5] 항공·공항 부문 주요 변동내역  
|구 분 2023년 (|b) 2024년 (b|) 증감률 ((b-|a)/a)|
|---|---|---|---|  
1 공항건설 및 관리 1,601 7,374 360.5  
2 항공발전, 운영지원 1,834 1,532 △16.4  
|Col1|Col2|Col3|Col4|
|---|---|---|-

In [None]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,
    lora_alpha=64,
    target_modules=[
        "q_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head",
    ],
    bias="none",
    lora_dropout=0.05,
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, config)



In [None]:
# 학습 프롬프트 - 추론 프롬프트와 통일하는 것이 좋다고 함
template = """
task_instructions" : [

 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.
 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.
 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.
 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.
 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.
 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, '답변: ', '참고: '를 절대로 출력하지 마세요.

]

"context":
{context},

"question":
{question},

"주어진 질문에 대한 답변만 한 문장으로 생성한다."

"answer":
{answer}
"""

response_template = "'answer':\n"

def formatting_prompts_func(example, template=template):
    output_texts = []
    for i in range(len(example['question'])):
        context = example['context'][i]
        question = example['question'][i]
        answer = example['answer'][i]
        output_texts.append(template.format(context=context,question=question,answer=answer))
    return output_texts



In [None]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, roc_auc_score
import collections
# from SQUAD, 메트릭 계산 함수

def compute_f1(y_true, y_pred):
    common = collections.Counter(y_true) & collections.Counter(y_pred)
    num_same = sum(common.values())
    precision = 1.0 * num_same / len(y_pred) if len(y_pred) != 0 else 0
    recall = 1.0 * num_same / len(y_true) if len(y_true) != 0 else 0
    if len(y_pred) == 0 or len(y_true) == 0: f1 = int(y_pred == y_true)
    elif num_same == 0: f1 = 0
    else: f1 = (2 * precision * recall) / (precision + recall)
    return f1, precision, recall

def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    f1, precision, recall = compute_f1(labels,preds)
#    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
    acc = accuracy_score(labels, preds)
    auc = roc_auc_score(labels, preds)
    return {
        'accuracy': acc,
        'f1': f1,
        'precision': precision,
        'recall': recall,
        'auroc': auc
    }

In [None]:
import transformers, os
from datetime import datetime
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM

# 로컬에 모델 저장하고 싶은 경우 이름 지정
project = "financeQA-finetune"
base_model_name = "gemma2"
run_name = base_model_name + "_" + project
output_dir = os.path.join(path,run_name)
if not os.path.exists(output_dir) : os.makedirs(output_dir)

MAX_LEN = 2048

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset['train'],
    eval_dataset = train_dataset['valid'],
    compute_metrics=compute_metrics,
    args=transformers.TrainingArguments(
        do_eval=True,
        output_dir=output_dir,
        warmup_ratio=0.05,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        gradient_checkpointing=True,
        num_train_epochs = 3,
        learning_rate=2e-4,
        fp16=True,
        optim="paged_adamw_8bit",
        logging_strategy='epoch',
        report_to="wandb",
        run_name=wandb_run_name,
        # save_strategy="steps",
        # save_steps=25,

    ),
    max_seq_length=MAX_LEN,
    formatting_func=formatting_prompts_func, # 프롬프트 처리하기 위해 필요
    data_collator=DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer, mlm=False), #모델에게 답변생성에만 집중하도록 함
)

model.config.use_cache = False
trainer.train()

trained_model = (trainer.model.module if hasattr(trainer.model, "module") else trainer.model)

#로컬에 저장할 경우
# trained_model.save_pretrained(f"{output_dir}/saved_model")


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map:   0%|          | 0/496 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

  self.scaler = torch.cuda.amp.GradScaler(**kwargs)
` in the following instance: <bos>
task_instructions" : [

 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.
 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.
 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.
 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.
 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.
 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, '답변: ', '참고: '를 절대로 출력하지 마세요.

]

"context":
`60. 진실･화해를위한과거사정리위원회` - ············································· `335`  
-----  
##### Ⅰ 성과계획서 개요  
1. 성과계획서 의의  
(1) 성과계획서 의의  
□ 성과계획서는중앙관서및기금관리주체의전략목표및성과목표를  
달성하기위한연도별시행계획  
□ 성과계획서는사업실시전예산편성단계에서성과목표및성과지표,  
목표수준을사전에설정ㆍ관리
```
* 성과계획서작성단위를기존‘단위사업’ 기준에서‘프로그램’ 기준으로상향조정
** (단위사업) 사업담당실무자가사업의질적및집행을관리하는단위
(프로그램) 국민의입장에서정부재정지출의효과를체감할수있는단위
`1. 성과계획서의의` - ·················································································· 1  
(1) 성과계획서의의 - ················································································ 1
(재정사업자율평가)  


Step,Training Loss
124,0.0
248,0.0
372,0.0


[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
□ 2024년도성과계획서작성대상 60개중앙관서의성과관리체계는전략  
목표 187개, 프로그램목표 475개로구성
|2|사업은 * 성과관리 대상에서 제외기 준 ▪정부연구소 인건비, 출연(연) 운영지원 비목만으로 구성된 사업|  
-----  
2. 성과지표 및 목표치 설정  
(1) 성과지표 설정  
□ 성과지표는프로그램목표가추구하는목적달성여부를측정하는도구로서  
대표성과포괄성을유지하도록설정  
ㅇ 목표달성정도를정확히측정하고지속적인평가를통해성과수준의  
변화를시계열로파악할수있도록설정  
□ 성과지표는가급적국민이체감할수있는궁극적성과에대한결과·  
정량지표로설정
```
2024년도

# 성과계획서
(총괄편)

## 대한민국정부
|16|57 새 만 금 개|발|청|3|3 3|
|17|58 해 양 경 찰||청|5|5 5|
|18|59 5·18 민주|진상 규명||1|1 1|
||화운 동|조사 위원||||
|||회||||
|19|60 진 실 · 화 해 를 위 한 거 정 과 사|리 원 위|회|1|1 1|  
-----  
2. 성과지표 유형  
□ 2024년도프로그램목표 475개의성과지표는총 507개로프로그램목표당
,

"question":
2024년 성과지표의 결과지표는 몇 개로 구성되어 있나요?,

"주어진 질문에 대한 답변만 한 문장으로 생성한다."

"answer":
성과지표의 성격에 따라 결과지표는 355개로 구성되어 있습니다.
 This instance will be ignored in loss calculation. Note, if this happens often, consider increasing the `max_seq_length`.
` in the following instance: <bos>
task_instructions" : [

 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.
 1. 문서에 있는 내용을 자르거나 편집하

In [None]:
# 모델 업로드
trained_model.push_to_hub(train_name, private=True,save_embedding_layers=True)



adapter_model.safetensors:   0%|          | 0.00/2.05G [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/kdt3/DACON-QA-large-ensemble-markdown-refactored-256/commit/92761bbc69e0739542cb509d467143b11b94a7f3', commit_message='Upload model', commit_description='', oid='92761bbc69e0739542cb509d467143b11b94a7f3', pr_url=None, pr_revision=None, pr_num=None)

# Langchain 을 이용한 추론

In [None]:
# gpu memory 할당 해제
import gc
torch.cuda.empty_cache()
gc.collect()

18

In [None]:
# HuggingFacePipeline 객체 생성

# 모델 ID
model_id = model_cands[run_name.split('_')[0]]
peft_model_id = train_name
trained_model,tokenizer = load_model_w_setting(model_id)

#Fine-Tune 한 LoRA 어댑터 불러오기
trained_model.load_adapter(peft_model_id)

text_generation_pipeline = pipeline(
    model=trained_model,
    tokenizer=tokenizer,
    task="text-generation",
    return_full_text=False,
    max_new_tokens=200,
    # repetition_penalty=1.5,
    eos_token_id = tokenizer.eos_token_id,
    pad_token_id = tokenizer.pad_token_id,
    max_length=MAX_LEN
)

llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

adapter_config.json:   0%|          | 0.00/725 [00:00<?, ?B/s]



adapter_model.safetensors:   0%|          | 0.00/2.05G [00:00<?, ?B/s]

  llm = HuggingFacePipeline(pipeline=text_generation_pipeline)


In [None]:
#데이터셋 로드
from datasets import load_dataset
dataset_url = dataset_name
dataset = load_dataset(dataset_url)

In [None]:
# 검증 데이터 쓸지, 테스트 데이터 쓸지
eval_mode = 'valid' # or 'test'
eval_dataset = dataset[eval_mode]

In [None]:
# 그냥 GPU 메모리 확인용
!nvidia-smi

Tue Oct  1 15:01:23 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:00:04.0 Off |                    0 |
| N/A   32C    P0              52W / 400W |  15199MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [None]:
template[:-9]

'\ntask_instructions" : [\n\n 당신은 재정 정보 관련 전문가 입니다. 문서를 바탕으로 질문에 한 문장 이내로 답변하세요.\n 1. 문서에 있는 내용을 자르거나 편집하지 않고 그대로 가져오세요.\n 2. 순서에 따른 번호를 매기지 마세요. 출력 시 불이익을 줄 것입니다.\n 3. 수치에 단위가 있다면 문서를 바탕으로 답변에 단위를 포함하세요.\n 4. 질문의 키워드를 바탕으로 문서를 끝까지 검토하세요.\n 5. 한 단어 혹은 단어의 나열이 아닌, 완성된 한국어 문장으로 답변하세요.\n 6. 답변 외에 예시, 참고, 정보 출처, 신뢰도, 확장된 답변, \'답변: \', \'참고: \'를 절대로 출력하지 마세요.\n\n]\n\n"context":\n{context},\n\n"question":\n{question},\n\n"주어진 질문에 대한 답변만 한 문장으로 생성한다."\n\n"answer":\n'

In [None]:
from tqdm.auto import trange

# 결과를 저장할 리스트 초기화
results = []

# DATASET 구조를 dataset[i]={'question':,'context':,...}로 바꾸면 안됨?

# Dataset 각 행에 대해 처리
for idx in trange(len(eval_dataset['question']), desc="Answering Questions"):
    #질문, 컨텍스트(문서)
    question = eval_dataset['question'][idx]
    context = eval_dataset['context'][idx]

    # RAG 체인 구성
    prompt = PromptTemplate.from_template(template[:-9])

    # RAG 체인 정의
    if context != "":
        rag_chain = (
            RunnableParallel(context=lambda x: x["context"], question = lambda x: x["question"])
            | prompt
            | llm
            | StrOutputParser()
        )
    else:
        rag_chain = (
            {"question": RunnablePassthrough()}
            | prompt
            | llm
            | StrOutputParser()
        )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke({"question": question, "context": context})

    print(f"Answer: {full_response}\n")

    # 결과 저장

    if context != "":
        results.append({
            "Context": context,
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })
    else:
        results.append({
            "Question": question,
            "Answer": full_response,
            "True_Answer": eval_dataset['answer'][idx]
        })

Answering Questions:   0%|          | 0/100 [00:00<?, ?it/s]

Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Question: 2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 기준으로 중앙정부 재정체계는 일반회계 1개, 특별회계 21개, 기금 68개로 구성되어 있습니다.

Question: 2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 예산 지출은 일반회계 356.5조원, 21개 특별회계 81.7조원으로 구성되어 있습니다.

Question: 기금이 예산과 다른 점은?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 기금은 예산과 구분되는 재정수단으로서 재정운영의 신축성을 기할 필요가 있을 때, 정부가 편성하고 국회에서 심의･의결한 기금운용계획에 의해 운용됩니다.  


Question: 일반회계, 특별회계, 기금 간의 차이점은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 일반회계는 국가 고유의 일반 재정 활동을 운영하는 데 사용되고, 특별회계는 특정 사업을 안정적으로 운영하기 위해 특정 자금을 활용하며, 기금은 정부가 편성하고 국회에서 심의･의결한 기금운용계획에 의해 운용되는 재정수단입니다. "

Question: 2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 총수입은 612.2조원이며, 예산수입은 395.5조원이고 기금수입은 216.7조원입니다.

Question: 2024년도 예산수입은 어떻게 구성되어 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년도 예산수입은 국세수입 367.3조원, 세외수입 28.2조원으로 구성되어 있습니다.

Question: 2024년의 기금수입은 어떻게 구성되어 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 기금수입은 사회보장기여금 92.3조원, 융자원금회수 33.8조원, 경상이전수입 39.6조원 등으로 구성되어 있습니다.

Question: 2024년 국세수입은 얼마이며, 일반회계와 특별회계의 규모는 각각 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 국세수입은 367.3조원이며, 일반회계는 356.1조원, 특별회계는 11.2조원입니다.  


Question: 2024년도 국세수입 중 일반회계 내국세수입은 몇 조원인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년도 국세수입 중 일반회계 내국세수입은 321.6조원입니다.

Question: 2024년도 세외수입 규모와 구성은 어떤가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 세외수입은 일반회계 11.2조원, 특별회계 17.0조원으로 총 28.2조원이며, 일반회계가 39.8%를 차지하고 특별회계가 60.2%를 차지합니다. " 


Question: 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 사회보장기여금입니다.

Question: 2024년 총지출 기준 예산의 일반회계와 특별회계의 비중이 각각 얼마인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 총지출 기준 예산의 일반회계 비중은 54.3%이고, 특별회계 비중은 35.7%입니다.

Question: 2024년도 총계 기준 재정규모는 얼마이며, 예산과 기금은 각각 몇 조원으로 구성되어 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년도 총계 기준 재정규모는 1,573.3조원이며, 예산 550.0조원, 기금 1,023.3조원으로 구성되어 있습니다. "

Question: 내부거래지출이란 무엇을 의미하며, 어떤 종류의 거래를 포함하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 내부거래지출은 회계 간, 회계･기금 간, 기금 간 거래를 의미하며, 사업비 보전을 위한 전입･전출, 여유자금의 공공자금관리기금에 예수･예탁 등을 포함합니다. 


Question: 보전지출이란 무엇을 의미하며, 어떤 상황에서 발생하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 보전지출은 회계 또는 기금의 민간차입 상환(국채상환), 남은 자금의 금융기관 예치(기금여유자금 운용) 등을 의미하며, 대상자에게는 원리금 상환 의무가 발생합니다. 




Question: 2024년에 일반회계의 총지출은 얼마이며, 중앙정부 총지출 대비 어느 정도의 비율을 차지하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년에 일반회계의 총지출은 356.5조원이며, 중앙정부 총지출의 54.3%를 차지합니다. "

Question: 2024년 예산 기준 특별회계는 얼마이며, 중앙정부 총지출 대비 어느 정도의 비율을 차지하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 예산 기준 특별회계는 81.7조원이며, 중앙정부 총지출의 12.4%를 차지합니다. "

Question: 2024년 기준으로 중앙정부의 인건비 편성 사업 규모와, 총지출 대비 인건비 사업 비중은 얼마인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 기준, 중앙정부 인건비 편성 사업 규모는 46.1조원이며, 총지출의 7.0%를 차지합니다. "

Question: 2024년 총지출 대비 자본지출 비중은 얼마인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 총지출 대비 자본지출 비중은 6.1%입니다. "

Question: 2020년 결산 기준, 연구개발비 중 개발연구 규모는 몇 억원인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2020년 결산 기준, 연구개발비 중 개발연구는 10.9조원입니다.

Question: 세출예산현액이란?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 세출예산현액은 예산 확정 후 전년도로부터의 이월액 반영, 추경 편성, 기금운용계획 변경, 이용･전용, 예비비 증액 등을 반영한 것으로, 실제 지출할 수 있는 한도액을 의미합니다. 


Question: 2022년 국가 예산의 다음 연도 이월액은 몇 조원인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 결산 기준 다음 연도 이월액은 4.9조원입니다.

Question: 2022년 국가 예산의 불용액은 몇 조원인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년에는 총지출 기준으로 14.8조원의 불용액이 발생했습니다.

Question: 2022년 기준, 일반회계, 특별회계, 기금의 집행률은?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 기준, 일반회계 97.3%, 특별회계 94.7%, 기금 97.6%의 집행률을 기록했습니다.

Question: 2022년 기준, 일반회계와 기타특별회계의 이월금 차지 비율은 얼마인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 기준, 전체 이월금 4.9조원 중 일반회계 2.8조원(56.9%), 기타특별회계 1.7조원(35.3%)이 차지했습니다. "

Question: 2022년 결산 기준으로 사회보험성기금의 이월금 규모는 몇 억원인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 결산 기준으로 사회보험성기금의 이월금 규모는 2022년 기준 전체 이월금 4.9조원 중 1.7조원(35.3%)에 해당합니다. " 


Question: 2017년부터 2022년까지의 사업성기금의 연도별 이월금 규모 추이는 어떠한가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2017년 결산은 235,772억원, 2018년 결산은 256,699억원, 2019년 결산은 287,372억원, 2020년 결산은 288,289억원, 2021년 결산은 333,877억원, 2022년 결산은 318,114억원이었다.  


Question: 2022년 기준으로 국내총생산 대비 일반정부부채와 공공부문 부채의 비중은 각각 몇 퍼센트인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 기준으로 국내총생산 대비 일반정부부채 비중은 53.5%이고, 공공부문 부채 비중은 73.5%입니다. "

Question: 2022년 기준, 국가 재무제표상 부채는 얼마이며, 이는 어떻게 구성되어 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 결산 기준, 국가 재무제표상 부채는 2,326.0조원이며, 장기충당부채 1,243.2조원, 장기차입부채 812.2조원, 유동부채 220.0조원으로 구성되어 있습니다.  "

Question: 2022년에 순자산은 얼마이며, 전년 대비 어떻게 변화했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년 기준, 순자산은 507.6조원으로, 전년 대비 163.1조원 감소했습니다.

Question: 국가채무와 일반정부부채, 공공부문부채를 작성하는 데 있어 회계기준의 차이점은 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국가채무는 발생주의 기준으로, 일반정부부채는 현금주의 기준으로, 공공부문부채는 발생주의 기준으로 산출됩니다. 




Question: 국가채무의 산출 기준은?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국가채무는 재정 투명성 및 건전성 확보, 국가채무관리에 대한 국민의 신뢰를 확보하기 위해 작성･공표되며, ｢국가재정법｣ 및 ｢지방재정법｣상 재정관리 주체인 중앙정부, 지방자치단체, 교육청의 부채를 현금주의 기준으로 순계 합산한다. "

Question: 발생주의와 현금주의의 부채 인식 방식에는 어떤 차이가 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 현금주의는 채무 수납과 지급 시점을 기준으로 수입과 비용을 인식하는 반면, 발생주의는 거래나 경제적 사건이 발생했을 때를 기준으로 수익, 비용을 인식합니다.

Question: 일반정부 부채의 산출기준은?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 일반정부 부채는 발생주의 기준으로 순계 합산하여 산출합니다.

Question: 추가경정예산은 2008년 이후 몇 번의 추가경정예산이 편성되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2008년 이후 16회의 추가경정예산이 편성되었습니다.

Question: 2022년에는 어떤 분야에 민생경제 지원을 위해 가장 많은 예산이 배분되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2022년에는 산업･중소기업 및 에너지 분야에 53.1%의 예산이 배분되었습니다. "

Question: 추가경정예산이란 무엇을 의미하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 추가경정예산은 예산 성립 후 법률로 인정되는 사유로 인해 예산에 추가 또는 변경을 가한 예산을 의미합니다. 




Question: 2007년 시행된 국가재정법에서 추경 편성 사유로 명시된 사항은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 추경 편성 사유는 전쟁이나 대규모 재해가 발생한 경우, 경기침체, 대량 실업, 남북 관계의 변화, 경제협력과 같은 대내외 여건에 중대한 변화가 발생하였거나 발생할 우려가 있는 경우, 법령에 따라 국가가 지급하여야 하는 지출이 발생하거나 증가하는 경우에 한정됩니다. "

Question: 2024년 예산 기준, 지방교부세는 몇 조원이며, 작년 대비 비중이 어떻게 변화했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 예산 기준, 지방교부세는 75.3조원이며, 작년 대비 비중은 변화가 없었습니다.  


Question: 지방교부세는 어떤 목적을 위해 자치단체에 교부되는 재원인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지방교부세는 지방자치단체 간 재원 보장과 재정 불균형 완화를 위해 자치단체에 교부되는 재원입니다. 


Question: 지방교부세는 어떤 세부 항목으로 구성되어 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 지방교부세는 보통교부세, 특별교부세, 부동산교부세, 소방안전교부세로 구성되어 있습니다.

Question: 2024년 교육재정 교부금의 규모는 얼마이고, 전년 대비 추이는 어떠한가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 교육재정교부금은 73.0조원이며 전년 대비 8.9% 감소합니다. "

Question: 2024년의 교육재정교부금에서 고교 무상교육에 사용한 규모는?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 교육재정교부금은 73.0조원이며, 이 중 고교 무상교육에 사용된 금액은 2024년 예산 기준으로 상세히 언급되어 있지 않습니다.

Question: 2024년에 교육재정교부금에서 유아교육비 및 보육료 지원에 할당된 비중은?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 교육재정교부금에서 유아교육비 및 보육료 지원에 할당된 비중은  '유아교육비･보육료 지원은 ｢교육세법｣에 따른 교육세 중 해당 회계연도의 예산으로 정한 금액' 입니다. " 


Question: 교육재정 교부금이란?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 교육재정교부금은 교육기관 및 교육행정기관 경비를 국가가 교부하는 일반지원금으로 구성되어 있습니다.

Question: 국고보조사업 규모는 2024년에 얼마이며 전년 대비 어떤 증가율을 보이는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 기준, 국고보조사업 규모는 89.3조원이며 전년 대비 7.4% 증가를 보입니다.

Question: 특별회계 국고보조금 중 국가균형발전특별회계에서 얼마가 포괄보조금으로 지출되는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 특별회계 국고보조금 18.2조원 중 10.0조원이 국가균형발전특별회계에서 포괄보조금으로 지출됩니다.  


Question: 2024년의 국고보조사업(자치단체 이전)에서 기금 규모는 얼마인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 국고보조사업(자치단체 이전) 기금 규모는 1,023.3조원입니다.

Question: 총사업비 관리대상사업의 규모는 2023년 몇 조원이며, 전년 대비 얼마나 증가했나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2023년 기준, 총사업비 관리대상사업의 규모는 305.0조원이며, 전년 대비 30.7조원 증가했습니다. "

Question: 총사업비 관리제도는 어떤 제도이며, 어떤 종류의 사업을 관리하는데 사용되나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 총사업비 관리제도는 2년 이상 소요되는 대규모 사업에 대해 사업 규모 및 사업 기간을 미리 정하여 관리하는 제도로, 건축･토목 사업은 1994년부터, 정보화 사업은 2010년부터, 연구개발(R&D)사업은 2015년부터 관리한다. "

Question: 관리재정수지와 통합재정수지의 차이점은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 관리재정수지는 통합재정수지에서 사회보장성기금수지를 제외한 재정수지이다. 




Question: 청년층을 위한 주거비용 지원 정책과 산업단지를 청년이 선호하는 환경으로 전환하기 위한 프로젝트에 대해 설명해주세요.


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 청년층의 주거비용 부담 완화를 위해 공공분양 주택과 공공임대 주택 공급을 확대하고, 청년농업인을 위한 임대주택단지 8개소를 신설하며, 농지은행이 보유한 비축농지를 저렴하게 공공임대하는 물량을 2023년 대비 2024년에 625ha 확대하고, 농지 매입단가를 2023년 대비 2024년에 20만원 인상하는 한편, 노후 산업단지를 문화시설로 탈바꿈하는 '산리단길 프로젝트'를 추진하여 청년이 선호하는 문화·편의·주거시설을 설치한다. " 


Question: 임신·출산을 희망하는 가구에 어떤 지원이 신규로 이뤄지고 있으며, 고위험 임산부와 미숙아·선천성 이상아의 의료비 지원은 어떻게 이루어지는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 임신·출산을 희망하는 가구에 필수가임력(생식건강) 검진비와 냉동난자를 활용한 보조생식술 비용을 신규 지원하고, 고위험 임산부와 미숙아·선천성 이상아의 의료비도 지원한다. " 


Question: 농어가 소득과 생활안전망 확충을 위해 어떤 지원이 추가되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년에는 0.5ha 이하 소규모 농가에 지급되는 직불금을 120만원에서 130만원으로 인상하고, 수입보장보험을 7품목에서 10품목으로 확대한다. " 


Question: 전세사기 예방 및 피해자 지원을 위해 어떤 예산이 편성되었으며, 어떤 조직이 운영되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 전세사기 피해지원단 운영 예산은 21억원이며, 전세사기 피해지원위원회를 확대하여 전세사기 피해자를 신속하게 결정하고 피해주택의 경·공매를 유예·정지할 수 있도록 했다. " 


Question: 이상기후로 인한 수해 관련 재해 대응을 위해 어떤 시설이 신규 설치되고 있으며, 그 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 대규모 강우시 빗물을 일시에 저장하여 도심 저지대 침수피해를 예방하기 위한 빗물저장시설(우수저류시설) 6개소를 신규 설치한다. " 


Question: 대학의 일반재정지원을 확대하는 이유와 국립대학 및 사립대학의 투자 확대 방식은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 등록금 동결, 물가 상승 등에 대응하여 대학 일반재정지원을 확대하고, 국립대학은 생활안전, 첨단 기자재 중심으로 투자를 확대하고, 사립대학은 경영자문 컨설팅을 지원하여 체계적 구조개선을 촉진한다.  


Question: 2024년 R&D 분야에 대한 재정투자 규모는 2023년 대비 얼마나 감소했으며, 어떤 분야의 국가전략기술 투자를 확대할 계획인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 R&D 분야에 대한 재정투자 규모는 2023년 대비 △9.5% 감소한 26.5조원이며, AI, 첨단바이오, 양자 등 혁신기술을 내재화하는데 집중 투자할 계획입니다.  


Question: 우주산업 클러스터 삼각체제 구축사업의 목표와 국가 우주산업 육성 거점 지역은 어디인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 우주산업 클러스터 삼각체제 구축사업은 민간 주도 우주개발 역량 강화 및 자생적 생태계 조성을 위해 전남, 경남, 대전을 국가 우주산업 육성 거점으로 지정하고 민간발사장, 우주환경시험시설, 특화지구별 거점센터를 구축한다. "

Question: 정부는 어떤 방식으로 스타트업의 글로벌화를 촉진하고 있으며, 국내 스타트업의 글로벌화를 위해 어떤 프로그램이 강화되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부는 스타트업과 글로벌 기업의 협업 프로그램을 확대하고 해외투자 유치 후 현지법인 설립 시 지원하는 글로벌 팁스를 신설하며, 국내 팁스기업도 지원을 대폭 확대하는 등의 방식으로 스타트업의 글로벌화를 촉진하고 있으며, 국내 스타트업의 글로벌화를 위해 스타트업과 글로벌 기업의 협업 프로그램을 확대하고 해외투자 유치 후 현지법인 설립 시 지원하는 글로벌 팁스를 신설한다. " 


Question: 한국 정부가 녹색산업 육성 및 해외진출 지원을 강화하기 위해 취하고 있는 조치와 전기차 및 수소차에 대한 정책은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 녹색산업체 해외 경쟁력 강화를 위해 현지 수주지원단 파견 등을 지원하고, 2024년부터 2028년까지 4,000억 규모의 녹색 수출전용 펀드를 신규 조성하며, 전기차는 보급형·고성능 차량 중심으로, 수소차는 상용차 중심으로 보급한다." 




Question: 국립북한인권센터 건립의 목적과 국제대화를 통해 달성하고자 하는 목표는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 국립북한인권센터 건립은 북한인권 실상을 알리고 ‘자유·인권’ 가치에 대한 국민적 공감대 확산을 위한 핵심 거점으로, 북한인권 국제대화는 북한인권에 대한 여론을 환기하고 다양한 이해관계자들이 북한인권을 논의할 수 있는 장을 마련하여 국제적으로도 북한인권 담론을 수행하기 위해 개최될 예정이다.  "

Question: 2024년도 공공질서 및 안전 분야의 재정투자는 전년도 대비 어떻게 변화했으며, 어떤 분야에 특히 재정투자가 집중되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년도 공공질서 및 안전 분야의 재정투자는 22.9조원에서 24.4조원으로 6.5% 증가했으며, 마약·스토킹 등 민생침해범죄 예방·대응과 재난·안전 사고에 대한 근본적 예방에 집중적으로 투자하였다. "

Question: 정부재정 지원으로 추진되는 햇살론은 무엇이며, 새출발기금과 청년도약계좌는 어떤 목적으로 마련되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 햇살론은 저신용·저소득 취약계층의 자금애로 해소를 위해 민간재원만으로 운영되던 대출 상품이며, 새출발기금은 코로나 피해 자영업자·소상공인의 채무상환 부담 완화를 위해, 청년도약계좌는 청년의 자산형성을 지원하기 위해 마련되었습니다.  


Question: 일반정부 재정규모란 무엇을 포함하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 일반정부 재정규모는 중앙정부·지방정부 및 비영리공공기관의 모든 재정활동을 포함한다. "

Question: 장애인 연금이 어떻게 변화했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 장애인 연금 부가급여는 2~8만원에서 3~9만원으로 1만원 인상되었습니다.

Question: 노인 지원 기초연금은 어떻게 변화했으며, 이에 따른 노인일자리 수와 수당은 어떻게 변화했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 기초연금 지출은 2023년 15,400억원에서 2024년 20,264억원으로 증가하며, 노인일자리 수는 88.3만명에서 103.0만명으로, 노인일자리 수당은 공익형 월 27만원에서 29만원으로 각각 증가한다. " 


Question: 원전산업 맞춤형 정책자금이 어떻게 운용되며, 어떤 목적으로 신설되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2천억원 규모의 원전산업 맞춤형 정책자금(융자 및 보증)은 중소 원전 기자재 업체가 발주사와 공급계약 체결 시 조속히 대금을 지급받을 수 있도록 하기 위해 신설되었다. " 


Question: 에너지 신산업 분야에서 어떤 분야의 인프라 투자가 확대되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 수소, CCUS 등 분야의 인프라 투자는 확대됩니다."


Question: 2024년 정부 예산안에서 출산·양육 부담 경감을 위해 어떤 정책이 시행되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 정부 예산안에서는 신생아 출생 가구에 특별 저리 융자를 신규 지원하고, 공공주택의 분양과 임대에 있어서도 출산 가구를 우선 배정하며, 육아휴직 급여기간을 12개월에서 18개월로 연장하고, 부모급여를 만 0세 기준 70만 원에서 100만 원으로 인상하고, 2.5만명 규모로 신설한다는 정책이 시행될 예정입니다. " 


Question: 2024년도 예산안에서 돌봄부담 완화를 위해 어떤 조치가 취해졌는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년도 예산안에서는 최중증 발달 장애인 가족의 돌봄부담을 경감하기 위해 주간 그룹형 1:1 돌봄과 주간 개별 1:1 돌봄을 제공하고, 맞벌이 부부 등 돌봄부담 완화를 위해 시간 단위로 이용 가능한 시간제보육 제공기관을 2023년 1,030개소에서 2024년 2,315개소로 확대한다. " 


Question: 한국 정부가 외국인투자 및 국내복귀 투자에 대한 인센티브를 강화하는 이유는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 글로벌 공급망 재편 과정에서 우리나라가 대안 투자처가 될 수 있도록 외국인투자 및 국내복귀 투자에 대한 인센티브를 강화한다. " 


Question: 청년농업인을 위해 어떤 방식으로 농지를 공공임대하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 농지은행이 보유한 비축농지를 청년농업인에게 저렴하게 임대 공급한다. "

Question: 농업의 생산성을 높이고 노동 투입량을 줄이기 위해 어떤 방안을 추진하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 농업의 생산성을 높이고 노동 투입량을 줄이기 위해 스마트농업을 육성하는 등 생산 가공 유통 전반의 디지털 전환을 추진한다.  


Question: 한국의 국방 강화를 위해 어떤 무기체계 전력화 강화에 중점을 두고 투자하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 한국의 국방 강화를 위해 응징(230㎜급다련장, 특수작전용대형기동헬기 등) 등 무기체계 전력화 강화에 중점을 두고 투자하고 있습니다.  
"

Question: 어떤 목적으로 '동료지원쉼터' 운영이 제도화되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정신질환자들이 장기 입원을 하지 않고 지역사회에서 상담, 휴식 등 서비스를 제공받으면서 자연스럽게 지역사회에 정착하고 회복할 수 있도록 동료지원쉼터 운영이 제도화되었다. 


Question: 재난대응 체계를 구축하기 위해 어떤 예산 증액이 이루어졌으며, 그 목적은 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 산사태 예방 및 피해 저감을 위한 재난대응 체계 구축을 위해 산지사방, 계류보전, 산림유역관리 등 사방사업 투자를 2,210억원에서 2,510억원으로 확대하여 국민의 생명과 재산을 보호한다. " 


Question: 예산 증감률이 가장 높은 분야는 무엇인가요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 공항건설 및 관리 분야의 예산 증감률이 360.5%로 가장 높다. "

Question: 국방 분야의 예산은 '23년 대비 '24년 어떻게 변했나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 국방비(일반회계) 규모는 2023년 57.0조원 대비 4.2% 증가한 59.4조원이다.  


Question: R&D 분야의 예산은 '23년 대비 '24년 어떻게 변했나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 R&D 분야 예산은 2023년 대비 9.5% 감소하여 26.5조원입니다.

Question: 최중증 발달장애인을 위한 돌봄 체계 구축을 위해 어떤 변화가 있었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 최중증 발달장애인을 위한 돌봄 체계 구축을 위해 단계별 1:1 돌봄 체계를 도입하여 사각지대 없는 장애인 돌봄을 제공하고, 24시간 개별 돌봄을 1개 지자체에서 17개 지자체로 확대한다. "

Question: 가정폭력 피해자의 자립지원을 강화하기 위해 어떤 정책이 시행되었나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 가정폭력 피해자의 자립지원금을 250만원까지 확대 지원한다.  


Question: 일반 청년을 위해 어떤 종합적인 지원이 제공되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 일반 청년에 대해서도 고용서비스, 일경험, 취업비용 부담경감 등 현장 체감형 사업을 종합 지원한다. "

Question: 고역량 청년을 위해 어떤 지원이 강화되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 첨단유망분야 인력 양성을 위해 산학연협력고도화지원사업을 1,276억원 확대하여 활동을 지원한다. " 


Question: 정부가 콘텐츠 산업을 지원하기 위해 어떤 종류의 펀드를 조성하고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부는 콘텐츠 산업을 지원하기 위해 'K-콘텐츠 펀드', '콘텐츠 전략펀드', 그리고 '지역활성화 투자 펀드'를 조성하고 있습니다. "

Question: 2024년에 국내 콘텐츠 시장에 공급될 정책금융의 규모는 얼마인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년에는 국내 콘텐츠 시장에 1조 7천 4백억원 규모의 정책금융을 공급할 예정이다.  


Question: 전문체육 분야에서 어떤 사업이 편성되어 국가대표 선수들의 경기력 향상을 위해 진행되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 훈련일수 확대를 지원하고, 국가대표 선수 훈련식비를 44천원에서 50천원으로 증액하고, 국가대표 지도자 훈련을 지원하는 사업이 편성되었습니다. " 


Question: 정부는 어떤 분야에 R&D 투자를 집중할 계획인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 정부는 AI, 첨단바이오, 반도체, 이차전지 등 혁신기술의 내재화에 집중하여 R&D 투자를 집중할 계획입니다.

Question: 2024년 R&D 분야 재정투자 계획 중 가장 큰 감소율을 보이는 분야는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 R&D 분야 재정투자 계획 중 산업·중소기업 및 에너지 분야가 13.4% 감소율을 보이며 가장 큰 감소율을 기록한다. "

Question: 세계 최고 수준의 네트워크 인프라 환경을 구축하기 위해 어떤 방식으로 투자가 확대되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 양자기술 등 차세대 통신·컴퓨팅 핵심기술 개발을 안정적으로 지원하여,  디지털 기술 기반의 산업 혁신을 촉진할 세계 최고 수준의 네트워크 인프라 환경을 구축하기 위한 투자도 확대한다((2023년) 1,080억원 → (2024년) 1,252억원). "

Question: 재정지원을 통해 소상공인들의 경영부담을 완화하기 위해 어떤 프로그램이 신설되었는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 비은행권 차주 대상 이자를 최대 1.5%p 감면하고 고리 대출을 저리 정책자금으로 대환하는 프로그램을 신설한다. "

Question: 2024년 해외 인재 유입을 위해 신설된 제도는 무엇인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 해외 우수 스타트업을 발굴하여 지원하는 K-스카우터 제도를 신설한다.  


Question: 2024년에 혁신형소형모듈원자로기술개발 부문의 예산은 얼마이며, 전년 대비 어떤 증가율을 보였는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 혁신형소형모듈원자로기술개발 부문 예산은 333억원이며, 전년 대비 753.8% 증가를 보였다. "

Question: 교통약자의 이동편의를 증진하기 위해 어떤 사업을 확대하고 지속적으로 지원할 것인가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 특별교통수단 도입 및 운영비 지원과 저상버스 도입을 지속적으로 지원하여 차별없이 편리한 대중교통 환경을 조성한다. "

Question: 어떤 기술을 홍수피해에 선제적으로 대응하기 위해 우선 투자하고 있나요?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 인공지능(AI) 홍수예보, 댐-하천 디지털 트윈기술 등에 우선 투자하고 있습니다. 


Question: 식량안보를 강화하기 위해 어떤 정책이 시행되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 식량자급률을 높이는 등 식량안보를 강화하기 위해 농축산물 할인지원을 1,080억원 규모로 지속 지원하고, 쌀 수급안정을 위한 노력도 강화하여 구조적 과잉 상태인 쌀 재배량을 감축하고, 수입에 의존하는 곡물의 국내 자급기반을 늘려 식량자급률을 높이기 위한 투자도 강화한다. " 


Question: 재정투자 계획에 따르면 농업·농촌 분야의 예산이 2023년에 비해 2024년에 얼마나 변화하는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 2024년 농림·수산·식품 분야 재정투자 규모는 2023년 24.4조원 대비 1조원, 4.3% 증가하여 25.4조원이다.

Question: 임업인의 소득안정과 공익적 기능 강화를 위해 어떠한 지원책이 시행되고 있는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 임업인의 소득안정 및 임업의 공익적 기능을 강화하기 위한 임업직불금(566억원 → 620억원), 임업인 정책자금 지원을 위한 산림사업종합자금(이차보전)(+29억원)을 지속적으로 지원한다." 


Question: 하수관로정비 사업 예산은 2023년 대비 2024년에 얼마나 증가했는가?


Both `max_new_tokens` (=200) and `max_length`(=2048) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Answer: 하수관로정비 사업 예산은 2023년 대비 2024년에 3조 285 억원으로 증가했습니다.

Question: 국방부가 장병 복무여건을 획기적으로 개선하기 위해 어떤 조치를 취하고 있는가?
Answer: 국방부는 병 봉급을 월 125만원으로, 사회진출지원금을 월 40만원으로 인상하고, 지역상생장병특식을 매월 1회씩 그리고 호국보훈의 달과 국군의 날에 1회씩 시행하도록 확대하며, 예비군 훈련시설을 현대화하고, 초급간부의 단기복무 장려금을 인상하는 등의 조치를 취하고 있습니다.  




In [None]:
i = 28
print_dataset_ele(eval_dataset,i)

2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 얼마가 할당되었나요?
--------
-  대상자 확대 등에 따른 홍보, 시스템 고도화, 콜센터 운영 비용 증액  
-  (산출) 에너지복지 홍보(448백만원), 시스템 고도화(705백만원), 콜센터 운영(502.7백만원), 패널조사  
(131.7백만원), 전달체계 구축(34.6백만원), 주택관리공단 운영지원(50백만원)  
ㅇ 2023년도 예산 및 2024년도 예산 산출 세부내역 비교
업운영비 (1,349백만원) ㆍ 에너지복 0.33만 세대 × 31만원 = 1,023백만원
지 홍보: 328백만원 ㆍ 시스템 고도 마. 사업운영비 (1,872백만원) ㆍ 에너지
화 : 520백만원 ㆍ 콜센터 운영 : 280 복지 홍보: 448백만원 ㆍ 시스템 고도화 :
백만원 ㆍ 패널조사 : 133.5백만원 705백만원 ㆍ 콜센터 운영 : 502.7백만원
ㆍ 에너지바우처 전달체계 구축 : ㆍ 패널조사 : 131.7백만원 ㆍ 에너지바우
-「새정부 에너지정책 방향(국무회의 의결)」을 통해 필수 에너지복지 확대[*] 발표(’22.7)  
-  (에너지바우처) 에너지바우처 지원 확대를 통해 에너지복지 사각지대 해소 추진  
-  2023년도 에너지바우처 사업 시행(‘23.5~’23.12월 신청·접수, ‘23.7~’24.4월 사용)  
□ 주요내용  
① 사업규모  
-  총사업비(해당되는 경우에만 기재) : 해당없음  
-  사업기간 : ’15년 ~ 계속
## 9) 최근 3년간 동 사업에 대한 주요 외부지적사항 및 평가, 문제점 및 대책  
□ ‘21년 국정감사 지적사항  
ㅇ 저소득층의 폭염 피해 최소화를 위해 동절기 에너지바우처 일부를 하절기에 사용  
할 수 있도록 제도 개선할 것  
- 희망세대 대상으로 동절기 에너지바우처 중 일부를 하절기에 사용할 수 있도록  
시스템 개선하였음(‘22.5월)  
□ ‘21년 결산 지적사항
백만원 라. 등유바우처 (1,023백만원) ㆍ 0.33만 세대 × 31만원 = 1,02

# Evaluation

In [None]:
#검증 데이터 쓸때만 사용 가능
if eval_mode == 'valid':
  for item in results:
      y_hat = item["Answer"]
      y = item["True_Answer"]
      f1, precision, recall = compute_f1(y, y_hat)
      item["F1"] = f1
      item["Precision"] = precision
      item["Recall"] = recall

In [None]:
if eval_mode == 'valid':
  # 제출용 샘플 파일 로드
  eval_df = pd.DataFrame([])

  # 생성된 답변을 제출 DataFrame에 추가
  eval_df['Question'] = [item['Question'] for item in results]
  eval_df['Answer'] = [item['Answer'] for item in results]
  eval_df["F1"] = [item["F1"] for item in results]
  eval_df["Precision"] = [item["Precision"] for item in results]
  eval_df["Recall"] = [item["Recall"] for item in results]
  # eval_df['Answer'] = eval_df['Answer'].fillna("데이콘")     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

  save_dir = os.path.join(path,'eval')
  if not os.path.exists(save_dir) : os.makedirs(save_dir)
  save_name = f'eval_{fname}'
  save_path = os.path.join(save_dir,save_name)

  # 결과를 CSV 파일로 저장
  eval_df.to_csv(save_path, encoding='UTF-8-sig', index=False)

In [None]:
# 평균 F1 확인
# eval_df = pd.read_csv(f"{path}trained_eval.csv",index_col=0)
if eval_mode == 'valid' :
  display(eval_df["F1"].mean())

0.7124401948554958

# Submission

In [None]:
submit_df = pd.read_csv(f"{path}sample_submission.csv")
submit_df.head()

Unnamed: 0,SAMPLE_ID,Answer
0,TEST_000,데이콘
1,TEST_001,데이콘
2,TEST_002,데이콘
3,TEST_003,데이콘
4,TEST_004,데이콘


In [None]:
# 제출용 샘플 파일 로드
submit_df = pd.read_csv(f"{path}sample_submission.csv")

# 생성된 답변을 제출 DataFrame에 추가
save_mode = 'submission'

if save_mode != 'submission' :
  submit_df['Question'] = [item['Question'] for item in results]
  submit_df['Context'] = [item['Context'] for item in results]
  save_dir = os.path.join(path,'eval')
else : save_dir = os.path.join(path,'sub')

if not os.path.exists(save_dir) : os.makedirs(save_dir)
save_path = os.path.join(save_dir,fname)

submit_df['Answer'] = [item['Answer'] for item in results]
submit_df['Answer'] = submit_df['Answer'].fillna("데이콘").apply(str.rstrip)     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

# 결과를 CSV 파일로 저장
submit_df.to_csv(save_path, encoding='UTF-8-sig', index=False)