In [None]:
!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes
!pip install transformers[torch] -U

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install PyMuPDF
!pip install sentence-transformers
!pip install faiss-cpu
!pip install langchain-community langchain-teddynote

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl.me

In [None]:
! pip install peft

Collecting peft
  Downloading peft-0.12.0-py3-none-any.whl.metadata (13 kB)
Downloading peft-0.12.0-py3-none-any.whl (296 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m296.4/296.4 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: peft
Successfully installed peft-0.12.0


In [None]:
import os
import unicodedata

import torch
import pandas as pd
from tqdm import tqdm
import fitz  # PyMuPDF

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig,
    Gemma2ForCausalLM
)
from accelerate import Accelerator

# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

from peft import PeftModel

from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever

In [None]:
def process_pdf(file_path, chunk_size=512, chunk_overlap=32):
    """PDF 텍스트 추출 후 chunk 단위로 나누기"""
    # PDF 파일 열기
    doc = fitz.open(file_path)
    text = ''
    # 모든 페이지의 텍스트 추출
    for page in doc:
        text += page.get_text()
    # 텍스트를 chunk로 분할
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    chunk_temp = splitter.split_text(text)
    # Document 객체 리스트 생성
    chunks = [Document(page_content=t) for t in chunk_temp]
    return chunks


def create_vector_db(chunks, model_path="intfloat/multilingual-e5-base"):
    """FAISS DB 생성"""
    # 임베딩 모델 설정
    model_kwargs = {'device': 'cuda'}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    # FAISS DB 생성 및 반환
    db = FAISS.from_documents(chunks, embedding=embeddings)
    return db

def normalize_path(path):
    """경로 유니코드 정규화"""
    return unicodedata.normalize('NFC', path)


def process_pdfs_from_dataframe(df, base_directory):
    """딕셔너리에 pdf명을 키로해서 DB, retriever 저장"""
    pdf_databases = {}
    unique_paths = df['Source_path'].unique()

    for path in tqdm(unique_paths, desc="Processing PDFs"):
        # 경로 정규화 및 절대 경로 생성
        normalized_path = normalize_path(path)
        full_path = os.path.normpath(os.path.join(base_directory, normalized_path.lstrip('./'))) if not os.path.isabs(normalized_path) else normalized_path

        pdf_title = os.path.splitext(os.path.basename(full_path))[0]
        print(f"Processing {pdf_title}...")

        # PDF 처리 및 벡터 DB 생성
        chunks = process_pdf(full_path)
        db = create_vector_db(chunks)

        # Retriever 생성
        # retriever = db.as_retriever(search_type="mmr",
        #                             search_kwargs={'k': 3, 'fetch_k': 8})


        kiwi_bm25_retriever = KiwiBM25Retriever.from_documents(chunks)
        faiss_retriever = db.as_retriever()

        retriever = EnsembleRetriever(
            retrievers=[kiwi_bm25_retriever, faiss_retriever],
            weights=[0.5, 0.5],
            search_type="mmr",
        )

        # 결과 저장
        pdf_databases[pdf_title] = {
                'db': db,
                'retriever': retriever
        }
    return pdf_databases


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
cd /content/drive/MyDrive/dataset/dacon_langchain

/content/drive/MyDrive/dataset/dacon_langchain


In [None]:
debug = True

In [None]:
base_directory = './' # Your Base Directory

if debug:
  df = pd.read_csv('./train.csv')
  len = df.shape[0]//2
  print(len)
  df = df.iloc[:len].reset_index(drop = True)
else:
  df = pd.read_csv('./test.csv')


df.head()

248


Unnamed: 0,SAMPLE_ID,Source,Source_path,Question,Answer
0,TRAIN_000,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?,"2024년 중앙정부 재정체계는 예산(일반·특별회계)과 기금으로 구분되며, 2024년..."
1,TRAIN_001,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?,"2024년 중앙정부의 예산 지출은 일반회계 356.5조원, 21개 특별회계 81.7..."
2,TRAIN_002,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,기금이 예산과 다른 점은?,"기금은 예산과 구분되는 재정수단으로서 재정운영의 신축성을 기할 필요가 있을 때, 정..."
3,TRAIN_003,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,"일반회계, 특별회계, 기금 간의 차이점은 무엇인가요?","일반회계는 특정 사업 운영 및 특정 세입으로 특정 세출을 충당하는데 사용되고, 특별..."
4,TRAIN_004,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,"2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?","2024년 총수입은 612.2조원이며, 예산수입은 395.5조원, 기금수입은 216..."


In [None]:
pdf_databases = process_pdfs_from_dataframe(df, base_directory)

Processing PDFs:   0%|          | 0/3 [00:00<?, ?it/s]

Processing 1-1 2024 주요 재정통계 1권...


Processing PDFs:  33%|███▎      | 1/3 [00:09<00:18,  9.19s/it]

Processing 2024 나라살림 예산개요...


Processing PDFs:  67%|██████▋   | 2/3 [00:23<00:12, 12.38s/it]

Processing 재정통계해설...


Processing PDFs: 100%|██████████| 3/3 [00:33<00:00, 11.18s/it]


In [None]:
def setup_llm_pipeline():
    # 4비트 양자화 설정
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype=torch.bfloat16
    )

    # 모델 ID
    model_id = "/content/drive/MyDrive/model/ko-gemma-2-9b-it"

    # 토크나이저 로드 및 설정
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    tokenizer.use_default_system_prompt = False

    # 모델 로드 및 양자화 설정 적용
    model = Gemma2ForCausalLM.from_pretrained(
        model_id,
        quantization_config=bnb_config,
        device_map="auto",
        trust_remote_code=True )

#     model = PeftModel.from_pretrained(model, "./persona/checkpoint-200",is_trainable=True)

    # HuggingFacePipeline 객체 생성
    text_generation_pipeline = pipeline(
        model=model,
        tokenizer=tokenizer,
        task="text-generation",
        #temperature=0.2,
        return_full_text=False,
        max_new_tokens=512,
    )

    hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

    return hf

In [None]:
# LLM 파이프라인
llm = setup_llm_pipeline()

The argument `trust_remote_code` is to be used with Auto classes. It has no effect here and is ignored.


Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

In [None]:
template = """
다음 정보를 바탕으로 질문에 답하세요:
{context}

질문: {question}

주어진 질문에만 답변하세요. 문장으로 답변해주세요. 답변할 때 질문의 주어를 써주세요.
답변:
"""

In [None]:
# template = """
# 다음 정보를 바탕으로 질문에 답하세요:
# {context}

# 질문: {question}

# 주어진 질문에만 답변하세요. 문장으로 답변해주세요. 단답도 해주세요.
# 답변:
# """

In [None]:
def normalize_string(s):
    """유니코드 정규화"""
    return unicodedata.normalize('NFC', s)

def format_docs(docs):
    """검색된 문서들을 하나의 문자열로 포맷팅"""
    context = ""
    for doc in docs:
        context += doc.page_content
        context += '\n'
    return context

# 결과를 저장할 리스트 초기화
results = []

# DataFrame의 각 행에 대해 처리
total_rows = df.shape[0]
for _, row in tqdm(df.iterrows(), total=total_rows, desc="Answering Questions"):

    # 소스 문자열 정규화
    source = normalize_string(row['Source'])
    question = row['Question']

    # 정규화된 키로 데이터베이스 검색
    normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}
    retriever = normalized_keys[source]['retriever']

    # RAG 체인 구성

    prompt = PromptTemplate.from_template(template)

    # RAG 체인 정의
    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke(question)

    print(f"Answer: {full_response}\n")

    # 결과 저장
    results.append({
        "Source": row['Source'],
        "Source_path": row['Source_path'],
        "Question": question,
        "Answer": full_response
    })

Answering Questions:   0%|          | 0/248 [00:00<?, ?it/s]

Question: 2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?


Answering Questions:   0%|          | 1/248 [00:07<28:58,  7.04s/it]

Answer: 2024년 중앙정부 재정체계는 일반회계 1개, 특별회계 21개, 기금 68개로 구성되어 있습니다.

Question: 2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?


Answering Questions:   1%|          | 2/248 [00:15<31:46,  7.75s/it]

Answer: 2024년 중앙정부의 예산 지출은 일반회계 356.5조원, 21개 특별회계 81.7조원으로 구성되어 있습니다. 




Question: 기금이 예산과 다른 점은?


Answering Questions:   1%|          | 3/248 [00:26<37:43,  9.24s/it]

Answer: 기금은 예산과 달리 예산과는 달리 재정수단으로서 재정운영의 신축성을 기할 필요가 있을 때, 정부가 편성하고 국회에서 심의･의결한 기금운용계획에 의해 운용됩니다. 




Question: 일반회계, 특별회계, 기금 간의 차이점은 무엇인가요?


Answering Questions:   2%|▏         | 4/248 [00:44<51:22, 12.63s/it]

Answer: 일반회계, 특별회계, 기금은 각각 다른 목적으로 사용되는 재정 수단입니다. 일반회계는 국가 고유의 일반적인 재정 활동을 위한 예산입니다. 특별회계는 특정 사업 운영이나 특정 세입으로 특정 세출을 충당하기 위해 사용됩니다. 기금은 특정 목적을 위해 특정 자금을 운용하는 재정 수단으로, 특정 사업을 안정적으로 운영하기 위해 사용됩니다. 




Question: 2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?


Answering Questions:   2%|▏         | 5/248 [00:52<44:15, 10.93s/it]

Answer: 2024년 총수입은 612.2조원이며, 예산수입은 395.5조원, 기금수입은 216.7조원입니다.

Question: 2024년도 예산수입은 어떻게 구성되어 있나요?


Answering Questions:   2%|▏         | 6/248 [00:59<38:58,  9.66s/it]

Answer: 2024년도 예산수입은 국세수입 367.3조원과 세외수입 28.2조원으로 구성되어 있습니다. 




Question: 2024년의 기금수입은 어떻게 구성되어 있나요?


Answering Questions:   3%|▎         | 7/248 [01:09<39:27,  9.83s/it]

Answer: 2024년의 기금수입은 사회보장기여금 92.3조원, 융자원금회수 33.8조원, 경상이전수입 39.6조원 등으로 구성되어 있습니다. 




Question: 2024년 국세수입은 얼마이며, 일반회계와 특별회계의 규모는 각각 얼마인가요?


Answering Questions:   3%|▎         | 8/248 [01:17<36:43,  9.18s/it]

Answer: 2024년 국세수입은 367.3조원이며, 일반회계는 356.1조원, 특별회계는 11.2조원입니다.

Question: 2024년도 국세수입 중 일반회계 내국세수입은 몇 조원인가요?


Answering Questions:   4%|▎         | 9/248 [01:22<31:37,  7.94s/it]

Answer: 2024년도 국세수입 중 일반회계 내국세수입은 321.6조원 입니다.

Question: 2024년도 세외수입 규모와 구성은 어떤가요?


Answering Questions:   4%|▍         | 10/248 [01:30<31:14,  7.87s/it]You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Answer: 2024년도 세외수입은 일반회계 11.2조원, 특별회계 17.0조원으로 총 28.2조원입니다. 




Question: 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 무엇인가?


Answering Questions:   4%|▍         | 11/248 [01:35<27:42,  7.01s/it]

Answer: 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 사회보장기여금입니다.

Question: 2024년 총지출 기준 예산의 일반회계와 특별회계의 비중이 각각 얼마인가?


Answering Questions:   5%|▍         | 12/248 [01:42<27:33,  7.01s/it]

Answer: 2024년 총지출 기준 예산의 일반회계 비중은 54.3%이고, 특별회계 비중은 12.4%입니다.

Question: 2024년도 총계 기준 재정규모는 얼마이며, 예산과 기금은 각각 몇 조원으로 구성되어 있는가?


Answering Questions:   5%|▌         | 13/248 [01:51<29:53,  7.63s/it]

Answer: 2024년도 총계 기준 재정규모는 1,573.3조원이며, 예산은 550.0조원, 기금은 1,023.3조원으로 구성되어 있습니다.

Question: 내부거래지출이란 무엇을 의미하며, 어떤 종류의 거래를 포함하고 있는가?


Answering Questions:   6%|▌         | 14/248 [02:01<33:07,  8.49s/it]

Answer: 내부거래지출은 회계 간, 회계･기금 간, 기금 간 거래를 의미하며, 사업비 보전을 위한 전입･전출, 여유자금의 공공자금관리기금에 예수･예탁 등을 포함합니다. 




Question: 보전지출이란 무엇을 의미하며, 어떤 상황에서 발생하는가?


Answering Questions:   6%|▌         | 15/248 [02:10<33:42,  8.68s/it]

Answer: 보전지출은 회계 또는 기금의 민간차입 상환(국채상환), 남은 자금의 금융기관 예치(기금여유자금 운용) 등의 상황에서 발생하는 것이다. 




Question: 2024년에 일반회계의 총지출은 얼마이며, 중앙정부 총지출 대비 어느 정도의 비율을 차지하는가?


Answering Questions:   6%|▋         | 16/248 [02:18<32:02,  8.29s/it]

Answer: 2024년에 일반회계의 총지출은 356.5조원이며, 중앙정부 총지출 대비 54.3%를 차지합니다.

Question: 2024년 예산 기준 특별회계는 얼마이며, 중앙정부 총지출 대비 어느 정도의 비율을 차지하는가?


Answering Questions:   7%|▋         | 17/248 [02:25<30:35,  7.94s/it]

Answer: 2024년 예산 기준 특별회계는 81.7조원이며, 중앙정부 총지출 대비 12.4%를 차지합니다.

Question: 2024년 기준으로 중앙정부의 인건비 편성 사업 규모와, 총지출 대비 인건비 사업 비중은 얼마인가?


Answering Questions:   7%|▋         | 18/248 [02:33<30:44,  8.02s/it]

Answer: 2024년 기준으로 중앙정부의 인건비 편성 사업 규모는 46.1조원이며, 총지출 대비 인건비 사업 비중은 7.0%입니다.

Question: 2024년 총지출 대비 자본지출 비중은 얼마인가요?


Answering Questions:   8%|▊         | 19/248 [02:37<26:20,  6.90s/it]

Answer: 2024년 총지출 대비 자본지출 비중은 6.1%입니다.

Question: 2020년 결산 기준, 연구개발비 중 개발연구 규모는 몇 억원인가?


Answering Questions:   8%|▊         | 20/248 [02:46<27:43,  7.30s/it]

Answer: 2020년 결산 기준, 연구개발비 중 개발연구 규모는 9.7조원의 33.8%에 해당하는 134,244억원입니다.

Question: 세출예산현액이란?


Answering Questions:   8%|▊         | 21/248 [03:02<37:40,  9.96s/it]

Answer: 세출예산현액은 예산 확정 후 전년도로부터의 이월액 반영, 추경 편성, 기금운용계획 변경, 이용･전용, 예비비 이월액은 2014년부터 감소 추세(8.0조원→3.9조원)를 모두 반영한 세출예산현액에서 지출액과 다음 연도 이월액을 차감한 금액입니다.

Question: 2022년 국가 예산의 다음 연도 이월액은 몇 조원인가?


Answering Questions:   9%|▉         | 22/248 [03:06<31:10,  8.28s/it]

Answer: 2022년 국가 예산의 다음 연도 이월액은 4.9조원입니다.

Question: 2022년 국가 예산의 불용액은 몇 조원인가?


Answering Questions:   9%|▉         | 23/248 [03:10<26:12,  6.99s/it]

Answer: 2022년 국가 예산의 불용액은 14.8조원입니다.

Question: 2022년 기준, 일반회계, 특별회계, 기금의 집행률은?


Answering Questions:  10%|▉         | 24/248 [03:19<28:09,  7.54s/it]

Answer: 2022년 기준, 일반회계의 집행률은 97.3%, 특별회계의 집행률은 94.7%, 기금의 집행률은 97.6% 입니다. 




Question: 2022년 기준, 일반회계와 기타특별회계의 이월금 차지 비율은 얼마인가?


Answering Questions:  10%|█         | 25/248 [03:26<27:42,  7.46s/it]

Answer: 2022년 기준, 일반회계와 기타특별회계의 이월금 차지 비율은 각각 56.9%와 35.3%입니다.

Question: 2022년 결산 기준으로 사회보험성기금의 이월금 규모는 몇 억원인가요?


Answering Questions:  10%|█         | 26/248 [03:32<25:52,  6.99s/it]

Answer: 주어진 정보에는 2022년 결산 기준으로 사회보험성기금의 이월금 규모에 대한 정보가 없습니다.

Question: 2017년부터 2022년까지의 사업성기금의 연도별 이월금 규모 추이는 어떠한가?


Answering Questions:  11%|█         | 27/248 [03:40<26:23,  7.17s/it]

Answer: 주어진 자료에는 2017년부터 2022년까지의 사업성기금의 연도별 이월금 규모 추이에 대한 정보가 없습니다. 




Question: 2022년 기준으로 국내총생산 대비 일반정부부채와 공공부문 부채의 비중은 각각 몇 퍼센트인가?


Answering Questions:  11%|█▏        | 28/248 [03:48<27:17,  7.44s/it]

Answer: 2022년 기준으로 국내총생산 대비 일반정부부채의 비중은 53.5%이고, 공공부문 부채의 비중은 73.5%입니다.

Question: 2022년 기준, 국가 재무제표상 부채는 얼마이며, 이는 어떻게 구성되어 있는가?


Answering Questions:  12%|█▏        | 29/248 [03:56<27:58,  7.67s/it]

Answer: 2022년 기준, 국가 재무제표상 부채는 2,326.0조원이며,  자세한 구성은 텍스트에 명시되어 있지 않습니다. 




Question: 2022년에 순자산은 얼마이며, 전년 대비 어떻게 변화했는가?


Answering Questions:  12%|█▏        | 30/248 [04:02<26:13,  7.22s/it]

Answer: 2022년에 순자산은 507.6조원이며, 전년 대비 163.1조원 감소했습니다.

Question: 국가채무와 일반정부부채, 공공부문부채를 작성하는 데 있어 회계기준의 차이점은 무엇인가요?


Answering Questions:  12%|█▎        | 31/248 [04:25<43:12, 11.95s/it]

Answer: 주어진 정보에 따르면, 국가채무는 중앙 및 지방정부의 회계 및 기금의 부채를 현금주의 기준으로 순계 합산하여 산출됩니다. 일반정부부채는 국가채무에 비영리공공기관의 부채를 더해 발생주의 기준으로 순계 합산하여 산출됩니다. 마지막으로 공공부문부채는 일반정부부채에 비금융공기업의 부채를 발생주의 기준으로 순계 합산하여 산출됩니다. 즉, 세 가지 부채 유형은 현금주의와 발생주의 기준을 적용하여 산출됩니다.




Question: 국가채무의 산출 기준은?


Answering Questions:  13%|█▎        | 32/248 [04:29<34:05,  9.47s/it]

Answer: 국가채무의 산출 기준은 국가재정법과 현금주의입니다.

Question: 발생주의와 현금주의의 부채 인식 방식에는 어떤 차이가 있나요?


Answering Questions:  13%|█▎        | 33/248 [04:42<38:17, 10.68s/it]

Answer: 발생주의와 현금주의의 부채 인식 방식에는 발생 시점에 대한 차이가 있습니다. 현금주의는 채무 수납과 지급 시점을 기준으로 수입과 비용을 인식하는 반면, 발생주의는 거래나 경제적 사건이 발생했을 때를 기준으로 수익, 비용을 인식합니다. 




Question: 일반정부 부채의 산출기준은?


Answering Questions:  14%|█▎        | 34/248 [04:49<33:39,  9.44s/it]

Answer: 일반정부 부채의 산출 기준은 국가채무에 비영리공공기관을 더하여 발생주의 기준으로 순계 합산하여 산출됩니다.

Question: 추가경정예산은 2008년 이후 몇 번의 추가경정예산이 편성되었는가?


Answering Questions:  14%|█▍        | 35/248 [04:52<27:17,  7.69s/it]

Answer: 2008년 이후 추가경정예산은 16회 편성되었습니다.

Question: 2022년에는 어떤 분야에 민생경제 지원을 위해 가장 많은 예산이 배분되었는가?


Answering Questions:  15%|█▍        | 36/248 [04:59<25:36,  7.25s/it]

Answer: 2022년에는 산업･중소기업 및 에너지와 보건･복지･고용 분야에 가장 많은 예산이 배분되었습니다.

Question: 추가경정예산이란 무엇을 의미하는가?


Answering Questions:  15%|█▍        | 37/248 [05:05<24:56,  7.09s/it]

Answer: 추가경정예산은 예산 성립 후 법률로 인정되는 사유로 인해 예산에 추가 또는 변경을 가한 예산을 의미합니다. 




Question: 2007년 시행된 국가재정법에서 추경 편성 사유로 명시된 사항은 무엇인가?


Answering Questions:  15%|█▌        | 38/248 [05:23<35:49, 10.23s/it]

Answer: 2007년 시행된 국가재정법에서 추경 편성 사유로 명시된 사항은 ①전쟁이나 대규모 재해가 발생한 경우, ②경기침체, 대량 실업, 남북 관계의 변화, 경제협력과 같은 대내외 여건에 중대한 변화가 발생하였거나 발생할 우려가 있는 경우, ③법령에 따라 국가가 지급하여야 하는 지출이 발생하거나 증가하는 경우에 한정 입니다.

Question: 2024년 예산 기준, 지방교부세는 몇 조원이며, 작년 대비 비중이 어떻게 변화했는가?


Answering Questions:  16%|█▌        | 39/248 [05:31<33:05,  9.50s/it]

Answer: 2024년 예산 기준, 지방교부세는 667.6조원이며, 작년 대비 비중은 33.9%로 변화했습니다. 




Question: 지방교부세는 어떤 목적을 위해 자치단체에 교부되는 재원인가?


Answering Questions:  16%|█▌        | 40/248 [05:38<30:14,  8.72s/it]

Answer: 지방교부세는 지방자치단체 간 재원 보장과 재정 불균형 완화를 위해 자치단체에 교부되는 재원이다. 




Question: 지방교부세는 어떤 세부 항목으로 구성되어 있는가?


Answering Questions:  17%|█▋        | 41/248 [05:45<28:46,  8.34s/it]

Answer: 지방교부세는 보통교부세, 특별교부세, 부동산교부세, 소방안전교부세, 분권교부세로 구성되어 있습니다. 




Question: 2024년 교육재정 교부금의 규모는 얼마이고, 전년 대비 추이는 어떠한가?


Answering Questions:  17%|█▋        | 42/248 [05:51<26:29,  7.72s/it]

Answer: 2024년 교육재정교부금의 규모는 73.0조원이며, 전년 대비 8.9% 감소합니다.

Question: 2024년의 교육재정교부금에서 고교 무상교육에 사용한 규모는?


Answering Questions:  17%|█▋        | 43/248 [05:57<24:34,  7.19s/it]

Answer: 2024년의 교육재정교부금에서 고교 무상교육에 사용한 규모는 9,548억원입니다.

Question: 2024년에 교육재정교부금에서 유아교육비 및 보육료 지원에 할당된 비중은?


Answering Questions:  18%|█▊        | 44/248 [06:04<23:48,  7.00s/it]

Answer: 2024년에 교육재정교부금에서 유아교육비 및 보육료 지원에 할당된 비중은 표에서 찾을 수 없습니다. 




Question: 교육재정 교부금이란?


Answering Questions:  18%|█▊        | 45/248 [06:11<24:14,  7.17s/it]

Answer: 교육재정교부금은 국가가 지방자치단체에 교부하는 재원으로, 교육기관 및 교육행정기관의 경비를 지원하기 위해 사용됩니다. 




Question: 국고보조사업 규모는 2024년에 얼마이며 전년 대비 어떤 증가율을 보이는가?


Answering Questions:  19%|█▊        | 46/248 [06:18<23:36,  7.01s/it]

Answer: 국고보조사업 규모는 2024년에 89.3조원이며, 전년 대비 7.4% 증가합니다.

Question: 특별회계 국고보조금 중 국가균형발전특별회계에서 얼마가 포괄보조금으로 지출되는가?


Answering Questions:  19%|█▉        | 47/248 [06:24<22:52,  6.83s/it]

Answer: 특별회계 국고보조금 중 국가균형발전특별회계에서 10.0조원이 포괄보조금으로 지출됩니다.

Question: 2024년의 국고보조사업(자치단체 이전)에서 기금 규모는 얼마인가?


Answering Questions:  19%|█▉        | 48/248 [06:31<22:23,  6.72s/it]

Answer: 2024년의 국고보조사업(자치단체 이전)에서 기금 규모는 26,842억원입니다.

Question: 총사업비 관리대상사업의 규모는 2023년 몇 조원이며, 전년 대비 얼마나 증가했나요?


Answering Questions:  20%|█▉        | 49/248 [06:38<22:51,  6.89s/it]

Answer: 총사업비 관리대상사업의 규모는 2023년 305.0조원이며, 전년 대비 30.7조원 증가했습니다.

Question: 총사업비 관리제도는 어떤 제도이며, 어떤 종류의 사업을 관리하는데 사용되나요?


Answering Questions:  20%|██        | 50/248 [06:53<30:14,  9.17s/it]

Answer: 총사업비 관리제도는 2년 이상 소요되는 대규모 사업에 대해 사업 규모 및 사업 기간을 미리 정하여 관리하는 제도입니다. 건축･토목 사업은 1994년부터, 정보화 사업은 2010년부터, 연구개발(R&D)사업은 2015년부터 관리되고 있습니다. 




Question: 관리재정수지와 통합재정수지의 차이점은 무엇인가?


Answering Questions:  21%|██        | 51/248 [06:58<26:37,  8.11s/it]

Answer: 관리재정수지는 통합재정수지에서 사회보장성기금수지를 제외한 재정수지를 말한다. 




Question: 청년층을 위한 주거비용 지원 정책과 산업단지를 청년이 선호하는 환경으로 전환하기 위한 프로젝트에 대해 설명해주세요.


Answering Questions:  21%|██        | 52/248 [07:32<51:35, 15.79s/it]

Answer: 청년층을 위한 주거비용 지원 정책으로는 월 20만원의 청년 월세 한시 특별지원을 1년 연장 지원하고, 청년 대상 공공분양(5.3→6.7만호) 및 공공임대(5.2→5.7만호) 등 공공주택 공급을 대폭 확대하는 것을 들 수 있습니다. 또한 청년농업인의 주거부담을 완화하기 위해 임대 주택단지를 8개소 추가 조성한다는 계획도 있습니다. 산업단지를 청년이 선호하는 환경으로 전환하기 위한 프로젝트는 '산리단길 프로젝트' 라고 불립니다. 이 프로젝트는 노후한 산업단지에 청년들이 선호하는 문화·편의·주거시설을 설치하여 청년층의 주거 환경과 생활 환경을 개선하는 것을 목표로 합니다. 




Question: 임신·출산을 희망하는 가구에 어떤 지원이 신규로 이뤄지고 있으며, 고위험 임산부와 미숙아·선천성 이상아의 의료비 지원은 어떻게 이루어지는가?


Answering Questions:  21%|██▏       | 53/248 [07:48<51:54, 15.97s/it]

Answer: 2024년도 나라살림 예산안에 따르면, 임신·출산을 희망하는 가구에 필수가임력(생식건강) 검진비와 냉동난자를 활용한 보조 생식술 비용을 신규 지원한다. 또한, 고위험 임산부와 미숙아·선천성 이상아의 의료비는 소득수준에 관계없이 지원한다. 




Question: 농어가 소득과 생활안전망 확충을 위해 어떤 지원이 추가되었는가?


Answering Questions:  22%|██▏       | 54/248 [08:09<55:59, 17.32s/it]

Answer: 농어가 소득과 생활안전망 확충을 위해 경작면적이 0.5ha 이하인 소규모 농가 53만호에 지급되는 직불금을 (2023년) 120만원 → (2024년) 130만원으로 인상하고, 수입보장보험을 (2023년) 7품목 → (2024년) 10품목으로 확대하여 농어가의 소득 안정을 위한 지원을 확대한다. 




Question: 전세사기 예방 및 피해자 지원을 위해 어떤 예산이 편성되었으며, 어떤 조직이 운영되고 있는가?


Answering Questions:  22%|██▏       | 55/248 [08:34<1:03:26, 19.72s/it]

Answer: 전세사기 예방을 위해 118억원이 전세보증금 반환보증 보증료 지원, 주택 임대차 거래 모니터링 등에 사용됩니다. 또한 전세사기 피해지원위원회와 전세사기 피해지원단이 운영되며, 이들의 운영을 위한 예산은 21억원입니다. 전세사기 피해자 구제를 위해 매입임대 예산은 7,125억원, 전세사기 피해자들이 주택을 구입하거나 전세를 마련할 때 사용할 수 있는 정책지원 대출을 위한 예산은 6,145억원입니다. 




Question: 이상기후로 인한 수해 관련 재해 대응을 위해 어떤 시설이 신규 설치되고 있으며, 그 목적은 무엇인가?


Answering Questions:  23%|██▎       | 56/248 [08:51<59:55, 18.73s/it]  

Answer: 이상기후로 인한 수해 관련 재해 대응을 위해 빗물을 일시에 저장하여 도심 저지대 침수피해를 예방하기 위한 우수저류시설 6개소가 신규 설치될 예정이며, 하상도로에 하천 수위계 센서에 연계하여 자동으로 출입을 통제하는 시설도 전국 180개소에 구축될 예정입니다. 




Question: 대학의 일반재정지원을 확대하는 이유와 국립대학 및 사립대학의 투자 확대 방식은 무엇인가?


Answering Questions:  23%|██▎       | 57/248 [09:07<57:27, 18.05s/it]

Answer: 대학의 일반재정지원을 확대하는 이유는 등록금 동결, 물가 상승 등에 대응하여 대학이 충분한 교육을 제공할 수 있도록 돕기 위해서입니다. 국립대학은 생활안전, 첨단 기자재 중심으로 투자를 확대하고, 사립대학은 경영자문 컨설팅을 지원하여 체계적 구조개선을 촉진합니다. 




Question: 2024년 R&D 분야에 대한 재정투자 규모는 2023년 대비 얼마나 감소했으며, 어떤 분야의 국가전략기술 투자를 확대할 계획인가?


Answering Questions:  23%|██▎       | 58/248 [09:21<53:21, 16.85s/it]

Answer: 2024년 R&D 분야에 대한 재정투자 규모는 2023년 대비 9.5% 감소한 26.5조원입니다. 2024년에는 AI, 첨단바이오, 반도체, 이차전지 등 혁신기술의 내재화에 집중 투자할 계획입니다. 




Question: 우주산업 클러스터 삼각체제 구축사업의 목표와 국가 우주산업 육성 거점 지역은 어디인가?


In [None]:
from collections import Counter
def calculate_f1_score(true_sentence, predicted_sentence, sum_mode=True):

    #공백 제거
    true_sentence = ''.join(true_sentence.split())
    predicted_sentence = ''.join(predicted_sentence.split())

    true_counter = Counter(true_sentence)
    predicted_counter = Counter(predicted_sentence)

    #문자가 등장한 개수도 고려
    if sum_mode:
        true_positive = sum((true_counter & predicted_counter).values())
        predicted_positive = sum(predicted_counter.values())
        actual_positive = sum(true_counter.values())

    #문자 자체가 있는 것에 focus를 맞춤
    else:
        true_positive = len((true_counter & predicted_counter).values())
        predicted_positive = len(predicted_counter.values())
        actual_positive = len(true_counter.values())

    #f1 score 계산
    precision = true_positive / predicted_positive if predicted_positive > 0 else 0
    recall = true_positive / actual_positive if actual_positive > 0 else 0
    f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

    return precision, recall, f1_score

def calculate_average_f1_score(true_sentences, predicted_sentences):

    total_precision = 0
    total_recall = 0
    total_f1_score = 0

    for true_sentence, predicted_sentence in zip(true_sentences, predicted_sentences):
        precision, recall, f1_score = calculate_f1_score(true_sentence, predicted_sentence)
        total_precision += precision
        total_recall += recall
        total_f1_score += f1_score

    avg_precision = total_precision / len(true_sentences)
    avg_recall = total_recall / len(true_sentences)
    avg_f1_score = total_f1_score / len(true_sentences)

    return {
        'average_precision': avg_precision,
        'average_recall': avg_recall,
        'average_f1_score': avg_f1_score
    }

In [None]:
if debug:

  submit_df = pd.DataFrame()
  submit_df['Answer'] = [item['Answer'] for item in results]

  # submit_df = pd.read_csv('baseline_submission.csv')
  pred = submit_df['Answer']

  # df = pd.read_csv('train.csv')
  gt = df['Answer']

  result = calculate_average_f1_score(gt, pred)
  print(result)

else:
  # 제출용 샘플 파일 로드
  submit_df = pd.read_csv("./sample_submission.csv")

  # 생성된 답변을 제출 DataFrame에 추가
  submit_df['Answer'] = [item['Answer'] for item in results]
  submit_df['Answer'] = submit_df['Answer'].fillna("데이콘")     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

  # 결과를 CSV 파일로 저장
  submit_df.to_csv("./baseline_submission.csv", encoding='UTF-8-sig', index=False)