## 재정정보 AI 검색 알고리즘 경진대회 코드
대회 주소 : https://dacon.io/competitions/official/236295/overview/description
### 시스템 환경
OS : Docker - pytorch/pytorch:2.3.1-cuda12.1-cudnn8-runtime <br>
CPU : Xeon® E5-2698 v4 <br> 
RAM : 97GB <br>
GPU : Q RTX 8000(VRAM 45GB) x 2 <br>
<br>
사용 모델 : rtzr/ko-gemma-2-9b-it, intfloat/multilingual-e5-large, Dongjin-kr/ko-reranker  <br>

### 제약사항 : 유료 API 전부 사용 불가능



In [22]:
!pip install transformers==4.44.0



In [2]:
!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install PyMuPDF
!pip install sentence-transformers
!pip install faiss-cpu
!pip install kiwipiepy rank_bm25 openai tiktoken konlpy pdfplumber
!pip install -U langchain-experimental # 최신 버전이 필요합니다 (멀티 모달을 위해)
!pip install langchain-teddynote pymupdf pymupdf4llm

In [3]:
!sudo apt update -y
!sudo apt install openjdk-11-jdk -y

In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
# from dotenv import load_dotenv

# # API 키 정보 로드
# load_dotenv()

import json
import os
import unicodedata

import torch
import random
from transformers import set_seed

# 시드 설정
seed = 42
random.seed(seed)
torch.manual_seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)
set_seed(seed)

import pandas as pd
from tqdm import tqdm
import pymupdf
import pymupdf4llm
from collections import Counter

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig,
    AwqConfig
)
from accelerate import Accelerator

# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS, Chroma
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter, MarkdownTextSplitter, MarkdownHeaderTextSplitter
from langchain.prompts import PromptTemplate, ChatPromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
from langchain_teddynote.retrievers import KiwiBM25Retriever,OktBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever
from langchain.storage import InMemoryStore
from langchain.retrievers import ParentDocumentRetriever


from langchain.document_loaders import PDFPlumberLoader, PyMuPDFLoader, PyPDFLoader, UnstructuredPDFLoader
# from peft import PeftModel

import os
import glob
import re
from kiwipiepy import Kiwi

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
class Opt:
    def __init__(self):
        
        # 선택된 모델
        self.base_directory = ""

        self.llm_model = os.path.join(self.base_directory, "rtzr")
        # self.llm_model_config = self.model_configs[self.llm_model]
        self.llm_peft = False
        self.llm_peft_checkpoint = "rtzr/ko-gemma-2-9b-it"
        
        self.embed_models = ["intfloat/multilingual-e5-base", "jhgan/ko-sbert-nli", "intfloat/multilingual-e5-large"]
        self.embed_model = self.embed_models[2]
        
        self.pdf_loader= "pymupdf-remaster"
        
        self.train_csv_path = os.path.join(self.base_directory, "train.csv")
        self.test_csv_path = os.path.join(self.base_directory, "test.csv")
        self.chunk_size = 512
        self.chunk_overlap = 32
        
        self.ensemble = True
        self.bm25_w = 0.3
        self.faiss_w = 0.7
        
        self.is_submit = True
        
        self.eval_sum_mode = False
        
        self.output_dir = "test_results"
        self.output_csv_file = f"{self.llm_model}_{self.embed_model.split('/')[1]}_pdf{self.pdf_loader}_chks{self.chunk_size}_chkovp{self.chunk_overlap}_bm25{self.bm25_w}_faiss{self.faiss_w}_mix_submission.csv"
        
        os.makedirs(self.output_dir, exist_ok=True)
        
    def to_json(self):
        return json.dumps(self.__dict__)
    
        
args=Opt()

In [3]:
def setup_llm_pipeline():
    tokenizer = AutoTokenizer.from_pretrained(args.llm_model)
    tokenizer.use_default_system_prompt = False
    base_directory = ""
    llm_model = os.path.join(base_directory, "rtzr")
    print(tokenizer.eos_token, tokenizer.eos_token_id)

    max_memory_mapping = {0: "14GB", 1: "45GB"}
    model = AutoModelForCausalLM.from_pretrained(
        llm_model,
        device_map="auto",
        trust_remote_code=True,
        max_memory=max_memory_mapping
        # attn_implementation="flash_attention_2",
    )
    
    text_generation_pipeline = pipeline(
        model=adapter_model if args.llm_peft else model,
        tokenizer=tokenizer,
        task="text-generation",
        return_full_text=False,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.7,
        top_k=50,
        do_sample=True
    )

    return HuggingFacePipeline(pipeline=text_generation_pipeline)

In [6]:
llm = setup_llm_pipeline()

KeyboardInterrupt: 

In [8]:
def clean_text(text):
    # 연속된 공백을 하나의 공백으로 대체
    pattern = r'\x07'
    pattern2 = r'\x03'
    # 줄 끝의 하이픈으로 끊긴 단어 연결
    text = re.sub(r'(\w+)-\s*\n\s*(\w+)', r'\1\2', text)
    # 줄바꿈 문자를 공백으로 대체 (옵션)
    text = text.replace('', '')
    text = text.replace('□', '')
    text = text.replace('ㅇ', '')
    cleaned_text = re.sub(pattern, '', text)
    cleaned_text = re.sub(pattern2, '', cleaned_text)
    text_compact = re.sub(r'\s+', ' ', cleaned_text).replace(' ', ' ')
    
    return text_compact.strip()

In [9]:
def normalize_path(path):
    return unicodedata.normalize('NFC', path)
    
def format_docs(docs):
    return "\n".join([doc.page_content for doc in docs])

def process_pdf(file_path,title):
    md_text = pymupdf4llm.to_markdown(file_path)
    
    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
        ("####", "Header 4"),
    ]

    md_header_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on, strip_headers=False)
    md_chunks = md_header_splitter.split_text(md_text)
    dd=[]
    kiwi=Kiwi()
    for i in md_chunks:
        sp = kiwi.split_into_sents(i.page_content)
        for j in sp:
            print(clean_text(j.text))
            dd.append(Document(page_content=clean_text(j.text)))

    return dd



def create_vector_db(chunks, model_path,cnt, method='faiss'):
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    db = FAISS.from_documents(chunks, embedding=embeddings)
    
    return db


In [10]:
def process_pdfs_from_dataframe(df, base_directory):
    """딕셔너리에 pdf명을 키로해서 DB, retriever 저장"""
    pdf_databases = {}
    unique_paths = df['Source_path'].unique()
    cnt=0
    for path in tqdm(unique_paths, desc="Processing PDFs"):
        # 경로 정규화 및 절대 경로 생성
        normalized_path = normalize_path(path)
        full_path = os.path.normpath(os.path.join(base_directory, normalized_path.lstrip('./'))) if not os.path.isabs(normalized_path) else normalized_path
        
        pdf_title = os.path.splitext(os.path.basename(full_path))[0]
        print(f"Processing {pdf_title}...")
        
        # PDF 처리 및 벡터 DB 생성
        chunks = process_pdf(full_path,pdf_title)

        db = create_vector_db(chunks, model_path=args.embed_model,cnt=cnt)
            
        Okt_bm25_retriever = OktBM25Retriever.from_documents(chunks)
        Okt_bm25_retriever.k = 5
        faiss_retriever = db.as_retriever(search_kwargs={'k': 5},)
 
        retriever = EnsembleRetriever(
            retrievers=[Okt_bm25_retriever, faiss_retriever],
            weights=[args.bm25_w, args.faiss_w],
            search_type="mmr",
            search_kwargs={'k': 5},
        )

        # 결과 저장
        pdf_databases[pdf_title] = {
            'db': db,
            'retriever': retriever
        }
    cnt+=1
        
    return pdf_databases

In [11]:
base_directory = args.base_directory  # Your Base Directory
train_df = pd.read_csv(args.train_csv_path)
test_df = pd.read_csv(args.test_csv_path)
train_pdf_databases = None
test_pdf_databases = None
if args.is_submit:
    test_pdf_databases = process_pdfs_from_dataframe(test_df, base_directory)
else:
    train_pdf_databases = process_pdfs_from_dataframe(train_df, base_directory)

Processing PDFs:   0%|          | 0/9 [00:00<?, ?it/s]

Processing 중소벤처기업부_혁신창업사업화자금(융자)...
## 사 업 명 혁신창업사업화자금(융자) (5152-301)
## 1. 사업 코드 정보 |구분|기금|소관|실국(기관)|계정|분야|부문| |---|---|---|---|---|---|---| |코드|중소벤처기업 창업 및 진흥기금|중소벤처기업부|중소기업정책실||110|118| |명칭|||||산업·중소기업 및 에너지|창업 및 벤처| |구분|프로그램|단위사업|세부사업| |---|---|---|---| |코드|5100|5152|301| |명칭|창업환경조성|창업기업지원융자(기금)|혁신창업사업화자금(융자)|
## 구분 기금 소관 실국(기관) 계정 분야 부문 코드 110 118 중소벤처기업 중소벤처기업부 중소기업정책실 산업·중소기업
## 명칭 창업 및 진흥기금 창업 및 벤처 및 에너지
## 구분 프로그램 단위사업 세부사업 코드 5100 5152 301 명칭 창업환경조성 창업기업지원융자(기금) 혁신창업사업화자금(융자) 2. 사업 지원 형태 및 지원율 |직접|출자|출연|보조|융자|국고보조율(%)|융자율 (%)| |---|---|---|---|---|---|---| ||||○|○|||
## 직접 출자 출연 보조 융자 국고보조율(%) 융자율 (%) ○ ○ 3. 지출계획 총괄표 (단위: 백만원, %) |사업명|2022년 결산|2023년|Col4|2024년|증감 (B-A) (B-A)/A|Col7| |---|---|---|---|---|---|---| |||당초(A)|수정|확정(B)||(B-A)/A| |혁신창업사업화자 금(융자)|2,300,000|2,230,000|2,330,000|2,007,800|△222,200|△9.96| 2023년 2024년 2022년 증감 사업명 결산 당초(A) 수정 확정(B) (B-A) (B-A)/A 혁신창업사업화자 2,300,000 2,230,000 2,330,000 2,007,800 △222,200 △9.96 금(융자)
## 4. 사업목적 (창업기반지원) 기술력과 사업성이 우수하고 미래 성장가

  warn_deprecated(
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Processing PDFs:  11%|█         | 1/9 [02:16<18:08, 136.12s/it]

Processing 보건복지부_부모급여(영아수당) 지원...
# 사 업 명 (67) 부모급여(영아수당) 지원 (3143-300)
# 1. 사업 코드 정보 |구분|회계|소관|실국(기관)|계정|분야|부문| |---|---|---|---|---|---|---| |코드|11 일반회계|23 보건복지부|인구정책실 보육정책관||080|08A| |명칭|||||사회복지|아동·보육| |구분 코드 명칭|회계 소관 11 일반회계 23 보건복지부|실국(기관) 계정 인구정책실 보육정책관|분야 부문 080 08A 사회복지 아동·보육| |---|---|---|---| |구분|프로그램|단위사업|세부사업| |코드|3100|3143|300| |명칭|보육지원강화|부모급여(영아수당) 지원|부모급여(영아수당) 지원| 2. 사업 지원 형태 및 지원율 |직접|출자|출연|보조|융자|국고보조율(%)|융자율 (%)| |---|---|---|---|---|---|---| ||||○||서울 25~45% 지방 55~75%|| 3. 예산 총괄표 |Col1|Col2|Col3|Col4|Col5|(단위: 백만원, %)|Col7| |---|---|---|---|---|---|---| |사업명|2022년 결산|2023년 예산 본예산(A)|2024년||증감 (B-A) (B-A)/A|| ||||정부안|확정(B)||(B-A)/A| |부모급여(영아수당) 지원|341,751|1,621,454|2,888,694|2,888,694|1,267,240|78.2| 2022년 2023년 예산 2024년 증감 사업명 결산 본예산(A) (B-A) 정부안 확정(B) (B-A)/A 부모급여(영아수당) 지원 341,751 1,621,454 2,888,694 2,888,694 1,267,240 78.2 4. 사업목적·내용 (단위: 백만원, %) (부모급여 지원) 출산 및 양육으로 손실되는 소득을 보전하고, 주 양육자의 직접돌봄이 중요한 아동발달의 특성에 따라 영아기 돌봄을 두텁게 지원하기 위해 부모급여 지급 - 영아수당을부모급여로변경‧확대 ‧ -----

Processing PDFs:  11%|█         | 1/9 [03:26<27:30, 206.28s/it]


KeyboardInterrupt: 

In [17]:
df = test_df if args.is_submit else train_df
pdf_databases = test_pdf_databases if args.is_submit else train_pdf_databases

In [18]:
def normalize_string(s):
    """유니코드 정규화"""
    return unicodedata.normalize('NFC', s)

In [19]:
from langchain_core.prompts import format_document
from langchain_community.document_transformers import LongContextReorder
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_core.runnables import RunnableMap

In [20]:
# 기본 문서 프롬프트를 생성합니다. (source, metadata 등을 추가할 수 있습니다)
DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(
    template="{page_content}]"
)

def combine_documents(
    docs,  # 문서 목록
    # 문서 프롬프트 (기본값: DEFAULT_DOCUMENT_PROMPT)
    document_prompt=DEFAULT_DOCUMENT_PROMPT,
    document_separator="\n",  # 문서 구분자 (기본값: 두 개의 줄바꿈)
):
    # context 에 입력으로 넣기 위한 문서 병합
    doc_strings = [
        f"[{i}] {format_document(doc, document_prompt)}" for i, doc in enumerate(docs)
    ]  # 각 문서를 주어진 프롬프트로 포맷팅하여 문자열 목록 생성
    return document_separator.join(
        doc_strings
    )  # 포맷팅된 문서 문자열을 구분자로 연결하여 반환


def reorder_documents(docs):
    # 재정렬
    # reordering = LongContextReorder()
    # reordered_docs = reordering.transform_documents(docs)
    combined = combine_documents(docs, document_separator="\n")
    return combined

In [21]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

model = HuggingFaceCrossEncoder(model_name="Dongjin-kr/ko-reranker")

In [None]:
# 결과를 저장할 리스트 초기화
results = []

# DataFrame의 각 행에 대해 처리
for _, row in tqdm(df.iterrows(), total=len(df), desc="Answering Questions"):
    # 소스 문자열 정규화
    source = normalize_string(row['Source'])
    question = row['Question']

    # 정규화된 키로 데이터베이스 검색
    normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}
    retriever = normalized_keys[source]['retriever']
    compressor = CrossEncoderReranker(model=model, top_n=5)
    compression_retriever = ContextualCompressionRetriever(
        base_compressor=compressor, base_retriever=retriever)

    template = """
    {question}

    {context}

    주어진 질문에만 답변하세요.
    
    답변:
    """
    
    prompt = PromptTemplate.from_template(template)
   
    # RAG 체인 정의
    rag_chain = (
        {"context": compression_retriever | reorder_documents, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke(question)
    
    print(f"Answer: {full_response}\n")

    # 결과 저장
    results.append({
        "Source": row['Source'],
        "Source_path": row['Source_path'],
        "Question": question,
        "Answer": full_response
    })

Answering Questions:   0%|          | 0/98 [00:00<?, ?it/s]

Question: 2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?


Answering Questions:   1%|          | 1/98 [00:12<20:55, 12.94s/it]

Answer: 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원 입니다. 




Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 무엇인가요?


Answering Questions:   2%|▏         | 2/98 [00:42<36:16, 22.67s/it]

Answer: 중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 기술력과 사업성이 우수하고 미래 성장가능성이 높은 중소벤처기업의 창업을 활성화하고 고용창출 도모하며, 중소기업이 보유한 우수 기술의 사장을 방지하고 개발기술의 제품화·사업화를 촉진하여 기술기반 중소기업을 육성하는 것입니다. 




Question: 중소벤처기업부의 혁신창업사업화자금(융자) 사업근거는 어떤 법률에 근거하고 있나요?


Answering Questions:   3%|▎         | 3/98 [00:56<29:45, 18.80s/it]

Answer: 중소기업진흥에 관한 법률 제66조, 제67조, 제74조, 중소기업창업지원법 제35조 에 근거하고 있습니다. 




Question: 2010년에 신규 지원된 혁신창업사업화자금은 무엇인가요?


Answering Questions:   4%|▍         | 4/98 [01:10<26:12, 16.73s/it]

Answer: 2010년에 신규 지원된 혁신창업사업화자금은 재창업자금(실패 경영인에 대한 재기지원) 입니다. 





Question: 혁신창업사업화자금 중 2020년에 신규 지원된 자금은 무엇인가요?


Answering Questions:   5%|▌         | 5/98 [01:20<22:37, 14.59s/it]

Answer: 2020년에 신규 지원된 자금은 미래기술육성자금, 고성장촉진자금 입니다.





Question: 재창업자금이 재도약지원자금으로 이관된 연도는 언제인가요?


Answering Questions:   6%|▌         | 6/98 [01:31<20:13, 13.19s/it]

Answer: 재창업자금이 재도약지원자금으로 이관된 연도는 2015년입니다.





Question: 창업기반지원과 신청 대상이 중복인 자금이 어떤 것이며, 이 자금이 폐지된 연도는 언제인가요?


Answering Questions:   7%|▋         | 7/98 [01:46<21:06, 13.91s/it]

Answer: 창업기반지원과 신청 대상이 중복되는 자금은 '일자리창출촉진자금'이며, 이 자금은 2023년 1월에 폐지되었습니다.





Question: 혁신창업사업화자금(융자) 사업을 시행하는 주체는 누구인가요?


Answering Questions:   8%|▊         | 8/98 [01:53<17:16, 11.51s/it]

Answer: 중소벤처기업진흥공단 


Question: 혁신창업사업화자금(융자) 사업 집행절차는 어떻게 되나요?


Answering Questions:   9%|▉         | 9/98 [02:47<37:03, 24.98s/it]

Answer: 혁신창업사업화자금(융자) 사업의 집행 절차는 다음과 같습니다.

    1. 사업계획 수립 및 공고: 중소벤처기업부와 중소기업은 사업계획을 수립하고 공고를 발표합니다.
    2. 사전 상담 및 신청: 중소기업은 사전 상담을 통해 필요한 정보를 얻고 신청서를 제출합니다.
    3. 접수 및 현장실사: 중소기업은 신청서를 중진공에 접수하고, 중진공은 현장실사를 진행합니다.
    4. 평가 및 승인: 중진공은 평가 결과를 바탕으로 사업을 승인합니다.
    5. 사업 실행 지원 결정 통보: 중진공은 승인된 사업에 대해 지원 결정을 통보합니다.
    6. 융자 실행: 중진공 또는 은행은 중소기업에게 융자를 실행합니다. 






Question: 부모급여 지원 사업의 목적은 무엇인가요?


Answering Questions:  10%|█         | 10/98 [03:10<35:41, 24.33s/it]

Answer: 부모급여 지원 사업의 목적은 출산 및 양육으로 손실되는 소득을 보전하고, 주 양육자의 직접 돌봄이 중요한 아동발달의 특성에 따라 영아기 돌봄을 두텁게 지원하기 위해 부모급여 지급 - 영아수당을 부모급여로 변경‧확대하는 것입니다. 




Question: 부모급여(영아수당)의 2024년 확정된 예산은 몇백만원인가요?


Answering Questions:  11%|█         | 11/98 [03:22<29:47, 20.54s/it]

Answer: 2024년 부모급여(영아수당)의 예산은 2,888,694 백만원 입니다.





Question: 부모급여 지원 사업은 어떤 법령상 근거를 갖고 추진되고 있나요?


Answering Questions:  12%|█▏        | 12/98 [03:32<24:56, 17.40s/it]

Answer: 부모급여 지원 사업은 **아동수당법 제4조제5항**에 근거하여 추진되고 있습니다. 




Question: 영아수당 도입에 대한 추진경위는 어떻게 되나요?


Answering Questions:  13%|█▎        | 13/98 [04:39<45:49, 32.35s/it]

Answer: 영아수당은 2022년 1월부터 지원을 시작했고, 2023년 1월부터는 부모급여로 변경되어 지원되고 있습니다. 2023년에는 70만원, 2024년부터는 월 100만원을 지원합니다.  
    
    추진 경위는 다음과 같습니다:
    * 2021년 8월 예비타당성조사 통과
    * 2021년 12월 근거법 마련
    * 2022년 1월 영아수당 지원사업 시행
    * 2022년 5월 '부모급여 도입' 대통령 공약사항 및 국정과제에 포함
    * 2023년 5월 ｢아동수당법｣ 개정으로 부모급여 지급 근거 마련
    * 2023년 1월 부모급여 지원사업 시행
    
    사업은 보건복지부, 시·도 및 시·군·구가 주관하며, 만 0~1세 아동에게 지급됩니다. 




Question: 부모급여 지원사업은 언제부터 시행되었나요?


Answering Questions:  14%|█▍        | 14/98 [04:49<35:47, 25.57s/it]

Answer: 부모급여 지원사업은 2022년 1월부터 시행되었습니다. 




Question: 보건복지부의 부모급여(영아수당) 지원 사업시행방법은 무엇이며, 사업 수혜자는 누구인가?


Answering Questions:  15%|█▌        | 15/98 [05:04<30:54, 22.34s/it]

Answer: 보건복지부의 부모급여(영아수당) 지원 사업은 지자체 보조 방식으로 시행됩니다. 사업 수혜자는 만 0~1세 아동입니다. 




Question: 노인장기요양보험 사업 운영에 대한 목적은 무엇인가요?


Answering Questions:  16%|█▋        | 16/98 [05:34<33:48, 24.74s/it]

Answer: 노인장기요양보험 사업은 고령이나 노인성 질병으로 일상생활을 혼자서 수행하기 어려운 노인에게 신체 또는 가사 활동 등을 제공하는 노인장기요양보험에 국고지원을 하여, 효율적인 정책추진으로 노후의 건강증진 및 생활 안정을 도모하고 가족의 부담을 완화하여 국민 삶의 질을 향상시키기 위한 사업입니다. 




Question: 노인장기요양보험 운영지원에 대한 사업 내용을 설명해줘.


Answering Questions:  17%|█▋        | 17/98 [07:19<1:06:03, 48.93s/it]

Answer: 노인장기요양보험 운영지원 사업은 노인등에게 신체 또는 가사 활동 등을 제공하는 노인장기요양보험에 국고지원을 하여, 효율적인 정책추진으로 노후의 건강증진 및 생활 안정을 도모하고 가족의 부담을 완화하여 국민 삶의 질을 향상시키는 것을 목표로 합니다. 

    주요 내용은 다음과 같습니다:

    * **법정지원금 지원**: 「노인장기요양보험법」 제58조에 따라 국가가 국민건강보험 공단에 장기요양보험료 예상수입액의 20% 상당의 법정지원금을 지원합니다.
    * **공무원·사립학교교원 등 장기요양보험료 국가부담금**: 공무원·사립학교 교원의 장기요양 보험료 국가부담분 및 차상위계층의 장기요양보험료 지원을 통해 부담을 완화합니다.
    * **기타 의료급여수급권자 급여비용 국가부담금**: 「국민기초생활 보장법」에 의한 의료 급여수급권자를 제외한 기타 의료급여수급권자의 장기요양급여 이용에 따른 급여 비용 및 관리운영비에 대한 국고지원(서울 50%, 기타지역 80%)을 제공합니다.
    * **노인장기요양보험 사업관리**: 노인장기요양보험 사업추진에 필요한 경비를 지원합니다.
    * **장기요양기관 재무회계프로그램 구축·운영**: 장기요양기관 회계 투명성 확대를 위한 재무회계프로그램 운영에 필요한 운영비 및 인건비를 지원합니다.





Question: 국고지원을 받는 기타 의료급여수급권자는 누구인가요?


Answering Questions:  18%|█▊        | 18/98 [07:39<53:36, 40.20s/it]  

Answer: 국고지원을 받는 기타 의료급여수급권자는 **의료급여법 제3조제1항제1호에 따른 의료급여를 받는 사람** 이외의 규정에 따른 의료급여를 받는 사람으로,  각 목의 구분에 따라 부담이 됩니다. 




Question: 장기요양보험가입자 및 피부양자의 자격취득과 관련하여 어떤 법률을 준용해야 하는가?


Answering Questions:  19%|█▉        | 19/98 [08:21<53:25, 40.58s/it]

Answer: 노인장기요양보험법 제11조(장기요양보험가입자 및 피부양자의 자격취득과 관련하여 어떤 법률을 준용해야 하는가) 에서  국민건강보험법 제5조, 제 6조, 제8조부터 제11조까지, 제69조제1항부터 제3항까지, 제76조부터 제86조까지 및 제110조는 장기요양보험가입자·피부양자의 자격취득·상실, 장기요양보험료 등의 납부·징수 및 결손처분 등에 관하여 이를 준용한다. 라고 명시되어 있습니다. 





Question: 노인장기요양보험법이 언제 제정되고 공포되었나?


Answering Questions:  20%|██        | 20/98 [08:33<41:45, 32.12s/it]

Answer: 노인장기요양보험법은 2007년 4월에 제정되고 공포되었습니다. 




Question: 장기요양인정점수 완화가 언제 이루어졌으며, 어떤 변화가 있었나?


Answering Questions:  21%|██▏       | 21/98 [09:08<42:11, 32.87s/it]

Answer: 장기요양인정점수 완화는 2012년 7월부터 단계적으로 이루어졌습니다. 

    * 2012년 7월: 3등급 인정점수 완화: (기존) 55~75점 → (개선) 53점~75점
    * 2013년 7월: 3등급 인정점수 완화: (기존) 53~75점 → (개선) 51점~75점 




Question: 장기요양기관 지정갱신제의 법적 근거가 언제 마련되었는가?


Answering Questions:  22%|██▏       | 22/98 [09:20<33:45, 26.65s/it]

Answer: 장기요양기관 지정갱신제의 법적 근거가 마련된 시기는 2018년 12월입니다. 





Question: 22.10월에 요양보호사 1명당 시설수급자 인력배치기준이 개선된 내용은 무엇인가?


Answering Questions:  23%|██▎       | 23/98 [09:37<29:36, 23.69s/it]

Answer: 2022년 10월 요양보호사 1명당 시설수급자 인력배치기준이 개선되어 요양보호사 1명당 시설수급자 2.3명으로 변경되었습니다. 





Question: 에너지 바우처 제도의 주요 내용은 무엇인가요?


Answering Questions:  24%|██▍       | 24/98 [11:14<56:23, 45.72s/it]

Answer: 에너지 바우처 제도는 경제적 어려움으로 에너지 이용에 어려움을 겪는 에너지 소외 계층에게 전기, 가스, 지역난방 등 에너지 이용에 필요한 비용을 지원하는 제도입니다. 

    이 제도는 하절기 바우처, 동절기 바우처, 연탄 쿠폰, 등유 바우처 등 다양한 형태로 운영되며, 2020년부터 외국인을 포함하여 지원 대상이 확대되고 있습니다. 또한, 주거·교육급여 수급세대 중 더위·추위 민감 계층까지 영구적으로 지원 대상으로 확대되었습니다. 

    주요 내용은 다음과 같습니다:

    * 하절기 바우처: 하절기 냉방 등을 위한 전기 요금을 가상 카드 형태로 지원합니다.
    * 동절기 바우처: 동절기 난방 등을 위한 연탄, 등유, LPG, 전기, 도시가스, 지역난방 등 연료비를 가상 카드, 실물 카드 형태로 지원합니다.
    * 연탄 쿠폰: 연탄 보일러를 사용하는 가구에 연탄 구입 비용을 연탄 쿠폰 형태로 지원합니다.
    * 등유 바우처: 등유 보일러를 사용하는 가구에 동절기 난방을 위한 난방용 등유 구입 비용을 실물 카드 형태로 지원합니다.

    이 제도를 통해 저소득층의 에너지 접근성을 높이고, 취약계층의 에너지 비용 부담을 경감하는 효과를 기대할 수 있습니다.





Question: 에너지바우처 사업의 주요 수혜자는 누구인가요?


Answering Questions:  26%|██▌       | 25/98 [12:01<56:11, 46.18s/it]

Answer: 에너지바우처 사업의 주요 수혜자는 노인, 장애인, 영유아, 임산부, 중증·희귀·중증난치질환자, 한부모, 소년소녀가정 등 경제적 부담으로 에너지 이용에 어려움을 겪는 에너지 소외 계층입니다. 

    구체적으로는 다음과 같은 세대가 포함됩니다.
    * 연탄을 사용하는 기초생활수급자, 차상위계층, 기타 소외계층
    * 생계·의료급여(중위소득 40%이하) 수급세대 중, 한부모, 소년소녀가정세대 





Question: 2024년 에너지바우처 사업의 사업시행주체는 무엇인가요?


Answering Questions:  27%|██▋       | 26/98 [12:21<46:08, 38.45s/it]

Answer: 2024년 에너지바우처 사업의 사업시행주체는 **한국에너지공단**과 **한국광해광업공단** 입니다. 





Question: 하절기바우처와 동절기바우처의 2024년 예산 규모는 각각 얼마인가요?


Answering Questions:  28%|██▊       | 27/98 [12:50<42:06, 35.58s/it]

Answer: 하절기바우처 2024년 예산은 60,950백만원입니다.
    동절기바우처 2024년 예산은 600,521백만원입니다.





Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 에너지복지 홍보에 얼마가 할당되었나요?


Answering Questions:  29%|██▊       | 28/98 [13:14<37:20, 32.01s/it]

Answer: 2023년 에너지바우처 사업 예산에서 사업운영비 중 에너지복지 홍보에 얼마가 할당되었는지에 대한 답변은 328백만원입니다. 




Question: 2023년 에너지바우처 사업 예산에서 사업운영비 중 시스템 고도화에 얼마가 할당되었나요?


Answering Questions:  30%|██▉       | 29/98 [13:57<40:44, 35.43s/it]

Answer: 2023년 에너지바우처 사업 예산에서 시스템 고도화에 얼마가 할당되었는지에 대한 답변은 2023년 예산 및 2024년 예산안 산출 세부내역에서 찾을 수 있습니다.

    2023년 예산안에서 시스템 고도화 예산은 520백만원입니다. 2024년 예산안에서 시스템 고도화 예산은 705백만원으로 증가합니다.





Question: 2023년 에너지바우처 사업 예산에서 콜센터 운영에 얼마가 할당되었나요?


Answering Questions:  31%|███       | 30/98 [14:31<39:41, 35.02s/it]

Answer: 2023년 에너지바우처 사업 예산에서 콜센터 운영에 얼마가 할당되었는지에 대한 정보는 제공된 텍스트에 포함되어 있습니다. 

    2023년 사업운영비 예산 내역에서 콜센터 운영 비용은 280백만원으로 지정되었습니다. 




Question: 2023년 에너지바우처 사업 예산에서 패널조사에 얼마가 할당되었나요?


Answering Questions:  32%|███▏      | 31/98 [15:10<40:25, 36.19s/it]

Answer: 2023년 에너지바우처 사업 예산에서 패널조사에 얼마가 할당되었는지에 대한 답변은 2023년 예산 및 2024년 예산 산출 세부내역 비교 부분에서 찾을 수 있습니다. 

    2023년 예산의 경우 패널조사에 133.5백만원이, 2024년 예산의 경우 131.7백만원이 할당되었습니다. 





Question: 2023년 에너지바우처 사업 예산에서 에너지바우처 전달체계 구축에 얼마가 할당되었나요?


Answering Questions:  33%|███▎      | 32/98 [15:39<37:14, 33.86s/it]

Answer: 2023년 에너지바우처 사업 예산에서 에너지바우처 전달체계 구축에 얼마가 할당되었나요? 2023년 예산에서 에너지바우처 전달체계 구축에 37.5백만원이 할당되었습니다. 




Question: 2023년 에너지바우처 사업 예산에서 주택관리공단 운영지원에 얼마가 할당되었나요?


Answering Questions:  34%|███▎      | 33/98 [16:42<46:15, 42.70s/it]

Answer: 2023년 에너지바우처 사업 예산에서 주택관리공단 운영지원에 얼마가 할당되었는지에 대한 답변은 2023년 예산 및 2024년 예산안에서 찾아볼 수 있습니다. 

    2023년 예산안에서  '○ 주택관리공단 운영지원'은 사업운영비 1,349백만원에 포함되어 있습니다. 

    2024년 예산안에서도 '사업운영비' 항목에 주택관리공단 운영지원이 포함되어 1,872백만원으로 예산이 확정되었습니다.

    따라서 2023년에는 50백만원, 2024년에는 50백만원이 주택관리공단 운영지원에 할당되었습니다.





Question: 에너지바우처 사업의 향후 기대효과는 무엇인가요?


Answering Questions:  35%|███▍      | 34/98 [17:09<40:35, 38.05s/it]

Answer: 에너지바우처 사업의 향후 기대효과는 저소득층의 적정수준 에너지 접근성이 높아지고, 취약계층의 에너지 비용 부담 경감(약 115만 세대, 세대당 평균 36.7만원 내외)을 기대할 수 있습니다. 




Question: 에너지바우처 사업에 대한 예비타당성조사를 어떤 조사기관이 수행했나요?


Answering Questions:  36%|███▌      | 35/98 [17:36<36:28, 34.73s/it]

Answer: 에너지바우처 사업에 대한 예비타당성조사를 어떤 조사기관이 수행했나요?

    KDI(한국개발연구원 공공투자관리센터)가 2014년도 에너지바우처 지원사업(예비타당성조사 보고서)을 수행했습니다. 





Question: 21년 국정감사에서 에너지 바우처 사업에 대한 주요 지적사항은 무엇이었나요?


In [3]:
# 제출용 샘플 파일 로드
base_directory = ""
submit_df = pd.read_csv(os.path.join(base_directory, "sample_submission.csv") )

# 생성된 답변을 제출 DataFrame에 추가
submit_df['Answer'] = [item['Answer'] for item in results]
submit_df['Answer'] = submit_df['Answer'].fillna("데이콘")     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

# 결과를 CSV 파일로 저장
submit_df.to_csv(args.output_csv_file, encoding='UTF-8-sig', index=False)

NameError: name 'results' is not defined