# Question - Answering with Retrieval

본 대회의 과제는 중앙정부 재정 정보에 대한 **검색 기능**을 개선하고 활용도를 높이는 질의응답 알고리즘을 개발하는 것입니다. <br>이를 통해 방대한 재정 데이터를 일반 국민과 전문가 모두가 쉽게 접근하고 활용할 수 있도록 하는 것이 목표입니다. <br><br>
베이스라인에서는 평가 데이터셋만을 활용하여 source pdf 마다 Vector DB를 구축한 뒤 langchain 라이브러리와 llama-2-ko-7b 모델을 사용하여 RAG 프로세스를 통해 추론하는 과정을 담고 있습니다. <br>( train_set을 활용한 훈련 과정은 포함하지 않으며, test_set  에 대한 추론만 진행합니다. )

# Download Library

In [2]:
!pip install accelerate
!pip install -i https://pypi.org/simple/ bitsandbytes
!pip install transformers[torch] -U

!pip install datasets
!pip install langchain
!pip install langchain_community
!pip install PyMuPDF
!pip install sentence-transformers
!pip install faiss-gpu

Looking in indexes: https://pypi.org/simple/
Collecting bitsandbytes
  Downloading bitsandbytes-0.43.3-py3-none-manylinux_2_24_x86_64.whl.metadata (3.5 kB)
Downloading bitsandbytes-0.43.3-py3-none-manylinux_2_24_x86_64.whl (137.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m137.5/137.5 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.43.3
Collecting transformers[torch]
  Downloading transformers-4.43.3-py3-none-any.whl.metadata (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.7/43.7 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
Downloading transformers-4.43.3-py3-none-any.whl (9.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.4/9.4 MB[0m [31m61.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: transformers
  Attempting uninstall: transformers
    Found existing installation: tr

# Import Library

In [3]:
import os
import unicodedata

import torch
import pandas as pd
from tqdm import tqdm
import fitz  # PyMuPDF

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig
)
from accelerate import Accelerator

# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

2024-08-05 08:41:40.001714: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-08-05 08:41:40.001858: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-08-05 08:41:40.198670: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [4]:
!pip install kiwipiepy rank_bm25 openai tiktoken

Collecting kiwipiepy
  Downloading kiwipiepy-0.18.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.0 kB)
Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Collecting openai
  Downloading openai-1.38.0-py3-none-any.whl.metadata (22 kB)
Collecting tiktoken
  Downloading tiktoken-0.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting kiwipiepy-model<0.19,>=0.18 (from kiwipiepy)
  Downloading kiwipiepy_model-0.18.0.tar.gz (34.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.7/34.7 MB[0m [31m40.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Downloading kiwipiepy-0.18.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m53.5 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading rank_bm25-0.2.2-py3-none-any.whl (8

In [5]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m64.3 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [6]:
!pip install pdfplumber

Collecting pdfplumber
  Downloading pdfplumber-0.11.2-py3-none-any.whl.metadata (40 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.1/40.1 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.2-py3-none-any.whl (58 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.0/58.0 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfminer.six-20231228-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m58.9 MB/s[0m eta [36m0:00:00[0m:00:01[0m0:01[0m
[?25hDownloading 

# Vector DB

In [7]:
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_core.documents import Document
from langchain.vectorstores import FAISS
from konlpy.tag import Kkma, Okt
from kiwipiepy import Kiwi

kiwi = Kiwi()
kkma = Kkma()
okt = Okt()

In [8]:
def kiwi_tokenize(text):
    return [token.form for token in kiwi.tokenize(text)]

def kkma_tokenize(text):
    return [token for token in kkma.morphs(text)]

def okt_tokenize(text):
    return [token for token in okt.morphs(text)]

In [9]:
# def process_pdf(file_path, chunk_size=1500, chunk_overlap=200):
#     """PDF 텍스트 추출 후 chunk 단위로 나누기"""
#     # PDF 파일 열기
#     doc = fitz.open(file_path)
#     text = ''
#     # 모든 페이지의 텍스트 추출
#     for page in doc:
#         text += page.get_text()
#     # 텍스트를 chunk로 분할
#     splitter = RecursiveCharacterTextSplitter(
#         chunk_size=chunk_size,
#         chunk_overlap=chunk_overlap
#     )
#     chunk_temp = splitter.split_text(text)
#     # Document 객체 리스트 생성
#     chunks = [Document(page_content=t) for t in chunk_temp]
#     return chunks

import pdfplumber
from langchain.schema import Document

import os
import pdfplumber
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document

def process_pdf(file_path, chunk_size=200, chunk_overlap=20):
        """PDF를 페이지마다 청크로 나누고 메타데이터에 파일 이름 추가"""
        # 파일 이름 추출
        file_name = os.path.basename(file_path)
        
        # PDF 파일 열기
        pdf = pdfplumber.open(file_path)
        all_chunks = []
        
        # 페이지별로 처리
        for page_number, page in enumerate(pdf.pages):
            text = page.extract_text()
            if text:
                # 페이지별 텍스트 청크로 분할
                splitter = RecursiveCharacterTextSplitter(
                    chunk_size=chunk_size,
                    chunk_overlap=chunk_overlap
                )
                chunk_temp = splitter.split_text(text)
                
                # Document 객체 리스트 생성 (파일 이름과 페이지 번호를 메타데이터에 포함)
                page_chunks = [Document(page_content=t, metadata={"Source": file_name[:-4], "page": page_number}) for t in chunk_temp]
                all_chunks.extend(page_chunks)
        
        pdf.close()  # PDF 파일 닫기
        return all_chunks


def create_vector_db(chunks, model_path="jhgan/ko-sroberta-multitask"):
    """FAISS DB 생성"""
    # 임베딩 모델 설정
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    # FAISS DB 생성 및 반환
    db = FAISS.from_documents(chunks, embedding=embeddings)
    return db

def normalize_path(path):
    """경로 유니코드 정규화"""
    return unicodedata.normalize('NFC', path)


def process_pdfs_from_dataframe(df, base_directory):
    """딕셔너리에 pdf명을 키로해서 DB, retriever 저장"""
    pdf_databases = {}
    unique_paths = df['Source_path'].unique()
    
    for path in tqdm(unique_paths, desc="Processing PDFs"):
        # 경로 정규화 및 절대 경로 생성
        normalized_path = normalize_path(path)
        full_path = os.path.normpath(os.path.join(base_directory, normalized_path.lstrip('./'))) if not os.path.isabs(normalized_path) else normalized_path
        
        pdf_title = os.path.splitext(os.path.basename(full_path))[0]
        print(f"Processing {pdf_title}...")
        
        # PDF 처리 및 벡터 DB 생성
        chunks = process_pdf(full_path)
        bm25 = BM25Retriever.from_documents(chunks, search_kwargs={'k': 20})
        kiwi_bm25 = BM25Retriever.from_documents(chunks, preprocess_func=kiwi_tokenize,  search_kwargs={'k': 20})
        kkma_bm25 = BM25Retriever.from_documents(chunks, preprocess_func=kkma_tokenize,  search_kwargs={'k': 20})
        okt_bm25 = BM25Retriever.from_documents(chunks, preprocess_func=okt_tokenize,  search_kwargs={'k': 20})
        db = create_vector_db(chunks)
        faiss = db.as_retriever(search_kwargs={'k': 20})
        
        # Retriever 생성
        retriever = EnsembleRetriever(
                    retrievers=[bm25, faiss],  # 사용할 검색 모델의 리스트
                    weights=[0.3, 0.7],  # 각 검색 모델의 결과에 적용할 가중치
                    search_type="mmr",  # 검색 결과의 다양성을 증진시키는 MMR 방식을 사용
                    search_kwargs={'k': 20, 'fetch_k': 20}, 
                )
        
        
        # 결과 저장
        pdf_databases[pdf_title] = {
                'db': db,
                'retriever': retriever
        }
    return pdf_databases

# DB 생성

In [10]:
# # Train과 Test CSV 파일 모두 로드
# df_train = pd.read_csv('/kaggle/input/pdf-files/train.csv')
# df_test = pd.read_csv('/kaggle/input/pdf-files/test.csv')

# # 두 데이터프레임 합치기
# df_combined = pd.concat([df_train, df_test], ignore_index=True)

# # 중복된 Source_path 제거 (같은 PDF가 train과 test에 모두 있을 경우)
# df_combined = df_combined.drop_duplicates(subset=['Source_path'])

# base_directory = '/kaggle/input/pdf-files' # Your Base Directory
# pdf_databases = process_pdfs_from_dataframe(df_combined, base_directory)

In [11]:
# %pip install --upgrade --quiet  sentence-transformers > /dev/null

In [12]:
# base_directory = '/kaggle/input/pdf-files' # Your Base Directory
# df = pd.read_csv('/kaggle/input/pdf-files/test.csv')
# pdf_databases = process_pdfs_from_dataframe(df, base_directory)
# # pdf_databases = process_pdfs_from_dataframe(df, base_directory)

In [10]:
import pickle
import os

def save_databases(pdf_databases, save_dir):
    """벡터 데이터베이스와 retriever 저장"""
    os.makedirs(save_dir, exist_ok=True)
    for pdf_title, data in pdf_databases.items():
        db_path = os.path.join(save_dir, f"{pdf_title}_db.pkl")
        retriever_path = os.path.join(save_dir, f"{pdf_title}_retriever.pkl")
        
        # DB 저장
        data['db'].save_local(db_path)
        
        # Retriever 저장
        with open(retriever_path, 'wb') as f:
            pickle.dump(data['retriever'], f)
        
    print(f"Databases and retrievers saved in {save_dir}")
    
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

def load_databases(load_dir, model_path="jhgan/ko-sroberta-multitask"):
    """저장된 벡터 데이터베이스와 retriever 로드"""
    pdf_databases = {}
    
    # 임베딩 모델 설정
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    
    for filename in os.listdir(load_dir):
        if filename.endswith("_db.pkl"):
            pdf_title = filename[:-7]  # Remove "_db.pkl"
            db_path = os.path.join(load_dir, filename)
            retriever_path = os.path.join(load_dir, f"{pdf_title}_retriever.pkl")
            
            # DB 로드 (allow_dangerous_deserialization 파라미터 추가)
            db = FAISS.load_local(db_path, embeddings, allow_dangerous_deserialization=True)
            
            # Retriever 로드
            with open(retriever_path, 'rb') as f:
                retriever = pickle.load(f)
            
            pdf_databases[pdf_title] = {
                'db': db,
                'retriever': retriever
            }
    
    print(f"Loaded {len(pdf_databases)} databases from {load_dir}")
    return pdf_databases


# # # 데이터베이스 생성 후 저장
# Train과 Test CSV 파일 모두 로드

# df_test = pd.read_csv('/kaggle/input/pdf-files/train.csv')

# base_directory = '/kaggle/input/pdf-files' # Your Base Directory
# pdf_databases = process_pdfs_from_dataframe(df_test, base_directory)

save_dir = '/kaggle/working/'
# save_databases(pdf_databases, save_dir)

# 나중에 데이터베이스 로드
pdf_databases = load_databases(save_dir)

  warn_deprecated(


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.86k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/744 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


tokenizer_config.json:   0%|          | 0.00/585 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Loaded 25 databases from /kaggle/working/


In [15]:
# # save_dir = '/kaggle/working/'
# # # save_databases(pdf_databases, save_dir)
# import pickle

# def load_databases(load_dir, model_path="paraphrase-multilingual-mpnet-base-v2"):
#     """저장된 벡터 데이터베이스와 retriever 로드"""
#     pdf_databases = {}
    
#     # 임베딩 모델 설정
#     model_kwargs = {'device': 'cpu'}
#     encode_kwargs = {'normalize_embeddings': True}
#     embeddings = HuggingFaceEmbeddings(
#         model_name=model_path,
#         model_kwargs=model_kwargs,
#         encode_kwargs=encode_kwargs
#     )
    
#     for filename in os.listdir(load_dir):
#         if filename.endswith("_db.pkl"):
#             pdf_title = filename[:-7]  # Remove "_db.pkl"
#             db_path = os.path.join(load_dir, filename)
#             retriever_path = os.path.join(load_dir, f"{pdf_title}_retriever.pkl")
            
#             # DB 로드 (allow_dangerous_deserialization 파라미터 추가)
#             db = FAISS.load_local(db_path, embeddings, allow_dangerous_deserialization=True)
            
#             # Retriever 로드
#             with open(retriever_path, 'rb') as f:
#                 retriever = pickle.load(f)
            
#             pdf_databases[pdf_title] = {
#                 'db': db,
#                 'retriever': retriever
#             }
    
#     print(f"Loaded {len(pdf_databases)} databases from {load_dir}")
#     return pdf_databases

# save_dir = '/kaggle/working/'
# # # 나중에 데이터베이스 로드
# pdf_databases = load_databases(save_dir)

# MODEL Import

In [16]:
# from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
# from huggingface_hub import login

# # 인증 토큰 설정
# login(token='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')

# def setup_llm_pipeline():
#     # 모델 ID 
#     model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"

#     # 토크나이저 로드 및 설정
#     tokenizer = AutoTokenizer.from_pretrained(model_id)
#     tokenizer.use_default_system_prompt = False

#     # 모델 로드
#     model = AutoModelForCausalLM.from_pretrained(
#         model_id,
#         torch_dtype=torch.float16,  # 16비트 부동소수점 사용
#         device_map="auto",
#         trust_remote_code=True )

#     # HuggingFacePipeline 객체 생성
#     text_generation_pipeline = pipeline(
#         model=model,
#         tokenizer=tokenizer,
#         task="text-generation",
#         temperature=0.4,
#         do_sample= True,
#         return_full_text=False,
#         max_new_tokens=512,
#         repetition_penalty=1.2,  # 반복 억제
#         no_repeat_ngram_size=3,  # n-gram 반복 방지
#         num_beams=4,  # beam search 사용
#         early_stopping=True,  
#     )

#     hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

#     return hf


In [6]:
# def setup_llm_pipeline():
#     # 4비트 양자화 설정
#     bnb_config = BitsAndBytesConfig(
#         load_in_4bit=True,
#         bnb_4bit_use_double_quant=True,
#         bnb_4bit_quant_type="nf4",
#         bnb_4bit_compute_dtype=torch.bfloat16
#     )

#     # 모델 ID 
#     model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"
# #     token='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'
#     # 토크나이저 로드 및 설정
#     tokenizer = AutoTokenizer.from_pretrained(model_id)
#     tokenizer.use_default_system_prompt = False

#     # 모델 로드 및 양자화 설정 적용
#     model = AutoModelForCausalLM.from_pretrained(
#         model_id,
#         quantization_config=bnb_config,
#         device_map="auto",
#         trust_remote_code=True )

#     # HuggingFacePipeline 객체 생성
#     text_generation_pipeline = pipeline(
#         model=model,
#         tokenizer=tokenizer,
#         task="text-generation",
#         temperature=0.2,
#         do_sample= True,
#         return_full_text=False,
#         max_new_tokens=512,
#         repetition_penalty=1.2,  # 반복 억제
#         no_repeat_ngram_size=3,  # n-gram 반복 방지
# #         num_beams=4,  # beam search 사용
# #         early_stopping=True,  
#     )


#     hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

#     return hf

In [7]:
# # LLM 파이프라인
# llm = setup_llm_pipeline()

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

  warn_deprecated(


In [11]:
!pip install groq

Collecting groq
  Downloading groq-0.9.0-py3-none-any.whl.metadata (13 kB)
Downloading groq-0.9.0-py3-none-any.whl (103 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m103.5/103.5 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25hInstalling collected packages: groq
Successfully installed groq-0.9.0


# Langchain 을 이용한 추론

In [12]:
df = pd.read_csv('/kaggle/input/pdf-files/train.csv')

In [13]:
#  prompt = PromptTemplate.from_template(
#         """You are an assistant for question-answering tasks. 
#     Use the following pieces of retrieved context to answer the question. 
#     If you don't know the answer, just say that you don't know. 
#     Answer in Korean.

#     #Question: 
#     {question} 
#     #Context: 
#     {context} 

#     #Answer:"""
#     )


In [14]:
import getpass
import os


from kaggle_secrets import UserSecretsClient
user_secrets = UserSecretsClient()
secret_value_0 = user_secrets.get_secret("GROQ_API_KEY")


os.environ["GROQ_API_KEY"] = secret_value_0

In [15]:
%pip install -qU langchain-groq

Note: you may need to restart the kernel to use updated packages.


In [16]:
from langchain_groq import ChatGroq

llm = ChatGroq(
    model="llama3-70b-8192",
    temperature=0.2,
    max_tokens=1024,
    timeout=None,
    stop=None,
    max_retries=2,
)

In [1]:
cnt=0

In [None]:
from langchain_community.document_transformers import LongContextReorder
from langchain.prompts import ChatPromptTemplate
from operator import itemgetter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnableLambda
from langchain_core.prompts import format_document
from langchain_core.prompts import ChatPromptTemplate

def normalize_string(s):
    """유니코드 정규화"""
    return unicodedata.normalize('NFC', s)

# 기본 문서 프롬프트를 생성합니다. (source, metadata 등을 추가할 수 있습니다)
DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(
    template="{page_content} [source: {Source}]"
)

def combine_documents(
    docs,  # 문서 목록
    # 문서 프롬프트 (기본값: DEFAULT_DOCUMENT_PROMPT)
    document_prompt=DEFAULT_DOCUMENT_PROMPT,
    document_separator="\n",  # 문서 구분자 (기본값: 두 개의 줄바꿈)
):
    # context 에 입력으로 넣기 위한 문서 병합
    doc_strings = [
        f"[{i}] {format_document(doc, document_prompt)}" for i, doc in enumerate(docs)
    ]  # 각 문서를 주어진 프롬프트로 포맷팅하여 문자열 목록 생성
    return document_separator.join(
        doc_strings
    )  # 포맷팅된 문서 문자열을 구분자로 연결하여 반환


def reorder_documents(docs):
    # 재정렬
    reordering = LongContextReorder()
    reordered_docs = reordering.transform_documents(docs)
    combined = combine_documents(reordered_docs, document_separator="\n")
    return combined




def format_docs(docs):
    """검색된 문서들을 하나의 문자열로 포맷팅"""
        # docs가 리스트가 아닌 경우 (예: Retriever 객체)
    reordering = LongContextReorder()
    reordered_docs = reordering.transform_documents(docs)
    return "\n\n".join(doc.page_content for doc in reordered_docs)

import re

def remove_html_tags(text):
    """HTML 태그를 제거하는 함수"""
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)    

def clean_output(output):
    # "질문:" 이후의 텍스트만 반환하고 HTML 태그 제거
    if "Answer:" in output:
        output = output.split("Answer:")[-1].strip()
    return remove_html_tags(output)

# 결과를 저장할 리스트 초기화
results = []
normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}
# DataFrame의 각 행에 대해 처리
for _, row in tqdm(df[cnt:].iterrows(), total=len(df[cnt:]), desc="Answering Questions"):
    # 소스 문자열 정규화
    source = normalize_string(row['Source'])
    question = row['Question']
    # 정규화된 키로 데이터베이스 검색
    normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}
    retriever = normalized_keys[source]['retriever']
    
    # RAG 체인 구성
#     prompt = PromptTemplate.from_template(
#        template = """Given this text extracts:
#     {context}

#     -----
#     Please answer the following question:
#     {question}

#     Answer in the following languages: {language}
#     """
#     )
    


    prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are a helpful assistant that answers question with {context}.",
        ),
        ("human", "Please answer the following question: {question}. Think step by step. Answer in the following languages: {language}"),
    ]
    )

    # RAG 체인 정의
    rag_chain = (
    {
        "context": itemgetter("question")
        | retriever
        | RunnableLambda(reorder_documents),  # 질문을 기반으로 문맥을 검색합니다.
        "question": itemgetter("question"),  # 질문을 추출합니다.
        "language": itemgetter("language"),  # 답변 언어를 추출합니다.
    }
    | prompt  # 프롬프트 템플릿에 값을 전달합니다.
    | llm
    | StrOutputParser()  # 모델의 출력을 문자열로 파싱합니다.
    )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke({"question": question, "language": "KOREAN"})

    # 실제 답변만 추출
    actual_answer = clean_output(full_response)
    print(f"Answer: {actual_answer}\n")

    # 결과 저장
    results.append({
        "Source": row['Source'],
        "Source_path": row['Source_path'],
        "Question": question,
        "Answer": actual_answer  # 실제 답변만 저장
    })
    cnt+=1


Answering Questions:   0%|          | 0/496 [00:00<?, ?it/s]

Question: 2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?


Answering Questions:   0%|          | 1/496 [00:00<07:55,  1.04it/s]

Answer: 2024년 중앙정부 재정체계는 예산(일반･특별회계)과 기금으로 구분되며, 2024년 기준으로 일반회계 1개, 특별회계 21개, 기금 68개로 구성되어 있습니다.

Question: 2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?


Answering Questions:   0%|          | 2/496 [00:02<10:52,  1.32s/it]

Answer: Let's break down the answer step by step.

2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?

According to the 2024 Fiscal Statistics, the 2024 central government budget expenditure is composed of:

1. 의무지출 (Mandatory Expenditure): 347.4 trillion won (52.9% of total expenditure)
2. 재량지출 (Discretionary Expenditure): 309.2 trillion won (47.1% of total expenditure)

Within the discretionary expenditure, the breakdown is:

1. 보건･복지･고용 (Health, Welfare, and Employment): 122.4 trillion won (18.6% of total expenditure)
2. 교육 (Education): 95.8 trillion won (14.6% of total expenditure)
3. 행정안전 (Administration and Safety): 72.4 trillion won (11.0% of total expenditure)
4. 국토교통 (Land, Infrastructure, and Transport): 60.9 trillion won (9.3% of total expenditure)

Additionally, the budget expenditure is also categorized into general accounts and special accounts. The general accounts consist of 356.5 trillion won, and the special accounts consist of 81.7 trillion won.

Therefore, the 2024 central government

Answering Questions:   1%|          | 3/496 [00:26<1:34:21, 11.48s/it]

Answer: 기금이 예산과 다른 점은 다음과 같습니다.

첫째, 기금은 특정 사업 운영을 위해 편성되는 재정수단입니다. 예산은 국가의 일반적 재정운영을 위한 재정수단입니다.

둘째, 기금은 특정 목적을 위해 특정 자금을 운용합니다. 예산은 국가의 일반적 재정운영을 위해 다양한 수입원을 운용합니다.

셋째, 기금은 일정 자금을 활용하여 특정 사업을 안정적으로 운영합니다. 예산은 국가의 일반적 재정운영을 위해 다양한 지출을 합니다.

넷째, 기금은 기금관리주체가 계획안을 수립하여 운용합니다. 예산은 국회에서 심의·의결하여 운용합니다.

따라서, 기금과 예산은 목적, 운용방식, 지출범위 등에서 차이가 있습니다.

Question: 일반회계, 특별회계, 기금 간의 차이점은 무엇인가요?


Answering Questions:   1%|          | 4/496 [00:58<2:42:55, 19.87s/it]

Answer: 😊

일반회계, 특별회계, 기금 간의 차이점은 다음과 같습니다.

**일반회계 (General Account)**

* 국가의 일반적인 재정 운영을 위한 예산
* 일반적인 국가 운영 비용, 예산, 세입 등을 포함
* 예산의 범위 내에서 운영
* 국가의 기본적인 재정 기능을 수행

**특별회계 (Special Account)**

* 특정 사업 또는 목적을 위해 편성되는 예산
* 특정 자금을 운용하여 특정 사업을 수행
* 예산의 범위 내에서 운영
* 국가의 특정 정책 또는 사업을 수행

**기금 (Fund)**

* 재정운영의 신축성을 기할 필요가 있을 때, 정부가 편성하고 국회에서 심의･의결한 기금운용계획에 의해 운용
* 예산과 구분되는 재정수단
* 특정 사업 운영 또는 특정 목적을 위해 특정 자금을 운용

따라서, 일반회계는 국가의 일반적인 재정 운영을 위한 예산, 특별회계는 특정 사업 또는 목적을 위해 편성되는 예산, 기금은 재정운영의 신축성을 기할 필요가 있을 때, 정부가 편성하고 국회에서 심의･의결한 기금운용계획에 의해 운용되는 예산입니다.

Question: 2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?


Answering Questions:   1%|          | 5/496 [01:33<3:24:59, 25.05s/it]

Answer: Let's break down the question step by step.

2024년 총수입은 얼마며, 예산수입과 기금수입은 각각 몇 조원인가요?

To find the answer, let's refer to the provided text.

According to [1] 2024년 총수입, the total revenue for 2024 is:

총수입 = 612.2조원

Now, let's find the budget revenue (예산수입) and fund revenue (기금수입) separately.

From the same section, we can see that:

예산수입 = 395.5조원
기금수입 = 216.7조원

Therefore, the answer is:

2024년 총수입은 612.2조원이며, 예산수입은 395.5조원, 기금수입은 216.7조원입니다.

Question: 2024년도 예산수입은 어떻게 구성되어 있나요?


Answering Questions:   1%|          | 6/496 [02:05<3:44:24, 27.48s/it]

Answer: Let's break it down step by step. 😊

2024년도 예산수입은 어떻게 구성되어 있나요?

According to the data provided, the 2024 budget revenue is composed of:

1. 일반회계 (General Account): 367.3조원 (60.0%)
2. 특별회계 (Special Account): 28.2조원 (4.6%)
3. 기금 (Funds): 216.7조원 (35.4%)

Therefore, the 2024 budget revenue is structured as follows:

* 60% from the General Account
* 4.6% from the Special Account
* 35.4% from Funds

(Source: [19] 2024 주요 재정통계 | 2024 Fiscal Statistics)

Question: 2024년의 기금수입은 어떻게 구성되어 있나요?


Answering Questions:   1%|▏         | 7/496 [02:37<3:56:12, 28.98s/it]

Answer: 2024년의 기금수입은 다음과 같이 구성되어 있습니다.

기금수입은 216.7조원으로, 다음과 같은 구성 요소로 이루어져 있습니다.

* 사회보장기여금: 92.3조원 (42.6%의 비중)
* 융자원금회수: 33.8조원
* 경상이전수입: 39.6조원

따라서, 2024년의 기금수입은 주로 사회보장기여금이 차지하고 있습니다.

Question: 2024년 국세수입은 얼마이며, 일반회계와 특별회계의 규모는 각각 얼마인가요?


Answering Questions:   2%|▏         | 8/496 [03:12<4:10:28, 30.80s/it]

Answer: Let's break down the question step by step.

**2024년 국세수입은 얼마인가요?**

To find the answer, we need to look for the total national tax revenue in 2024.

From [9], we can see that the total national tax revenue in 2024 is 395.5 trillion won.

**일반회계와 특별회계의 규모는 각각 얼마인가요?**

To find the answer, we need to look for the breakdown of the national tax revenue into general account and special account.

From [3], we can see that the national tax revenue in 2024 is composed of:

* 일반회계 (General Account): 367.3 trillion won
* 특별회계 (Special Account): 28.2 trillion won

Therefore, the answers are:

* 2024년 국세수입은 395.5조원입니다.
* 일반회계는 367.3조원, 특별회계는 28.2조원입니다.

Question: 2024년도 국세수입 중 일반회계 내국세수입은 몇 조원인가요?


Answering Questions:   2%|▏         | 9/496 [03:48<4:23:55, 32.52s/it]

Answer: Let's break it down step by step. 😊

According to the provided information, we can find the answer in [10].

[10] states that "2024년 국세수입은 367.3조원이며, 일반회계 356.1조원, 특별회계 11.2조원임".

Within the general account (일반회계), we can find the domestic tax revenue (내국세수입) which is 321.6조원 (87.6% of the national tax revenue).

Therefore, the answer is:

2024년도 국세수입 중 일반회계 내국세수입은 321.6조원입니다.

Question: 2024년도 세외수입 규모와 구성은 어떤가요?


Answering Questions:   2%|▏         | 10/496 [04:23<4:30:21, 33.38s/it]

Answer: ** 2024년도 세외수입 규모는 28.2조원이며, 경상이전수입 (6.9조원, 24.5%)과 재산수입 (2.9조원, 10.2%)으로 구성되어 있습니다.

Question: 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 무엇인가?


Answering Questions:   2%|▏         | 11/496 [04:57<4:32:04, 33.66s/it]

Answer: Let's break it down step by step. 😊

According to the text, 2024년 기금수입 (2024 fund revenue) is composed of several items:

* 사회보장기여금 (social insurance contributions)
* 융자원금회수 (loan repayment)
* 경상이전수입 (current transfer income)

And the question asks, "What is the item that takes up the largest proportion of 2024년 기금수입?"

Let's look at the text again:

* 4대 사회보험성기금 기여금의 비중이 42.6%로 가장 큼 (The proportion of social insurance contributions is 42.6%, the largest)

So, the answer is: 사회보장기여금 (social insurance contributions). 👍

Question: 2024년 총지출 기준 예산의 일반회계와 특별회계의 비중이 각각 얼마인가?


Answering Questions:   2%|▏         | 12/496 [05:32<4:32:44, 33.81s/it]

Answer: Let's find the answer step by step.

First, we need to find the relevant information in the text. After searching, I found the relevant information in [16].

According to [16], "2024년 총수입은 일반회계 367.3조원(60.0%), 특별회계 28.2조원(4.6%), 기금 216.7조원(35.4%)로 구성" which means the total expenditure in 2024 is composed of 60.0% of general account, 4.6% of special account, and 35.4% of fund.

So, the answer is:

2024년 총지출 기준 예산의 일반회계와 특별회계의 비중은 각각 60.0%, 4.6%입니다.

Question: 2024년도 총계 기준 재정규모는 얼마이며, 예산과 기금은 각각 몇 조원으로 구성되어 있는가?


Answering Questions:   3%|▎         | 13/496 [06:08<4:37:29, 34.47s/it]

Answer: **

According to the text, the answer can be found in [13].

2024년도 총계 기준 재정규모는 1,573.3조원이며, 예산 550.0조원, 기금 1,023.3조원으로 구성되어 있습니다.

Question: 내부거래지출이란 무엇을 의미하며, 어떤 종류의 거래를 포함하고 있는가?


Answering Questions:   3%|▎         | 14/496 [06:40<4:32:36, 33.93s/it]

Answer: 😊

**Step 1: Understand the term "내부거래지출"**

"내부거래지출" can be broken down into two parts: "내부거래" and "지출".

* "내부거래" means "internal transaction" or "intra-governmental transaction".
* "지출" means "expenditure" or "outlay".

So, "내부거래지출" can be translated to "internal transaction expenditure" or "intra-governmental transaction outlay".

**Step 2: Identify the types of transactions included**

According to the provided text, 내부거래지출 includes transactions between:

* 회계 (accounts) and 회계 (accounts)
* 회계 (accounts) and 기금 (funds)
* 기금 (funds) and 기금 (funds)

These transactions are considered internal transactions because they occur within the government or between different government agencies.

**Step 3: Provide a concise answer**

Therefore, 내부거래지출 refers to the expenditures or outlays resulting from internal transactions between government agencies or accounts, including transactions between accounts, between accounts and funds, and between funds.

Question: 보전지출이란 무엇을 의미하며, 어떤 상황

Answering Questions:   3%|▎         | 15/496 [07:18<4:40:56, 35.04s/it]

Answer: 보전지출이란 무엇을 의미하며, 어떤 상황에서 발생하는가?

보전지출은 회계 또는 기금의 민간차입 상환(국채상환), 남은 자금의 금융기관 예치(기금여유자금 운용) 등과 같은 경우에 발생하는 지출을 의미합니다.

보전지출이 발생하는 상황은 다음과 같습니다.

1. 민간차입 상환: 정부가 민간에서 차입한 자금을 상환하는 경우에 발생합니다.
2. 남은 자금의 금융기관 예치: 정부가 예산에서 남은 자금을 금융기관에 예치하여 운용하는 경우에 발생합니다.
3. 기금여유자금 운용: 기금의 여유자금을 운용하여 이자수입을 얻는 경우에 발생합니다.

따라서, 보전지출은 정부의 재정운용 과정에서 발생하는 예상치 못한 지출이나 예치, 운용 등의 경우에 발생하는 지출을 의미합니다.

Question: 2024년에 일반회계의 총지출은 얼마이며, 중앙정부 총지출 대비 어느 정도의 비율을 차지하는가?


In [None]:
results['Answer']

In [None]:
from langchain.schema import Document
from langchain_community.document_transformers import LongContextReorder
import unicodedata
import re

def normalize_string(s):
    """유니코드 정규화"""
    return unicodedata.normalize('NFC', s)

def format_docs(docs):
    """검색된 문서들을 하나의 문자열로 포맷팅하고 소스를 포함"""
    reordering = LongContextReorder()
    reordered_docs = reordering.transform_documents(docs)
    return "\n\n".join(f"Source: {source}\n{doc.page_content}" for doc in reordered_docs)

def remove_html_tags(text):
    """HTML 태그를 제거하는 함수"""
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)

def clean_output(output):
    """"질문:" 이후의 텍스트만 반환하고 HTML 태그 제거"""
    if "답변만 작성하세요:" in output:
        output = output.split("답변만 작성하세요:")[-1].strip()
    return remove_html_tags(output)

# 결과를 저장할 리스트 초기화
results = []
normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}

# DataFrame의 각 행에 대해 처리
for _, row in tqdm(df.iterrows(), total=len(df), desc="Answering Questions"):
    # 소스 문자열 정규화
    source = normalize_string(row['Source'])
    question = row['Question']
    print(question, '요게 질문')

    # 정규화된 키로 데이터베이스 검색
    retriever = normalized_keys[source]['retriever']
    
    # RAG 체인 구성
    prompt = PromptTemplate.from_template(
    """당신은 사용자들의 질문과 문맥을 받아 답변을 도와주는 지능형 어시스턴트입니다. 
    반드시 다음의 문맥 조각들만 사용하여 질문에 답변하세요. 단계별로 생각한 후 답변하세요.

    답변을 가짜로 만들어내지 마세요:
     - 만약 문맥에서 질문의 답을 결정할 수 없다면 "그 질문에 대한 답을 결정할 수 없습니다."라고 하세요.
     - 문맥이 비어 있으면 "그 질문에 대한 답을 모릅니다."라고 하세요.

    답변은 반드시 한국어로 하세요. 설명은 필요 없습니다.
    
    예시 1:
    질문 : 2024년도 국세수입 중 일반회계 내국세수입은 몇 조원인가요?
    답변 : 2024년도 일반회계 내국세수입은 321.6조원입니다.
    
    예시 2:
    질문 : 2024년도 세외수입 규모와 구성은 어떤가요?
    답변 : 2024년 세외수입은 일반회계에서 11.2조원, 특별회계에서 17.0조원으로 나타났습니다.


    #문맥: 
    {context}

    #질문:
    {question}

    #답변만 작성하세요:"""
)


    # RAG 체인 정의
    rag_chain = (
    {
        "context": itemgetter("question")
        | faiss
        | RunnableLambda(reorder_documents),  # 질문을 기반으로 문맥을 검색합니다.
        "question": itemgetter("question"),  # 질문을 추출합니다.
        "language": itemgetter("language"),  # 답변 언어를 추출합니다.
    }
    | prompt  # 프롬프트 템플릿에 값을 전달합니다.
#     | ChatOpenAI()  # 언어 모델에 프롬프트를 전달합니다.
#     | StrOutputParser()  # 모델의 출력을 문자열로 파싱합니다.
)

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke(question)

    # 실제 답변만 추출
    actual_answer = clean_output(full_response)
    print(f"Answer: {actual_answer}\n")

    # 결과 저장
    results.append({
        "Source": row['Source'],
        "Source_path": row['Source_path'],
        "Question": question,
        "Answer": actual_answer  # 실제 답변만 저장
    })


# Submission

In [20]:
# 제출용 샘플 파일 로드
submit_df = pd.read_csv("/kaggle/input/pdf-files/sample_submission.csv")

# 생성된 답변을 제출 DataFrame에 추가
submit_df['Answer'] = [item['Answer'] for item in results]
submit_df['Answer'] = submit_df['Answer'].fillna("데이콘")     # 모델에서 빈 값 (NaN) 생성 시 채점에 오류가 날 수 있음 [ 주의 ]

# 결과를 CSV 파일로 저장
submit_df.to_csv("./37_train_70b.csv", encoding='UTF-8-sig', index=False)

ValueError: Length of values (496) does not match length of index (98)

In [24]:
submit_df = pd.read_csv("/kaggle/input/pdf-files/train.csv")

submit_df['Answer'] = [item['Answer'] for item in results]
submit_df.to_csv("./37_train_8b.csv", encoding='UTF-8-sig', index=False)

In [25]:
import numpy as np
import pandas as pd
from collections import Counter

df = pd.read_csv('/kaggle/working/37_train_8b.csv')
pred = df['Answer']

df = pd.read_csv('/kaggle/input/pdf-files/train.csv')
gt = df['Answer']

def calculate_f1_score(true_sentence, predicted_sentence, sum_mode=True):
    true_counter = Counter(true_sentence)
    predicted_counter = Counter(predicted_sentence)

    #문자가 등장한 개수도 고려
    if sum_mode:
        true_positive = sum((true_counter & predicted_counter).values())
        predicted_positive = sum(predicted_counter.values())
        actual_positive = sum(true_counter.values())

    #문자 자체가 있는 것에 focus를 맞춤
    else:
        true_positive = len((true_counter & predicted_counter).values())
        predicted_positive = len(predicted_counter.values())
        actual_positive = len(true_counter.values())

    #f1 score 계산
    precision = true_positive / predicted_positive if predicted_positive > 0 else 0
    recall = true_positive / actual_positive if actual_positive > 0 else 0
    f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    return precision, recall, f1_score

def calculate_average_f1_score(true_sentences, predicted_sentences):
    
    total_precision = 0
    total_recall = 0
    total_f1_score = 0
    
    for true_sentence, predicted_sentence in zip(true_sentences, predicted_sentences):
        precision, recall, f1_score = calculate_f1_score(true_sentence, predicted_sentence)
        total_precision += precision
        total_recall += recall
        total_f1_score += f1_score
    
    avg_precision = total_precision / len(true_sentences)
    avg_recall = total_recall / len(true_sentences)
    avg_f1_score = total_f1_score / len(true_sentences)
    
    return {
        'average_precision': avg_precision,
        'average_recall': avg_recall,
        'average_f1_score': avg_f1_score
    }

result = calculate_average_f1_score(gt, pred)
print(result)

{'average_precision': 0.1829195502115584, 'average_recall': 0.8319427170235097, 'average_f1_score': 0.2666576168131044}
