In [1]:
import torch
import torchvision
import pandas as pd
import numpy as np

import json
import os
import unicodedata

import random
# from transformers import set_seed

# seed = 42
# random.seed(seed)
# torch.manual_seed(seed)
# if torch.cuda.is_available():
#     torch.cuda.manual_seed_all(seed)
# set_seed(seed)

from tqdm import tqdm
import pymupdf
import pymupdf4llm
from collections import Counter

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, BitsAndBytesConfig

from accelerate import Accelerator

import langchain

from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter, MarkdownTextSplitter, MarkdownHeaderTextSplitter
from langchain.prompts import PromptTemplate, ChatPromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.retrievers import EnsembleRetriever, MultiQueryRetriever
from langchain.document_loaders import PDFPlumberLoader, PyMuPDFLoader, PyPDFLoader, UnstructuredPDFLoader

import peft
from peft import PeftModel

import datasets
from datasets import Dataset
from transformers import Trainer, TrainingArguments



In [2]:
import transformers

In [3]:
from sentence_transformers import SentenceTransformer, util

In [4]:
class Opt:
    def __init__(self):
        self.model_configs = {
            'meta-llama/Meta-Llama-3.1-8B-Instruct':
            {
                'quantization_config': None,
                'torch_dtype': 'auto',
                'max_token': 256,
            },
            
            'rtzr/ko-gemma-2-9b-it':{
                'quantization_config': BitsAndBytesConfig(
                    load_in_4bit= True,
                    bnb_4bit_use_double_quant= True,
                    bnb_4bit_quant_type= 'nf4',
                    bnb_4bit_compute_dtype= torch.bfloat16
                ),
                'torch_dtype': 'auto',
                'max_token': 512
            }
        }

        self.llm_model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
        self.llm_model_config = self.model_configs[self.llm_model]
        self.llm_peft = False
        self.llm_peft_checkpoint = "meta-llama/Meta-Llama-3.1-8B-Instruct"

        # self.embed_models = ['distilbert-base-uncased', 'intfloat/multilingual-e5-large']
        self.embed_models = ["intfloat/multilingual-e5-base", "jhgan/ko-sbert-nli", "intfloat/multilingual-e5-large"]
        self.embed_model = self.embed_models[1]

        self.pdf_loader = 'pymupdf'

        self.base_directory = './'
        self.train_csv_path = os.path.join(self.base_directory, 'train.csv')
        self.test_csv_path = os.path.join(self.base_directory, 'test.csv')
        self.chunk_size = 512
        self.chunk_overlap = 32

        self.ensemble = True
        self.bm25_w = 0.5
        self.faiss_w = 0.5

        self.is_submit = True
        self.eval_sum_mode = False

        self.output_dir = 'test_results'
        self.output_csv_file = f"{self.llm_model.split('/')[1]}_{self.embed_model.split('/')[1]}_pdf{self.pdf_loader}_chks{self.chunk_size}_chkovp{self.chunk_overlap}_bm25{self.bm25_w}_faiss{self.faiss_w}_mix_submission.csv"
        os.makedirs(self.output_dir, exist_ok=True)

    def to_json(self):
        return json.dumps(self.__dict__)

args = Opt()

In [5]:
from huggingface_hub import login
import dotenv
from dotenv import load_dotenv

In [6]:
load_dotenv()

True

In [7]:
os.getenv('token')

'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'

In [8]:
load_dotenv()

token = os.getenv('token')

login(token = token)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to C:\Users\dohyeong\.cache\huggingface\token
Login successful


In [9]:
from huggingface_hub import hf_hub_download

In [10]:
import transformers

In [11]:
def load_train_data(train_csv_path):
    train_df = pd.read_csv(train_csv_path)
    return train_df[['Question', 'Answer']]

In [12]:
def train_question_improver(train_df):
    model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
    train_embeddings = model.encode(train_df['Question'].tolist(), convert_to_tensor=True)
    return model, train_embeddings

In [13]:
def improve_question(model, train_embeddings, train_df, question):
    question_embedding = model.encode(question, convert_to_tensor=True)
    cosine_scores = util.pytorch_cos_sim(question_embedding, train_embeddings)
    best_index = torch.argmax(cosine_scores).item()
    improved_question = train_df['Question'].iloc[best_index]
    return improved_question


In [14]:
import accelerate

In [15]:
from accelerate import init_empty_weights, load_checkpoint_and_dispatch

In [16]:
import time

In [17]:
from accelerate import disk_offload

In [20]:
help(disk_offload)

Help on function disk_offload in module accelerate.big_modeling:

disk_offload(model: torch.nn.modules.module.Module, offload_dir: Union[str, os.PathLike], execution_device: Optional[torch.device] = None, offload_buffers: bool = False, preload_module_classes: Optional[List[str]] = None)
    Activates full disk offload for a model. As a result, all parameters of the model will be offloaded as
    memory-mapped array in a given folder. During the forward pass, parameters will be accessed from that folder and
    put on the execution device passed as they are needed, then offloaded again.
    
    Args:
        model (`torch.nn.Module`): The model to offload.
        offload_dir (`str` or `os.PathLike`):
            The folder in which to offload the model weights (or where the model weights are already offloaded).
        execution_device (`torch.device`, *optional*):
            The device on which the forward pass of the model will be executed (should be a GPU). Will default to the
   

In [23]:
def setup_llm_pipeline():
    start_time = time.time()
    print('started: ', start_time)
    
    tokenizer = AutoTokenizer.from_pretrained(args.llm_model)
    tokenizer.use_default_system_prompt = False

    accelerator = Accelerator()

    model = AutoModelForCausalLM.from_pretrained(
        args.llm_model,
        quantization_config=args.llm_model_config['quantization_config'],
        torch_dtype=args.llm_model_config['torch_dtype'],
        device_map='auto',
        trust_remote_code=True
    )


    # model = disk_offload(
    #     model,
    #     offload_dir='./to/offload_folder/'
    # )
    
    if args.llm_peft:
        model = PeftModel.from_pretrained(model, args.llm_peft_checkpoint)

        
    text_generation_pipeline = pipeline(
        model=model,
        tokenizer=tokenizer,
        task='text-generation',
        return_full_text=False,
        max_new_tokens=args.llm_model_config['max_token']
    )

    end_time = time.time()
    print(f"Model loading time: {end_time - start_time:.2f} seconds")
    
    return HuggingFacePipeline(pipeline=text_generation_pipeline)

In [24]:
llm = setup_llm_pipeline()

started:  1724271929.6872954


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Some parameters are on the meta device device because they were offloaded to the cpu and disk.


모델이 완전히 로드되지 않았습니다. 디스크 오프로드를 수행할 수 없습니다.
Model loading time: 1.17 seconds


  warn_deprecated(


In [25]:
def process_pdf(file_path):
    md_text = pymupdf4llm.to_markdown(file_path)
    header_split = [
        ('#', 'header I'),
        ('##', 'header II'),
        ('###', 'header III'),
    ]

    md_header_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=header_split, strip_headers=False)
    md_chunks = md_header_splitter.split_text(md_text)

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=args.chunk_size, chunk_overlap=args.chunk_overlap
    )

    splits = text_splitter.split_documents(md_chunks)
    return splits


In [26]:
def create_vector_db(chunks, model_path, method='faiss'):
    model_kwargs = {'device': 'cuda'}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    db = FAISS.from_documents(chunks, embedding=embeddings)
    return db

In [27]:
def process_single_pdf(pdf_path):
    chunks = process_pdf(pdf_path)
    db = create_vector_db(chunks, model_path=args.embed_model)
    
    kiwi_bm25_retriever = KiwiBM25Retriever.from_documents(chunks)
    faiss_retriever = db.as_retriever()

    retriever = EnsembleRetriever(
        retrievers=[kiwi_bm25_retriever, faiss_retriever],
        weights=[args.bm25_w, args.faiss_w],
        search_type='mmr'
    )

    del chunks, db, kiwi_bm25_retriever, faiss_retriever
    torch.cuda.empty_cache()

    return retriever

In [28]:
def process_questions_for_pdf(pdf_path, questions_df, model, train_embeddings, train_df):
    retriever = process_single_pdf(pdf_path)
    llm_pipeline = setup_llm_pipeline()

    answers = []
    for _, row in questions_df.iterrows():
        question = row['Question']
        print(f"Original question: {question}")
        
        improved_question = improve_question(model, train_embeddings, train_df, question)
        print(f"Improved question: {improved_question}")

        result = llm_pipeline(improved_question)
        
        if isinstance(result, list):
            answer_text = result[0]['generated_text'] if 'generated_text' in result[0] else result[0]
        elif isinstance(result, dict):
            answer_text = result.get('generated_text', result)
        else:
            answer_text = result

        answers.append({
            'SAMPLE_ID': row['SAMPLE_ID'], 
            'Answer': answer_text
        })
    
    del retriever, llm_pipeline
    torch.cuda.empty_cache()

    return answers

In [29]:
def process_test_questions(df, model, train_embeddings, train_df):
    all_answers = []
    unique_paths = df['Source_path'].unique()

    for path in tqdm(unique_paths, desc='Processing PDFs'):
        pdf_questions_df = df[df['Source_path'] == path]
        answers = process_questions_for_pdf(path, pdf_questions_df, model, train_embeddings, train_df)
        all_answers.extend(answers)

    return all_answers


In [None]:
if __name__ == "__main__":
    train_df = load_train_data(args.train_csv_path)
    question_improver_model, train_embeddings = train_question_improver(train_df)
    
    test_df = pd.read_csv(args.test_csv_path)
    answers = process_test_questions(test_df, question_improver_model, train_embeddings, train_df)

    output_path = os.path.join(args.output_dir, args.output_csv_file)
    pd.DataFrame(answers).to_csv(output_path, index=False)

  attn_output = torch.nn.functional.scaled_dot_product_attention(
  warn_deprecated(


started:  1724271947.7324545


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Some parameters are on the meta device device because they were offloaded to the disk and cpu.
  warn_deprecated(
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


모델이 완전히 로드되지 않았습니다. 디스크 오프로드를 수행할 수 없습니다.
Model loading time: 2.79 seconds
Original question: 2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?
Improved question: 창업사업화지원 사업의 2022년 결산 기준 예산 규모는 얼마인가?


In [None]:
print('done')

In [28]:
output_path

'test_results\\skt_kogpt2-base-v2_mobilebert-uncased_pdfpymupdf_chks256_chkovp16_bm250.5_faiss0.5_mix_submission.csv'

In [51]:
test_res = pd.read_csv("./test_results/skt_kogpt2-base-v2_mobilebert-uncased_pdfpymupdf_chks512_chkovp32_bm250.5_faiss0.5_mix_submission.csv")

In [52]:
test_res

Unnamed: 0,SAMPLE_ID,Answer
0,TEST_000,".\n2018년부터 2020년 4월까지 사업비 확보율이 37.2%인데, 그중 가장 ..."
1,TEST_001,.\n한편 ‘대한민국 신기술 창업의 주역으로서 중소기업 창업지원 및 산업기술 및 기...
2,TEST_002,""", ""지원제도 도입 및 지원정책 현황 및 현황 실태""등을 중심으로 설명하면서 ""관..."
3,TEST_003,??\n창업기업이 사업화 성공률을 높일 수 있는 정책수단 중 하나로 창업기업에 대한...
4,TEST_004,?\n(안건토론에서 가장 많이 답변한 건 창업한 기업과 창업한 기업의 매출액의 평균...
...,...,...
93,TEST_093,"""라고 물었다.\n이에 금융감독원 김용균 부원장은 ""금융소비자들의 체감수준 파악을 ..."
94,TEST_094,""" 질문하였다.\n질문이 끝나고 나서는 답변은 ""네"". ""어떻게 될 것인가""였다.\..."
95,TEST_095,"""\n그는 이런 질문에 대해 ""회계원칙과 공공부문부채가 어떻게 다른가""라는 답변인 ..."
96,TEST_096,"""라고 질문하면서 ""국민의 안전과 생명에 대한 투자를 증대하면 어떤 문제도 극복할 ..."


In [33]:
test = pd.read_csv("./test.csv")

In [34]:
test

Unnamed: 0,SAMPLE_ID,Source,Source_path,Question
0,TEST_000,중소벤처기업부_혁신창업사업화자금(융자),./test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf,2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?
1,TEST_001,중소벤처기업부_혁신창업사업화자금(융자),./test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf,중소벤처기업부의 혁신창업사업화자금(융자) 사업목적은 무엇인가요?
2,TEST_002,중소벤처기업부_혁신창업사업화자금(융자),./test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf,중소벤처기업부의 혁신창업사업화자금(융자) 사업근거는 어떤 법률에 근거하고 있나요?
3,TEST_003,중소벤처기업부_혁신창업사업화자금(융자),./test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf,2010년에 신규 지원된 혁신창업사업화자금은 무엇인가요?
4,TEST_004,중소벤처기업부_혁신창업사업화자금(융자),./test_source/중소벤처기업부_혁신창업사업화자금(융자).pdf,혁신창업사업화자금 중 2020년에 신규 지원된 자금은 무엇인가요?
...,...,...,...,...
93,TEST_093,「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》,./test_source/「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》...,재정정책에서 공적보증채무와 다른 일회성 보증은 어떻게 구분되는가?
94,TEST_094,「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》,./test_source/「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》...,미래사회보장급여에 대한 순의무란 무엇을 의미하는가?
95,TEST_095,「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》,./test_source/「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》...,국가결산보고서와 지방자치단체 회계기준에서 우발부채에 대한 용어 및 회계처리가 어떻게...
96,TEST_096,「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》,./test_source/「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》...,"우발부채란 무엇이며, 그 관리가 왜 중요한가?"


In [31]:
train = pd.read_csv("./train.csv")

In [32]:
train

Unnamed: 0,SAMPLE_ID,Source,Source_path,Question,Answer
0,TRAIN_000,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?,"2024년 중앙정부 재정체계는 예산(일반·특별회계)과 기금으로 구분되며, 2024년..."
1,TRAIN_001,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?,"2024년 중앙정부의 예산 지출은 일반회계 356.5조원, 21개 특별회계 81.7..."
2,TRAIN_002,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,기금이 예산과 다른 점은?,"기금은 예산과 구분되는 재정수단으로서 재정운영의 신축성을 기할 필요가 있을 때, 정..."
3,TRAIN_003,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,"일반회계, 특별회계, 기금 간의 차이점은 무엇인가요?","일반회계는 특정 사업 운영 및 특정 세입으로 특정 세출을 충당하는데 사용되고, 특별..."
4,TRAIN_004,1-1 2024 주요 재정통계 1권,./train_source/1-1 2024 주요 재정통계 1권.pdf,"2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?","2024년 총수입은 612.2조원이며, 예산수입은 395.5조원, 기금수입은 216..."
...,...,...,...,...,...
491,TRAIN_491,월간 나라재정 2023년 12월호,./train_source/월간 나라재정 2023년 12월호.pdf,자치단체 보조금과 민간보조금은 각각 어떤 비율로 증가했는가?,"자치단체 보조금은 2019년 대비 2022년에 35% 증가하였고, 민간보조금은 10..."
492,TRAIN_492,월간 나라재정 2023년 12월호,./train_source/월간 나라재정 2023년 12월호.pdf,한국의 재정금융안정계획이 주로 어떤 목표에 초점을 맞추어 있었는가?,한국의 재정금융안정계획은 통화량 조절과 물가안정이라는 단기적 목표에 초점을 맞추어 ...
493,TRAIN_493,월간 나라재정 2023년 12월호,./train_source/월간 나라재정 2023년 12월호.pdf,1952년에 체결된 '한미경제조정협정'은 어떤 문제를 해결하기 위해 체결되었는가?,"원조물자 판매대금의 효과적 활용, 참전유엔군 경비지출을 위해 우리 정부에서 대여해 ..."
494,TRAIN_494,월간 나라재정 2023년 12월호,./train_source/월간 나라재정 2023년 12월호.pdf,"2023년 12월 IMF는 성장 전망을 어떻게 제시하고 있으며, 성장세의 둔화가 어...","IMF는 최근 세계 경제전망을 통해 작년 3.5%에서 올해 3%, 내년 2.9%로 ..."
