In [2]:
import os
import unicodedata

import torch
import pandas as pd
from tqdm import tqdm
import fitz  # PyMuPDF

In [3]:
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    pipeline,
    BitsAndBytesConfig
)

In [4]:
from accelerate import Accelerator

# Langchain 관련
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

In [5]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [6]:
def process_pdf(file_path, chunk_size=800, chunk_overlap=50):
    """PDF 텍스트 추출 후 chunk 단위로 나누기"""
    # PDF 파일 열기
    doc = fitz.open(file_path)
    text = ''
    # 모든 페이지의 텍스트 추출
    for page in doc:
        text += page.get_text()
    # 텍스트를 chunk로 분할
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    chunk_temp = splitter.split_text(text)
    # Document 객체 리스트 생성
    chunks = [Document(page_content=t) for t in chunk_temp]
    return chunks


def create_vector_db(chunks, model_path="intfloat/multilingual-e5-small"):
    """FAISS DB 생성"""
    # 임베딩 모델 설정
    model_kwargs = {'device': device}
    encode_kwargs = {'normalize_embeddings': True}
    embeddings = HuggingFaceEmbeddings(
        model_name=model_path,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )
    # FAISS DB 생성 및 반환
    db = FAISS.from_documents(chunks, embedding=embeddings)
    return db

def normalize_path(path):
    """경로 유니코드 정규화"""
    return unicodedata.normalize('NFC', path)


def process_pdfs_from_dataframe(df, base_directory):
    """딕셔너리에 pdf명을 키로해서 DB, retriever 저장"""
    pdf_databases = {}
    unique_paths = df['Source_path'].unique()
    
    for path in tqdm(unique_paths, desc="Processing PDFs"):
        # 경로 정규화 및 절대 경로 생성
        normalized_path = normalize_path(path)
        full_path = os.path.normpath(os.path.join(base_directory, normalized_path.lstrip('./'))) if not os.path.isabs(normalized_path) else normalized_path
        
        pdf_title = os.path.splitext(os.path.basename(full_path))[0]
        print(f"Processing {pdf_title}...")
        
        # PDF 처리 및 벡터 DB 생성
        chunks = process_pdf(full_path)
        db = create_vector_db(chunks)
        
        # Retriever 생성
        retriever = db.as_retriever(search_type="mmr", 
                                    search_kwargs={'k': 3, 'fetch_k': 8})
        
        # 결과 저장
        pdf_databases[pdf_title] = {
                'db': db,
                'retriever': retriever
        }
    return pdf_databases


In [7]:
base_directory = '../data/' # Your Base Directory
df = pd.read_csv('../data/test.csv')
pdf_databases = process_pdfs_from_dataframe(df, base_directory)

Processing PDFs:   0%|                                                                           | 0/9 [00:00<?, ?it/s]

Processing 중소벤처기업부_혁신창업사업화자금(융자)...


  warn_deprecated(
Processing PDFs:  11%|███████▍                                                           | 1/9 [00:06<00:54,  6.79s/it]

Processing 보건복지부_부모급여(영아수당) 지원...


Processing PDFs:  22%|██████████████▉                                                    | 2/9 [00:11<00:37,  5.40s/it]

Processing 보건복지부_노인장기요양보험 사업운영...


Processing PDFs:  33%|██████████████████████▎                                            | 3/9 [00:16<00:31,  5.22s/it]

Processing 산업통상자원부_에너지바우처...


Processing PDFs:  44%|█████████████████████████████▊                                     | 4/9 [00:22<00:28,  5.70s/it]

Processing 국토교통부_행복주택출자...


Processing PDFs:  56%|█████████████████████████████████████▏                             | 5/9 [00:27<00:22,  5.50s/it]

Processing 「FIS 이슈 & 포커스」 22-4호 《중앙-지방 간 재정조정제도》...


Processing PDFs:  67%|████████████████████████████████████████████▋                      | 6/9 [00:35<00:19,  6.37s/it]

Processing 「FIS 이슈 & 포커스」 23-2호 《핵심재정사업 성과관리》...


Processing PDFs:  78%|████████████████████████████████████████████████████               | 7/9 [00:44<00:14,  7.16s/it]

Processing 「FIS 이슈&포커스」 22-2호 《재정성과관리제도》...


Processing PDFs:  89%|███████████████████████████████████████████████████████████▌       | 8/9 [00:51<00:07,  7.11s/it]

Processing 「FIS 이슈 & 포커스」(신규) 통권 제1호 《우발부채》...


Processing PDFs: 100%|███████████████████████████████████████████████████████████████████| 9/9 [00:59<00:00,  6.64s/it]


In [8]:
# def setup_llm_pipeline():
#     # 4비트 양자화 설정
#     bnb_config = BitsAndBytesConfig(
#         load_in_4bit=True,
#         bnb_4bit_use_double_quant=True,
#         bnb_4bit_quant_type="nf4",
#         bnb_4bit_compute_dtype=torch.bfloat16
#     )

#     # 모델 ID 
#     model_id = "beomi/llama-2-ko-7b"

#     # 토크나이저 로드 및 설정
#     tokenizer = AutoTokenizer.from_pretrained(model_id)
#     tokenizer.use_default_system_prompt = False

#     # 모델 로드 및 양자화 설정 적용
#     model = AutoModelForCausalLM.from_pretrained(
#         model_id,
#         quantization_config=bnb_config,
#         device_map="auto",
#         trust_remote_code=True )

#     # HuggingFacePipeline 객체 생성
#     text_generation_pipeline = pipeline(
#         model=model,
#         tokenizer=tokenizer,
#         task="text-generation",
#         temperature=0.2,
#         return_full_text=False,
#         max_new_tokens=128,
#     )

#     hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

#     return hf

In [9]:
# def setup_llm_pipeline():
#     # 모델 ID 
#     model_id = "beomi/llama-2-ko-7b"

#     # 토크나이저 로드 및 설정
#     tokenizer = AutoTokenizer.from_pretrained(model_id)
#     tokenizer.use_default_system_prompt = False

#     # 모델 로드 (CPU 전용)
#     model = AutoModelForCausalLM.from_pretrained(
#         model_id,
#         device_map="cpu",
#         trust_remote_code=True
#     )

#     # HuggingFacePipeline 객체 생성
#     text_generation_pipeline = pipeline(
#         model=model,
#         tokenizer=tokenizer,
#         task="text-generation",
#         device=0,  # CPU 사용
#         temperature=0.2,
#         return_full_text=False,
#         max_new_tokens=128,
#     )

#     hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

#     return hf


In [10]:
def setup_llm_pipeline():
    # 모델 ID 
    model_id = "beomi/llama-2-ko-7b"

    # 토크나이저 로드 및 설정
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    tokenizer.use_default_system_prompt = False

    # 모델 로드 (CPU 전용)
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        trust_remote_code=True
    )

    # HuggingFacePipeline 객체 생성
    text_generation_pipeline = pipeline(
        model=model,
        tokenizer=tokenizer,
        task="text-generation",
        temperature=0.2,
        return_full_text=False,
        max_new_tokens=128,
    )

    hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

    return hf

In [11]:
# LLM 파이프라인
llm = setup_llm_pipeline()

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

  warn_deprecated(


In [None]:
def normalize_string(s):
    """유니코드 정규화"""
    return unicodedata.normalize('NFC', s)

def format_docs(docs):
    """검색된 문서들을 하나의 문자열로 포맷팅"""
    context = ""
    for doc in docs:
        context += doc.page_content
        context += '\n'
    return context

# 결과를 저장할 리스트 초기화
results = []

# DataFrame의 각 행에 대해 처리
for _, row in tqdm(df.iterrows(), total=len(df), desc="Answering Questions"):
    # 소스 문자열 정규화
    source = normalize_string(row['Source'])
    question = row['Question']

    # 정규화된 키로 데이터베이스 검색
    normalized_keys = {normalize_string(k): v for k, v in pdf_databases.items()}
    retriever = normalized_keys[source]['retriever']

    # RAG 체인 구성
    template = """
    다음 정보를 바탕으로 질문에 답하세요:
    {context}

    질문: {question}

    답변:
    """
    prompt = PromptTemplate.from_template(template)

    # RAG 체인 정의
    rag_chain = (
        {"context": retriever | format_docs, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

    # 답변 추론
    print(f"Question: {question}")
    full_response = rag_chain.invoke(question)

    print(f"Answer: {full_response}\n")

    # 결과 저장
    results.append({
        "Source": row['Source'],
        "Source_path": row['Source_path'],
        "Question": question,
        "Answer": full_response
    })

Answering Questions:   0%|                                                                      | 0/98 [00:00<?, ?it/s]

Question: 2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요?


