In [1]:
from langchain.text_splitter import MarkdownTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.documents import Document

from langchain_community.vectorstores import FAISS
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

1. 데이터 로드
2. 텍스트 분할
3. 인덱싱(임베딩 후 인덱싱)
4. 검색(retrieval)

In [2]:
import torch

# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device = torch.device("mps" if torch.backends.mps.is_available() else "cpu")
device

device(type='cpu')

In [None]:
input_pdf = "datasets/manual.pdf"

# input_pdf = "datasets/여비산정기준표.pdf"
preprocessed_file = "datasets/ocr_output.pdf"
result_file = "datasets/ocr_output_result.pdf",

In [4]:
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions, TableFormerMode

pipeline_options = PdfPipelineOptions(
    do_table_structure = True,
    do_text_extraction=True,
)
pipeline_options.table_structure_options.mode = TableFormerMode.ACCURATE

doc_converter = DocumentConverter(
    format_options={
        InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
    }
)

doc = doc_converter.convert(input_pdf)

markdown_text = doc.document.export_to_markdown()
print(markdown_text)
#읽지 못하는 텍스트와 사진 처리방법 고민

  from .autonotebook import tqdm as notebook_tqdm


## 국내여비 지급기준(일부 발췌)

| 구 분                                    | 운         | 운         | 임    | 임     | 일 비 (1일당)   | 숙박비 (1야당)   | 식 비 (1일당)   |
|------------------------------------------|------------|------------|-------|--------|-----------------|------------------|-----------------|
| 구 분                                    | 철 도      | 선 박      | 항 공 | 자동차 | 일 비 (1일당)   | 숙박비 (1야당)   | 식 비 (1일당)   |
| 교 수 부 교 수 5급(부참사) 이상 사무직원 | KTX (특실) | 2 등 정 액 | 〃    | 〃     | ￦30,000        | ￦100,000        | ￦40,000        |
| 조 교 수 전 임 강 사 일 반 직 원         | KTX (보통) | 〃         | 〃    | 〃     | ￦30,000        | ￦100,000        | ￦40,000        |
| 조 교 사무보조원 일 용 직                | KTX (보통) | 〃         | 〃    | 〃     | ￦20,000        | ￦80,000         | ￦30,000        |

- 1. 고속철도 운행구간이 아닌 경우에는 새마을호 요금을 적용한다
- 2. KTX 및 철도를 이용할 수 없는 경우에는 고속버스(우등) 요금을 적용한다.
- 3. 운임 등이 할인되는 경우 할인요금을 지급한다.
- 4. 도서 및 벽지의 경우에는 실비 기준으로 지급할 수 있다.
- 5. 자가용 승용차를 이용하여 공무 및 연구활동을 수행하는 경우의 운임은 철도운임 또는 버스 운임으로 한다. 다만, 공무의 

In [5]:
import pdfplumber
import pandas as pd

def table_chunker(pdf_path: str):
    chunks = []
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            tables = page.extract_tables()
            for table in tables:
                # table: 2D 리스트 (헤더 포함)
                try:
                    df = pd.DataFrame(table[1:], columns=table[0])
                except:
                    df = pd.DataFrame(table)
                md_table = df.to_markdown(index=False)
                chunks.append({
                    "text": md_table,
                    "metadata": {
                        "type": "table",
                        "page": page.page_number
                    }
                })
    return chunks

# 사용 예시
table_chunks = table_chunker(input_pdf)

In [6]:
from docling.chunking import HybridChunker

chunker = HybridChunker(
    tokenizer='BAAI/bge-m3',
    max_token_length=512,
    overlap=100
)

chunks = list(chunker.chunk(doc.document))

# chunks는 청커로 생성된 문서 조각들
# documents = [Document(page_content=chunk.text, metadata={"source": chunk.meta}) for chunk in chunks]

In [7]:
text_documents = []
for chunk in chunks:
    text = chunk.text

    source = input_pdf

    # page_no를 추출 (여러 Prov 아이템 중 첫 번째의 page_no를 사용하거나, set으로 처리)
    page_nos = sorted(
        set(
            prov.page_no
            for item in chunk.meta.doc_items
            for prov in item.prov
            if hasattr(prov, "page_no")
        )
    ) if hasattr(chunk.meta, "doc_items") else []

    # 가장 근접한 헤딩(섹션 이름) 추출 (예: 마지막 요소)
    headings = chunk.meta.headings if hasattr(chunk.meta, "headings") else []
    section = headings[-1] if headings else None

    metadata = {
        "source": source,
        "page_numbers": page_nos,
        "section": section
    }
    # (3) LangChain Document 생성
    text_documents.append(Document(page_content=text, metadata=metadata))

In [8]:
# table_chunks를 Document 형식으로 변환
table_documents = [
    Document(
        page_content=chunk["text"],
        metadata={
            "type": "table",
            "page": chunk["metadata"]["page"],
            "source": input_pdf
        }
    ) for chunk in table_chunks
]

# 두 Document 리스트 합치기
all_documents = table_documents + text_documents

In [9]:
embedding_model = HuggingFaceEmbeddings(
    model_name="dragonkue/BGE-m3-ko",
    model_kwargs={'device': device},
    encode_kwargs={'normalize_embeddings': True},
)

vectorstore = FAISS.from_documents(
    documents=all_documents,
    embedding=embedding_model
)

retriever = vectorstore.as_retriever()

  embedding_model = HuggingFaceEmbeddings(


In [10]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

# 모델 초기화
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")

compressor = CrossEncoderReranker(model=model, top_n=8)

# 문서 압축 검색기 초기화
compression_reranker = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

In [12]:
from langchain_ollama import OllamaLLM

# llm = OllamaLLM(model="llama3.2:3b")
# llm = OllamaLLM(model="deepseek-r1:1.5b")
llm = OllamaLLM(model="gemma3:4b")
# llm = ChatOpenAI(model_name = "gpt-4o-mini", temperature=0)

def format_docs(docs):
    return '\n\n'.join(doc.page_content for doc in docs)

prompt = ChatPromptTemplate.from_template("""
You are an assistant for question-answering tasks. 
Use the following pieces of retrieved context to answer the question.
If the user asks for a simple answer, summarize the key points.
If the question is unrelated to the context in the regulations, respond with "관련 정보를 찾을 수 없습니다."
You must answer in Korean.

#Context: 
{context}

#Question:
{question}

#Answer:
""")

rag_chain = (
    {'context': compression_reranker | format_docs, 'question': RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [13]:
question = "교수가 미국으로 4일 출장을 다녀오면 받을 수 있는 숙박비는?"
result = rag_chain.invoke(question)
print(result)

교수가 미국으로 4일 출장을 다녀오면 숙박비는 $35(1일당) x 4일 = $140를 선지급받을 수 있습니다.


In [None]:
# 출처 기능까지 지원하는지?

# restapi