## PyPDFLoader로 pdf 읽기

### data에 있는 모든 문서 추출하기
- chroma_store가 없을 경우 data 폴더에 있는 pdf 파일들을 읽어서 벡터 DB에 저장 하기 위한 과정

### 청킹 방법 선택하기

In [None]:
# 청킹 방법
splitter_name = "sementic" # recursive, sementic

# 임베딩 모델
MODEL = "text-embedding-3-large" # text-embedding-3-large

# LLM 모델
LLM_MODEL = "gpt-4o-mini" # gpt-4o-mini, openai/gpt-oss-120b

In [None]:
if splitter_name == "recursive" :
    # recursive_character_text_splitter로 구분자 재귀 청킹 기법
    from langchain_text_splitters import RecursiveCharacterTextSplitter

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=100
    )
elif splitter_name == "semantic":
    import os
    from langchain_experimental.text_splitter import SemanticChunker
    from langchain_openai.embeddings import OpenAIEmbeddings
    from dotenv import load_dotenv

    load_dotenv()

    # 의미 기반으로 청킹을 하기 위해 OpenAI의 임베딩 모델을 사용
    OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
    embedding = OpenAIEmbeddings(model=MODEL, api_key=OPENAI_API_KEY)

    text_splitter = SemanticChunker(embedding)

### Debug 함수

In [None]:
def debug_chunkinfo_aftersplit(all_splits):
    for i, split in enumerate(all_splits):
        print(f"Chunk {i+1}:")
        print(split.page_content)
        print("-" * 40)

### 추출 하기

In [None]:
import os
import glob
from langchain_community.document_loaders import PyPDFLoader

# PDF 파일을 읽어서 텍스트 데이터 추출 및 청킹
def extract_documents_from_pdf(pdf_path):
    # PDF 파일을 읽어서 텍스트 데이터 추출
    loader = PyPDFLoader(pdf_path)
    data_nyc = loader.load()

    # 추출된 텍스트 데이터를 청킹
    splits = text_splitter.split_documents(data_nyc)
    # debug_chunkinfo_aftersplit(splits) 

    # recursive_character_text_splitter의 경우, 청크가 겹치는 부분이 없으면 연결하지 않음
    # 따라서, 청크가 겹치는 부분이 없을 때는 직접 연결하여 오버랩을 만듦
    # 만약 청크가 겹치는 부분이 있다면, 그 부분은 자동으로 연결됨
    # 여기서는 청크가 겹치지 않는 경우에만 오버랩을 추가함

    # 만약 첫 번째 청크의 끝과 두 번째 청크의 시작이 겹치지 않는다면,
    if splitter_name == "recursive" and (splits[0].page_content[-100:] == splits[1].page_content[:100]):
        print(splits[0].page_content)
        print("----")
        print(splits[1].page_content)
        for i in range(len(splits) - 1):
            splits[i].page_content += "\n" + splits[i + 1].page_content[:50]

    return splits


current_dir = os.getcwd() # 현재 폴더 경로
folder_path = os.path.join(current_dir, "data") # data 폴더 경로 설정
pdf_files = glob.glob(os.path.join(folder_path, "*.pdf")) # PDF 파일 목록 가져오기

all_splits = []
print(f"현재 청킹 방법 : {splitter_name}")
print(f"현재 모델 : {MODEL}")
print(f"PDF 파일 개수: {len(pdf_files)}")
for pdf_file in pdf_files:
    pdf_path = pdf_file
    # temp_docs, merged_path = extract_documents_from_pdf(pdf_file)
    all_splits.extend(extract_documents_from_pdf(pdf_file))

print(f"전체 청크 개수: {len(all_splits)}")

## 텍스트를 벡터로 변환하기
- 임베딩 모델 설정하기

In [None]:
from langchain_openai import OpenAIEmbeddings

from dotenv import load_dotenv

import os
load_dotenv()

if splitter_name != "semantic":
    OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

    # text-embedding-3-small이 비용 대비 성능이 매우 뛰어나지만, 한글 문서에서는 text-embedding-3-large가 더 나은 성능을 보여 large로 선택.
    MODEL = "text-embedding-3-large"
    embedding = OpenAIEmbeddings(model=MODEL, api_key=OPENAI_API_KEY)

# 예시
# v = embedding.embed_query("뉴욕의 온실가스 저감정책은 뭐야?")
# print(v)
# print(len(v))

## 크로마 DB 생성하고 데이터 불러오기


- 최초에 chrom_store을 만들 때 data에 있는 pdf를 사용해서 생성할 때.

In [None]:
from langchain_chroma import Chroma
import tiktoken
import os
import shutil

persist_directory = './chroma_store' + '_' + splitter_name + '_' + MODEL.replace('.', '_')

encoding = tiktoken.encoding_for_model(MODEL)

TOKEN_LIMIT_PER_BATCH = 40000  # 적절한 토큰 제한

def batch_save(vectorstore, splits):
    current_batch = []
    current_tokens = 0

    for doc in splits: 
        tokens = len(encoding.encode(doc.page_content))
        
        if current_tokens + tokens > TOKEN_LIMIT_PER_BATCH:
            try:
                vectorstore.add_documents(current_batch)
                print(f"✅ {len(current_batch)}개 문서 배치 저장 완료")
            except Exception as e:
                print(f"❌ 배치 저장 중 오류 발생: {e}")
            current_batch = [doc]
            current_tokens = tokens
        else:
            current_batch.append(doc)
            current_tokens += tokens

    # 마지막 배치 처리
    if current_batch:
        vectorstore.add_documents(current_batch)
        print(f"✅ 마지막 배치 {len(current_batch)}개 문서 저장 완료")
    
    return vectorstore


if not os.path.exists(persist_directory):
    print(f"Creating new Chroma store at {persist_directory}...")    
    vectorstore = Chroma(
        embedding_function=embedding,
        persist_directory=persist_directory
    )
    vectorstore = batch_save(vectorstore, all_splits)
else :
    # 이미 존재하는 Chroma store를 불러오기
    print("Loading existing Chroma store...")
    vectorstore = Chroma(
        embedding_function=embedding,
        persist_directory=persist_directory
    )
    # 만약 새로 추가할 PDF 파일이 있다면 데이터 추출 및 저장후, extra_data 폴더에서 data 폴더로 이동
    src_folder = 'extra_data'
    dst_folder = 'data'

    current_dir = os.getcwd() # 현재 폴더 경로
    folder_path = os.path.join(current_dir, src_folder) # extra_data 폴더 경로 설정
    pdf_files = glob.glob(os.path.join(folder_path, "*.pdf")) # PDF 파일 목록 가져오기

    extra_splits = []
    if not pdf_files:
        print("추가할 PDF 파일이 없습니다.")
    else:
        print(f"추가할 PDF 파일 개수: {len(pdf_files)}")
        for pdf_file in pdf_files:
            extra_splits.extend(extract_documents_from_pdf(pdf_file))

        vectorstore = batch_save(vectorstore, extra_splits)

        # extra_data 폴더의 모든 파일 중 .pdf만 이동
        for filename in os.listdir(src_folder):
            if filename.lower().endswith('.pdf'):
                src_path = os.path.join(src_folder, filename)
                dst_path = os.path.join(dst_folder, filename)
                if os.path.isfile(src_path):
                    shutil.move(src_path, dst_path)

## LLM 설정 후 질문 및 답변

In [None]:
from openai import OpenAI
from langchain_openai import ChatOpenAI

load_dotenv()
HF_API_KEY = os.getenv("HF_API_KEY")
client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=HF_API_KEY
)

summary_completion = client.chat.completions.create(
    model="openai/gpt-oss-120b"
)
print(summary_completion.choices[0].message.content)

In [None]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_openai import ChatOpenAI
from openai import OpenAI

if LLM_MODEL == "gpt-4o-mini":
    chat = ChatOpenAI(model=LLM_MODEL)
# elif LLM_MODEL == "gpt-oss-120b":
#     HF_API_KEY = os.getenv("HF_API_KEY")
#     chat = ChatOpenAI(
#         base_url="https://router.huggingface.co/v1",
#         api_key=HF_API_KEY,
#         model = LLM_MODEL
#     )

question_answering_promt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Please write your answer in a markdown table format with the main points. Be sure to include all your source and page numbers like (3 ~ 10) in your answer. If you have over one source, you should include all of them. Answer in Korean. \n#Example Format: \n(brief summary of the answer) \n (table) \n  (detailed answer to the question) \n**출처** \n- (file source) (page source and page number) (Please write the quoted text within 20 characters and follow it with ... )\n #Context: {context}",
        ),
        MessagesPlaceholder(variable_name="messages"),
    ]
)

document_chain = create_stuff_documents_chain(chat, question_answering_promt)

- meta data에 있는 정보는 llm이 알 수 없으므로 출처 filename을 포함시켜서 새로운 Document 타입을 생성

In [None]:
import os
from langchain.schema import Document

# Document type인 docs가 context로 넘겨졌을 때 llm은 content에 있는 정보 기반으로 답을 한다.
# 따라서 meta data에 있는 정보는 llm이 알 수 없으므로 출처 filename을 포함시켜서 새로운 Document 타입을 생성한다.
def format_docs_with_source_as_documents(docs):
    new_docs = []
    for d in docs:
        filename = os.path.basename(d.metadata.get("source", ""))
        # 기존 page_content 뒤에 출처 붙이기
        new_content = f"{d.page_content}\n출처: {filename}"

        # 새 리스트 생성 (metadata 유지)
        new_docs.append(
            Document(page_content=new_content, metadata=d.metadata)
        )
    return new_docs



### 질문 입력 및 답변 생성

In [None]:
retriever = vectorstore.as_retriever(k=3)
question = "우리 부부의 연소득은 총 합 6800만원이야. 받을 수 있는 대출은 뭐가 있을까?"
docs = retriever.invoke(question)
# print(type(docs))
# print(docs)
formatted_context = format_docs_with_source_as_documents(docs)

for d in formatted_context:
    # print(d.metadata)
    print(d)
    print("-" * 40)
# for d in docs:
#     print(d.metadata)
#     print(d.page_content)
#     print("-" * 40)

In [None]:
from langchain.memory import ChatMessageHistory

chat_history = ChatMessageHistory()

chat_history.add_user_message(question)

answer = document_chain.invoke(
    {
        "messages": chat_history.messages,
        "context": formatted_context,
    }
)

chat_history.add_ai_message(answer)
print("질문:", question)
print("답변:")
print("-" * 40)
print(answer)

print("\n청킹 방법", splitter_name)
print("임베딩 모델", MODEL)