In [None]:
# 1. 문서 로드

from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader('/data/ephemeral/home/work/python/gx-rag/src/apps/persona/data/source', glob="*", show_progress=True)
docs = loader.load()

In [None]:
type(docs[0])

len(docs)

In [None]:
# 2. 문서 의미 있게 자르기 (1, 2, 3,4 ...장 별로)

import re
from langchain.schema import Document

pattern = r'(?=\d+\.\s)'  # 
#pattern = r'(?=^\d{1,2}\.\s)'  # Positive Lookahead 사용
#pattern = r'(?=[0-9]{1,2}\.\s)'    # ASCII 2자리
#pattern = r'(?=[1-9]\d?\.\s)'  # 1-9 또는 10-99

all_text = "\n\n".join([doc.page_content for doc in docs])
chunks = re.split(pattern, all_text, flags=re.MULTILINE)
# 무효한 리스트 삭제하기
valid_chunks = [chunk.strip() for chunk in chunks if len(chunk.strip()) > 100 and not chunk.strip().isdigit()]
len(valid_chunks)

valid_docs = [Document(page_content=chunk, metadata={'level': 'parent'}) for chunk in valid_chunks]

In [None]:
len(valid_docs)

In [None]:
# 2-1  내용 확인(test)
for doc in valid_docs:
    print("*"*50)
    print(doc.page_content[:100])

In [None]:
# 2-2 사이즈 확인(test)
def get_chunk_size_by_words(docs):
    
    for doc in docs:
        print(len(doc.split()))

get_chunk_size_by_words(valid_chunks)

In [None]:
# 3. 디비에 저장

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.storage import LocalFileStore, create_kv_docstore
import faiss
from langchain_community.vectorstores import FAISS

from langchain_huggingface import HuggingFaceEmbeddings

import torch

embed_model=HuggingFaceEmbeddings(
                                    model_name="BAAI/bge-m3",
                                    model_kwargs={"device": "cuda"} ,
                                    encode_kwargs={"normalize_embeddings": True})


""" # HuggingFaceEmbeddings 인스턴스 생성
embed_model = HuggingFaceEmbeddings(
    model_name="Qwen/Qwen3-Embedding-8B",
    model_kwargs={
        "device": "cpu"  # GPU 사용 (CPU는 "cpu")
    },
    encode_kwargs={
        "normalize_embeddings": True  # 임베딩 정규화
    }
) """

# 1. 컴포넌트 설정
child_splitter = RecursiveCharacterTextSplitter(chunk_size=500)  # 작은 청크
#vectorstore = Chroma(embedding_function=embeddings)  # 벡터 저장소

# 빈 벡터스토어 생성
vectorstore = FAISS.from_texts(
    texts=["초기화"],  # 더미 텍스트
    embedding=embed_model
)

#store = InMemoryStore()
# doc스토어 시스템에 영구 저장
fs = LocalFileStore(root_path="/data/ephemeral/home/work/python/gx-rag/src/apps/persona/data/store")
store = create_kv_docstore(fs) 

# 2. ParentDocumentRetriever 생성
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,    # 청크 저장 (검색용)
    docstore=store,            # 원본 저장 (반환용)  
    child_splitter=child_splitter,  # 분할 방법
    search_kwargs={"k": 1} 
)

# 3. 문서 추가
retriever.add_documents(valid_docs)

# 벡터스토어 저장
vectorstore.save_local('/data/ephemeral/home/work/python/gx-rag/src/apps/persona/data/faiss')

In [None]:
result= retriever.get_relevant_documents('은성호 사건을 해결할수 있었던 힌트는?')
print(result[0].page_content)
len(result)

In [None]:
# 4.  요약 쿼리 템플릿

template = """
아래 <context> 내용을 요약해서 원본 크기의 30%정도의 크기로 만들어줘. 
<context> 에 있는 내용만 이야기해줘.
양식의 규격을 준수해줘.  

[example]

<context>
    나는 1878년 런던 대학에서 의학 박사 학위를 받고 군의관이 되기 위해 필요한 
자격을 따기 위해 네틀리 육군 병원에 들어갔다. 그곳에서 규정된 교육을 끝내고 
노섬벌랜드 연대 소속 군의관으로 임명되었다.
그 무렵 이 연대는 인도에 주둔하고 있었는데, 내가 현지에 도착하기도 전에 제2
차 아프가니스탄 전쟁이 일어났다. 나는 봄베이에 상륙해서야 나의 연대가 적진 
깊숙이로 공격해 들어간 것을 알았다. 그래서 길을 재촉하여 그 뒤를 쫓아가 ㄴ
무사히 연대를 만나 새로운 임무에 종사하게 되었던 것이다.
이 전쟁에서 나는 연거푸 재난과 마주쳐야 했다. 마이완드에서 격전에 참가했다
가 어깨에 탄환을 맞아 뼈가 으스러지고 동맥까지 다치게 되었던 것이다.
다행히 전령을 맡고 있던 부하 머레이가 충직하고 용감한 사람이어서, 나를 말 
위에 짐짝처럼 싣고 무사히 아군의 진지까지 데리고 돌아왔으니 망정이지, 만일 
그가 없었다면 나는 잔인한 적의 수중에 사로잡혔을 것이다.
나는 후방 병원으로 보내졌다. 그 곳에서 어느 정도 건강이 회복되어 병원 안을 
걸어다니기도 하고, 베란다에 나가 일광욕도 할 만큼 회복되었는데, 운수 사납게
도 이번에는 장티푸스에 걸리고 말았다.
</context>

<summary>
    나는 1878년 런던 대학에서 의학 박사 학위를 받고 네틀리 육군 병원에서 군의관 교육을 받은 후, 노섬벌랜드 연대 소속 군의관으로 임명되었다.
제2차 아프가니스탄 전쟁이 발발하여 인도로 파견된 나는 봄베이에 도착해서야 연대가 이미 전선으로 떠났음을 알고 급히 뒤를 쫓아 연대와 합류했다.
전쟁 중 마이완드 격전에서 어깨에 탄환을 맞아 뼈가 으스러지고 동맥까지 다쳤다. 다행히 부하 머레이가 나를 구해 후방 병원으로 이송되었고, 어느 정도 회복되었으나 이번엔 장티푸스에 걸렸다.
</summary>


[Generate]

<context>
    {context}
</context>

<summary>
    [Your summary here - NOTHING ELSE]
</summary>
"""

In [None]:
# 5.  요약쿼리 테스트

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

from langchain_ollama import ChatOllama

#llm = ChatOllama(model="phi4:latest")
llm = ChatOllama(model="alibayram/Qwen3-30B-A3B-Instruct-2507")


prompt = ChatPromptTemplate.from_template(template)
holmes_chain = prompt | llm | StrOutputParser()


# 체인 실행 전에 프롬프트 미리 확인
""" formatted_prompt = prompt.format(context=valid_docs[2].page_content)
print("=== 실제 전달될 프롬프트 ===")
print(formatted_prompt)
print("=" * 50)  """


result = holmes_chain.invoke({'context': valid_docs[2].page_content})
print(result)