In [None]:
#!pip install langchain-openai
#!pip install python-dotenv
#!pip install langchain_community
#!pip install unstructured  
#!pip install markdown


In [None]:
# 체인의 입출력을 확인하려면...
#from langchain.globals import set_debug
#set_debug(True)
# from langchain.globals import set_verbose
#set_verbose(True)

In [None]:
#
# .env 파일에서 OpenAI API를 가져온다. 없는 경우 직접 입력 받는다.
#
import getpass
import os
from dotenv import load_dotenv, dotenv_values

from langchain_openai import OpenAIEmbeddings
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_core.documents import Document

load_dotenv()
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")
#
# Vectorstore로는 PGVector를 사용
#
connection = "postgresql+psycopg://postgres:vectorspace@localhost:5432/postgres" 
hiarchical_collection_name = "hiarchical"
text_collection_name = "plain-text"

#
# Embedding은 OpenAIEmbedding을 사용
#
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
)


In [None]:
#
# MarkDown 파일을 로드
#     UnstructuredMarkdownload를 이용하여 "Documents" 생성
from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdownLoader = UnstructuredMarkdownLoader("../samples/LG모니터.md", mode="elements")
documents = markdownLoader.load()
print(documents)

#
# Embedding 후 PGVector VectorSpace에 저장
#
hiarchicalVectorSpace = PGVector.from_documents(
    embedding=embeddings,
    documents=documents,
    collection_name=hiarchical_collection_name,
    connection=connection,
    collection_metadata = {
    },
    use_jsonb = True
)


In [None]:
#
# Vectorstore에 이미 로딩해둔 Collection이 있다면 이를 이용하자.
#
"""
hiarchicalVectorSpace = PGVector(
    embeddings=embeddings,
    collection_name=hiarchical_collection_name,
    connection=connection,
    use_jsonb=True,
)
"""

In [None]:
# 데이더 확인....
search_result = hiarchicalVectorSpace.similarity_search("입력 단자는 어떤 것이 있나요?", k=4)
print(len(search_result))
for doc in search_result:
    print(doc.page_content + " (" + doc.metadata['category'] + ")");

In [None]:
#
# PGVector Vectorstore에서 메타데이터내의 element_id, parent_id를 이용하여 문서를 조회
# Parent node를 구하는데 사용
# 
def get_parent(vs, __document):
    if __document == None:
        return None
    if __document.metadata['category_depth'] > 0:
        __filter = dict()
        __filter['element_id'] = __document.metadata['parent_id']
        __elements = vs.similarity_search("", k=1, filter=__filter)
        if len(__elements) > 0:
            return __elements[0]
        else:
            return None
    else:
        return None

def get_ancestors(vs, __document):
    if __document == None:
        return list()
    __result = list()
    __parent = get_parent(vs, __document)
    while __parent:
        __result.append(__parent)
        __parent = get_parent(vs, __parent)
    return __result
  
def get_by_element_id(vs, __element_id):
    if id == None:
        return None
    __filter = dict()
    __filter['element_id'] = __element_id
    __elements = vs.similarity_search("", k=1, filter=__filter)
    if len(__elements) > 0:
        return __elements[0]
    else:
        return None

def get_by_parent_id(vs, __parent_id):
    if id == None:
        return None
    __filter = dict()
    __filter['parent_id'] = __parent_id
    return vs.similarity_search("", k=100, filter=__filter)

"""
get_by_element_id(hiarchicalVectorSpace, '19684010d5dd5eb716c2a59445b173a5')
"""

In [None]:
from typing import List, Dict
from collections import defaultdict
from langchain_core.documents import Document

def merge_documents_to_md(__documents: List[Document], vs) -> str:
    element_set = set()
    parent_to_children: Dict[str, Dict[str, Document]] = defaultdict(dict)
    root_nodes = {}

    documents = __documents[:]
    for doc in documents:
        element_id = doc.metadata.get('element_id', '')
        if element_id in element_set:
            continue
        element_set.add(element_id)
        parent_id = doc.metadata.get('parent_id')
        if parent_id and parent_id not in element_set:
            parent_doc = get_by_element_id(vs, parent_id)
            if parent_doc:
                #print(parent_doc)
                documents.append(parent_doc)

    # Build parent-child mapping
    for doc in documents:
        element_id = doc.metadata.get('element_id', '')
        element_set.add(element_id)
        parent_id = doc.metadata.get('parent_id')
        if parent_id:
            parent_to_children[parent_id][element_id] = doc
        else:
            root_nodes[element_id] = doc

    def build_hierarchy(node: Document, depth: int = 0) -> str:
        indent = " " * (depth * 2)
        content = ""

        if node.metadata.get('category') == 'Title':
            header_prefix = "#" * (node.metadata.get('category_depth', 0) + 1)
            content += f"{header_prefix} {node.page_content}"
        elif node.metadata.get('category') == 'ListItem':
            indent = " " * node.metadata.get('category_depth', 0)
            content += f"{indent}* {node.page_content}"
        else:
            content += f"{indent}{node.page_content}"
        children = parent_to_children.get(node.metadata.get('element_id'), {})
        for child in children.values():
            content += "\n" + build_hierarchy(child, depth + 1)

        return content

    # Build the full hierarchy starting from root nodes
    merged_content = []
    for root in root_nodes.values():
        merged_content.append(build_hierarchy(root))

    return "\n\n".join(merged_content)


In [None]:
search_result = hiarchicalVectorSpace.similarity_search("입력 단자는 어떤 것이 있나요?", k=4)
print(len(search_result))
for doc in search_result:
    print(doc.page_content + " (" + doc.metadata['category'] + ")");
print(merge_documents_to_md(search_result, hiarchicalVectorSpace))

In [None]:
#
# RAG 체인 from LangChain RAG Tutorial
# 
#

from langchain import hub
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings

# 검색 결과를 Merge하여 Context를 만든다.
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# 검색 결과에 Parent Node 들을 증강한 후 Merge 하여  Context를 만든다.
def format_docs_md(docs):
    return merge_documents_to_md(docs, hiarchicalVectorSpace)



# PGVector Retriver
retriever = hiarchicalVectorSpace.as_retriever()
# 
prompt = hub.pull("rlm/rag-prompt")
# LLM: ChatGPT-4o-mini
llm = ChatOpenAI(model="gpt-4o-mini")

#
# 구조정보를 활용하지 않는 체인
#
text_rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

#
# 구조정보를 활요하는 체인
#   위 체인과 동일한 Retriver를 사용하기 떄문에 검색결과는 동일하다.
#   이 문서들의 Parent들을 모두 구해 merge 한다.
#   결과적으로 원래 검색 결과에 구조 정보가 증강된다.
#
hiarchical_rag_chain = (
    {"context": retriever | format_docs_md, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)



In [None]:
#
# 제품설명에 달린 사용자들의 질문과 담당자의 답변
#   리스트에 담당자의 답변, llm답변, llm답변(구조증강)
#
qna = {
    "Dvi 케이블은 적용이 안되나요? Hdmi케이블밀 적용되는건가요?": ["value2_1", "", ""],
    "소리도 나오나요?": ["value3_1", "", ""],
    "모니터에 자체.스피커는 없나요? 따로 구매해야하나요?": ["value3_1", "", ""],
    "24MK430H모델 157,000원으로 적혀있네요. 5대 구매할 생각인데 혹시 할인 가능 한가요? 벽걸이로 할 예정이고 설치비와 배송비는 어떻게 되나요? 광주광역시입니다.": ["value3_1", "", ""],
    "기본 제공 hdmi케이블은 길이가 몇M 인가요?": ["value3_1", "", ""],
    "전원코드가없나요?이제품,,,,,내일서비스센터가서사러가야겠네요....좀속은느낌입니다.": ["value3_1", "", ""],
    "티비도 볼수 있나요?": ["value3_1", "", ""],
    "75mm 베사홀 모니터암에 거치할 수 있나요?": ["", "", ""],
    "벽걸이 가능한가요?": ["value1_1", "", ""],
}


In [None]:
for q, a in qna.items():
    a[1] = text_rag_chain.invoke(q)
    a[2] = hiarchical_rag_chain.invoke(q)


In [None]:
for q, a in qna.items():
    print("질문: " + q)
    print("\t 담당자답변: " + a[0])
    print("\t LLM답변: " + a[1])
    print("\t LLM답변(구조증강): " + a[2])


In [None]:
text_rag_chain.invoke("외부스피커를 연결할 수 있나요?")

In [None]:
hiarchical_rag_chain.invoke("외부스피커를 연결할 수 있나요?")

In [None]:
text_rag_chain.invoke("모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?")

In [None]:
rag_chain.invoke("모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?")


In [None]:
 question = "화면이 안 켜지는데 어디에 문의해야 하죠?";
search_result = hiarchicalVectorSpace.similarity_search(question)
print(search_result)
print(rag_chain.invoke(question))


In [None]:
hiarchicalVectorSpace.similarity_search_with_score("지원하는 입력단자는 무엇인가요?", k=5)

In [None]:
hiarchicalVectorSpace.similarity_search_with_score("반품은 어떻게 하나요?", k=5)

In [None]:
print(get_element(hiarchicalVectorSpace, '437735d6197dccc764be29fee37b6d48'))