In [None]:
#!pip install langchain-openai
#!pip install python-dotenv
#!pip install langchain_community
#!pip install unstructured  
#!pip install markdown


In [188]:
# 체인의 입출력을 확인하려면...
#from langchain.globals import set_debug
#set_debug(True)
# from langchain.globals import set_verbose
#set_verbose(True)

In [5]:
#
# .env 파일에서 OpenAI API를 가져온다. 없는 경우 직접 입력 받는다.
#
import getpass
import os
from dotenv import load_dotenv, dotenv_values

from langchain_openai import OpenAIEmbeddings
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_core.documents import Document

load_dotenv()
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")
#
# Vectorstore로는 PGVector를 사용
#
connection = "postgresql+psycopg://postgres:vectorspace@localhost:5432/postgres" 
hiarchical_collection_name = "hiarchical"
text_collection_name = "plain-text"

#
# Embedding은 OpenAIEmbedding을 사용
#
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
)


In [6]:
#
# MarkDown 파일을 로드
#     UnstructuredMarkdownload를 이용하여 "Documents" 생성
from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdownLoader = UnstructuredMarkdownLoader("../samples/LG모니터.md", mode="elements")
documents = markdownLoader.load()
print(documents)

#
# Embedding 후 PGVector VectorSpace에 저장
#
hiarchicalVectorSpace = PGVector.from_documents(
    embedding=embeddings,
    documents=documents,
    collection_name=hiarchical_collection_name,
    connection=connection,
    collection_metadata = {
    },
    use_jsonb = True
)


[Document(metadata={'source': '../samples/LG모니터.md', 'category_depth': 0, 'languages': ['kor'], 'file_directory': '../samples', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'last_modified': '2024-12-11T23:15:06', 'category': 'Title', 'element_id': '19684010d5dd5eb716c2a59445b173a5'}, page_content='LG 24MK430H 후속 신모델 LG 24MR400 60.4cm IPS Full-HD 100Hz 5ms CCTV용 사무용 가정용 컴퓨터 모니터'),
 Document(metadata={'source': '../samples/LG모니터.md', 'category_depth': 1, 'languages': ['kor'], 'file_directory': '../samples', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'last_modified': '2024-12-11T23:15:06', 'parent_id': '19684010d5dd5eb716c2a59445b173a5', 'category': 'Title', 'element_id': 'bbaf136682efcd952d2f65bdb4c87765'}, page_content='LG PC 모니터 왜 특별할까요?'),
 Document(metadata={'source': '../samples/LG모니터.md', 'category_depth': 1, 'languages': ['kor'], 'file_directory': '../samples', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'last_modified': '2024-12-11T23:15:06', 'parent_id

In [None]:
#
# Vectorstore에 이미 로딩해둔 Collection이 있다면 이를 이용하자.
#
"""
hiarchicalVectorSpace = PGVector(
    embeddings=embeddings,
    collection_name=hiarchical_collection_name,
    connection=connection,
    use_jsonb=True,
)
"""

In [191]:
search_result = hiarchicalVectorSpace.similarity_search("입력 단자는 어떤 것이 있나요?", k=4)
print(len(search_result))
for doc in search_result:
    print(doc.page_content + " (" + doc.metadata['category'] + ")");

4
입력 신호 (Title)
제품사양 (Title)
연결단자 : HDMI1.4 x 1, D-sub x 1, H/P out x 1 (ListItem)
전원선 타입 : External Power(Adapter) (ListItem)


In [79]:
#
# PGVector Vectorstore에서 메타데이터내의 element_id, parent_id를 이용하여 문서를 조회
# Parent node를 구하는데 사용
# 
def get_parent(vs, __document):
    if __document == None:
        return None
    if __document.metadata['category_depth'] > 0:
        __filter = dict()
        __filter['element_id'] = __document.metadata['parent_id']
        __elements = vs.similarity_search("", k=1, filter=__filter)
        if len(__elements) > 0:
            return __elements[0]
        else:
            return None
    else:
        return None

def get_ancestors(vs, __document):
    if __document == None:
        return list()
    __result = list()
    __parent = get_parent(vs, __document)
    while __parent:
        __result.append(__parent)
        __parent = get_parent(vs, __parent)
    return __result
  
def get_by_element_id(vs, __element_id):
    if id == None:
        return None
    __filter = dict()
    __filter['element_id'] = __element_id
    __elements = vs.similarity_search("", k=1, filter=__filter)
    if len(__elements) > 0:
        return __elements[0]
    else:
        return None

def get_by_parent_id(vs, __parent_id):
    if id == None:
        return None
    __filter = dict()
    __filter['parent_id'] = __parent_id
    return vs.similarity_search("", k=100, filter=__filter)

"""
get_by_element_id(hiarchicalVectorSpace, '19684010d5dd5eb716c2a59445b173a5')
"""

In [181]:
from typing import List, Dict
from collections import defaultdict
from langchain_core.documents import Document

#def get_by_element_id(vs, __element_id):
#    if __element_id is None:
#        return None
#    __filter = dict()
#    __filter['element_id'] = __element_id
#    __elements = vs.similarity_search("", k=1, filter=__filter)
#    if len(__elements) > 0:
#        return __elements[0]
#    else:
#        return None

def get_ancestors(vs, __document):
    if __document == None:
        return list()
    __result = list()
    __parent = get_parent(vs, __document)
    while __parent:
        __result.append(__parent)
        __parent = get_parent(vs, __parent)
    return __result

def merge_documents_to_md(__documents: List[Document], vs) -> str:
    element_set = set()
    parent_to_children: Dict[str, Dict[str, Document]] = defaultdict(dict)
    root_nodes = {}

    documents = __documents[:]
    for doc in documents:
        element_id = doc.metadata.get('element_id', '')
        if element_id in element_set:
            continue
        element_set.add(element_id)
        parent_id = doc.metadata.get('parent_id')
        if parent_id and parent_id not in element_set:
            parent_doc = get_by_element_id(vs, parent_id)
            if parent_doc:
                #print(parent_doc)
                documents.append(parent_doc)

    # Build parent-child mapping
    for doc in documents:
        element_id = doc.metadata.get('element_id', '')
        element_set.add(element_id)
        parent_id = doc.metadata.get('parent_id')
        if parent_id:
            parent_to_children[parent_id][element_id] = doc
        else:
            root_nodes[element_id] = doc

    def build_hierarchy(node: Document, depth: int = 0) -> str:
        indent = " " * (depth * 2)
        content = ""

        if node.metadata.get('category') == 'Title':
            header_prefix = "#" * (node.metadata.get('category_depth', 0) + 1)
            content += f"{header_prefix} {node.page_content}"
        elif node.metadata.get('category') == 'ListItem':
            indent = " " * node.metadata.get('category_depth', 0)
            content += f"{indent}* {node.page_content}"
        else:
            content += f"{indent}{node.page_content}"
        children = parent_to_children.get(node.metadata.get('element_id'), {})
        for child in children.values():
            content += "\n" + build_hierarchy(child, depth + 1)

        return content

    # Build the full hierarchy starting from root nodes
    merged_content = []
    for root in root_nodes.values():
        merged_content.append(build_hierarchy(root))

    return "\n\n".join(merged_content)


In [192]:
search_result = hiarchicalVectorSpace.similarity_search("입력 단자는 어떤 것이 있나요?", k=4)
print(len(search_result))
for doc in search_result:
    print(doc.page_content + " (" + doc.metadata['category'] + ")");
print(merge_documents_to_md(search_result, hiarchicalVectorSpace))

4
입력 신호 (Title)
제품사양 (Title)
연결단자 : HDMI1.4 x 1, D-sub x 1, H/P out x 1 (ListItem)
전원선 타입 : External Power(Adapter) (ListItem)
# LG 24MK430H 후속 신모델 LG 24MR400 60.4cm IPS Full-HD 100Hz 5ms CCTV용 사무용 가정용 컴퓨터 모니터
## 제품사양
### 입력 신호
 * 연결단자 : HDMI1.4 x 1, D-sub x 1, H/P out x 1
### 전기적 특성
 * 전원선 타입 : External Power(Adapter)


In [183]:
#
# RAG 체인 from LangChain RAG Tutorial
# 
#

from langchain import hub
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings

# 검색 결과를 Merge하여 Context를 만든다.
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# 검색 결과에 Parent Node 들을 증강한 후 Merge 하여  Context를 만든다.
def format_docs_md(docs):
    return merge_documents_to_md(docs, hiarchicalVectorSpace)



# PGVector Retriver
retriever = hiarchicalVectorSpace.as_retriever()
# 
prompt = hub.pull("rlm/rag-prompt")
# LLM: ChatGPT-4o-mini
llm = ChatOpenAI(model="gpt-4o-mini")

#
# 구조정보를 활용하지 않는 체인
text_rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

#
# 구조정보를 활요하는 체인
#   위 체인과 동일한 Retriver를 사용하기 떄문에 검색결과는 동일하다.
#   이 문서들의 Parent들을 모두 구해 merge 한다.
#   원래 검색 결과에 구조정보가 증강된다.
#
hiarchical_rag_chain = (
    {"context": retriever | format_docs_md, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)





In [None]:
questions=[
    "벽걸이 가능한가요?", 
    "Dvi 케이블은 적용이 안되나요? Hdmi케이블밀 적용되는건가요?", 
    "소리도 나오나요?", 
    "모니터에 자체.스피커는 없나요? 따로 구매해야하나요?",
    "24MK430H모델 157,000원으로 적혀있네요. 5대 구매할 생각인데 혹시 할인 가능 한가요? 벽걸이로 할 예정이고 설치비와 배송비는 어떻게 되나요? 광주광역시입니다.",
    "기본 제공 hdmi케이블은 길이가 몇M 인가요?", 
    "전원코드가없나요?이제품,,,,,내일서비스센터가서사러가야겠네요....좀속은느낌입니다.", 
    "티비도 볼수 있나요?"
]

In [187]:
text_rag_chain.invoke("VESA 홀 모니터 암에 거치할 수 있나요?")

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question>] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] [0ms] Exiting Chain run with output:
[0m{
  "output": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequenc

'네, VESA 홀 모니터 암에 거치할 수 있습니다. 벽걸이 VESA 규격이 100 x 100 mm로 지원됩니다. 사용자 환경에 맞게 조절 가능한 기능이 있습니다.'

In [186]:
hiarchical_rag_chain.invoke("VESA 홀 모니터 암에 거치할 수 있나요?")

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question>] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] [0ms] Exiting Chain run with output:
[0m{
  "output": "VESA 홀 모니터 암에 거치할 수 있나요?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequenc

'네, LG 24MR400 모니터는 VESA 홀을 지원하여 거치할 수 있습니다. 벽걸이용으로 100 x 100 mm 규격입니다. 따라서 VESA 마운트를 이용해 설치할 수 있습니다.'

In [176]:
text_rag_chain.invoke("모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?")

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question>] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] [0ms] Exiting Chain run with output:


'모니터 암은 VESA홀을 이용하여 모니터를 걸 수 있으므로 사용할 수 있습니다. 벽걸이 VESA 규격이 100 x 100 mm로 지원됩니다. 따라서 사용자의 환경에 맞게 조절하여 설치할 수 있습니다.'

In [177]:
rag_chain.invoke("모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?")


[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question>] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "모니터 암은 VESA홀을 이용하여 모니터를 걸수 있는 것이야. 모니터암을 사용할 수 있어?"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] [0ms] Exiting Chain run with output:


'네, LG 24MR400 모니터는 VESA 홀을 지원하므로 모니터 암을 사용할 수 있습니다. 이 모니터는 100 x 100 mm의 벽걸이 규격을 갖추고 있습니다. 따라서 적절한 모니터 암을 사용하면 설치가 가능합니다.'

In [28]:
 question = "화면이 안 켜지는데 어디에 문의해야 하죠?";
search_result = hiarchicalVectorSpace.similarity_search(question)
print(search_result)
print(rag_chain.invoke(question))


[Document(id='b3225167-f84f-4d75-81c4-e0ac60b27538', metadata={'source': '../samples/LG모니터.md', 'category': 'Title', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '87a477fa7e1abf9c4c618bd5fc71278b', 'element_id': 'ff9e1ba88e33377263563dc7ec1b086d', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 2, 'file_directory': '../samples'}, page_content='화면'), Document(id='e79acdf7-529e-4356-8472-ebba3567bfce', metadata={'source': '../samples/LG모니터.md', 'category': 'ListItem', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '1b448178950b275cc71390e3b10145ff', 'element_id': 'ff24547fd25b1c57371f883ef37f0637', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 1, 'file_directory': '../samples'}, page_content='A/S 책임자와 전화번호 : LG 전자 서비스 센터 /1544-7777'), Document(id='5d1a166f-0e05-4ca1-9e3b-1d642360fd1f', metadata={'source': '../samples/LG모니터.md', 'category': 'ListItem', 'filename': 'LG모니터.md', 'filetyp

In [10]:
hiarchicalVectorSpace.similarity_search_with_score("지원하는 입력단자는 무엇인가요?", k=5)

[(Document(id='3c0d4530-4cea-4710-b489-0c633bf84cbe', metadata={'source': '../samples/LG모니터.md', 'category': 'Title', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '87a477fa7e1abf9c4c618bd5fc71278b', 'element_id': '437735d6197dccc764be29fee37b6d48', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 2, 'file_directory': '../samples'}, page_content='입력 신호'),
  0.4790488792032662),
 (Document(id='a808527d-d6d9-427a-b73c-a17793d3fa86', metadata={'source': '../samples/LG모니터.md', 'category': 'ListItem', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '437735d6197dccc764be29fee37b6d48', 'element_id': '349ab65fb1ff4e901908861e101d5c11', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 1, 'file_directory': '../samples'}, page_content='연결단자 : HDMI1.4 x 1, D-sub x 1, H/P out x 1'),
  0.624256897695568),
 (Document(id='64c22951-754c-4878-ba87-3ee2f56269f9', metadata={'source': '../samples/LG모니터.md', 

In [101]:
hiarchicalVectorSpace.similarity_search_with_score("반품은 어떻게 하나요?", k=5)

[(Document(id='7cce7197-4977-4368-8788-b2e19e9211f4', metadata={'source': '../samples/LG모니터.md', 'category': 'ListItem', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '9ad1ce547c69011c5d313b6efcd5a0e0', 'element_id': '111e62996f81e1df217fdd41a5214fec', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 1, 'file_directory': '../samples'}, page_content='변심으로 인한 교환/반품 : 7일 이내에 판매점으로 연락하여 교환/반품신청 -> 판매처에서 반품수거송장 발급 -> 제품회수, 상태확인후 교환/반품승인 처리완료'),
  0.46128828477456707),
 (Document(id='c9c2158a-48f5-42f2-99c5-5073448562ed', metadata={'source': '../samples/LG모니터.md', 'category': 'ListItem', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '9ad1ce547c69011c5d313b6efcd5a0e0', 'element_id': '2374e374ef0035c5fd6713d63ff3b38d', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 1, 'file_directory': '../samples'}, page_content='반품 및 환불시에는 마켓 구매내역과 상관없이 서비스센터에서 환불 처리됩니다.'),
  0.46270905323949596),
 (Docume

In [74]:
print(get_element(hiarchicalVectorSpace, '437735d6197dccc764be29fee37b6d48'))

(Document(id='3c0d4530-4cea-4710-b489-0c633bf84cbe', metadata={'source': '../samples/LG모니터.md', 'category': 'Title', 'filename': 'LG모니터.md', 'filetype': 'text/markdown', 'languages': ['kor'], 'parent_id': '87a477fa7e1abf9c4c618bd5fc71278b', 'element_id': '437735d6197dccc764be29fee37b6d48', 'last_modified': '2024-12-11T23:15:06', 'category_depth': 2, 'file_directory': '../samples'}, page_content='입력 신호'), 0.9152041499377525)
