In [1]:
## 컬렉션 생성/연결하기
import chromadb
client = chromadb.PersistentClient('../chroma/')
client.list_collections()



[Collection(name=ten_files_child),
 Collection(name=test),
 Collection(name=address_pdf_multivector_summary_240611),
 Collection(name=ten_files),
 Collection(name=ten_files_openai_3072),
 Collection(name=address_ordinance_pdf),
 Collection(name=address_business_guide_pdf),
 Collection(name=address_regulation_pdf),
 Collection(name=address_law_pdf),
 Collection(name=address_law_txt),
 Collection(name=address_pdf_multivector_240611),
 Collection(name=address_pdf_vanila_240611),
 Collection(name=ten_files_openai)]

In [None]:
collection = client.get_or_create_collection(name="ten_files_openai")
collection.peek()

In [10]:
from dotenv import load_dotenv
import os
import uuid
import chromadb
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import TextLoader
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from langchain_core.documents import Document
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
# from langchain_community.embeddings import OllamaEmbeddings
from langchain.embeddings.openai import OpenAIEmbeddings
from chromadb.utils import embedding_functions
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from langchain.schema import AIMessage, HumanMessage, SystemMessage
from kiwipiepy import Kiwi
import gradio as gr

# .env 파일 활성화
load_dotenv()


OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

############################################################################################################
######### 파일 불러오기 #######################################################################################
############################################################################################################

loader = DirectoryLoader(path='../data', glob='address_law.txt', loader_cls=TextLoader, show_progress=True, use_multithreading=True)
data = loader.load()

############################################################################################################
######### 컬렉션 생성/연결하기 ##################################################################################
############################################################################################################
client = chromadb.PersistentClient('../chroma/')
collection = client.get_or_create_collection(name="address_law_txt")

############################################################################################################
############# txt doc 설정하기 ################################################################################
############################################################################################################
doc_ids = [str(uuid.uuid4()) for _ in data]
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size = 500, chunk_overlap=100)

id_key = "doc_id"

child_docs = []  # 하위 문서를 저장할 리스트를 초기화합니다.
for i, doc in enumerate(data):
    _id = doc_ids[i]  # 현재 문서의 ID를 가져옵니다.
    # 현재 문서를 하위 문서로 분할합니다.
    child_doc = child_text_splitter.split_documents([doc])
    for _doc in child_doc:  # 분할된 하위 문서에 대해 반복합니다.
        # 하위 문서의 메타데이터에 ID를 저장합니다.
        _doc.metadata[id_key] = _id
    child_docs.extend(child_doc)  # 분할된 하위 문서를 리스트에 추가합니다.

############################################################################################################
############# 검색하기 #######################################################################################
############################################################################################################
kiwi = Kiwi()

def kiwi_tokenize(text):
    return [token.form for token in kiwi.tokenize(text)]

# BM25 retrieval 
bm25_retriever = BM25Retriever.from_documents(child_docs, preprocess_func = kiwi_tokenize) 
bm25_retriever.k = 1  # BM25Retriever의 검색 결과 개수를 1로 설정합니다.

#DB retrieval 
embedding = OpenAIEmbeddings(model='text-embedding-3-large')  # OpenAI 임베딩을 사용합니다.

vectorstore = Chroma(client=client, collection_name="ten_files_openai_3072", embedding_function=embedding)
chromadb_retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 1})

# Ensemble retrieval 
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, chromadb_retriever],
    weights=[0.5, 0.5],
    search_type="mmr",
)

############################################################################################################
############# Gradio 인터페이스 생성 #############################################################################
############################################################################################################

query = "국가주소정보에 대해서 알려줘"

ensemble_result = ensemble_retriever.invoke(query)

max_similarity_doc = ensemble_result[0].page_content + '\n######\n' + ensemble_result[1].page_content

# 프롬프트 생성
chat = ChatOpenAI(model="gpt-4o", api_key=OPENAI_API_KEY)


messages = [
    SystemMessage(content=f"""
                너는 Document의 정보를 반드시 활용해서 답변을 생성하는 챗봇이야. 
                Document의 정보로 답변을 할 수 없는 경우, 새로운 정보를 생성하지 말고 '정보가 부족해서 답을 할 수 없습니다' 라고 답변해줘.
                답변을 할 때는 "{query}"에 대한 답변은 다음과 같습니다.' 라는 문장으로 시작해줘.
                답변에는 Document라는 단어를 사용하지 말아줘.
                """),

    HumanMessage(content=f"""
                [Document]
                {max_similarity_doc}

                [Query]
                {query}
                """),
]

# 파이프라인 실행
# output = chain.invoke(messages)
# print('✨ 질문: ', query)
# print('✨ Retrieve Sentence: ', max_similarity_doc)
# print('✨ Answer: ', output)

output = chat.invoke(messages)

answer = output.content + "\n\n ====================<Resource>====================\n\n" + max_similarity_doc

answer

100%|██████████| 1/1 [00:00<00:00, 120.66it/s]


'국가주소정보에 대해서 알려줘에 대한 답변은 다음과 같습니다.\n\n국가주소정보는 도로명주소, 기초번호, 건물번호, 상세주소안내판 및 주소정보안내판을 포함한 다양한 요소들로 구성됩니다. 법 시행 당시 설치된 도로명판 등은 새로운 법에 따라 설치된 것으로 간주됩니다. 또한, 법 시행 이전에 부여된 명예도로명도 새로운 법에 따라 부여된 것으로 간주됩니다.\n\n주소정보는 국내 주소를 국외에 등록할 때 영문 증명서 발급에 사용되며, 이는 국어의 로마자표기법을 따릅니다. 시도지사 및 시장군수구청장은 주소정보의 구축 및 갱신, 구역정보의 구축 및 활용, 기초번호를 활용한 위치 표시 등을 지원합니다. 또한, 공공데이터에 포함된 주소정보의 편집, 수정 및 가공, 주소정보와 다른 정보의 연계 제공 등을 지원합니다.\n\n주소정보 사용 지원 서비스에는 도로명주소 전환 지원이 포함되며, 이는 개인이나 기관이 보유하고 있는 지번을 도로명주소로 일괄 전환하는 것을 말합니다.\n\n <Resource> \n\n법 시행일부터 1년 이내에 제5조의 개정규정에 따라 기본계획 및 집행계획을 다시 수립하여야 한다.\n제9조(도로명판 등에 관한 경과조치) 이 법 시행 당시 종전의 「도로명주소법」에 따라 설치된 도로명판, 기초번호판, 건\n물번호판, 상세주소안내판 및 도로명주소안내판은 각각 이 법에 따라 설치된 도로명판, 기초번호판, 건물번호판, 상\n세주소판 및 주소정보안내판으로 본다.\n제10조(명예도로명에 관한 경과조치) ① 이 법 시행 당시 종전의 제8조의2제1항에 따라 부여된 명예도로명은 제10조\n제1항의 개정규정에 따라 부여된 명예도로명으로 본다.\n② 이 법 시행 당시 종전의 제8조의2제2항에 따라 도로명주소안내시설에 표시된 명예도로명에 대해서는 제10조제\n2항 단서의 개정규정에도 불구하고 종전의 제8조의2제2항에 따른다.\n제11조(국가기초구역 및 구역번호에 관한 경과조치) 이 법 시행 당시 종전의 제8조의3에 따라 설정되거나 부여된 국\n######\n위치 표시 정보와의 관계

In [12]:
answer = output.content + "\n\n ====================<Resource>====================\n\n" + max_similarity_doc
print(answer)

국가주소정보에 대해서 알려줘에 대한 답변은 다음과 같습니다.

국가주소정보는 도로명주소, 기초번호, 건물번호, 상세주소안내판 및 주소정보안내판을 포함한 다양한 요소들로 구성됩니다. 법 시행 당시 설치된 도로명판 등은 새로운 법에 따라 설치된 것으로 간주됩니다. 또한, 법 시행 이전에 부여된 명예도로명도 새로운 법에 따라 부여된 것으로 간주됩니다.

주소정보는 국내 주소를 국외에 등록할 때 영문 증명서 발급에 사용되며, 이는 국어의 로마자표기법을 따릅니다. 시도지사 및 시장군수구청장은 주소정보의 구축 및 갱신, 구역정보의 구축 및 활용, 기초번호를 활용한 위치 표시 등을 지원합니다. 또한, 공공데이터에 포함된 주소정보의 편집, 수정 및 가공, 주소정보와 다른 정보의 연계 제공 등을 지원합니다.

주소정보 사용 지원 서비스에는 도로명주소 전환 지원이 포함되며, 이는 개인이나 기관이 보유하고 있는 지번을 도로명주소로 일괄 전환하는 것을 말합니다.


법 시행일부터 1년 이내에 제5조의 개정규정에 따라 기본계획 및 집행계획을 다시 수립하여야 한다.
제9조(도로명판 등에 관한 경과조치) 이 법 시행 당시 종전의 「도로명주소법」에 따라 설치된 도로명판, 기초번호판, 건
물번호판, 상세주소안내판 및 도로명주소안내판은 각각 이 법에 따라 설치된 도로명판, 기초번호판, 건물번호판, 상
세주소판 및 주소정보안내판으로 본다.
제10조(명예도로명에 관한 경과조치) ① 이 법 시행 당시 종전의 제8조의2제1항에 따라 부여된 명예도로명은 제10조
제1항의 개정규정에 따라 부여된 명예도로명으로 본다.
② 이 법 시행 당시 종전의 제8조의2제2항에 따라 도로명주소안내시설에 표시된 명예도로명에 대해서는 제10조제
2항 단서의 개정규정에도 불구하고 종전의 제8조의2제2항에 따른다.
제11조(국가기초구역 및 구역번호에 관한 경과조치) 이 법 시행 당시 종전의 제8조의3에 따라 설정되거나 부여된 국
######
위치 표시 정보와의 관계 확인 ○ 국내의 주소를 국외에 등록하고 있는 자에 대한 주소

In [5]:
def chat(query, history):
    ensemble_result = ensemble_retriever.invoke(query)
    max_similarity_doc = ensemble_result[0].page_content + '\n######\n' + ensemble_result[1].page_content

    chat = ChatOpenAI(model="gpt-4o", api_key=OPENAI_API_KEY)


    messages = [
        SystemMessage(content=f"""
                    너는 Document의 정보를 반드시 활용해서 답변을 생성하는 챗봇이야. 
                    Document의 정보로 답변을 할 수 없는 경우, 새로운 정보를 생성하지 말고 '정보가 부족해서 답을 할 수 없습니다' 라고 답변해줘.
                    답변을 할 때는 "{query}"에 대한 답변은 다음과 같습니다.' 라는 문장으로 시작해줘.
                    답변에는 Document라는 단어를 사용하지 말아줘.
                    """),

        HumanMessage(content=f"""
                    [Document]
                    {max_similarity_doc}

                    [Query]
                    {query}
                    """),
    ]

    output = chat.invoke(messages)

    answer = output.content + "\n\n <Resource> \n\n" + max_similarity_doc

    return answer

[Document(page_content='경ㆍ폐지, 국가지점번호의 부여ㆍ표기ㆍ관리 및 사물주소의 부여ㆍ변경ㆍ폐지에 관한 업무를 수행하기 위하여 필요', metadata={'source': '../data/address_law.txt', 'doc_id': '5389306f-aecd-44c5-b4bb-cdb46a95f7de'}),
 Document(page_content='10. “사물주소”란 도로명과 기초번호를 활용하여 건물등에 해당하지 아니하는 시설물의 위치를 특정하는 정보를 말\n한다.', metadata={'source': '../data/address_law.txt'})]

In [3]:
from dotenv import load_dotenv
import os
import uuid
import chromadb
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import TextLoader
from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever
from langchain_core.documents import Document
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
# from langchain_community.embeddings import OllamaEmbeddings
from langchain.embeddings.openai import OpenAIEmbeddings
from chromadb.utils import embedding_functions
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from langchain.schema import AIMessage, HumanMessage, SystemMessage
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI
from kiwipiepy import Kiwi
import gradio as gr
import time
import csv


# .env 파일 활성화
load_dotenv()

from kiwipiepy import Kiwi

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

############################################################################################################
######### 파일 불러오기 #######################################################################################
############################################################################################################

loader = DirectoryLoader(path='../data', glob='*.txt', loader_cls=TextLoader, show_progress=True, use_multithreading=True)
data = loader.load()

############################################################################################################
######### 컬렉션 생성/연결하기 ##################################################################################
############################################################################################################
client = chromadb.PersistentClient('../chroma/')
collection = client.get_or_create_collection(name="ten_files_openai_3072")

############################################################################################################
############# txt doc 설정하기 ################################################################################
############################################################################################################
doc_ids = [str(uuid.uuid4()) for _ in data]
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size = 500, chunk_overlap = 200)

id_key = "doc_id"

child_docs = []  # 하위 문서를 저장할 리스트를 초기화합니다.
for i, doc in enumerate(data):
    _id = doc_ids[i]  # 현재 문서의 ID를 가져옵니다.
    # 현재 문서를 하위 문서로 분할합니다.
    child_doc = child_text_splitter.split_documents([doc])
    for _doc in child_doc:  # 분할된 하위 문서에 대해 반복합니다.
        # 하위 문서의 메타데이터에 ID를 저장합니다.
        _doc.metadata[id_key] = _id
    child_docs.extend(child_doc)  # 분할된 하위 문서를 리스트에 추가합니다.

############################################################################################################
############# 검색하기 #######################################################################################
############################################################################################################

kiwi = Kiwi()

def kiwi_tokenize(text):
    return [token.form for token in kiwi.tokenize(text)]


# BM25 retrieval 
bm25_retriever = BM25Retriever.from_documents(child_docs) #preprocess_func = kiwi_tokenize
bm25_retriever.k = 1  # BM25Retriever의 검색 결과 개수를 1로 설정합니다.

#DB retrieval 
embedding = OpenAIEmbeddings(model='text-embedding-3-large')  # OpenAI 임베딩을 사용합니다.

vectorstore = Chroma(client=client, collection_name="ten_files_openai_3072", embedding_function=embedding)
chromadb_retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 1})

# Ensemble retrieval 
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, chromadb_retriever],
    weights=[0.5, 0.5],
    search_type="mmr",
)

############################################################################################################
############# Gradio 인터페이스 생성 #############################################################################
############################################################################################################

def chat(query):
    ensemble_result = ensemble_retriever.invoke(query)
    max_similarity_doc = ensemble_result[0].page_content + '\n######\n' + ensemble_result[1].page_content

    chat = ChatOpenAI(model="gpt-4o", api_key=OPENAI_API_KEY)


    messages = [
        SystemMessage(content=f"""
                    너는 Document의 정보를 반드시 활용해서 답변을 생성하는 챗봇이야. 
                    Document의 정보로 답변을 할 수 없는 경우, 새로운 정보를 생성하지 말고 '정보가 부족해서 답을 할 수 없습니다' 라고 답변해줘.
                    답변에는 Document라는 단어를 사용하지 말아줘.
                    """),

        HumanMessage(content=f"""
                    [Document]
                    {max_similarity_doc}

                    [Query]
                    {query}
                    """),
    ]

    output = chat.invoke(messages)

    # answer = output.content + "\n\n ====================<Resource>====================\n\n" + max_similarity_doc

    return output.content, max_similarity_doc

def handle_submit(query, history):
    response, example = chat(query, history)
    history.append((query, response))
    
    # Log the query, response, and example output to log.csv
    log_to_csv([query, response, example])
    
    return "", history, example

def clear_fields():
    return "", [], ""

def log_to_csv(data):
    log_file = "log.csv"
    file_exists = os.path.isfile(log_file)
    with open(log_file, mode='a', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        if not file_exists:
            writer.writerow(["Query", "Response", "Example Output"])
        writer.writerow(data)
        

# with gr.Blocks() as demo:
#     chatbot = gr.Chatbot(label="Prompt")
#     query = gr.Textbox(label="Query")
#     example_output = gr.Textbox(label="Example Output", interactive=False)  # To display the second return value

#     query.submit(handle_submit, [query, chatbot], [query, chatbot, example_output])

#     btn = gr.Button("Generate")
#     btn.click(handle_submit, inputs=[query, chatbot], outputs=[query, chatbot, example_output])

#     clear_btn = gr.Button("Clear")
#     clear_btn.click(clear_fields, inputs=[], outputs=[query, chatbot, example_output])

#     gr.Examples(["주소와 주소정보의 차이점을 알려줘"], inputs=[query])

# demo.launch()

chat('주소와 주소정보의 차이를 알려줘')

100%|██████████| 10/10 [00:00<00:00, 1656.78it/s]


('정보가 부족해서 답을 할 수 없습니다.',
 '<표 5-3> 데이터산업 세부 시장 규모\n데이터산업 활성화를 위해서 기술 개발·이전 등을 위한 자금 지원, 전\n문인력 양성 및 교육 지원, 세제혜택 지원, 관련 법제도 개선이 가장 필요\n한 것으로 조사되었는데 이는 다른 산업들과 비교할 때 유사하였다. 다\n만, 전체 산업계에서 가장 크게 필요한 것은 전문 인력 양성 및 교육 지\n원(53.6%)이 절대적으로 높은 과반수를 차지했으나 데이터산업에서는 \n27.1%로 큰 차이를 보이고 있었다.  \n\n제5\x01 장\n주소정보산업활성화지원방안\n<그림 5-6> 데이터산업 활성화 정책 수요\n향후 시장 전망으로는 2024년 추정치로 데이터산업 총매출이 23조 \n743억원, 이 중 직접 매출이 10조 5,897억원에 이를 것으로 전망하였다.\n######\n담아 우편 배송이나 위치 찾기에 사용되어 왔음. 2) 주소에 대한 사회적 수요의 변화 ○ 주소는 사람을 구분하여 등록하거나 집을 찾는 데 사용되어 왔으나 도시의 변화 등에 따라 집 찾기에서 방 찾기로 기대 수준이 높아졌고사람이 있는 모든 , 접점에 대한 주소표시의 수요가 발생 3) 주소정보의 등장 ○ 주소정보는 주된 소재지라는 주소의 공사법적 역할에서 벗어나 모든 접점에 -  대한 위치표시로 확대하기 위하여 도입 ○국제표준화기구 (ISO) 에서도 주소 국제표준 (ISO 19160-1) 을 제정하면서 address를 ‘ 식별 및 위치 파악을 목적으로 단일 객체를 명확하게 확인할 수 있게 하는 구조화된 정보로 정의 ’ **나. 주소정보의 의의** ○ 주소정보란 식별과 위치 파악을 목적으로 객체를 명확하게 확인할 수 있게 하는 구조화된 정보를 말함 . 여기에는 도형정보와 속성정보 모두를 포함한다 . 한편으로는 사람과 사물이나 장소의 위치를 직관적으로 인식할 수 있도록 문자 ‘ 로 표현한')

In [1]:
import pickle

In [7]:
with open('../chroma/3e7dd96a-c445-4d17-bcbe-737c0ab61bd5/index_metadata.pickle', 'rb') as f:
    data = pickle.load(f)

EOFError: Ran out of input

In [16]:
with open("../chroma/3e7dd96a-c445-4d17-bcbe-737c0ab61bd5/header.bin", "rb") as f:
    data = f.read()

data

b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\xe8\x03\x00\x00\x00\x00\x00\x00\xe8\x03\x00\x00\x00\x00\x00\x00\x8c\x18\x00\x00\x00\x00\x00\x00\x84\x18\x00\x00\x00\x00\x00\x00\x84\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00K\x00\x00\x00\x10\x00\x00\x00\x00\x00\x00\x00 \x00\x00\x00\x00\x00\x00\x00\x10\x00\x00\x00\x00\x00\x00\x00\xfe\x82+eG\x15\xd7?d\x00\x00\x00\x00\x00\x00\x00'

In [21]:
with open("../chroma/6db24401-9526-4083-9ae1-729747c2d57b/index_metadata.pickle", "rb") as f:
    data = f.read()

data

b'\x80\x05\x95\x0b\x00\x01\x00\x00\x00\x00\x00\x8c2chromadb.segment.impl.vector.local_persistent_hnsw\x94\x8c\x0ePersistentData\x94\x93\x94)\x81\x94}\x94(\x8c\x0edimensionality\x94M\x00\x10\x8c\x14total_elements_added\x94M\xb8\x0b\x8c\nmax_seq_id\x94M\xaf$\x8c\x0bid_to_label\x94}\x94(\x8c$b1b9a0a6-2d16-11ef-a18a-ea9d1e35f997\x94K\x01\x8c$a0b90800-2d16-11ef-a18a-ea9d1e35f997\x94K\x02\x8c$b5ab9692-2d16-11ef-a18a-ea9d1e35f997\x94K\x03\x8c$9e135c72-2d16-11ef-a18a-ea9d1e35f997\x94K\x04\x8c$a6f96ee4-2d16-11ef-a18a-ea9d1e35f997\x94K\x05\x8c$a7fcfe00-2d16-11ef-a18a-ea9d1e35f997\x94K\x06\x8c$a104ab5c-2d16-11ef-a18a-ea9d1e35f997\x94K\x07\x8c$a9bd70f8-2d16-11ef-a18a-ea9d1e35f997\x94K\x08\x8c$9d7a9f64-2d16-11ef-a18a-ea9d1e35f997\x94K\t\x8c$b31a1eb2-2d16-11ef-a18a-ea9d1e35f997\x94K\n\x8c$a65fad2c-2d16-11ef-a18a-ea9d1e35f997\x94K\x0b\x8c$b79872ae-2d16-11ef-a18a-ea9d1e35f997\x94K\x0c\x8c$b7e679fe-2d16-11ef-a18a-ea9d1e35f997\x94K\r\x8c$aa56d19e-2d16-11ef-a18a-ea9d1e35f997\x94K\x0e\x8c$a895a376-2d16-11

In [1]:
pip install --quiet -U langchain_postgres

You should consider upgrading via the '/Users/cauhike/Documents/GitHub/rag/env/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [3]:

from langchain_core.documents import Document
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain.embeddings.openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
connection = "postgresql+psycopg://langchain:langchain@localhost:6024/langchain"  # Uses psycopg3!
collection_name = "my_docs"
embeddings = OpenAIEmbeddings()

vectorstore = PGVector(
    embeddings=embeddings,
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

  warn_deprecated(


Exception: Failed to create vector extension: (psycopg.OperationalError) connection failed: connection to server at "127.0.0.1", port 6024 failed: could not receive data from server: Connection refused
could not send SSL negotiation packet: Connection refused
(Background on this error at: https://sqlalche.me/e/20/e3q8)