In [1]:
from dotenv import load_dotenv
from glob import glob
from pprint import pprint
import os

In [2]:
load_dotenv()

True

In [3]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

  from tqdm.autonotebook import tqdm, trange


In [4]:
from langchain_chroma import Chroma

chroma_db = Chroma(
   collection_name="ai_sample_collection",
   persist_directory="./chroma_db",
   embedding_function=embeddings_model, 
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [5]:
chroma_db.get()

Failed to send telemetry event CollectionGetEvent: capture() takes 1 positional argument but 3 were given


{'ids': [],
 'embeddings': None,
 'documents': [],
 'uris': None,
 'data': None,
 'metadatas': [],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [7]:
from langchain_core.documents import Document

documents = [
    "인공지능은 컴퓨터 과학의 한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.",
    "컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다."
]

doc_objects = []

for i, content in enumerate(documents, start=1):
    doc = Document(
        page_content=content,
        metadata={"source": "AI_Textbook", "chapter": f"Chapter {i}"},
    )
    doc_objects.append(doc)

doc_ids = [f"doc_{i}" for i in range(1, len(doc_objects) + 1)]

added_docs_ids = chroma_db.add_documents(documents=doc_objects, ids=doc_ids)

print(f"{len(added_docs_ids)} 개의 문서가 성공적으로 DB에 추가되었습니다.")



5 개의 문서가 성공적으로 DB에 추가되었습니다.


In [8]:
query = "인공지능과 머신러닝의 관계는?"
results = chroma_db.similarity_search(query, k=2)

print(f"질문: {query}")
for doc in results:
    print(f"문서 ID: {doc.metadata['chapter']}, 내용: {doc.page_content}")

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


질문: 인공지능과 머신러닝의 관계는?
문서 ID: Chapter 2, 내용: 머신러닝은 인공지능의 하위 분야입니다.
문서 ID: Chapter 3, 내용: 딥러닝은 머신러닝의 한 종류입니다.


In [9]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4', 'doc_5'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야입니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.',
  '컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 1', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 5', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [10]:
update_document_1 = Document(
    page_content="인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.",
    metadata={"source": "AI_Textbook", "chapter": "Chapter 6"}
)

chroma_db.update_document(document_id="doc_1", document=update_document_1)

print("문서 업데이트 완료")

Failed to send telemetry event CollectionUpdateEvent: capture() takes 1 positional argument but 3 were given


문서 업데이트 완료


In [11]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4', 'doc_5'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.',
  '컴퓨터 비전은 컴퓨터가 디지털 이미지나 비디오를 이해하는 방법을 연구합니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 6', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 5', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [12]:
chroma_db.delete(ids=["doc_5"])

Failed to send telemetry event CollectionDeleteEvent: capture() takes 1 positional argument but 3 were given


In [13]:
chroma_db.get()

{'ids': ['doc_1', 'doc_2', 'doc_3', 'doc_4'],
 'embeddings': None,
 'documents': ['인공지능은 컴퓨터 과학의 한 분야로, 머신러닝과 답러닝을 포함합니다.',
  '머신러닝은 인공지능의 하위 분야입니다.',
  '딥러닝은 머신러닝의 한 종류입니다.',
  '자연어 처리는 컴퓨터가 인간의 언어를 이해하고 생성하는 기술입니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'chapter': 'Chapter 6', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 2', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 3', 'source': 'AI_Textbook'},
  {'chapter': 'Chapter 4', 'source': 'AI_Textbook'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [4]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from transformers import AutoTokenizer

In [5]:
# 문서 로딩
def load_text_files(text_files):
    data = []
    for file in text_files:
        loader = TextLoader(file, encoding="utf-8")
        data += loader.load()

    return data

korean_text_files = glob(os.path.join("data", "*_KR.txt")) # 4개 파일
korean_data = load_text_files(korean_text_files)

In [6]:
# 문서 청킹
tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")

text_spliter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    separator=r"[.!?]\s+",
    chunk_size=100,
    chunk_overlap=0,
    is_separator_regex=True,
    keep_separator=True,
)

korean_docs = text_spliter.split_documents(korean_data)

print("한국어 문서 수:", len(korean_docs))

한국어 문서 수: 19


In [2]:
# 문서 임베딩
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")

  from tqdm.autonotebook import tqdm, trange


In [11]:
from langchain_chroma import Chroma

chroma_db = Chroma(   
   collection_name="db_korean_cosine",
   persist_directory="./croma_db",
   embedding_function=embeddings_model,
   collection_metadata={'hnsw:space':'cosine'}, # l2, cosine, ip
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


In [None]:
# 벡터DB 
# from langchain_chroma import Chroma

# chroma_db = Chroma.from_documents(
#     documents=korean_docs,
#     embedding=embeddings_model,
#     collection_name="db_korean_cosine",
#     persist_directory="./croma_db",
#     collection_metadata={'hnsw:space':'cosine'}, # l2, cosine, ip
# )

TypeError: Chroma.from_documents() missing 1 required positional argument: 'documents'

In [12]:
chroma_db.get()

{'ids': ['dd02d239-41c6-4455-9dfc-37450c282eaf',
  'a4f08510-f65d-4a7a-a612-b9dea3390748',
  '9ccb01ee-99ed-4358-ad00-7de2edf20f61',
  'b01b62d1-edc1-4a21-9a95-302eaffa28ed',
  '2e30ed9c-bab9-46eb-b50c-7a2316801372',
  '96b5ed3f-4861-4e1d-bf9b-de6ab04286ec',
  '66595fa1-93b3-46c3-824b-55703a190b47',
  '3705b87e-952d-4f4e-afd7-67f18aa0eea5',
  'abd25bac-c785-49f8-9d30-ce4181759f41',
  'aa7bf7fa-896c-4976-a7c2-ca44ada459e7',
  '2a11136a-1678-4bf1-8735-13383db38780',
  '4434f039-fe18-453f-803c-be139c9dc23f',
  '49d071ab-1b92-4c2e-ac89-9a3512b00191',
  'd46c12cf-0d69-4150-a18c-52db87c60f47',
  '019dadff-633b-4b1d-b4e4-e1fb56a28bfd',
  '126ed195-e7b4-4ddb-86db-3354fa213a62',
  'ac8b387a-217c-4f58-91cd-74a15af5e658',
  'c285269d-f8dc-4739-a82b-404624bc8c44',
  '1a1c6ac2-1f13-425c-945f-269e96c607d7'],
 'embeddings': None,
 'documents': ['삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸

In [13]:
# 검색기
retriever = chroma_db.as_retriever(
    search_kwargs={"k":2},
)

query = "삼성전자는 언제 사업을 시작했나요?"
retriever_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과")
for doc in retriever_docs:
    print(f" - {doc.page_content} [출처: {doc.metadata['source']}]")

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


쿼리: 삼성전자는 언제 사업을 시작했나요?
검색 결과
 - 삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다 [출처: data\samsung_KR.txt]
 - SK하이닉스는 1983년 현대전자산업으로 출발해, 2012년 SK그룹에 인수되면서 현재의 이름을 갖게 된 대한민국 대표 반도체 제조기업입니다. 본사는 경기도 이천에 위치하고 있으며, 글로벌 반도체 시장에서 삼성전자에 이어 세계 2위 D램 제조업체로 자리잡고 있습니다 [출처: data\skHynix_KR.txt]


In [15]:
from langchain_community.utils.math import cosine_similarity

# Similariy score
chroma_mmr = chroma_db.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={
        "k": 2,
        "score_threshold": 0.6, # 유사도 임계값 설정
    }
)

query = "삼성전자는 언제 사업을 시작했나요?"
retriever_docs = chroma_mmr.invoke(query)

print(f"쿼리: {query}")
print("검색 결과")
for doc in retriever_docs:
    score = cosine_similarity(
        [embeddings_model.embed_query(query)],
        [embeddings_model.embed_query(doc.page_content)]
    )[0][0]
    print(f" - {doc.page_content} (유사도: {score:.4f})")

쿼리: 삼성전자는 언제 사업을 시작했나요?
검색 결과
 - 삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다 (유사도: 0.7325)


In [19]:
# 검색기
retriever = chroma_db.as_retriever(
    search_kwargs={
        "k": 2,
        "where_document": {"$contains": '삼성'},
        #"filter": {"source": "data\\samsung_KR.txt"}, # 메타데이터
    },
)

query = "삼성전자는 언제 사업을 시작했나요?"
retriever_docs = retriever.invoke(query)

print(f"쿼리: {query}")
print("검색 결과")
for doc in retriever_docs:
    print(f" - {doc.page_content} [출처: {doc.metadata['source']}]")

쿼리: 삼성전자는 언제 사업을 시작했나요?
검색 결과
 - 삼성전자는 1969년 설립된 세계적인 종합 전자기업으로, 1983년 반도체 사업에 본격 진출하며 메모리 반도체 중심의 글로벌 경쟁력을 쌓아왔습니다. 본사는 대한민국 경기도 수원에 있으며, 반도체 생산라인은 기흥, 화성, 평택, 그리고 미국 오스틴 및 텍사스 테일러시 등 국내외에 걸쳐 있습니다 [출처: data\samsung_KR.txt]
 - SK하이닉스는 1983년 현대전자산업으로 출발해, 2012년 SK그룹에 인수되면서 현재의 이름을 갖게 된 대한민국 대표 반도체 제조기업입니다. 본사는 경기도 이천에 위치하고 있으며, 글로벌 반도체 시장에서 삼성전자에 이어 세계 2위 D램 제조업체로 자리잡고 있습니다 [출처: data\skHynix_KR.txt]


In [20]:
retriever = chroma_db.as_retriever(
    search_kwargs={"k":2},
)

In [21]:
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

template = """Answer the question based only on the following context.
Do not use any external information or knowledge. 
If the answer is not in the context, answer "잘 모르겠습니다.".

[Context]
{context}

[Question] 
{question}

[Answer]
"""

prompt = ChatPromptTemplate.from_template(template)

def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)


In [22]:
retriever_chain = retriever | format_docs

In [23]:
rag_chain = (
    {"context": retriever_chain, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [26]:
query = "테슬라 창업자는 누구인가요?"
response = rag_chain.invoke(query)

response

'마틴 에버하드와 마크 타페닝입니다.'

In [None]:
import gradio as gr
from langchain_core.messages import HumanMessage, AIMessage



def answer_invoke(message, history):

    history_langchain_format = []
    for human, ai in history:
        history_langchain_format.append(HumanMessage(content=human))
        history_langchain_format.append(AIMessage(content=ai))

    history_langchain_format.append(HumanMessage(content=message))

    response = rag_chain.invoke(message)

    final_answer = llm.invoke(
       history_langchain_format[:-1] + [AIMessage(content=response)] + [HumanMessage(content=message)],
    )

    return final_answer.content

demo = gr.ChatInterface(fn=answer_invoke, title="QA Bot")

demo.launch()

Running on local URL:  http://127.0.0.1:7861

To create a public link, set `share=True` in `launch()`.




--------


In [27]:
demo.close()

Closing server running on port: 7861
