In [1]:
from dotenv import load_dotenv
load_dotenv()

True

##### 임베딩 도구 등록

In [2]:
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

##### Documents 등록

In [4]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader

text_splitter = RecursiveCharacterTextSplitter(chunk_size=150, chunk_overlap=30)
loader = PyPDFLoader("쬬조_세미프로젝트 보고서.pdf")

split_docs = loader.load_and_split(text_splitter)
print(split_docs)

[Document(metadata={'producer': 'Microsoft® PowerPoint® 2021', 'creator': 'Microsoft® PowerPoint® 2021', 'creationdate': '2025-01-06T10:50:41+09:00', 'title': '', 'author': '소미 박', 'moddate': '2025-01-06T10:50:41+09:00', 'source': '쬬조_세미프로젝트 보고서.pdf', 'total_pages': 90, 'page': 0, 'page_label': '1'}, page_content='Planning Achievement Group by Team\n쬬조\n야！구했어？\n２０２５   세미 프로젝트 \nProject items Project'), Document(metadata={'producer': 'Microsoft® PowerPoint® 2021', 'creator': 'Microsoft® PowerPoint® 2021', 'creationdate': '2025-01-06T10:50:41+09:00', 'title': '', 'author': '소미 박', 'moddate': '2025-01-06T10:50:41+09:00', 'source': '쬬조_세미프로젝트 보고서.pdf', 'total_pages': 90, 'page': 0, 'page_label': '1'}, page_content='Project items Project\n최윤성 |                 김기범                |                  김민주 |                 김지수              |                박소미'), Document(metadata={'producer': 'Microsoft® PowerPoint® 2021', 'creator': 'Microsoft® PowerPoint® 2021', 'creationdate': '2025-01-06T1

##### Chroma DB 생성

In [30]:
from langchain.vectorstores import Chroma

vector_store = Chroma.from_documents(
    documents=split_docs,
    embedding=embeddings,
    persist_directory="./chroma_langchain_db",
    collection_name="example_collection1",
    collection_metadata={"hnsw:space":"cosine"}
)

In [8]:
print(vector_store)

<langchain_community.vectorstores.chroma.Chroma object at 0x000001E35ABA11D0>


##### 생성한 벡터 스토어에 데이터 추가하기

In [31]:
from langchain_core.documents import Document

document_1 = Document(
    page_content="트럼프 “종전 협상 즉시 시작 합의”…푸틴·젤렌스키와 통화",
    metadata={"source":"news"},
    id="1"
)
document_2 = Document(
    page_content="미 국방장관 “우크라, 2014년 이전 국경 회복은 환상”…양보 압박", # 최종데이터
    metadata={"source":"news"}, # 데이터에 대한 정보
    id="2"
)
document_3 = Document(
    page_content="“트럼프 ‘철강∙알루미늄 관세’는 시작에 불과∙∙∙대미 직접투자 확대가 한국에 기회일 수도”", # 최종데이터
    metadata={"source":"news"}, # 데이터에 대한 정보
    id="3" # 문서의 고유값 사용자 지정
)
documents = [document_1, document_2, document_3]
vector_store.add_documents(documents)

['1', '2', '3']

##### 데이터 조회

In [14]:
print(type(vector_store.get()))
print(vector_store.get().keys())
print(vector_store.get())

<class 'dict'>
dict_keys(['ids', 'embeddings', 'documents', 'uris', 'included', 'data', 'metadatas'])
{'ids': ['e2aa1105-3082-4223-8f26-e2b68fdf2bb8', 'f465c81e-0cfa-4b26-a922-6d4d303ba17d', 'fae364f2-16e2-4591-8b1f-e3fd8b531f35', '7935cbb5-10fc-454a-9d4f-8e6ee8ce837f', 'e65a5705-e3ea-48da-907b-7896d54d2e84', '52e7750b-3874-4e31-8179-38074c505b3d', '0d7a545a-b286-48ef-ab43-6d149938affb', '8b557557-5e25-4b31-b9fd-fe6b8c866b28', 'd771a0b0-7c24-44db-a2ff-1bd76f6d0b3f', '5ea65dc1-a84f-42f0-aef2-d6288dd2fe55', '69e60168-fd2e-4b91-b184-e04a35c87afc', 'ef85c257-a7ce-4f34-b11c-d7644cafc25f', '342812ab-4083-41bb-b38c-999e3e9aa53b', 'faad8c98-eedd-45c4-8b4a-0a7ef9b90225', '94f9e87d-4b17-4be5-8b0d-441f4f90b1c0', '2f51de1e-3f3e-473a-b390-8e255b8beb34', 'b249f4c4-9063-4c91-adfe-86f565e81009', 'bc8e6dc0-9692-43ad-842e-50a74f1c8a08', 'c5c6659b-2455-4d79-b296-abffdcb41cc7', 'f843c864-e591-42a3-bf20-60bc59bb9732', '0295706e-16a4-4b03-bd9b-c46572e887f4', '8b811d09-bdca-4d44-aa68-542b84f406a2', 'cc3cb5e0

In [15]:
print(vector_store.get("e2aa1105-3082-4223-8f26-e2b68fdf2bb8"))

{'ids': ['e2aa1105-3082-4223-8f26-e2b68fdf2bb8'], 'embeddings': None, 'documents': ['Planning Achievement Group by Team\n쬬조\n야！구했어？\n２０２５   세미 프로젝트 \nProject items Project'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': '쬬조_세미프로젝트 보고서.pdf', 'page_label': '1', 'total_pages': 90, 'producer': 'Microsoft® PowerPoint® 2021', 'moddate': '2025-01-06T10:50:41+09:00', 'creator': 'Microsoft® PowerPoint® 2021', 'page': 0, 'title': '', 'author': '소미 박', 'creationdate': '2025-01-06T10:50:41+09:00'}]}


In [16]:
print(vector_store.get("1"))

{'ids': ['1'], 'embeddings': None, 'documents': ['트럼프 “종전 협상 즉시 시작 합의”…푸틴·젤렌스키와 통화'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'news'}]}


In [17]:
print(vector_store.get(ids=["1", "2", "3"]))

{'ids': ['1', '2', '3'], 'embeddings': None, 'documents': ['트럼프 “종전 협상 즉시 시작 합의”…푸틴·젤렌스키와 통화', '미 국방장관 “우크라, 2014년 이전 국경 회복은 환상”…양보 압박', '“트럼프 ‘철강∙알루미늄 관세’는 시작에 불과∙∙∙대미 직접투자 확대가 한국에 기회일 수도”'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'news'}, {'source': 'news'}, {'source': 'news'}]}


##### 데이터 수정

In [19]:
print(vector_store.get("1"))

{'ids': ['1'], 'embeddings': None, 'documents': ['트럼프 “종전 협상 즉시 시작 합의”…푸틴·젤렌스키와 통화'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'news'}]}


In [32]:
updated_document_1 = Document(
    page_content="개발자가 좋아하는 소스는? 오픈소스!",
    metadata={"source":"myHead"},
    id="1"
)
vector_store.update_document(document_id="1", document=updated_document_1)

In [23]:
print(vector_store.get("1"))

{'ids': ['1'], 'embeddings': None, 'documents': ['개발자가 좋아하는 소스는? 오픈소스!'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'myHead'}]}


In [24]:
print(vector_store.get(where={"source":"myHead"}))

{'ids': ['1'], 'embeddings': None, 'documents': ['개발자가 좋아하는 소스는? 오픈소스!'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'myHead'}]}


In [25]:
print(vector_store.get(where={"source":"news"}))

{'ids': ['2', '3'], 'embeddings': None, 'documents': ['미 국방장관 “우크라, 2014년 이전 국경 회복은 환상”…양보 압박', '“트럼프 ‘철강∙알루미늄 관세’는 시작에 불과∙∙∙대미 직접투자 확대가 한국에 기회일 수도”'], 'uris': None, 'included': ['metadatas', 'documents'], 'data': None, 'metadatas': [{'source': 'news'}, {'source': 'news'}]}


In [None]:
# vector_store.delete_collection() # 내부 데이터들을 삭제하는 메서드

In [33]:
vector_store.get("1")

{'ids': ['1'],
 'embeddings': None,
 'documents': ['개발자가 좋아하는 소스는? 오픈소스!'],
 'uris': None,
 'included': ['metadatas', 'documents'],
 'data': None,
 'metadatas': [{'source': 'myHead'}]}

##### 유사도 검색
주어진 쿼리를 "임베딩"으로 변환하여 벡터스토어에 저장된 벡터들 중 가장 유사한 벡터를 찾아내는 검색기법

In [36]:
similarity_result = vector_store.similarity_search("쬬조는 어떤 프로젝트를 진행하고 있어?")
print(len(similarity_result))

4


In [38]:
print("--------- 1 ----------")
print(similarity_result[0])
print("--------- 2 ----------")
print(similarity_result[1])
print("--------- 3 ----------")
print(similarity_result[2])
print("--------- 4 ----------")
print(similarity_result[3])

--------- 1 ----------
page_content='Planning Achievement Group by Team
쬬조
야！구했어？
２０２５   세미 프로젝트 
Project items Project' metadata={'page': 0, 'source': '쬬조_세미프로젝트 보고서.pdf', 'producer': 'Microsoft® PowerPoint® 2021', 'moddate': '2025-01-06T10:50:41+09:00', 'creator': 'Microsoft® PowerPoint® 2021', 'creationdate': '2025-01-06T10:50:41+09:00', 'page_label': '1', 'total_pages': 90, 'author': '소미 박', 'title': ''}
--------- 2 ----------
page_content='Project items Project
최윤성 |                 김기범                |                  김민주 |                 김지수              |                박소미' metadata={'page': 0, 'creator': 'Microsoft® PowerPoint® 2021', 'creationdate': '2025-01-06T10:50:41+09:00', 'page_label': '1', 'author': '소미 박', 'title': '', 'producer': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'total_pages': 90, 'moddate': '2025-01-06T10:50:41+09:00'}
--------- 3 ----------
page_content='04 세부기능
김지수' metadata={'title': '', 'creator': 'Microsoft® PowerPoint® 2021', 'a

##### vector store를 retrieve

In [40]:
retriever = vector_store.as_retriever()
result = retriever.invoke("박소미는 어떤 기능을 개발했어?")
print(len(result))

4


In [41]:
print("--------- 1 ----------")
print(result[0])
print("--------- 2 ----------")
print(result[1])
print("--------- 3 ----------")
print(result[2])
print("--------- 4 ----------")
print(result[3])

--------- 1 ----------
page_content='04 세부기능
박소미' metadata={'total_pages': 90, 'moddate': '2025-01-06T10:50:41+09:00', 'author': '소미 박', 'creator': 'Microsoft® PowerPoint® 2021', 'producer': 'Microsoft® PowerPoint® 2021', 'page': 63, 'page_label': '64', 'source': '쬬조_세미프로젝트 보고서.pdf', 'title': '', 'creationdate': '2025-01-06T10:50:41+09:00'}
--------- 2 ----------
page_content='04 세부기능
김지수' metadata={'title': '', 'producer': 'Microsoft® PowerPoint® 2021', 'page_label': '9', 'creator': 'Microsoft® PowerPoint® 2021', 'moddate': '2025-01-06T10:50:41+09:00', 'creationdate': '2025-01-06T10:50:41+09:00', 'author': '소미 박', 'page': 8, 'source': '쬬조_세미프로젝트 보고서.pdf', 'total_pages': 90}
--------- 3 ----------
page_content='04 세부기능
김민주' metadata={'total_pages': 90, 'producer': 'Microsoft® PowerPoint® 2021', 'creator': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'title': '', 'moddate': '2025-01-06T10:50:41+09:00', 'author': '소미 박', 'creationdate': '2025-01-06T10:50:41+09:00', 'page

##### 다양성 기반 검색용 retriever

In [42]:
retriever = vector_store.as_retriever(
    search_type="mmr", # maximum marginal relevance(최대 한계 관련성)
    search_kargs={
        "k":6,
        "lambda_mult":0.25,
        "fetch_k":10,
        "filter":{
            "source":"쬬조_세미프로젝트 보고서.pdf"
        }
    },
)
retriever.invoke("박소미는 어떤 기능을 개발했어?")

[Document(metadata={'moddate': '2025-01-06T10:50:41+09:00', 'author': '소미 박', 'title': '', 'source': '쬬조_세미프로젝트 보고서.pdf', 'producer': 'Microsoft® PowerPoint® 2021', 'page': 63, 'creationdate': '2025-01-06T10:50:41+09:00', 'creator': 'Microsoft® PowerPoint® 2021', 'total_pages': 90, 'page_label': '64'}, page_content='04 세부기능\n박소미'),
 Document(metadata={'source': '쬬조_세미프로젝트 보고서.pdf', 'page': 88, 'title': '', 'total_pages': 90, 'author': '소미 박', 'creator': 'Microsoft® PowerPoint® 2021', 'producer': 'Microsoft® PowerPoint® 2021', 'moddate': '2025-01-06T10:50:41+09:00', 'creationdate': '2025-01-06T10:50:41+09:00', 'page_label': '89'}, page_content='1/5 1/6\n프로젝트기획및요구사항분석\n화면설계\n데이터베이스 설계\n 프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n 발표준비\n최종 발표'),
 Document(metadata={'source': 'myHead'}, page_content='개발자가 좋아하는 소스는? 오픈소스!'),
 Document(metadata={'moddate': '2025-01-06T10:50:41+09:00', 'author': '소미 박', 'page_label': '30', 'title': '', 'creator': 'Microsoft® PowerPoint® 2021', 'page': 29, '

In [None]:
mmr_result = vector_store.max_marginal_relevance_search(
    "박소미는 어떤 기능을 개발했어?",
    k=2,
    fetch_k=10
)
print(mmr_result)

[Document(metadata={'author': '소미 박', 'creator': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'title': '', 'producer': 'Microsoft® PowerPoint® 2021', 'total_pages': 90, 'page_label': '64', 'moddate': '2025-01-06T10:50:41+09:00', 'page': 63, 'creationdate': '2025-01-06T10:50:41+09:00'}, page_content='04 세부기능\n박소미'), Document(metadata={'creationdate': '2025-01-06T10:50:41+09:00', 'total_pages': 90, 'page_label': '89', 'author': '소미 박', 'title': '', 'creator': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'moddate': '2025-01-06T10:50:41+09:00', 'page': 88, 'producer': 'Microsoft® PowerPoint® 2021'}, page_content='1/5 1/6\n프로젝트기획및요구사항분석\n화면설계\n데이터베이스 설계\n 프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n 발표준비\n최종 발표')]


In [44]:
print(len(mmr_result))

2


In [45]:
mmr_result

[Document(metadata={'author': '소미 박', 'creator': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'title': '', 'producer': 'Microsoft® PowerPoint® 2021', 'total_pages': 90, 'page_label': '64', 'moddate': '2025-01-06T10:50:41+09:00', 'page': 63, 'creationdate': '2025-01-06T10:50:41+09:00'}, page_content='04 세부기능\n박소미'),
 Document(metadata={'creationdate': '2025-01-06T10:50:41+09:00', 'total_pages': 90, 'page_label': '89', 'author': '소미 박', 'title': '', 'creator': 'Microsoft® PowerPoint® 2021', 'source': '쬬조_세미프로젝트 보고서.pdf', 'moddate': '2025-01-06T10:50:41+09:00', 'page': 88, 'producer': 'Microsoft® PowerPoint® 2021'}, page_content='1/5 1/6\n프로젝트기획및요구사항분석\n화면설계\n데이터베이스 설계\n 프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n프로젝트 구현 및 디버깅\n 발표준비\n최종 발표')]