In [3]:
!pip install langchain langchain-community langchain-chroma langchain-openai tiktoken

Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-chroma
  Downloading langchain_chroma-0.2.4-py3-none-any.whl.metadata (1.1 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting mypy-extensions>=0.3.0 (from typing-inspect<1,>

In [4]:
import os

from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma
from langchain_core.documents import Document
from google.colab import userdata

In [5]:
OPENAI_API_KEY = userdata.get("OPENAI_API_KEY")

In [6]:
# 샘플 문서 준비
# 각기 다른 주제의 문서들을 정의
documents = [
    Document(page_content="아폴로 11호 임무는 인류가 최초로 달에 착륙한 사건입니다. 닐 암스트롱이 첫 발을 내디뎠습니다."),
    Document(page_content="인공지능의 발전은 머신러닝과 딥러닝 기술에 크게 의존하고 있습니다. 특히 트랜스포머 아키텍처는 획기적인 발전을 가져왔습니다."),
    Document(page_content="이탈리아 파스타를 만들 때 가장 중요한 것은 신선한 재료와 알맞은 조리 시간입니다. 특히 토마토 소스는 오랜 시간 끓여야 깊은 맛이 납니다."),
]

# 임베딩 모델 및 ChromaDB 설정
# 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(
    openai_api_key=OPENAI_API_KEY,
    model="text-embedding-3-small",
)

# ChromaDB 벡터 저장소 생성 및 데이터 저장
# persist_directory를 지정하여 데이터를 디스크에 저장 (영속성 확보)

vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings,
    persist_directory="./chroma_db"
)
print("--- ChromaDB에 문서 저장 완료 ---")

--- ChromaDB에 문서 저장 완료 ---


In [7]:
# 의미 기반 유사도 검색 수행
query = "인류의 위대한 우주 탐사에 대해 알려줘"
print(f"\n검색 질문: {query}")

# 유사도가 가장 높은 상위 2개 문서를 검색
retrieved_docs = vectorstore.similarity_search(query, k=2)

# 검색 결과 확인
print("\n--- 검색 결과 ---")
for i, doc in enumerate(retrieved_docs):
    print(f"결과 {i+1}:")
    print(f"내용: {doc.page_content}")
    print("-" * 20)


검색 질문: 인류의 위대한 우주 탐사에 대해 알려줘

--- 검색 결과 ---
결과 1:
내용: 아폴로 11호 임무는 인류가 최초로 달에 착륙한 사건입니다. 닐 암스트롱이 첫 발을 내디뎠습니다.
--------------------
결과 2:
내용: 인공지능의 발전은 머신러닝과 딥러닝 기술에 크게 의존하고 있습니다. 특히 트랜스포머 아키텍처는 획기적인 발전을 가져왔습니다.
--------------------
