In [None]:
# Description: This Code is used to create a ChromaDB vectorindex and upload the documents to the index.
# After that, it queries the index with LlamaIndex and returns the response.

# 필요한 패키지 설치
pip install chromadb
pip install llama_index.vector_stores.chroma
pip install llama-index-llms-gemini


In [1]:
# 라마인덱스 패키지 임포트
import chromadb
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext
from llama_index.llms.openai import OpenAI
from llama_index.core import Settings
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.gemini import Gemini

from dotenv import load_dotenv
import os

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# .env 파일에서 환경 변수 로드
load_dotenv()

# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")

# Gemini API 키 설정
# os.environ["GOOGLE_API_KEY"] = os.getenv("GOOGLE_API_KEY")

In [3]:
# LLM 설정(OpenAI)
Settings.llm = OpenAI(
    temperature=0.5,
    model="gpt-3.5-turbo",
    max_tokens=200,
    context_window=4096,
)

# # LLM 설정(Gemini)
# Settings.llm = Gemini(
#     temperature=0.5,
#     model="models/gemini-pro",
#     max_tokens=200,
#     context_window=4096,
# )

In [5]:
# 데이터 로드 (data가 있는 경로 입력)
documents = SimpleDirectoryReader("../data").load_data()

In [6]:
# 벡터 DB 생성 및 저장
db = chromadb.PersistentClient(path="../data/chroma_db")

# 컬렉션 생성 및 저장
chroma_collection = db.get_or_create_collection("quickstart")

In [8]:
# ChromaDB를 LlamaIndex의 인덱싱 및 검색 파이프라인에 통합
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# 문서 내용을 벡터 DB에 저장
index = VectorStoreIndex.from_documents(documents, storage_context=storage_context)

In [9]:
# 쿼리 엔진 생성
query_engine = index.as_query_engine()

# 쿼리 실행
query = "이 논문에서 제안하는 모델의 장점은 무엇인가요?"
response = query_engine.query(query)

# 응답 출력
print("\n질문:", query)
print("답변:", response)


질문: 이 논문에서 제안하는 모델의 장점은 무엇인가요?
답변: The advantage of the model proposed in this paper is its structured self-attentive sentence embedding, which allows for a more focused and effective attention mechanism in neural machine translation.
