## Chromadb に対する類似性検索のデモ

### OpenAI API Key と埋め込みモデルの設定

In [1]:
from dotenv import load_dotenv, find_dotenv
# 環境変数 OPENAI_API_KEY に OpenAI API Key を設定（.env ファイルの OPENAI_API_KEY からロード）
_ = load_dotenv(find_dotenv())
embedding_model = "text-embedding-3-large" # 埋め込みモデル

### 埋め込みモデルの準備

In [2]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model=embedding_model)

### 検索対象の ChromaDB コレクション名の設定
コレクションとは、ChromaDB におけるベクトルデータの保存単位で、RDB のテーブルのようなもの

In [3]:
#collection_name = "mycollection_100" # 検索対象のChromadb コレクション名（チャンクサイズ100文字で事前に作成済み）
collection_name = "mycollection_200" # 検索対象のChromadb コレクション名（チャンクサイズ200文字で事前に作成済み）
#collection_name = "mycollection_500" # 検索対象のChromadb コレクション名（チャンクサイズ500文字で事前に作成済み）
#collection_name = "mycollection_1000" # 検索対象のChromadb コレクション名（チャンクサイズ1000文字で事前に作成済み）

### VectorStoreの準備

In [4]:
import chromadb
from langchain_chroma import Chroma

# LangChain の Chromadb VectorStore のインスタンスを作成
vector_store = Chroma(
    client=chromadb.PersistentClient(path="./chroma_db"),
    collection_name=collection_name,
    embedding_function=embeddings,
    collection_metadata={"hnsw:space": "ip"} 
)

### クエリーの定義

In [5]:
query="ハグリッドがホグワーツへの入学案内書を持ってきたのはいつですか？それはどのような日でしたか？"
#query="星野アイが所属するアイドルグループは何ですか？"
#query="時空管理局のアースラの艦長は誰ですか？"
#query="聖王のゆりかごとは何ですか、どのくらいの大きさですか？"
#query="スターライトブレイカーは誰のどのような魔法ですか？"
#query="フェイトが留学生として通った小学校は？"


### 類似性検索の実行

In [6]:

results =vector_store.similarity_search_with_score(query, k=4)

In [None]:
print("検索結果:")
for i, (doc, score) in enumerate(results, 1):
    print(f"\n=== 結果 {i} ===")
    print(f"ソース: {doc.metadata['source']}")
    print(f"スコア: {score:.4f}")
    print(f"内容: {doc.page_content}")