# Databricks Vector Search | Databricks ベクター検索Databricks Vector Searchは、データのベクトル表現をメタデータを含めてベクトルデータベースに保存できるサーバーレスの類似性検索エンジンです。Vector Searchを使用すると、Unity Catalogによって管理されているDeltaテーブルから自動的に更新されるベクトル検索インデックスを作成し、シンプルなAPIを用いてクエリを実行し、最も類似性の高いベクトルを返すことができます。> Databricks Vector Search is a serverless similarity search engine that allows you to store a vector representation of your data, including metadata, in a vector database. With Vector Search, you can create auto-updating vector search indexes from Delta tables managed by Unity Catalog and query them with a simple API to return the most similar vectors.このノートブックでは、Databricks Vector Searchを使用してLangChainを使う方法を示しています。> This notebook shows how to use LangChain with Databricks Vector Search.

このノートブックで使用される`databricks-vectorsearch`および関連するPythonパッケージをインストールしてください。> Install `databricks-vectorsearch` and related Python packages used in this notebook.

In [None]:
!pip install langchain-core databricks-vectorsearch openai tiktoken

`OpenAIEmbeddings`を埋め込みに使用してください。> Use `OpenAIEmbeddings` for the embeddings.

In [None]:
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

ドキュメントを分割して、埋め込みを取得します。> Split documents and get embeddings.

In [None]:
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter

loader = TextLoader("../../modules/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()
emb_dim = len(embeddings.embed_query("hello"))

## Setup Databricks Vector Search client | Databricks Vector Searchクライアントの設定

In [None]:
from databricks.vector_search.client import VectorSearchClient

vsc = VectorSearchClient()

## Create a Vector Search Endpoint | ベクター検索エンドポイントを作成するこのエンドポイントは、ベクター検索インデックスを作成およびアクセスするために使用されます。> This endpoint is used to create and access vector search indexes.

In [None]:
vsc.create_endpoint(name="vector_search_demo_endpoint", endpoint_type="STANDARD")

## Create Direct Vector Access Index | ダイレクトベクターアクセスインデックスを作成するDirect Vector Access Indexは、REST APIまたはSDKを通じて埋め込みベクトルとメタデータの直接読み書きをサポートしています。このインデックスにおいては、埋め込みベクトルとインデックスの更新を自分で管理する必要があります。> Direct Vector Access Index supports direct read and write of embedding vectors and metadata through a REST API or an SDK. For this index, you manage embedding vectors and index updates yourself.

In [None]:
vector_search_endpoint_name = "vector_search_demo_endpoint"
index_name = "ml.llm.demo_index"

index = vsc.create_direct_access_index(
    endpoint_name=vector_search_endpoint_name,
    index_name=index_name,
    primary_key="id",
    embedding_dimension=emb_dim,
    embedding_vector_column="text_vector",
    schema={
        "id": "string",
        "text": "string",
        "text_vector": "array<float>",
        "source": "string",
    },
)

index.describe()

In [None]:
from langchain.vectorstores import DatabricksVectorSearch

dvs = DatabricksVectorSearch(
    index, text_column="text", embedding=embeddings, columns=["source"]
)

## Add docs to the index | インデックスにドキュメントを追加する

In [None]:
dvs.add_documents(docs)

## Similarity search | 類似性検索

In [None]:
query = "What did the president say about Ketanji Brown Jackson"
dvs.similarity_search(query)
print(docs[0].page_content)

## Work with Delta Sync Index | Delta Sync Indexを使用する`DatabricksVectorSearch`を使用して、Delta Sync Index内を検索することもできます。Delta Sync Indexは、Deltaテーブルから自動的に同期されます。`add_text`/`add_documents`を手動で呼び出す必要はありません。詳細については、[Databricksのドキュメントページ](https://docs.databricks.com/en/generative-ai/vector-search.html#delta-sync-index-with-managed-embeddings)を参照してください。> You can also use `DatabricksVectorSearch` to search in a Delta Sync Index. Delta Sync Index automatically syncs from a Delta table. You don't need to call `add_text`/`add_documents` manually. See [Databricks documentation page](https://docs.databricks.com/en/generative-ai/vector-search.html#delta-sync-index-with-managed-embeddings) for more details.

In [None]:
dvs_delta_sync = DatabricksVectorSearch("catalog_name.schema_name.delta_sync_index")
dvs_delta_sync.similarity_search(query)