# OpenAI埋め込みのベクトルデータベースとしてTairを使用する

このノートブックでは、OpenAI埋め込みのベクトルデータベースとしてTairを使用する方法を段階的に説明します。

このノートブックでは、以下のエンドツーエンドプロセスを紹介します：
1. OpenAI APIで作成された事前計算済み埋め込みの使用
2. Tairのクラウドインスタンスへの埋め込みの保存
3. OpenAI APIを使用した生テキストクエリの埋め込みへの変換
4. 作成されたコレクション内での最近傍検索の実行にTairを使用

### Tairとは

[Tair](https://www.alibabacloud.com/help/en/tair/latest/what-is-tair)は、Alibaba Cloudが開発したクラウドネイティブなインメモリデータベースサービスです。TairはオープンソースのRedisと互換性があり、リアルタイムオンラインシナリオをサポートするための様々なデータモデルとエンタープライズクラスの機能を提供します。Tairはまた、新しい不揮発性メモリ（NVM）ストレージメディアに基づく永続メモリ最適化インスタンスも導入しています。これらのインスタンスは、コストを30%削減し、データの永続性を確保し、インメモリデータベースとほぼ同じパフォーマンスを提供できます。Tairは、政府、金融、製造業、ヘルスケア、汎インターネットなどの分野で広く使用されており、高速クエリと計算要件を満たしています。

[Tairvector](https://www.alibabacloud.com/help/en/tair/latest/tairvector)は、ベクトルの高性能リアルタイム保存と検索を提供する独自のデータ構造です。TairVectorは、階層ナビゲート可能小世界（HNSW）とフラット検索の2つのインデックスアルゴリズムを提供します。さらに、TairVectorは、ユークリッド距離、内積、ジャカード距離などの複数の距離関数をサポートします。従来のベクトル検索サービスと比較して、TairVectorには以下の利点があります：
- すべてのデータをメモリに保存し、リアルタイムインデックス更新をサポートして、読み書き操作の遅延を削減
- メモリ内の最適化されたデータ構造を使用して、ストレージ容量をより良く活用
- 複雑なモジュールや依存関係のない、シンプルで効率的なアーキテクチャでの即座に使用可能なデータ構造として機能

### デプロイメントオプション

- [Tair Cloud Vector Database](https://www.alibabacloud.com/help/en/tair/latest/getting-started-overview)を使用。[こちらをクリック](https://www.alibabacloud.com/product/tair)して高速デプロイ。

## 前提条件

この演習を行うために、いくつかの準備が必要です：

1. Tairクラウドサーバーインスタンス
2. tairデータベースとやり取りするための'tair'ライブラリ
3. [OpenAI APIキー](https://beta.openai.com/account/api-keys)

### 要件のインストール

このノートブックには明らかに`openai`と`tair`パッケージが必要ですが、使用する他の追加ライブラリもいくつかあります。以下のコマンドでそれらすべてをインストールできます：

In [1]:
! pip install openai redis tair pandas wget

Looking in indexes: http://sg.mirrors.cloud.aliyuncs.com/pypi/simple/
[0m

### OpenAI APIキーの準備

OpenAI APIキーは、ドキュメントとクエリのベクトル化に使用されます。

OpenAI APIキーをお持ちでない場合は、[https://beta.openai.com/account/api-keys](https://beta.openai.com/account/api-keys)から取得できます。

キーを取得したら、getpassを使用して追加してください。

In [1]:
import getpass
import openai

openai.api_key = getpass.getpass("Input your OpenAI API key:")

Input your OpenAI API key:········


## Tairに接続する
まず、環境変数に追加してください。

実行中のTairサーバーインスタンスへの接続は、公式のPythonライブラリを使用すると簡単に行えます。

In [2]:
# The format of url: redis://[[username]:[password]]@localhost:6379/0
TAIR_URL = getpass.getpass("Input your tair url:")

Input your tair url:········


In [18]:
from tair import Tair as TairClient

# connect to tair from url and create a client

url = TAIR_URL
client = TairClient.from_url(url)

接続をpingでテストできます：

In [4]:
client.ping()

True

In [5]:
import wget

embeddings_url = "https://cdn.openai.com/API/examples/data/vector_database_wikipedia_articles_embedded.zip"

# The file is ~700 MB so this will take some time
wget.download(embeddings_url)

100% [......................................................................] 698933052 / 698933052

'vector_database_wikipedia_articles_embedded (1).zip'

ダウンロードしたファイルを展開する必要があります：

In [7]:
import zipfile
import os
import re
import tempfile

current_directory = os.getcwd()
zip_file_path = os.path.join(current_directory, "vector_database_wikipedia_articles_embedded.zip")
output_directory = os.path.join(current_directory, "../../data")

with zipfile.ZipFile(zip_file_path, "r") as zip_ref:
    zip_ref.extractall(output_directory)


# check the csv file exist
file_name = "vector_database_wikipedia_articles_embedded.csv"
data_directory = os.path.join(current_directory, "../../data")
file_path = os.path.join(data_directory, file_name)


if os.path.exists(file_path):
    print(f"The file {file_name} exists in the data directory.")
else:
    print(f"The file {file_name} does not exist in the data directory.")


The file vector_database_wikipedia_articles_embedded.csv exists in the data directory.


## インデックスの作成

Tairは、各オブジェクトが1つのキーで記述されるインデックスにデータを格納します。各キーには、1つのベクトルと複数のattribute_keysが含まれています。

まず、**title_vector**用と**content_vector**用の2つのインデックスを作成し、事前に計算された埋め込みでそれらを埋めていきます。

In [8]:
# set index parameters
index = "openai_test"
embedding_dim = 1536
distance_type = "L2"
index_type = "HNSW"
data_type = "FLOAT32"

# Create two indexes, one for title_vector and one for content_vector, skip if already exists
index_names = [index + "_title_vector", index+"_content_vector"]
for index_name in index_names:
    index_connection = client.tvs_get_index(index_name)
    if index_connection is not None:
        print("Index already exists")
    else:
        client.tvs_create_index(name=index_name, dim=embedding_dim, distance_type=distance_type,
                                index_type=index_type, data_type=data_type)

Index already exists
Index already exists


## データの読み込み

このセクションでは、このセッション以前に準備されたデータを読み込みます。これにより、あなた自身のクレジットを使ってWikipedia記事の埋め込みを再計算する必要がありません。

In [11]:
import pandas as pd
from ast import literal_eval
# Path to your local CSV file
csv_file_path = '../../data/vector_database_wikipedia_articles_embedded.csv'
article_df = pd.read_csv(csv_file_path)

# Read vectors from strings back into a list
article_df['title_vector'] = article_df.title_vector.apply(literal_eval).values
article_df['content_vector'] = article_df.content_vector.apply(literal_eval).values

# add/update data to indexes
for i in range(len(article_df)):
    # add data to index with title_vector
    client.tvs_hset(index=index_names[0], key=article_df.id[i].item(), vector=article_df.title_vector[i], is_binary=False,
                    **{"url": article_df.url[i], "title": article_df.title[i], "text": article_df.text[i]})
    # add data to index with content_vector
    client.tvs_hset(index=index_names[1], key=article_df.id[i].item(), vector=article_df.content_vector[i], is_binary=False,
                    **{"url": article_df.url[i], "title": article_df.title[i], "text": article_df.text[i]})

In [12]:
# Check the data count to make sure all the points have been stored
for index_name in index_names:
    stats = client.tvs_get_index(index_name)
    count = int(stats["current_record_count"]) - int(stats["delete_record_count"])
    print(f"Count in {index_name}:{count}")


Count in openai_test_title_vector:25000
Count in openai_test_content_vector:25000


## データの検索

データがTairに格納されたら、最も近いベクトルを求めてコレクションのクエリを開始します。タイトルベースの検索からコンテンツベースの検索に切り替えるために、追加のパラメータ`vector_name`を提供することができます。事前計算された埋め込みは`text-embedding-3-small` OpenAIモデルで作成されたため、検索時にも同じモデルを使用する必要があります。

In [13]:
def query_tair(client, query, vector_name="title_vector", top_k=5):

    # Creates embedding vector from user query
    embedded_query = openai.Embedding.create(
        input= query,
        model="text-embedding-3-small",
    )["data"][0]['embedding']
    embedded_query = np.array(embedded_query)

    # search for the top k approximate nearest neighbors of vector in an index
    query_result = client.tvs_knnsearch(index=index+"_"+vector_name, k=top_k, vector=embedded_query)

    return query_result

In [16]:
import openai
import numpy as np

query_result = query_tair(client=client, query="modern art in Europe", vector_name="title_vector")
for i in range(len(query_result)):
    title = client.tvs_hmget(index+"_"+"content_vector", query_result[i][0].decode('utf-8'), "title")
    print(f"{i + 1}. {title[0].decode('utf-8')} (Distance: {round(query_result[i][1],3)})")

1. Museum of Modern Art (Distance: 0.125)
2. Western Europe (Distance: 0.133)
3. Renaissance art (Distance: 0.136)
4. Pop art (Distance: 0.14)
5. Northern Europe (Distance: 0.145)


In [17]:
# This time we'll query using content vector
query_result = query_tair(client=client, query="Famous battles in Scottish history", vector_name="content_vector")
for i in range(len(query_result)):
    title = client.tvs_hmget(index+"_"+"content_vector", query_result[i][0].decode('utf-8'), "title")
    print(f"{i + 1}. {title[0].decode('utf-8')} (Distance: {round(query_result[i][1],3)})")

1. Battle of Bannockburn (Distance: 0.131)
2. Wars of Scottish Independence (Distance: 0.139)
3. 1651 (Distance: 0.147)
4. First War of Scottish Independence (Distance: 0.15)
5. Robert I of Scotland (Distance: 0.154)
