<a href="https://colab.research.google.com/github/YoshiyukiKono/langchain_for_beginners/blob/main/03_astra-db_vector_search.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Astra DB ベクトル検索機能を用いたセマンティック・テキスト検索

[Astra DB](https://www.datastax.com/jp/products/datastax-astra) は、[DataStax](https://www.datastax.com/) 社の提供する、[Apache Cassandra](https://cassandra.apache.org/_/index.html) のマネージドサービス(DBaaS)です。

Astra DBは、[CEP-30: Approximate Nearest Neighbor(ANN) Vector Search via Storage-Attached Indexes](https://cwiki.apache.org/confluence/display/CASSANDRA/CEP-30%3A+Approximate+Nearest+Neighbor%28ANN%29+Vector+Search+via+Storage-Attached+Indexes).として提案されているベクトル検索の機能を提供します。

このノートブックは、Astra DBのベクトル検索機能を使ったサンプルプログラムを提供します。サンプルプログラムは、[Pineconeが公開している「セマンティック・サーチ」チュートリアル](https://docs.pinecone.io/docs/semantic-text-search) と同等の処理を、Astra DBのベクトル検索機能を用いて実装しています。



## Astra DBの準備

1. [Astra](https://astra.datastax.com/)で、新しい**ベクトル検索対応**データベース(`demo`)を作成します（データベース名はConnect Bundleファイルに関係します）
1. キースペース (`semantics`)を作成します（下記のコードブロック中の定義であなたが採用した名前に変更することも可能です）
1. アプリケーショントークンを取得します

作成済みのデータベース/キースペースに、このチュートリアルの中で、テーブルとインデックスを作成します。


## Google Colabの準備

エンベディングの際にGPUを利用します。メニューから下記の通り、変更を実施します。

Runtime > Change runtime type > Hardware accelerator: `GPU`

## データセットとベクトル変換

まず、このデモに使用するデータセットと、データをベクトルに変換するツールを準備するプロセスを見ていきます。

まず、必要な前提条件ライブラリをインストールする必要があります。


In [None]:
!pip install -U \
  datasets==2.12.0 \
  sentence-transformers==2.2.2

Collecting datasets==2.12.0
  Downloading datasets-2.12.0-py3-none-any.whl (474 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.6/474.6 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sentence-transformers==2.2.2
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dill<0.3.7,>=0.3.0 (from datasets==2.12.0)
  Downloading dill-0.3.6-py3-none-any.whl (110 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.5/110.5 kB[0m [31m10.1 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets==2.12.0)
  Downloading xxhash-3.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.5/212.5 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess

### データの前処理
データセットの準備プロセスには、いくつかの手順が必要です。

1. Hugging Face データセットから Quora データセットをダウンロードします。
2. データセットのテキストコンテンツをベクトルに変換します。



In [None]:
from datasets import load_dataset

dataset = load_dataset('quora', split='train[240000:320000]')
dataset

Downloading builder script:   0%|          | 0.00/2.38k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/1.13k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/5.69k [00:00<?, ?B/s]

Downloading and preparing dataset quora/default to /root/.cache/huggingface/datasets/quora/default/0.0.0/36ba4cd42107f051a158016f1bea6ae3f4685c5df843529108a54e42d86c1e04...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/58.2M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/404290 [00:00<?, ? examples/s]

Dataset quora downloaded and prepared to /root/.cache/huggingface/datasets/quora/default/0.0.0/36ba4cd42107f051a158016f1bea6ae3f4685c5df843529108a54e42d86c1e04. Subsequent calls will reuse this data.


Dataset({
    features: ['questions', 'is_duplicate'],
    num_rows: 80000
})

このデータセットには、[Quora](https://www.quora.com/) (ナレッジコミュニティ・Q&Aサイト) からの約 40 万組の自然言語の質問が含まれています。

In [None]:
dataset[:5]

{'questions': [{'id': [207550, 351729],
   'text': ['What is the truth of life?', "What's the evil truth of life?"]},
  {'id': [33183, 351730],
   'text': ['Which is the best smartphone under 20K in India?',
    'Which is the best smartphone with in 20k in India?']},
  {'id': [351731, 351732],
   'text': ['Steps taken by Canadian government to improve literacy rate?',
    'Can I send homemade herbal hair oil from India to US via postal or private courier services?']},
  {'id': [37799, 94186],
   'text': ['What is a good way to lose 30 pounds in 2 months?',
    'What can I do to lose 30 pounds in 2 months?']},
  {'id': [351733, 351734],
   'text': ['Which of the following most accurately describes the translation of the graph y = (x+3)^2 -2 to the graph of y = (x -2)^2 +2?',
    'How do you graph x + 2y = -2?']}],
 'is_duplicate': [False, True, False, True, False]}

データセットには、質問が重複しているかどうかを示す情報が含まれているが、ここでは利用しません。ここで必要なのは質問のテキスト自体だけです。元データセットは、１レコードに１組の質問が含まれていますが、全てのレコードからそれらの質問を1 つのリストとして抽出します。

In [None]:
questions = []

for record in dataset['questions']:
    questions.extend(record['text'])

# remove duplicates
questions = list(set(questions))
print('\n'.join(questions[:5]))
print(len(questions))

What is the most successful enterprise targeted company or startup using a freemium business model?
Will Quora ever add an upvote button for questions as well as answers?
What are the pros and cons of educational technology?
Why is Pakistan being attacked so frequently by terrorists?
Why do people love the Linux operating system?
136057


### ベクトル変換モデル

ベクトルデータを作成するために、`MiniLM-L6`変換モデルを使用します。次のように初期化します。

In [None]:
from sentence_transformers import SentenceTransformer
import torch

device = 'cuda' if torch.cuda.is_available() else 'cpu'
if device != 'cuda':
    print(f"You are using {device}. This is much slower than using "
          "a CUDA-enabled GPU. If on Colab you can change this by "
          "clicking Runtime > Change runtime type > GPU.")

model = SentenceTransformer('all-MiniLM-L6-v2', device=device)
model

Downloading (…)e9125/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)7e55de9125/README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

Downloading (…)55de9125/config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading (…)125/data_config.json:   0%|          | 0.00/39.3k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading (…)e9125/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

Downloading (…)9125/train_script.py:   0%|          | 0.00/13.2k [00:00<?, ?B/s]

Downloading (…)7e55de9125/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)5de9125/modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)

上記のモデルの出力には、以下の３つの重要な情報が含まれています。:

 - `max_seq_length` は、 `256`です。 つまり、単一のベクトルにエンコードできるトークン (単語など) の最大数は256個です。これを超えるものは切り詰める必要があります。

 - `word_embedding_dimension` は `384`です。この数値は、このモデルによって出力されるベクトルの次元です。後に、ベクトルデータをAstra DBのテーブルに格納する際にするときに、この数値を知っておくことが重要です。

 - `Normalize()`: この最後の正規化ステップは、モデルによって生成されたすべてのベクトルが正規化されていることを示します。つまり、通常、コサイン類似度を使用して類似度を測定するモデルでも、内積類似度メトリックを利用できるということです。実際、正規化されたベクトルでは、コサインとドット積は等価となります。

このモデルを使用して次のようにベクトルを作成できます。

In [None]:
query = 'which city is the most populated in the world?'

xq = model.encode(query)
xq.shape

(384,)

`xq.shape`により、クエリ文字列が何次元のデータに変換されたかを確認しました。384次元のベクトルに変換されたことが分かります。以下のように長さの違うクエリテキストを変換した時にも変換後のベクトルは、同じ次元数になります。

In [None]:
query = 'Is it true that the coordinaate of a point on x-axis can be taken as (y,0) while on y-axis it can be taken as (0,x)?'

xq = model.encode(query)
xq.shape

(384,)

このモデルを使用して、Astra DB に更新/挿入するときにすべての質問をベクトル化します。以下では、ユーティリティ関数を定義しています。

In [None]:
def get_embeddings(text):
  return model.encode(text).tolist()

## Astra DB 接続

### Cassandra ドライバーのインストール

In [None]:
!pip install cassandra-driver

Collecting cassandra-driver
  Downloading cassandra_driver-3.28.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (19.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.1/19.1 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
Collecting geomet<0.3,>=0.1 (from cassandra-driver)
  Downloading geomet-0.2.1.post1-py3-none-any.whl (18 kB)
Installing collected packages: geomet, cassandra-driver
Successfully installed cassandra-driver-3.28.0 geomet-0.2.1.post1


In [None]:
import cassandra; print (cassandra.__version__)

3.28.0


### Astra DB セキュリティ設定


Connect Bundleファイルを実行環境に配置します。AstraDBコントロールプレーンからダウンロードしたファイルを左サイドメニュー「Files」からアップロードしてください。

あるいは、もしそうしたければ、Connect Bundleファイルを Astra から Colab 環境に直接ダウンロードすることもできます (あなたの環境からコピーしたURLで下のセルを変更してください)。ただし、このAstraコントロールプレーンに表示されるURL は静的ではないことに注意が必要です。そのため、後日、別の Colab セッションでこのデモを再度実行する場合には、URL を再度コピーし直す必要があります。

In [None]:
!wget -O secure-connect-demo.zip "https://datastax..."

--2023-07-26 06:12:26--  https://datastax-cluster-config-prod.s3.us-east-2.amazonaws.com/d5556151-ea9a-4309-8be3-b8ea2b1cd03d-1/secure-connect-demo.zip?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIA2AIQRQ76S2JCB77W%2F20230726%2Fus-east-2%2Fs3%2Faws4_request&X-Amz-Date=20230726T061212Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&X-Amz-Signature=4282a8b62ec89149e430a057b7cc741375e31f2bfe6a71a804926c717cc2b248
Resolving datastax-cluster-config-prod.s3.us-east-2.amazonaws.com (datastax-cluster-config-prod.s3.us-east-2.amazonaws.com)... 52.219.110.210
Connecting to datastax-cluster-config-prod.s3.us-east-2.amazonaws.com (datastax-cluster-config-prod.s3.us-east-2.amazonaws.com)|52.219.110.210|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 12247 (12K) [application/zip]
Saving to: ‘secure-connect-demo.zip’


2023-07-26 06:12:27 (167 MB/s) - ‘secure-connect-demo.zip’ saved [12247/12247]



自分の環境へのアクセス用に、次の変数を変更してください。

In [None]:
SECURE_CONNECT_BUNDLE_PATH = 'secure-connect-demo.zip'

In [None]:
import getpass

ASTRA_CLIENT_ID = getpass.getpass()

··········


In [None]:
ASTRA_CLIENT_SECRET = getpass.getpass()

··········


下記のブロックは実行する必要はありませんが、後続の接続確認で問題があった場合の確認用に適宜ご利用ください。

In [None]:
print('ASTRA_CLIENT_ID:[' + ASTRA_CLIENT_ID + ']')
print('ASTRA_CLIENT_SECRET:[' + ASTRA_CLIENT_SECRET + ']')

### 接続確認

In [None]:
from cassandra.cluster import Cluster
from cassandra.auth import PlainTextAuthProvider

cloud_config= {
  'secure_connect_bundle': SECURE_CONNECT_BUNDLE_PATH
}
auth_provider = PlainTextAuthProvider(ASTRA_CLIENT_ID, ASTRA_CLIENT_SECRET)
cluster = Cluster(cloud=cloud_config, auth_provider=auth_provider)
session = cluster.connect()

row = session.execute("select release_version from system.local").one()
if row:
  print(row[0])
else:
  print("An error occurred.")

ERROR:cassandra.connection:Closing connection <AsyncoreConnection(136790272693712) d5556151-ea9a-4309-8be3-b8ea2b1cd03d-us-east1.db.astra.datastax.com:29042:734aff59-e842-4de3-b5d9-7d7938c90a60> due to protocol error: Error from server: code=000a [Protocol error] message="Beta version of the protocol used (5/v5-beta), but USE_BETA flag is unset"


4.0.7-a81def0a9e90


キースペース定義と存在確認

In [None]:
YOUR_KEYSPACE = 'semantics'

In [None]:
session.set_keyspace(YOUR_KEYSPACE)
session

<cassandra.cluster.Session at 0x7c68f00d43d0>

## Astra DB を利用したベクトル検索

### 環境の準備

ベクトル検索デモ用のテーブルとインデックスを作成します。

In [None]:
session.execute(f"""CREATE TABLE IF NOT EXISTS {YOUR_KEYSPACE}.questions
(id uuid,
 question text,
 question_embedding vector<float, 384>,

 PRIMARY KEY (id))""")

<cassandra.cluster.ResultSet at 0x7b54f00ce860>

In [None]:
session.execute(f"""CREATE CUSTOM INDEX IF NOT EXISTS vector_search_index
   ON {YOUR_KEYSPACE}.questions (question_embedding)
   USING 'org.apache.cassandra.index.sai.StorageAttachedIndex'
   WITH OPTIONS = {{ 'similarity_function': 'dot_product' }}""")

<cassandra.cluster.ResultSet at 0x7b54f00ce590>

デモデータセットを登録する前に、サンプルレコードを使用して作成されたテーブルとインデックスを確認してみます。

In [None]:
question = 'Is it true that the coordinaate of a point on x-axis can be taken as (y,0) while on y-axis it can be taken as (0,x)?'
embedding = get_embeddings(question)
embedding

[0.05344190075993538,
 -0.03028194233775139,
 -0.06466148793697357,
 -0.12616890668869019,
 -0.024309564381837845,
 0.030188534408807755,
 -0.0316522940993309,
 -0.044692154973745346,
 0.0951315388083458,
 -0.005873915273696184,
 0.14823752641677856,
 0.10260104387998581,
 0.00376055552624166,
 0.06802201271057129,
 0.03177753835916519,
 -0.05901848524808884,
 -0.03500353917479515,
 -0.07596970349550247,
 0.03868319094181061,
 0.05672023072838783,
 0.07208770513534546,
 -0.03127382695674896,
 -0.01299323234707117,
 0.031626392155885696,
 0.07051981985569,
 -0.048730652779340744,
 0.09373123198747635,
 0.02661753259599209,
 0.017795590683817863,
 0.020701751112937927,
 -0.046206701546907425,
 -0.03261919319629669,
 -0.06299708783626556,
 0.0015578129095956683,
 -0.004674573894590139,
 -0.00631140498444438,
 0.1345195472240448,
 -0.032873596996068954,
 0.029681246727705002,
 0.06412467360496521,
 0.032751116901636124,
 0.024843977764248848,
 0.05504095181822777,
 0.008785456418991089,
 -

In [None]:
question

'Is it true that the coordinaate of a point on x-axis can be taken as (y,0) while on y-axis it can be taken as (0,x)?'

この一件のデータを使って、上記で定義したテーブルとインデックスの定義が正しく機能しているか、確認します。（その後のプロセスで、データベースに大量のデータを登録した上で、ベクトル検索を実力を確認します）

In [None]:
from cassandra.query import SimpleStatement
query = SimpleStatement(
                f"""
                INSERT INTO {YOUR_KEYSPACE}.questions
                (id, question, question_embedding)
                VALUES (now(), %s, %s)
                """
            )
session.execute(query,(question, embedding))


<cassandra.cluster.ResultSet at 0x79afb81f3880>

In [None]:
query = SimpleStatement(
    f"""
    SELECT id, question, question_embedding
    FROM {YOUR_KEYSPACE}.questions
    ORDER BY question_embedding ANN OF {embedding} LIMIT 5;
    """
    )

In [None]:
results = session.execute(query)
top_5_products = results._current_rows

for row in top_5_products:
  print(f"""{row.id}, {row.question}, {row.question_embedding}\n""")

701d5cf0-2b73-11ee-b99d-1f350647414a, Is it true that the coordinaate of a point on x-axis can be taken as (y,0) while on y-axis it can be taken as (0,x)?, [0.05344190075993538, -0.03028194233775139, -0.06466148793697357, -0.12616890668869019, -0.024309564381837845, 0.030188534408807755, -0.0316522940993309, -0.044692154973745346, 0.0951315388083458, -0.005873915273696184, 0.14823752641677856, 0.10260104387998581, 0.00376055552624166, 0.06802201271057129, 0.03177753835916519, -0.05901848524808884, -0.03500353917479515, -0.07596970349550247, 0.03868319094181061, 0.05672023072838783, 0.07208770513534546, -0.03127382695674896, -0.01299323234707117, 0.031626392155885696, 0.07051981985569, -0.048730652779340744, 0.09373123198747635, 0.02661753259599209, 0.017795590683817863, 0.020701751112937927, -0.046206701546907425, -0.03261919319629669, -0.06299708783626556, 0.0015578129095956683, -0.004674573894590139, -0.00631140498444438, 0.1345195472240448, -0.032873596996068954, 0.02968124672770500

### データ登録

**注意:** 冒頭で説明したように、GPUの設定を行った上で下記のブロックを実行してください。GPUを使わなかった場合、次のセルの実行には数時間かかります（GPU利用の場合は数分です）。

どうしても時間を短縮したい場合は、`questions[:N]`のようにリスト`questions`をスライスしてください。ただし、Astra DB ベクトル検索の威力を伝えるためには、ある程度の(例えば、ここでおこなっているようにPineconeのサンプルと同程度の) 量のデータ を使用することがポイントになります。

In [None]:
from tqdm.auto import tqdm

batch_size = 128
embedding_params = []
for i in tqdm(range(0, len(questions), batch_size)):
    i_end = min(i+batch_size, len(questions))
    embedding_params.extend(model.encode(questions[i:i_end]))

  0%|          | 0/1063 [00:00<?, ?it/s]

In [None]:
print(len(embedding_params))
print(len(questions))

136057
136057


In [None]:
params_list = []
for i in tqdm(range(0, len(questions))):
  params_list.append((questions[i], embedding_params[i]))

  0%|          | 0/136057 [00:00<?, ?it/s]

In [None]:
print(len(params_list))


136057


以下のブロックの実行には、5分程度かかります。短縮したい場合は、登録するデータ数を上のセルで調整してください。

In [None]:
from cassandra.concurrent import execute_concurrent_with_args
request = session.prepare(
                    f"""
                INSERT INTO {YOUR_KEYSPACE}.questions
                (id, question, question_embedding)
                VALUES (now(), ?, ?)
                """
)
execute_concurrent_with_args(session, request, params_list)

[ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a3130>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a3310>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a2410>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a3520>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a3700>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a25f0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a3a90>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674cc280>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object at 0x7c68674a27d0>),
 ExecutionResult(success=True, result_or_exc=<cassandra.cluster.ResultSet object a

最終的に、テーブルに 新たに136057 行が登録されるはずです。
次のように確認できます（以前に登録していたデータによって、結果は変わります）。
```
token@cqlsh:semantics> select count(*) FROM questions;

 count
--------
 136058

(1 rows)
```

### ベクトル検索のデモ

In [None]:
question = 'How do I promote my e-commerce website?'
embedding = get_embeddings(question)
embedding

[0.006989829242229462,
 -0.04213974252343178,
 -0.07815290242433548,
 -0.009970204904675484,
 0.07739722728729248,
 0.04193941876292229,
 -0.006748862564563751,
 0.030799392610788345,
 -0.07842331379652023,
 -0.03257639706134796,
 0.05655832588672638,
 -0.03520314022898674,
 0.07220868766307831,
 0.028285248205065727,
 0.07695521414279938,
 -0.05429329350590706,
 0.009619899094104767,
 0.05280487611889839,
 -0.01875201240181923,
 -0.11907956749200821,
 0.014776456169784069,
 -0.00023785493976902217,
 0.06035557761788368,
 0.0033046926837414503,
 -0.06253878027200699,
 -0.04962966963648796,
 0.007044524420052767,
 0.05366762354969978,
 -0.008639861829578876,
 -0.11296573281288147,
 0.04041944444179535,
 -0.07675006240606308,
 0.08271502703428268,
 0.04834199696779251,
 -0.02313019335269928,
 0.013846631161868572,
 -0.03671257942914963,
 -0.10863407701253891,
 -0.04204464331269264,
 0.025294026359915733,
 -0.009148983284831047,
 -0.09623943269252777,
 -0.048046406358480453,
 0.0587533973

In [None]:
from cassandra.query import SimpleStatement
query = SimpleStatement(
    f"""
    SELECT id, question, question_embedding
    FROM {YOUR_KEYSPACE}.questions
    ORDER BY question_embedding ANN OF {embedding} LIMIT 5;
    """
    )

In [None]:
results = session.execute(query)
top_5_products = results._current_rows

for row in top_5_products:
  print(f"""{row.id}, {row.question}, {row.question_embedding}\n""")

3acbeca0-0f4f-11ee-993d-ffc8cc4ee2cb, How do I promote my e-commerce website?, [0.006989856716245413, -0.04213973507285118, -0.07815293222665787, -0.009970189072191715, 0.0773971825838089, 0.041939426213502884, -0.006748857907950878, 0.03079938143491745, -0.07842333614826202, -0.032576367259025574, 0.05655835196375847, -0.03520318120718002, 0.07220874726772308, 0.02828521467745304, 0.07695522904396057, -0.05429326370358467, 0.009619835764169693, 0.05280487239360809, -0.01875203847885132, -0.1190795823931694, 0.014776432886719704, -0.0002378705976298079, 0.06035558879375458, 0.0033046738244593143, -0.06253878772258759, -0.04962963983416557, 0.0070444573648273945, 0.05366763100028038, -0.00863986648619175, -0.11296579241752625, 0.040419481694698334, -0.07675008475780487, 0.08271502703428268, 0.048342011868953705, -0.023130204528570175, 0.01384661439806223, -0.03671254962682724, -0.1086340919137001, -0.042044661939144135, 0.025294043123722076, -0.009149031713604927, -0.09623941034078598, 

## クリーンアップ

In [None]:
session.execute(f"""DROP INDEX IF EXISTS {YOUR_KEYSPACE}.vector_search_index""")

<cassandra.cluster.ResultSet at 0x7c6845f5e8f0>

In [None]:
session.execute(f"""DROP TABLE IF EXISTS {YOUR_KEYSPACE}.questions""")

<cassandra.cluster.ResultSet at 0x7c6845f5f430>