In [None]:
from openai import OpenAI
import numpy as np

# OpenAIクライアントの初期化
client = OpenAI(api_key='[set the effective key here]',)

# 埋め込みを取得する関数
def get_embedding(text, model="text-embedding-3-small"):
    text = text.replace("\n", " ")  # 改行をスペースに置換
    response = client.embeddings.create(input=[text], model=model)
    return response.data[0].embedding

# サンプルデータセットの定義
documents = [
    "ディープラーニングは人工知能の一機能です",
    "人工知能と機械学習はコンピュータサイエンスの一部です",
    "ディープラーニングはほとんどのAIアプリケーションで使用されています"
]

# 各文書の埋め込みベクトルを取得
document_embeddings = [get_embedding(doc) for doc in documents]

# 新しいクエリ文書の定義
query = "AIとディープラーニング"
query_embedding = get_embedding(query)

# コサイン類似度の計算関数
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# クエリと各文書の類似度を計算
similarities = []
for i, doc_emb in enumerate(document_embeddings):
    similarity = cosine_similarity(doc_emb, query_embedding)
    similarities.append((i, similarity))

# 類似度に基づいて文書をソート
similarities.sort(key=lambda x: x[1], reverse=True)

# 出力
for i, doc in enumerate(documents):
    print(f"対象文書{i}: {doc}")

print(f"クエリ文書: {query}\n")
print("==============================================================")
print("対象文書ベクトルとその次元数:")
for i, emb in enumerate(document_embeddings):
    print(f"Document {i}: Vector length: {len(emb)}")  # ベクトルの次元数を表示

print("\nクエリベクトルとその次元数:")
print(f"Query Vector length: {len(query_embedding)}")  # クエリベクトルの次元数を表示

print("\n類似文書とその類似度:")
for doc_id, sim in similarities:
    print(f"文書 {doc_id}: {documents[doc_id]}, 類似度: {sim:.4f}")