In [3]:
# 事前準備
!pip install google-generativeai numpy

# export GOOGLE_API_KEY='XXXXX' # keyの取得、登録



In [8]:
import google.generativeai as genai
import numpy as np
import os

# 1. APIキーの設定
# 環境変数から読み込むか、直接文字列で指定してください
# os.environ["GEMINI_API_KEY"] = "あなたのAPIキー"
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

# 2. 対象のテキスト
str_a = '太郎さんは天秤座だ'
str_b = '太郎の星座は天秤座だ'

# 3. Embedding（ベクトル化）を実行
# 最新の埋め込みモデル 'text-embedding-004' を使用します
model = 'models/text-embedding-004'

# 2つのテキストを一度にAPIに渡してベクトル化します
result = genai.embed_content(
    model=model,
    content=[str_a, str_b],
    task_type="semantic_similarity" # 類似度計算用のタスクタイプを指定
)

# 結果からベクトルを取り出し
embedding_a = np.array(result['embedding'][0])
embedding_b = np.array(result['embedding'][1])
# print('ベクトル_a=', embedding_a)
# print('ベクトル_b=', embedding_b)

# ベクトルの次元数を表示（確認用：通常は768次元）
print(f"ベクトルの次元数: {len(embedding_a)}")
# print(f"ベクトルAの中身（一部）: {embedding_a[:5]}...")

# 4. コサイン類似度の計算
# 公式: (A . B) / (||A|| * ||B||)
dot_product = np.dot(embedding_a, embedding_b)          # 内積
norm_a = np.linalg.norm(embedding_a)                    # Aの長さ（ノルム）
norm_b = np.linalg.norm(embedding_b)                    # Bの長さ（ノルム）

cosine_similarity = dot_product / (norm_a * norm_b)

# 5. 結果の表示
print(f"テキストA: {str_a}")
print(f"テキストB: {str_b}")
print("-" * 30)
print(f"コサイン類似度: {cosine_similarity:.4f}")

ベクトルの次元数: 768
テキストA: 太郎さんは天秤座だ
テキストB: 太郎の星座は天秤座だ
------------------------------
コサイン類似度: 1.0000
