# Embedding作成
記事データからEmbeddingを作成し、pickleファイルに保存する

In [5]:
# API設定
import google.generativeai as genai

API_KEY = "AIzaSyAiVTmPsAmLfD6hlKoDrnuz96VZN789YUc"
genai.configure(api_key=API_KEY)

In [None]:
import pandas as pd
import pickle
from tqdm import tqdm

# データ読み込み（要約付き）
df = pd.read_excel('RAGデータ/95記事要約結果_RAG.xlsx')
print(f'データ件数: {len(df)}')
print(f'カラム: {df.columns.tolist()}')

データ件数: 95
カラム: ['タイトル', 'カテゴリ', 'ユーザーペルソナ', 'メイントピック', 'CV準備度スコア', '感情的ニーズ', 'コンテンツ深度', '関連サービス', 'サブトピック', '20-30代子_全体像', '20-30代子_支援', '40代子_知識深化', '50代子_手続き', '60代親_終活', '60代親_税対策', '50-70代_緊急手続き層', '60代親_専門家相談検討層', '汎用要約']


In [7]:
# Embeddingモデル設定
EMBEDDING_MODEL = "gemini-embedding-001"

print("===== 1. 全カラム結合Embedding作成 =====")
embeddings_full = []

# 対象カラムリスト
columns_to_embed = [
    'タイトル', 'カテゴリ', 'ユーザーペルソナ', 'メイントピック', 
    'CV準備度スコア', '感情的ニーズ', 'コンテンツ深度', '関連サービス', 
    'サブトピック', '20-30代子_全体像', '20-30代子_支援', 
    '40代子_知識深化', '50代子_手続き', '60代親_終活', 
    '60代親_税対策', '50-70代_緊急手続き層', 
    '60代親_専門家相談検討層', '汎用要約'
]

for idx, row in tqdm(df.iterrows(), total=len(df), desc="全カラムEmbedding"):
    # 全カラムを結合（欠損値は空文字に変換）
    text_parts = []
    for col in columns_to_embed:
        value = str(row[col]) if pd.notna(row[col]) else ""
        if value:  # 空でない場合のみ追加
            text_parts.append(f"{col}: {value}")
    
    # 改行で結合
    text = "\n\n".join(text_parts)
    
    # Embedding生成
    result = genai.embed_content(model=EMBEDDING_MODEL, content=text)
    embeddings_full.append(result['embedding'])

# 保存
with open("embeddings_cache_new_rin.pkl", "wb") as f:
    pickle.dump(embeddings_full, f)

print(f"✅ 保存完了: embeddings_cache_new_rin.pkl")
print(f"   - 総件数: {len(embeddings_full)}")
print(f"   - 次元数: {len(embeddings_full[0]) if embeddings_full else 0}")

===== 1. 全カラム結合Embedding作成 =====


全カラムEmbedding: 100%|██████████| 95/95 [00:35<00:00,  2.71it/s]

✅ 保存完了: embeddings_cache_new_rin.pkl
   - 総件数: 95
   - 次元数: 3072





In [None]:
# Embeddingモデル設定
EMBEDDING_MODEL = "gemini-embedding-001"

print("===== 1. タイトル + 本文（フル）のEmbedding作成 =====")
embeddings_full = []
for idx, row in tqdm(df.iterrows(), total=len(df), desc="タイトル+本文"):
    text = f"タイトル: {row['title']}\n\n内容: {row['body']}"
    result = genai.embed_content(model=EMBEDDING_MODEL, content=text)
    embeddings_full.append(result['embedding'])

with open("embeddings_cache.pkl", "wb") as f:
    pickle.dump(embeddings_full, f)
print(f"✅ 保存: embeddings_cache.pkl (RAG用)")

print()
print("===== 2. タイトル + 要約のEmbedding作成 =====")
embeddings_summary = []
for idx, row in tqdm(df.iterrows(), total=len(df), desc="タイトル+要約"):
    text = f"タイトル: {row['title']}\n\n要約: {row['summary']}"
    result = genai.embed_content(model=EMBEDDING_MODEL, content=text)
    embeddings_summary.append(result['embedding'])

with open("embeddings_summary_cache.pkl", "wb") as f:
    pickle.dump(embeddings_summary, f)
print(f"✅ 保存: embeddings_summary_cache.pkl (比較用)")

print()
print(f"完了！Embedding次元数: {len(embeddings_full[0])}")