In [1]:
import json
import openai
import numpy as np
import os

# OpenAI APIキーの設定
openai.api_key = os.getenv('OPENAI_API_KEY')

# JSONファイルからデータをロード
file_path = "./Data/書誌情報ダウンロード(JSON形式)_20240418134938.json"
with open(file_path, 'r', encoding='utf-8') as file:
    books = json.load(file)

# 各書籍のタイトルを抽出
titles = [book['title'][0]['value'] for book in books]

In [9]:
%%time
# タイトルをEmbeddingsでベクトル化する関数
def get_embeddings(titles):
    response = openai.Embedding.create(
        input=titles,
        engine="text-embedding-3-large"  # Embeddingsエンジンの選択
    )
    vectors = np.array([embedding['embedding'] for embedding in response['data']])
    return vectors

# タイトルのベクトルを取得
title_embeddings = get_embeddings(titles)

CPU times: user 624 ms, sys: 113 ms, total: 737 ms
Wall time: 5.79 s


In [8]:
%%time
# 指定した本のタイトルとの距離を計算する関数
def calculate_distances(base_title):
    base_vector = get_embeddings([base_title])[0]  # 基準となるタイトルのベクトルを取得
    distances = np.linalg.norm(title_embeddings - base_vector, axis=1)
    return distances

# 類似度計算の例
base_title = "日本語ワープロ検定試験模擬問題集"
distances = calculate_distances(base_title)

# 類似度に基づいて本のタイトルをソート
sorted_titles = sorted(zip(titles, distances), key=lambda x: x[1])

# 結果を表示
for i, title in enumerate(sorted_titles):
    print(f"{title[0]},")
    if i > 100:
        break

新しい英検の教科書,
1週間で日商簿記3級に合格できるテキスト&問題集 : 書いて覚えて合格できる,
全国通訳案内士試験合格!対策地理,
情報セキュリティマネジメント予想問題集,
中学受験奇跡を引き出す合格法則 : 予約殺到の東大卒スーパー家庭教師が教える,
日本一わかりやすい地方創生の教科書 : 全く新しい45の新手法&新常識 : テレワーク 移住促進 インバウンド,
似合う!がわかる骨格診断の教科書 : 骨格診断アドバイザー検定2級・1級公式テキスト,
中学受験をするきみへ : 決定版 : 勉強とメンタルの悩みを解決!,
スッキリわかるサーブレット&JSP入門,
THE突破ファイルマンガ推理クイズブック,
アジア研究図書館所蔵奈良毅文庫目録,
近代日本の陽明学,
コンサルの武器 : DEBUG YOUR THINKING!,
いちばん親切な練り切りの教科書 : 12か月の和菓子手帖,
ふくしま式で身につく!国語読解力 : 塾へ行かなくても得点力がぐ～んと上がる!,
できるYouTuber式Excel現場の教科書,
地方公務員法よく出る問題108問 : 頻出テーマを徹底分析/実戦力・問題対応力養成,
地方自治法よく出る問題123問 : 頻出テーマを徹底分析/実戦力・問題対応力養成,
AIが答えを出せない問いの設定力,
中学受験子どもの人生を本気で考えた受験校選び戦略,
異世界ウォーキング,
異世界ウォーキング,
くらべてわかるサメ,
はじめてのテキーラの教科書,
クイズあなたは小学5年生より賢いの? : 大人もパニックの難問に挑戦!,
近代日本メディア議員列伝,
これで通じる!最速最短でネイティブ発音になれる本,
わしの研究,
ドラえもん学びワールド音楽をはじめよう,
基本情報技術者教科書,
ポケモン4コマ学園,
なんとかなる本,
内藤雄士の本当に大事なゴルフの基本,
観葉植物パーフェクトブック,
ヤバすぎる!偉人の勉強やり方図鑑,
放浪・雪の夜 : 織田作之助傑作集,
トラベラーズノートと歩く東京のかわいい街さんぽ,
千金美穂イラストコレクション,
洒落にならないネット掲示板百物語 : 都市伝説コミック怪談集,
高学歴のトリセツ : 褒め方・伸ばし方・正しい使い方,
100日でネイティブのように話せる韓国語文法,
東京藝大で教わるはじめての美学,
東京ジライヤ,