## 子チャンク化, Section毎＋全体クエリ、re-rank

### 各種設定

In [1]:
from pprint import pprint
import re, glob, time
import numpy as np
import pandas as pd
pd.set_option('display.width', 150)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows',   120)

import google.genai as genai
import openai
import cohere
import chromadb
import sudachipy
from sudachipy import Dictionary, SplitMode # 日本語Tokenizer
import langchain_core
from langchain_core.documents import Document
from sentence_transformers import SentenceTransformer # embedding用
import sklearn
from sklearn.metrics import ndcg_score

print(f"genai={genai.__version__}, openai={openai.__version__}, " + 
      f"cohere={cohere.__version__}, chromadb={chromadb.__version__}, " +
      f"langchain_core={langchain_core.__version__}, ")
print(f"sklearn={sklearn.__version__}")

genai=1.56.0, openai=2.13.0, cohere=5.20.0, chromadb=1.3.7, langchain_core=1.2.2, 
sklearn=1.8.0


#### LLMモデル利用定義

In [80]:
# Geminiモデルを指定
GEMINI_EMBEDDING_MODEL = 'gemini-embedding-001'
#GEMINI_LLM_MODEL      = 'gemini-2.0-flash'  # Limit-Rateが高い
#GEMINI_LLM_MODEL      = 'gemini-2.5-flash'  # それなりに賢い
#GEMINI_LLM_MODEL      = 'gemini-2.5-pro'
#GEMINI_LLM_MODEL      = 'gemini-3-pro-preview'

# OpenAIモデルを指定
OPENAI_EMBEDDING_MODEL_SMALL = 'text-embedding-3-small'
OPENAI_EMBEDDING_MODEL_LARGE = 'text-embedding-3-large'

# Cohereモデルを指定
#COHERE_EMBEDDING_MODEL = 'embed-v4.0'
COHERE_LLM_MODEL       = 'command-a-03-2025'
COHERE_RERANK_MODEL     = 'rerank-v3.5'

# Geminiクライアントを作成
with open('keys/Google_API_KEY.txt', 'r') as f:
    api_key = f.read().strip()
GEMINI_CLIENT = genai.Client(api_key=api_key)

# Cohereクライアントを作成
with open('keys/Cohere_API_KEY.txt', 'r') as f:
    api_key = f.read().strip()
COHERE_CLIENT = cohere.ClientV2(api_key=api_key)

# OpenAIクライアントを作成
with open('keys/OpenAI_API_KEY.txt', 'r') as f:
    api_key = f.read().strip()
OPENAI_CLIENT = openai.OpenAI(api_key=api_key)

# Chromaクライアントを作成
CHROMA_CLIENT = chromadb.EphemeralClient()  # インメモリで作成

# PLaMoクライアントを作成
PLAMO_CLIENT = SentenceTransformer('pfnet/plamo-embedding-1b', trust_remote_code=True)

# ruriクライアントを作成
RURI_CLIENT = SentenceTransformer('cl-nagoya/ruri-v3-310m', trust_remote_code=True)

from enum import Enum, auto
class EmbeddingType(Enum): # モデル切り替え用定数の設定
    GEMINI = auto()
    OPENAI_SMALL = auto()
    OPENAI_LARGE = auto()
#    COHERE = auto()  # 未使用
    PLAMO  = auto()
    RURI   = auto()
#======================================
EMBEDDING_MODEL = EmbeddingType.GEMINI   # モデルを指定
#======================================

No sentence-transformers model found with name pfnet/plamo-embedding-1b. Creating a new one with mean pooling.


#### embedding関数

In [3]:
def get_embeddings(texts):
    """共通のEmbedding関数"""

    # 単一文字列でも対応
    single_input = False
    if isinstance(texts, str):
        texts = [texts]
        single_input = True

    match EMBEDDING_MODEL:

        # Gemini
        case EmbeddingType.GEMINI:
            # Embedding取得
            response = GEMINI_CLIENT.models.embed_content(
                model=GEMINI_EMBEDDING_MODEL,
                contents=texts
            )
            embeddings = [e.values for e in response.embeddings]

        # OpenAI
        case EmbeddingType.OPENAI_SMALL | EmbeddingType.OPENAI_LARGE:
            if EMBEDDING_MODEL == EmbeddingType.OPENAI_LARGE:
                OPENAI_EMBEDDING_MODEL = OPENAI_EMBEDDING_MODEL_LARGE 
            else:
                OPENAI_EMBEDDING_MODEL = OPENAI_EMBEDDING_MODEL_SMALL 
            # Embeddings を取得
            response = OPENAI_CLIENT.embeddings.create(
                model=OPENAI_EMBEDDING_MODEL,
                input=texts
            )
            # レスポンスからベクトル抽出（resp.data は入力ごとの要素を持つ）
            embeddings = [d.embedding for d in response.data]

        # PLaMo
        case EmbeddingType.PLAMO:
            embeddings = PLAMO_CLIENT.encode(
                texts,
                batch_size=16,
                show_progress_bar=False,
                convert_to_numpy=True
            )

        # Ruri
        case EmbeddingType.RURI:
            embeddings = RURI_CLIENT.encode(
                texts, 
                batch_size=16, 
                convert_to_numpy=True, 
                show_progress_bar=False
            )

    # 単一入力だったら一次元のリストを返す
    if single_input:
        return embeddings[0]

    return embeddings

# 確認
print(f"EMBEDDING_MODEL={EMBEDDING_MODEL}")
for texts in ['今日はいい天気です。', ['今日はいい天気です。','明日はどうでしょうか？']]:
    embedded_text = get_embeddings(texts)
    if isinstance(embedded_text, np.ndarray):
        print(f"{type(embedded_text)}, {embedded_text.shape}, {embedded_text.flatten()[:4]} ...")
    else:
        try:
            print(f"{type(embedded_text)}, {len(embedded_text)}, {embedded_text[0][:4]} ...")
        except:
            print(f"{type(embedded_text)}, {len(embedded_text)}, {embedded_text[:4]} ...")

EMBEDDING_MODEL=EmbeddingType.GEMINI
<class 'list'>, 3072, [-0.019278863, -0.0022764413, 0.0021871584, -0.08121658] ...
<class 'list'>, 2, [-0.019278863, -0.0022764413, 0.0021871584, -0.08121658] ...


#### 日本語 Tokenizer

入力文を、形態素解析エンジンでトークン化、必要な品詞のみのトークンのリストを返す  

In [4]:
### すだち
tokenizer = Dictionary(dict='full').create()

from sudachipy import dictionary
print([dictionary.Dictionary(dict='full').lookup('撹拌条件')]) # User_dic確認
print([dictionary.Dictionary(dict='full').lookup('hba1c')])   # User_dic確認

def tokenize(text, splitmode='C', pos=False):

    match splitmode.upper():
        case 'A':
            splitmode = SplitMode.A # 超細かい
        case 'B':
            splitmode = SplitMode.B # 細かい
        case _:
            splitmode = SplitMode.C

    tokens = tokenizer.tokenize(text, splitmode) # Defult = SplitMode.C
    if pos:
        pprint([(t.surface(), t.part_of_speech()) for t in tokens])
    tokens = [t.surface() for t in tokens]
    return tokens

def tokenize_and_filter_by_pos(
    text, 
    target_pos=['名詞','動詞','形容詞','副詞','接頭詞'],
    pos=False
):
    # 入力文から指定された品詞のトークンを抽出
    tokens = list(tokenizer.tokenize(text))
    if pos:
        pprint([(t.surface(), t.part_of_speech()) for t in tokens])
    parts_of_speech = [t.part_of_speech() for t in tokens]                             # 品詞情報を抽出
    is_target_pos = [bool(set(p) & set(target_pos)) and 
                     not (bool(set(p) & set(['動詞'])) and
                          bool(set(p) & set(['非自立', '非自立可能'])))
                                                             for p in parts_of_speech] # 必要品詞で抽出
    #pprint(is_target_pos)
    extracted_tokens = [t.surface() for (t, f) in zip(tokens, is_target_pos) if f]
    return extracted_tokens


pprint(tokenize('① 今日は、良い天気です。', pos=True))
pprint(tokenize_and_filter_by_pos('① 今日は、良い天気です。', pos=True))

[<MorphemeList[
  <Morpheme(撹拌条件, 0:4, (1, 0))>,
]>]
[<MorphemeList[
  <Morpheme(hba1c, 0:5, (1, 46))>,
]>]
[('①', ('名詞', '数詞', '*', '*', '*', '*')),
 (' ', ('空白', '*', '*', '*', '*', '*')),
 ('今日', ('名詞', '普通名詞', '副詞可能', '*', '*', '*')),
 ('は', ('助詞', '係助詞', '*', '*', '*', '*')),
 ('、', ('補助記号', '読点', '*', '*', '*', '*')),
 ('良い', ('形容詞', '非自立可能', '*', '*', '形容詞', '連体形-一般')),
 ('天気', ('名詞', '普通名詞', '一般', '*', '*', '*')),
 ('です', ('助動詞', '*', '*', '*', '助動詞-デス', '終止形-一般')),
 ('。', ('補助記号', '句点', '*', '*', '*', '*'))]
['①', ' ', '今日', 'は', '、', '良い', '天気', 'です', '。']
[('①', ('名詞', '数詞', '*', '*', '*', '*')),
 (' ', ('空白', '*', '*', '*', '*', '*')),
 ('今日', ('名詞', '普通名詞', '副詞可能', '*', '*', '*')),
 ('は', ('助詞', '係助詞', '*', '*', '*', '*')),
 ('、', ('補助記号', '読点', '*', '*', '*', '*')),
 ('良い', ('形容詞', '非自立可能', '*', '*', '形容詞', '連体形-一般')),
 ('天気', ('名詞', '普通名詞', '一般', '*', '*', '*')),
 ('です', ('助動詞', '*', '*', '*', '助動詞-デス', '終止形-一般')),
 ('。', ('補助記号', '句点', '*', '*', '*', '*'))]
['①', '今日', 

#### 材料データ名寄せ関数

In [5]:
# 名寄せデータ
Entity_Resolution_dic = {
    r"f(ab')2": r"f(ab')2コートラテックス",
    r"IgG":     r"IgGコートラテックス",
    r"純水":    r"精製水",
}

#分解パターンの定義
# 正規表現
# 末尾の数量、単位の分離 (省略可)
qty_unit_pattern = re.compile(
    r"""
    \s*[:：]*\s*             # 0個以上の空白、セパレータ、空白
    (?P<qty>[\d.,]+)         # 数量 (数値)
    \s*                      # 0個以上の空白
    (?P<unit>[kKmnμµ]{0,1}[a-zA-Z]+|[日時分秒℃度%]|°[CK]|rpm|mol|min|sec)?  # 単位 (省略可) <= 工夫の余地あり
    $                        # 末尾
    """,
    re.VERBOSE
)

ZEN2HAN = str.maketrans(
    "".join(chr(0xff01 + i) for i in range(94))+"　", # Zen
    "".join(chr(0x21   + i) for i in range(94))+" "   # Han
)

def parse_material(line, trace=False):
    '''
    材料行を分解
    材料と数量単位は、空白またはセパレータ[:：]で分かち書きされている
    以下に分解
    1. 先頭[-*・] (無い場合がある) => 無視
    2. 項番: 例: ①,... (1),...   (無い場合がある) => 無視
    3. 材料: 材料名, 補足
      3.1 材料名 数値を含む場合あり => 変数 mate に格納
      3.2 補足「()（）」で囲まれた補足情報が続く場合もあり => ()含め変数 add に格納
    4. 数量, 単位: 無い場合もあり、 数量と単位に間に空白がある場合と無い場合がある
    　4.1 数量(数値、半角または全角、「,.」を含む) => 変数 qtyに格納　
      4.2 単位((L,g)x(そのまま、k,m,μ))、ignore case) => 変数 unit に格納
    '''
    line = line.strip().replace("　", " ")                 # 前後余白を削除、全角スペースを半角に
    line = re.sub(r'^[\-\*]+\s*', '', line)                # 先頭の "-", "*", "•" を除去
    line = re.sub(r'^\s*(\(?\d+\)?|[①-⑳])\s*', '', line)   # 項番（①, ②, (1), 1. など）を除去
    line = line.translate(ZEN2HAN).strip()                 # 数字記号は半角に
    if trace:
        print(f"## {line}")

    # 1. 正規化：セパレータは「空白 or : or ：」
    #    最後の数量部分を優先的に捉えるため "数量+単位" をパターン化して先に抽出
    qty = ''; unit = ''
    m = qty_unit_pattern.search(line)
    if m:
        qty  = m.group('qty')
        unit = m.group('unit')
        # 数量部分を取り除いて「材料側」だけにする
        line_material = line[:m.start()].rstrip()
    else:
        # 数量・単位なし
        line_material = line.strip()

    # 2. 材料名末尾に続く補足括弧を抽出（複数対応）
    #   材料名内部にある括弧は mate に含める
    add = ''
    add_list = []

    # 補足括弧は、文末方向に連続しているものだけ抽出
    add_pattern = re.compile(r"(\([^)]*\)|（[^）]*）)$")

    tmp = line_material
    while True:
        m = add_pattern.search(tmp)
        if not m:
            break
        add_list.insert(0, m.group(1))  # 先頭に挿入して順序維持
        tmp = tmp[:m.start()].rstrip()

    if add_list:
        add = ''.join(add_list)
        mate = tmp.strip()
    else:
        mate = line_material.strip()

    mate_dic = {'material': mate, 'add': add, 'qty': qty, 'unit': unit}
    if trace:
        print(f"## ## {mate_dic}")
    mate_dic = {k: v for k, v in mate_dic.items() if v != '' and v is not None} # 値が''の要素をdrop
    if trace:
        print(f"## ## {mate_dic}")

    return mate_dic


def parse_and_normalize_materials(material_section, trace=False):
    materials = ''
    lines = material_section.strip().split('\n')
    if trace:
        change = []
    for line in lines:
        line = line.strip()
        if line =='':
            continue
        mate_dic = parse_material(line, trace=trace) # 「材料名 (補足) 数量 単位」に分解
        if mate := mate_dic.get('material', False):  # 材料名があれば、
            normalized_mate = Entity_Resolution_dic.get(mate, mate) # 名寄せ
            mate_dic['material'] =  normalized_mate                 # 名寄せ
            if trace:
                change.append('->') if normalized_mate != mate else change.append('--')            
        materials += ' '.join(list(mate_dic.values())) + '\n'

    if trace:
        for i, (org, chg, nor) in enumerate(zip(lines, change, materials.split('\n')),start=1):
            print(f"{i}, {org} {chg} {nor}")
    return materials

# 動作確認
tests = '''
- ① 純水：20 μL
* (2) エタノール: 5,000mol
精製水 100°K
水:　１０ ml
水  10秒
食塩水(5%) 10ml
- ⑥ IgG（粒径 100 nm）：1 mL
- ⑦ f(ab')2（粒径 200 nm）：1 mL
- ⑥ IgGコートラテックス（粒径 100 nm）：1 mL
'''
pprint(parse_and_normalize_materials(tests, trace=False))

('精製水 20 μL\n'
 'エタノール 5,000 mol\n'
 '精製水 100 °K\n'
 '水 10 ml\n'
 '水 10 秒\n'
 '食塩水 (5%) 10 ml\n'
 'IgGコートラテックス (粒径 100 nm) 1 mL\n'
 "f(ab')2コートラテックス (粒径 200 nm) 1 mL\n"
 'IgGコートラテックス (粒径 100 nm) 1 mL\n')


#### データ読込関数
データを、ノート名・セクションの辞書の形で返す

In [9]:
def read_dataset(doc_dir='notes', trace=False): # -> dic
    """実験ノート(md)の読み込み"""
    indata_section_names = ['目的','材料','実験手順'] # 入力データでのSection名

    # doc_dir以下のすべての .md ファイルを取得
    md_files = glob.glob(f"./{doc_dir}/*.md")

    # レシピを辞書に格納
    notes_dic = {}
    for i, file_path in enumerate(md_files, start=1):
        with open(file_path, "r", encoding="utf-8") as f:
            note = f.read().strip()
            name = re.search(r"^# (.+)$", note, re.MULTILINE).group(1).strip()
            notes_dic[name] = note.strip()
    print(f"\ndoc_dir={doc_dir}, 読みこんだレシピの数: {len(notes_dic)}")
    if trace:
        first_key = list(notes_dic.keys())[0]; print(notes_dic[first_key]) # 最初のレシピ

    # セクションごとに辞書化
    section_pattern = re.compile(r'^## (.*?)\n(.*?)(?=\n## |\Z)', re.MULTILINE | re.DOTALL)
    for i, (name, note) in enumerate(notes_dic.items()):
        if trace:
            print(f"## {name} ====")
        matches = section_pattern.findall(note)  # セクションごとに分離辞書化
        result_dic = {title.strip(): content.strip() for title, content in matches}

        # Section名を標準化
        for (std_name, indata_name) in zip(SECTION_NAMES, indata_section_names):
            if std_name != indata_name:
                result_dic[std_name] = result_dic.pop(indata_name)

        # allの追加
        result_dic['all'] = '\n\n'.join([f"## {s}\n\n{result_dic[s]}" for s in SECTION_NAMES])

        notes_dic[name] = result_dic
    first_key = list(notes_dic.keys())[0]
    print(f"\n辞書化したノートの数: {len(notes_dic)}\nFirst: {first_key}: {notes_dic[first_key].keys()}")
    pprint(notes_dic[first_key])

    return notes_dic

#### Vector Store作成関数
Vector Store では Metadataに、(1)ノート名、(2)セクション名or'all'を付与

In [7]:
from tqdm import tqdm
def setup_collection(notes_dic):
    """
    コレクションのセットアップ
    Arg:
        notes_dic: {'all': [ノート1,ノート2,...], '目的':[ノート1,ノート1,...], ...}
    return:
        collection:    VectorStore
    """

    # collection作成 (すでに在ったら削除)
    collection_name = 'notes'
    try:
        CHROMA_CLIENT.delete_collection(collection_name)
    except:
        pass
    collection = CHROMA_CLIENT.create_collection(
        name = collection_name,
        metadata={'hnsw:space': 'cosine'}  # 距離メトリック = 'cosine'
    )

    names = list(notes_dic.keys())    # ノート名
    n = 10 # 一度に処理するノート数（x section数 = バッチサイズ） token size limit対策
    for i in tqdm(range(0, len(names), n), mininterval=2, ncols=80): # バッチ毎に
        page_contents = []
        metadatas     = []
        ids           = []

        for j in range(i, min(i+n, len(names))): # ノート毎に
            name = names[j]
            note_dic = notes_dic[name]

            for k, s in enumerate(note_dic.keys(), start=1): # section毎に
                doc_id = f"{name}_{s}"
                ids.append(doc_id)    # id: ユニークな文字列
                
                section = f"## {s}:\n{note_dic[s].strip()}"
                page_contents.append(section)
                metadatas.append({'source': name, 'section': s})

        # Embeddingの取得
        doc_embs = get_embeddings(page_contents)

        # ChromaDBへ一括で追加
        collection.add(
            ids=ids,
            embeddings=doc_embs,
            documents=page_contents,
            metadatas=metadatas
        )
    print(f"DBに追加されたChunk(ベクトル)数: {collection.count()}")

    return collection

### データ読込・Stores作成実行

In [10]:
# クライアントと読み込み、コレクションを初期化
SECTION_NAMES = ['目的','材料','手順'] # 正規化時に付与するセクション名
doc_dir = '実験ノート1206'
print(f"## EMBEDDING_MODEL={EMBEDDING_MODEL}")

notes_dic = read_dataset(doc_dir, trace=False)   # データの読み込み

collection = setup_collection(notes_dic) # Vector Storeの作成

## EMBEDDING_MODEL=EmbeddingType.GEMINI

doc_dir=実験ノート1206, 読みこんだレシピの数: 340

辞書化したノートの数: 340
First: 実験ノート ID1-1: dict_keys(['目的', '材料', '手順', 'all'])
{'all': '## 目的\n'
        '\n'
        '現行HbA1c測定試薬（HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）とHbA1c検出抗体1（マウスモノクローナル，HRP標識，全長IgG）、NaOH '
        '10mLとTris '
        '10mL、ラテックス粒径100nmと200nm）の条件を基準条件として設定し、感度・直線性・バックグラウンドなど基本性能を初期評価する。\n'
        '\n'
        '## 材料\n'
        '\n'
        '- ① 純水：20 mL\n'
        '- ② HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）：1 mL\n'
        '- ③ HbA1c検出抗体1（マウスモノクローナル，HRP標識，全長IgG）：1 mL\n'
        '- ④ NaOH：10 mL\n'
        '- ⑤ Tris：10 mL\n'
        '- ⑥ IgGコートラテックス（粒径 100 nm）：1 mL\n'
        "- ⑦ f(ab')2コートラテックス（粒径 200 nm）：1.0 mL\n"
        '\n'
        '## 手順\n'
        '\n'
        '### 手順1\n'
        '\n'
        '1．試薬Aを作成\n'
        '1-1.①～③の分量を測定＆記録して、ビーカーに入れる\n'
        '1-2.スタラーで撹拌する\n'
        '\u3000撹拌条件\n'
        '\u3000\u3000回転数：80±20rpm、撹拌時間：5±2分、撹拌温度：22±3℃\n'
        '1-3.④～⑦の分量を測定＆記録して、ビーカーに入れる\n'
        '1-4.スタラー

100%|███████████████████████████████████████████| 34/34 [01:08<00:00,  2.03s/it]

DBに追加されたChunk(ベクトル)数: 1360





### nDCG算出¶

#### nDCG用CSVデータ読み込み

In [60]:
# クエリ用CSVをDFに読み込み、クエリと関連度に分解
def read_ndcg_test_case(testcase_path='テストケース.csv'):
    # テストケース
    testcase_df = pd.read_csv(testcase_path, header=0)
    testcase_df[['purpose','materials','methods']] = testcase_df.groupby('test_id').ffill().fillna('')[['purpose','materials','methods']]
    # テスト用クエリ
    testquery_df = testcase_df[['test_id','purpose','materials','methods']].copy().drop_duplicates().reset_index(drop=True)

    for row, tid in enumerate(testquery_df['test_id']):
        no, nid, c = tid.split('_')  # test_id = No_Note_Case
        query = notes_dic['実験ノート '+nid]
        if c != '2':
            testquery_df.loc[row, 'purpose']   = query['目的'].strip() # ..._2 は目的なし
        testquery_df.loc[row, 'materials'] = query['材料'].strip()
        testquery_df.loc[row, 'methods']   = query['手順'].strip()

#    display(testquery_df)
    # 関連度
    relevance_df = testcase_df[['test_id','doc_id','gain']].rename(columns={'doc_id': 'name'}).copy()
    relevance_df['name'] = relevance_df['name'].str.strip()
#    display(relevance_df)

    print(f"\n### nDCG用テストデータ読込")
    print(f"### テストID - 関連度(1~0) - Note, relevance_df: len={len(relevance_df)}")
#    display(relevance_df)

    return testquery_df, relevance_df

testquery_df, relevance_df = read_ndcg_test_case(testcase_path='テストケース.csv')

print(f"## testquery_df")
display(testquery_df)
print(f"## relevance_df")
display(relevance_df)


### nDCG用テストデータ読込
### テストID - 関連度(1~0) - Note, relevance_df: len=125
## testquery_df


Unnamed: 0,test_id,purpose,materials,methods
0,1_ID1-2_1,1-1基準条件からNaOH量を半分に減らし、pH低下による感度変化や反応性低下の有無を評価し...,- ① 純水：20 mL\n- ② HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）...,### 手順1\n\n1．試薬Aを作成\n1-1.①～③の分量を測定＆記録して、ビーカーに入...
1,2_ID1-2_2,,- ① 純水：20 mL\n- ② HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）...,### 手順1\n\n1．試薬Aを作成\n1-1.①～③の分量を測定＆記録して、ビーカーに入...
2,3_ID2-17_1,Tris濃度が高い条件ではイオン強度やpH緩衝能が過剰となり、ラテックス凝集やバックグラウン...,- ① 精製水：25 mL\n- ② HbA1c捕捉抗体A（マウスモノクローナル，全長IgG...,### 手順1\n\n1.試薬Aの基準調製\n1-1.材料①〜③の投入\n・①～③を順に秤量...
3,4_ID2-17_2,,- ① 精製水：25 mL\n- ② HbA1c捕捉抗体A（マウスモノクローナル，全長IgG...,### 手順1\n\n1.試薬Aの基準調製\n1-1.材料①〜③の投入\n・①～③を順に秤量...
4,5_ID3-30_1,HEPES条件でラテックス粒径を非対称ペアとしタンパク質をBSAへ変更した構成で、感度・直線...,- ① 純水：30 g\n- ② HEPES：1.8 g\n- ③ IgG（粒径 110 n...,### 手順1\n\n1．試薬Aを作成\n1-1.①～④の分量を測定＆記録して、ビーカーに入...
5,6_ID3-30_2,,- ① 純水：30 g\n- ② HEPES：1.8 g\n- ③ IgG（粒径 110 n...,### 手順1\n\n1．試薬Aを作成\n1-1.①～④の分量を測定＆記録して、ビーカーに入...
6,7_ID1-3_1,1-1基準条件からNaOH量を2倍に増量し、高pH条件での感度向上の有無と、バックグラウンド...,- ① 純水：20 mL\n- ② HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）...,### 手順1\n\n1．試薬Aを作成\n1-1.①～③の分量を測定＆記録して、ビーカーに入...
7,8_ID1-3_2,,- ① 純水：20 mL\n- ② HbA1c捕捉抗体1（マウスモノクローナル，全長IgG）...,### 手順1\n\n1．試薬Aを作成\n1-1.①～③の分量を測定＆記録して、ビーカーに入...
8,9_ID4-50_1,4-21〜4-22 および 4-41〜4-49 の検討結果を踏まえ、NPG/C8–C10 ポ...,- 原料1：ネオペンチルグリコール(NPG) 1.0 mol\n- 原料2：高純度C8–C1...,### 合成手順①\n\n1 L ジャケット付きガラス反応器に原料1〜3を秤量投入し、窒素 ...
9,10_ID4-50_2,,- 原料1：ネオペンチルグリコール(NPG) 1.0 mol\n- 原料2：高純度C8–C1...,### 合成手順①\n\n1 L ジャケット付きガラス反応器に原料1〜3を秤量投入し、窒素 ...


## relevance_df


Unnamed: 0,test_id,name,gain
0,1_ID1-2_1,実験ノート ID1-2,1.000000
1,1_ID1-2_1,実験ノート ID2-16,0.966667
2,1_ID1-2_1,実験ノート ID1-3,0.866667
3,1_ID1-2_1,実験ノート ID2-21,0.833333
4,1_ID1-2_1,実験ノート ID2-47,0.800000
...,...,...,...
120,10_ID4-50_2,実験ノート ID4-49,0.650000
121,10_ID4-50_2,実験ノート ID4-21,0.650000
122,10_ID4-50_2,実験ノート ID4-9,0.650000
123,10_ID4-50_2,実験ノート ID4-15,0.650000


#### nDCGスコア算出関数

In [61]:
def calc_ndcg(retrieved_df, relevance_df, k, trace=False): # -> ndcg
    # 読み込んだCSVクエリ-想定順位より、レシピデータセットを検索、
    # 検索結果のランクを出力、relevanceとマージしてnDCGスコアを計算
    # TopKのK値で足切りされた料理の順位ランクは0(同率最下位)とする
    ndcgs = []
    name_df = pd.DataFrame({'name': notes_dic.keys()}) # 料理名一覧
    # nCDG@K計算用に各データをマージ
    result_df = name_df.copy() # 料理名一覧
    result_df = pd.merge(result_df, retrieved_df, how='left')                  # 検索順位(TopKまで)をマージ
    result_df = pd.merge(result_df, relevance_df[['name','gain']], how='left') # 関連度をマージ
    result_df = result_df.dropna(subset=["score", "gain"], how="all")          # 両方NaNを削除
    result_df = result_df.fillna(0).sort_values('score', ascending=False).reset_index(drop=True).copy() # 残りを0埋め、ソート

    # nCDG@K (K=TopK)
    ndcg = ndcg_score(result_df['gain' ].to_numpy().reshape(1, -1), 
                      result_df['score'].to_numpy().reshape(1, -1),
                      k=k)
    if trace:
        print(f"## k={TopK}, nDCG Score = {ndcg:.6f}")
        display(result_df)

    return ndcg

#### Case Retrieve(note)

In [62]:
### チャンク(ChromaDB)の類似検索 =============

# Retrive関数 -----------------
def retrieve(queries_dic, k=10, trace=False): 
    # queries_dic: {Section:クエリ, ...} -> [[ノート名, 順位ランク], ...] k個のリストのリスト
    if trace:
        print(f"### Retrieve: query=\n「{queries_dic}」, k={k} ") 

    section = 'all'
    query = queries_dic[section]
    
    # --- クエリをembedding ---
    query_emb = get_embeddings(query)

    # ChromaDBで類似検索（＝retrieval）=======
    results = collection.query(
        query_embeddings=query_emb,
        n_results = 4*k,
        include = ['documents', 'metadatas', 'distances'],
        where = {'section': section}         # metadataでのfilter条件
    )
    retreaved_docs    = results['documents'][0]
    retreaved_sources = [m['source'] for m in results['metadatas'][0]]
    retreaved_dists   = results['distances'][0]
    retreaved_df = pd.DataFrame({
        'docs': retreaved_docs,
        'name': retreaved_sources,
        'dist': retreaved_dists
    })
    if trace:
        display(retreaved_df)

    return retreaved_df[['name','dist']].head(k)

In [63]:
trace = False

TopK = 10

ndcgs_df = pd.DataFrame({'Test_ID': testquery_df['test_id'].values.tolist() + ['#MEAN']}) # ndcgsの入れ物
name_df = pd.DataFrame({'name': notes_dic.keys()}) # 料理名一覧
for emb_type in list(EmbeddingType):
    EMBEDDING_MODEL = emb_type   # モデルを指定
    print(f"\n### Case: retrieve_by_note, EMBEDDING_MODEL={EMBEDDING_MODEL}, TopK = {TopK}")
    collection = setup_collection(notes_dic)   # 次元が変わるため、collection(VectorStore)を再作成
    emb_model = str(EMBEDDING_MODEL).split('.')[1]

    ndcgs = []
    test_ids = []
    for i, row in list(testquery_df.iterrows()):       # テストケース毎に
        queries = [row['purpose'].strip(), row['materials'].strip(), row['methods'].strip()]  # クエリを抽出
        queries_lst = ['\n'.join([s for s in queries if s])] + queries 
        queries_dic = {s: q if q != '' else '' for q, s in zip(queries_lst, ['all','目的','材料','手順'])}
        test_id = row['test_id']
        test_ids.append(test_id)
    
        # 検索実行（個別のクエリで検索）
        retrieved_df = retrieve(queries_dic, k=TopK) # クエリ方法を指定して実行
        retrieved_df['score'] = 1.0 - retrieved_df['dist']   # dist(値小=高ランク)をscore(値大=高ランク)に
        retrieved_df = retrieved_df.drop(columns=['dist']).sort_values('score', ascending=False)
        print(f"\n## Retrieval Result: test_id={test_id}")
        display(retrieved_df)

        ndcg = calc_ndcg(retrieved_df, relevance_df.query("test_id==@test_id"), k=TopK, trace=True)
        ndcgs.append(ndcg)
        print(f"## {test_id}: nDCG Score = {ndcg:.6f}")

    ndcgs_mean = np.array(ndcgs).mean()
    print(f"### Case: retrieve_by_note, EMBEDDING_MODEL={EMBEDDING_MODEL}: nDCG Score Mean = {ndcgs_mean:.6f}")
    wk_df = pd.DataFrame({'Test_ID':test_ids + ['#MEAN'], f"{emb_model} nDCG Score":ndcgs + [ndcgs_mean]})
    ndcgs_df = pd.merge(ndcgs_df, wk_df, how='left')
    display(ndcgs_df)

ndcgs_retrieve_df = ndcgs_df.assign(logic='retrieve')


### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.GEMINI, TopK = 10


100%|███████████████████████████████████████████| 34/34 [01:08<00:00,  2.02s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.972142
1,実験ノート ID1-3,0.956184
2,実験ノート ID1-5,0.9544
3,実験ノート ID2-16,0.94703
4,実験ノート ID2-46,0.942586
5,実験ノート ID2-47,0.941489
6,実験ノート ID1-1,0.941407
7,実験ノート ID2-48,0.93957
8,実験ノート ID1-20,0.934796
9,実験ノート ID1-80,0.93437


## k=10, nDCG Score = 0.771272


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.972142,1.0
1,実験ノート ID1-3,0.956184,0.866667
2,実験ノート ID1-5,0.9544,0.0
3,実験ノート ID2-16,0.94703,0.966667
4,実験ノート ID2-46,0.942586,0.766667
5,実験ノート ID2-47,0.941489,0.8
6,実験ノート ID1-1,0.941407,0.733333
7,実験ノート ID2-48,0.93957,0.733333
8,実験ノート ID1-20,0.934796,0.0
9,実験ノート ID1-80,0.93437,0.0


## 1_ID1-2_1: nDCG Score = 0.771272

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-2,0.948279
1,実験ノート ID1-1,0.947811
2,実験ノート ID1-5,0.946919
3,実験ノート ID1-3,0.945868
4,実験ノート ID1-20,0.94475
5,実験ノート ID1-91,0.943704
6,実験ノート ID1-23,0.943059
7,実験ノート ID1-80,0.942245
8,実験ノート ID1-21,0.942188
9,実験ノート ID1-11,0.941694


## k=10, nDCG Score = 0.562039


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.948279,1.0
1,実験ノート ID1-1,0.947811,0.95
2,実験ノート ID1-5,0.946919,0.9
3,実験ノート ID1-3,0.945868,0.9
4,実験ノート ID1-20,0.94475,0.0
5,実験ノート ID1-91,0.943704,0.0
6,実験ノート ID1-23,0.943059,0.0
7,実験ノート ID1-80,0.942245,0.0
8,実験ノート ID1-21,0.942188,0.0
9,実験ノート ID1-11,0.941694,0.0


## 2_ID1-2_2: nDCG Score = 0.562039

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.976638
1,実験ノート ID2-22,0.967469
2,実験ノート ID2-16,0.955574
3,実験ノート ID2-27,0.953417
4,実験ノート ID2-46,0.949611
5,実験ノート ID2-47,0.949461
6,実験ノート ID2-4,0.947068
7,実験ノート ID2-48,0.9469
8,実験ノート ID2-28,0.94655
9,実験ノート ID2-11,0.946271


## k=10, nDCG Score = 0.711899


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.976638,1.0
1,実験ノート ID2-22,0.967469,0.9
2,実験ノート ID2-16,0.955574,0.766667
3,実験ノート ID2-27,0.953417,0.0
4,実験ノート ID2-46,0.949611,0.766667
5,実験ノート ID2-47,0.949461,0.766667
6,実験ノート ID2-4,0.947068,0.0
7,実験ノート ID2-48,0.9469,0.0
8,実験ノート ID2-28,0.94655,0.766667
9,実験ノート ID2-11,0.946271,0.0


## 3_ID2-17_1: nDCG Score = 0.711899

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-27,0.955095
1,実験ノート ID2-48,0.952978
2,実験ノート ID2-11,0.95188
3,実験ノート ID2-18,0.951598
4,実験ノート ID2-21,0.95147
5,実験ノート ID2-1,0.951032
6,実験ノート ID2-45,0.950685
7,実験ノート ID2-26,0.950094
8,実験ノート ID2-25,0.950074
9,実験ノート ID2-17,0.950037


## k=10, nDCG Score = 0.225782


Unnamed: 0,name,score,gain
0,実験ノート ID2-27,0.955095,0.0
1,実験ノート ID2-48,0.952978,0.0
2,実験ノート ID2-11,0.95188,0.0
3,実験ノート ID2-18,0.951598,0.0
4,実験ノート ID2-21,0.95147,0.9
5,実験ノート ID2-1,0.951032,0.95
6,実験ノート ID2-45,0.950685,0.0
7,実験ノート ID2-26,0.950094,0.0
8,実験ノート ID2-25,0.950074,0.0
9,実験ノート ID2-17,0.950037,1.0


## 4_ID2-17_2: nDCG Score = 0.225782

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.982519
1,実験ノート ID3-9,0.96847
2,実験ノート ID3-20,0.962115
3,実験ノート ID3-48,0.960018
4,実験ノート ID3-12,0.959541
5,実験ノート ID3-69,0.958586
6,実験ノート ID3-5,0.956293
7,実験ノート ID3-74,0.956214
8,実験ノート ID3-79,0.953311
9,実験ノート ID3-21,0.953217


## k=10, nDCG Score = 0.780918


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.982519,1.0
1,実験ノート ID3-9,0.96847,0.633333
2,実験ノート ID3-20,0.962115,0.633333
3,実験ノート ID3-48,0.960018,0.633333
4,実験ノート ID3-12,0.959541,0.0
5,実験ノート ID3-69,0.958586,0.733333
6,実験ノート ID3-5,0.956293,0.666667
7,実験ノート ID3-74,0.956214,0.633333
8,実験ノート ID3-79,0.953311,0.0
9,実験ノート ID3-21,0.953217,0.0


## 5_ID3-30_1: nDCG Score = 0.780918

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-9,0.964117
1,実験ノート ID3-12,0.958846
2,実験ノート ID3-74,0.958772
3,実験ノート ID3-96,0.958398
4,実験ノート ID3-30,0.957152
5,実験ノート ID3-48,0.957018
6,実験ノート ID3-37,0.956986
7,実験ノート ID3-20,0.956568
8,実験ノート ID3-98,0.95627
9,実験ノート ID3-95,0.956219


## k=10, nDCG Score = 0.174166


Unnamed: 0,name,score,gain
0,実験ノート ID3-9,0.964117,0.0
1,実験ノート ID3-12,0.958846,0.0
2,実験ノート ID3-74,0.958772,0.0
3,実験ノート ID3-96,0.958398,0.0
4,実験ノート ID3-30,0.957152,1.0
5,実験ノート ID3-48,0.957018,0.75
6,実験ノート ID3-37,0.956986,0.0
7,実験ノート ID3-20,0.956568,0.0
8,実験ノート ID3-98,0.95627,0.0
9,実験ノート ID3-95,0.956219,0.0


## 6_ID3-30_2: nDCG Score = 0.174166

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.971075
1,実験ノート ID1-2,0.954634
2,実験ノート ID1-1,0.94087
3,実験ノート ID1-5,0.93959
4,実験ノート ID2-46,0.939361
5,実験ノート ID2-16,0.939272
6,実験ノート ID1-4,0.938585
7,実験ノート ID2-48,0.938088
8,実験ノート ID1-21,0.934634
9,実験ノート ID1-8,0.934603


## k=10, nDCG Score = 0.574621


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.971075,1.0
1,実験ノート ID1-2,0.954634,0.833333
2,実験ノート ID1-1,0.94087,0.8
3,実験ノート ID1-5,0.93959,0.0
4,実験ノート ID2-46,0.939361,0.0
5,実験ノート ID2-16,0.939272,0.9
6,実験ノート ID1-4,0.938585,0.0
7,実験ノート ID2-48,0.938088,0.0
8,実験ノート ID1-21,0.934634,0.0
9,実験ノート ID1-8,0.934603,0.0


## 7_ID1-3_1: nDCG Score = 0.574621

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.94802
1,実験ノート ID1-2,0.947266
2,実験ノート ID1-5,0.946007
3,実験ノート ID1-20,0.945534
4,実験ノート ID1-91,0.944695
5,実験ノート ID1-23,0.944539
6,実験ノート ID1-3,0.944448
7,実験ノート ID1-21,0.9435
8,実験ノート ID1-80,0.943233
9,実験ノート ID1-28,0.942781


## k=10, nDCG Score = 0.537990


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.94802,0.95
1,実験ノート ID1-2,0.947266,0.95
2,実験ノート ID1-5,0.946007,0.9
3,実験ノート ID1-20,0.945534,0.0
4,実験ノート ID1-91,0.944695,0.0
5,実験ノート ID1-23,0.944539,0.0
6,実験ノート ID1-3,0.944448,1.0
7,実験ノート ID1-21,0.9435,0.0
8,実験ノート ID1-80,0.943233,0.0
9,実験ノート ID1-28,0.942781,0.0


## 8_ID1-3_2: nDCG Score = 0.537990

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.982116
1,実験ノート ID4-48,0.947329
2,実験ノート ID4-44,0.945607
3,実験ノート ID4-41,0.945442
4,実験ノート ID4-42,0.944734
5,実験ノート ID4-45,0.943671
6,実験ノート ID4-15,0.942207
7,実験ノート ID4-43,0.941566
8,実験ノート ID4-21,0.940719
9,実験ノート ID4-9,0.9387


## k=10, nDCG Score = 0.821737


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.982116,1.0
1,実験ノート ID4-48,0.947329,0.733333
2,実験ノート ID4-44,0.945607,0.766667
3,実験ノート ID4-41,0.945442,0.766667
4,実験ノート ID4-42,0.944734,0.733333
5,実験ノート ID4-45,0.943671,0.8
6,実験ノート ID4-15,0.942207,0.0
7,実験ノート ID4-43,0.941566,0.733333
8,実験ノート ID4-21,0.940719,0.0
9,実験ノート ID4-9,0.9387,0.0


## 9_ID4-50_1: nDCG Score = 0.821737

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.961439
1,実験ノート ID4-15,0.940215
2,実験ノート ID4-45,0.937032
3,実験ノート ID4-9,0.936935
4,実験ノート ID4-21,0.930295
5,実験ノート ID4-48,0.927039
6,実験ノート ID4-42,0.926596
7,実験ノート ID4-43,0.926576
8,実験ノート ID4-44,0.926576
9,実験ノート ID4-22,0.925221


## k=10, nDCG Score = 0.981128


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.961439,1.0
1,実験ノート ID4-15,0.940215,0.65
2,実験ノート ID4-45,0.937032,0.8
3,実験ノート ID4-9,0.936935,0.65
4,実験ノート ID4-21,0.930295,0.65
5,実験ノート ID4-48,0.927039,0.7
6,実験ノート ID4-42,0.926596,0.65
7,実験ノート ID4-43,0.926576,0.7
8,実験ノート ID4-44,0.926576,0.75
9,実験ノート ID4-22,0.925221,0.7


## 10_ID4-50_2: nDCG Score = 0.981128
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.GEMINI: nDCG Score Mean = 0.614155


Unnamed: 0,Test_ID,GEMINI nDCG Score
0,1_ID1-2_1,0.771272
1,2_ID1-2_2,0.562039
2,3_ID2-17_1,0.711899
3,4_ID2-17_2,0.225782
4,5_ID3-30_1,0.780918
5,6_ID3-30_2,0.174166
6,7_ID1-3_1,0.574621
7,8_ID1-3_2,0.53799
8,9_ID4-50_1,0.821737
9,10_ID4-50_2,0.981128



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL, TopK = 10


100%|███████████████████████████████████████████| 34/34 [00:59<00:00,  1.76s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.974517
1,実験ノート ID1-3,0.951784
2,実験ノート ID1-32,0.938604
3,実験ノート ID1-41,0.934337
4,実験ノート ID1-59,0.93414
5,実験ノート ID1-51,0.932177
6,実験ノート ID1-12,0.929986
7,実験ノート ID1-28,0.929623
8,実験ノート ID1-5,0.929191
9,実験ノート ID1-30,0.92894


## k=10, nDCG Score = 0.394975


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.974517,1.0
1,実験ノート ID1-3,0.951784,0.866667
2,実験ノート ID1-32,0.938604,0.0
3,実験ノート ID1-41,0.934337,0.0
4,実験ノート ID1-59,0.93414,0.0
5,実験ノート ID1-51,0.932177,0.0
6,実験ノート ID1-12,0.929986,0.0
7,実験ノート ID1-28,0.929623,0.0
8,実験ノート ID1-5,0.929191,0.0
9,実験ノート ID1-30,0.92894,0.0


## 1_ID1-2_1: nDCG Score = 0.394975

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-21,0.947246
1,実験ノート ID1-28,0.947209
2,実験ノート ID1-30,0.942368
3,実験ノート ID1-41,0.941841
4,実験ノート ID1-51,0.940407
5,実験ノート ID1-16,0.939921
6,実験ノート ID1-25,0.939723
7,実験ノート ID1-26,0.939572
8,実験ノート ID1-38,0.938881
9,実験ノート ID1-37,0.938874


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID1-21,0.947246,0.0
1,実験ノート ID1-28,0.947209,0.0
2,実験ノート ID1-30,0.942368,0.0
3,実験ノート ID1-41,0.941841,0.0
4,実験ノート ID1-51,0.940407,0.0
5,実験ノート ID1-16,0.939921,0.0
6,実験ノート ID1-25,0.939723,0.0
7,実験ノート ID1-26,0.939572,0.0
8,実験ノート ID1-38,0.938881,0.0
9,実験ノート ID1-37,0.938874,0.0


## 2_ID1-2_2: nDCG Score = 0.000000

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.98006
1,実験ノート ID2-22,0.961363
2,実験ノート ID2-27,0.909996
3,実験ノート ID2-5,0.909265
4,実験ノート ID2-59,0.907382
5,実験ノート ID2-46,0.905516
6,実験ノート ID2-2,0.903501
7,実験ノート ID2-4,0.900988
8,実験ノート ID2-6,0.895844
9,実験ノート ID2-69,0.89426


## k=10, nDCG Score = 0.476282


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.98006,1.0
1,実験ノート ID2-22,0.961363,0.9
2,実験ノート ID2-27,0.909996,0.0
3,実験ノート ID2-5,0.909265,0.0
4,実験ノート ID2-59,0.907382,0.0
5,実験ノート ID2-46,0.905516,0.766667
6,実験ノート ID2-2,0.903501,0.0
7,実験ノート ID2-4,0.900988,0.0
8,実験ノート ID2-6,0.895844,0.0
9,実験ノート ID2-69,0.89426,0.0


## 3_ID2-17_1: nDCG Score = 0.476282

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-5,0.942798
1,実験ノート ID2-31,0.931772
2,実験ノート ID2-12,0.927291
3,実験ノート ID2-27,0.924099
4,実験ノート ID2-1,0.92337
5,実験ノート ID2-18,0.920304
6,実験ノート ID2-34,0.917982
7,実験ノート ID2-30,0.915465
8,実験ノート ID2-42,0.915185
9,実験ノート ID1-51,0.91346


## k=10, nDCG Score = 0.304901


Unnamed: 0,name,score,gain
0,実験ノート ID2-5,0.942798,0.95
1,実験ノート ID2-31,0.931772,0.0
2,実験ノート ID2-12,0.927291,0.0
3,実験ノート ID2-27,0.924099,0.0
4,実験ノート ID2-1,0.92337,0.95
5,実験ノート ID2-18,0.920304,0.0
6,実験ノート ID2-34,0.917982,0.0
7,実験ノート ID2-30,0.915465,0.0
8,実験ノート ID2-42,0.915185,0.0
9,実験ノート ID1-51,0.91346,0.0


## 4_ID2-17_2: nDCG Score = 0.304901

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.975705
1,実験ノート ID3-20,0.939587
2,実験ノート ID3-9,0.936595
3,実験ノート ID3-74,0.927374
4,実験ノート ID3-69,0.924923
5,実験ノート ID3-18,0.924444
6,実験ノート ID3-12,0.920821
7,実験ノート ID3-23,0.918481
8,実験ノート ID3-48,0.915597
9,実験ノート ID3-73,0.914044


## k=10, nDCG Score = 0.787478


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.975705,1.0
1,実験ノート ID3-20,0.939587,0.633333
2,実験ノート ID3-9,0.936595,0.633333
3,実験ノート ID3-74,0.927374,0.633333
4,実験ノート ID3-69,0.924923,0.733333
5,実験ノート ID3-18,0.924444,0.0
6,実験ノート ID3-12,0.920821,0.0
7,実験ノート ID3-23,0.918481,0.733333
8,実験ノート ID3-48,0.915597,0.633333
9,実験ノート ID3-73,0.914044,0.0


## 5_ID3-30_1: nDCG Score = 0.787478

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-2,0.949859
1,実験ノート ID3-10,0.944499
2,実験ノート ID3-73,0.94228
3,実験ノート ID3-77,0.941167
4,実験ノート ID3-24,0.940774
5,実験ノート ID3-83,0.940691
6,実験ノート ID3-67,0.940056
7,実験ノート ID3-79,0.938782
8,実験ノート ID3-49,0.938334
9,実験ノート ID3-88,0.938125


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-2,0.949859,0.0
1,実験ノート ID3-10,0.944499,0.0
2,実験ノート ID3-73,0.94228,0.0
3,実験ノート ID3-77,0.941167,0.0
4,実験ノート ID3-24,0.940774,0.0
5,実験ノート ID3-83,0.940691,0.0
6,実験ノート ID3-67,0.940056,0.0
7,実験ノート ID3-79,0.938782,0.0
8,実験ノート ID3-49,0.938334,0.0
9,実験ノート ID3-88,0.938125,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.974059
1,実験ノート ID1-2,0.962488
2,実験ノート ID1-32,0.937367
3,実験ノート ID1-49,0.933432
4,実験ノート ID1-12,0.930363
5,実験ノート ID1-59,0.928118
6,実験ノート ID1-41,0.927987
7,実験ノート ID1-30,0.926781
8,実験ノート ID1-33,0.92512
9,実験ノート ID1-48,0.925037


## k=10, nDCG Score = 0.390294


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.974059,1.0
1,実験ノート ID1-2,0.962488,0.833333
2,実験ノート ID1-32,0.937367,0.0
3,実験ノート ID1-49,0.933432,0.0
4,実験ノート ID1-12,0.930363,0.0
5,実験ノート ID1-59,0.928118,0.0
6,実験ノート ID1-41,0.927987,0.0
7,実験ノート ID1-30,0.926781,0.0
8,実験ノート ID1-33,0.92512,0.0
9,実験ノート ID1-48,0.925037,0.0


## 7_ID1-3_1: nDCG Score = 0.390294

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-21,0.947629
1,実験ノート ID1-28,0.947514
2,実験ノート ID1-30,0.942837
3,実験ノート ID1-41,0.942488
4,実験ノート ID1-51,0.941108
5,実験ノート ID1-16,0.940475
6,実験ノート ID1-25,0.940181
7,実験ノート ID1-26,0.940098
8,実験ノート ID1-59,0.939369
9,実験ノート ID1-37,0.939336


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID1-21,0.947629,0.0
1,実験ノート ID1-28,0.947514,0.0
2,実験ノート ID1-30,0.942837,0.0
3,実験ノート ID1-41,0.942488,0.0
4,実験ノート ID1-51,0.941108,0.0
5,実験ノート ID1-16,0.940475,0.0
6,実験ノート ID1-25,0.940181,0.0
7,実験ノート ID1-26,0.940098,0.0
8,実験ノート ID1-59,0.939369,0.0
9,実験ノート ID1-37,0.939336,0.0


## 8_ID1-3_2: nDCG Score = 0.000000

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.987683
1,実験ノート ID4-43,0.942606
2,実験ノート ID4-44,0.940435
3,実験ノート ID4-48,0.937598
4,実験ノート ID4-41,0.937158
5,実験ノート ID4-42,0.929311
6,実験ノート ID4-45,0.9131
7,実験ノート ID4-46,0.902094
8,実験ノート ID4-49,0.888975
9,実験ノート ID4-15,0.888433


## k=10, nDCG Score = 0.940911


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.987683,1.0
1,実験ノート ID4-43,0.942606,0.733333
2,実験ノート ID4-44,0.940435,0.766667
3,実験ノート ID4-48,0.937598,0.733333
4,実験ノート ID4-41,0.937158,0.766667
5,実験ノート ID4-42,0.929311,0.733333
6,実験ノート ID4-45,0.9131,0.8
7,実験ノート ID4-46,0.902094,0.7
8,実験ノート ID4-49,0.888975,0.666667
9,実験ノート ID4-15,0.888433,0.0


## 9_ID4-50_1: nDCG Score = 0.940911

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-15,0.923921
1,実験ノート ID4-21,0.921237
2,実験ノート ID4-22,0.915265
3,実験ノート ID4-50,0.909034
4,実験ノート ID4-9,0.90695
5,実験ノート ID4-2,0.902735
6,実験ノート ID4-45,0.901099
7,実験ノート ID4-41,0.897012
8,実験ノート ID4-39,0.896757
9,実験ノート ID4-24,0.895744


## k=10, nDCG Score = 0.732189


Unnamed: 0,name,score,gain
0,実験ノート ID4-15,0.923921,0.65
1,実験ノート ID4-21,0.921237,0.65
2,実験ノート ID4-22,0.915265,0.7
3,実験ノート ID4-50,0.909034,1.0
4,実験ノート ID4-9,0.90695,0.65
5,実験ノート ID4-2,0.902735,0.0
6,実験ノート ID4-45,0.901099,0.8
7,実験ノート ID4-41,0.897012,0.7
8,実験ノート ID4-39,0.896757,0.0
9,実験ノート ID4-24,0.895744,0.0


## 10_ID4-50_2: nDCG Score = 0.732189
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL: nDCG Score Mean = 0.402703


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score
0,1_ID1-2_1,0.771272,0.394975
1,2_ID1-2_2,0.562039,0.0
2,3_ID2-17_1,0.711899,0.476282
3,4_ID2-17_2,0.225782,0.304901
4,5_ID3-30_1,0.780918,0.787478
5,6_ID3-30_2,0.174166,0.0
6,7_ID1-3_1,0.574621,0.390294
7,8_ID1-3_2,0.53799,0.0
8,9_ID4-50_1,0.821737,0.940911
9,10_ID4-50_2,0.981128,0.732189



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE, TopK = 10


100%|███████████████████████████████████████████| 34/34 [00:56<00:00,  1.66s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.964051
1,実験ノート ID1-3,0.931228
2,実験ノート ID1-30,0.924628
3,実験ノート ID1-56,0.923478
4,実験ノート ID1-32,0.922768
5,実験ノート ID1-12,0.920749
6,実験ノート ID1-77,0.920671
7,実験ノート ID1-57,0.919685
8,実験ノート ID1-53,0.918584
9,実験ノート ID1-79,0.917968


## k=10, nDCG Score = 0.394975


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.964051,1.0
1,実験ノート ID1-3,0.931228,0.866667
2,実験ノート ID1-30,0.924628,0.0
3,実験ノート ID1-56,0.923478,0.0
4,実験ノート ID1-32,0.922768,0.0
5,実験ノート ID1-12,0.920749,0.0
6,実験ノート ID1-77,0.920671,0.0
7,実験ノート ID1-57,0.919685,0.0
8,実験ノート ID1-53,0.918584,0.0
9,実験ノート ID1-79,0.917968,0.0


## 1_ID1-2_1: nDCG Score = 0.394975

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-30,0.935273
1,実験ノート ID1-56,0.932472
2,実験ノート ID1-19,0.931576
3,実験ノート ID1-20,0.930113
4,実験ノート ID1-25,0.929808
5,実験ノート ID1-53,0.926689
6,実験ノート ID1-77,0.926019
7,実験ノート ID1-52,0.924806
8,実験ノート ID1-31,0.920274
9,実験ノート ID1-40,0.918824


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID1-30,0.935273,0.0
1,実験ノート ID1-56,0.932472,0.0
2,実験ノート ID1-19,0.931576,0.0
3,実験ノート ID1-20,0.930113,0.0
4,実験ノート ID1-25,0.929808,0.0
5,実験ノート ID1-53,0.926689,0.0
6,実験ノート ID1-77,0.926019,0.0
7,実験ノート ID1-52,0.924806,0.0
8,実験ノート ID1-31,0.920274,0.0
9,実験ノート ID1-40,0.918824,0.0


## 2_ID1-2_2: nDCG Score = 0.000000

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.960061
1,実験ノート ID2-22,0.933352
2,実験ノート ID2-27,0.899341
3,実験ノート ID2-16,0.892926
4,実験ノート ID2-4,0.885787
5,実験ノート ID2-2,0.885634
6,実験ノート ID2-11,0.885577
7,実験ノート ID2-23,0.884548
8,実験ノート ID2-46,0.877429
9,実験ノート ID2-18,0.87499


## k=10, nDCG Score = 0.550762


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.960061,1.0
1,実験ノート ID2-22,0.933352,0.9
2,実験ノート ID2-27,0.899341,0.0
3,実験ノート ID2-16,0.892926,0.766667
4,実験ノート ID2-4,0.885787,0.0
5,実験ノート ID2-2,0.885634,0.0
6,実験ノート ID2-11,0.885577,0.0
7,実験ノート ID2-23,0.884548,0.0
8,実験ノート ID2-46,0.877429,0.766667
9,実験ノート ID2-18,0.87499,0.0


## 3_ID2-17_1: nDCG Score = 0.550762

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-12,0.929962
1,実験ノート ID2-27,0.916884
2,実験ノート ID2-26,0.913845
3,実験ノート ID2-2,0.905302
4,実験ノート ID2-4,0.900512
5,実験ノート ID2-11,0.899455
6,実験ノート ID2-14,0.896101
7,実験ノート ID2-13,0.894339
8,実験ノート ID2-22,0.893426
9,実験ノート ID2-44,0.890508


## k=10, nDCG Score = 0.066182


Unnamed: 0,name,score,gain
0,実験ノート ID2-12,0.929962,0.0
1,実験ノート ID2-27,0.916884,0.0
2,実験ノート ID2-26,0.913845,0.0
3,実験ノート ID2-2,0.905302,0.0
4,実験ノート ID2-4,0.900512,0.0
5,実験ノート ID2-11,0.899455,0.0
6,実験ノート ID2-14,0.896101,0.0
7,実験ノート ID2-13,0.894339,0.0
8,実験ノート ID2-22,0.893426,0.95
9,実験ノート ID2-44,0.890508,0.0


## 4_ID2-17_2: nDCG Score = 0.066182

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.974541
1,実験ノート ID3-9,0.921574
2,実験ノート ID3-23,0.903394
3,実験ノート ID3-20,0.901192
4,実験ノート ID3-2,0.900719
5,実験ノート ID3-69,0.899039
6,実験ノート ID3-48,0.89835
7,実験ノート ID3-5,0.897884
8,実験ノート ID3-21,0.891127
9,実験ノート ID3-27,0.888242


## k=10, nDCG Score = 0.795355


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.974541,1.0
1,実験ノート ID3-9,0.921574,0.633333
2,実験ノート ID3-23,0.903394,0.733333
3,実験ノート ID3-20,0.901192,0.633333
4,実験ノート ID3-2,0.900719,0.0
5,実験ノート ID3-69,0.899039,0.733333
6,実験ノート ID3-48,0.89835,0.633333
7,実験ノート ID3-5,0.897884,0.666667
8,実験ノート ID3-21,0.891127,0.0
9,実験ノート ID3-27,0.888242,0.0


## 5_ID3-30_1: nDCG Score = 0.795355

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-82,0.931959
1,実験ノート ID3-88,0.931482
2,実験ノート ID3-2,0.924082
3,実験ノート ID3-70,0.922204
4,実験ノート ID3-76,0.922138
5,実験ノート ID3-96,0.919596
6,実験ノート ID3-93,0.916339
7,実験ノート ID3-74,0.913056
8,実験ノート ID3-23,0.912323
9,実験ノート ID3-91,0.912192


## k=10, nDCG Score = 0.064133


Unnamed: 0,name,score,gain
0,実験ノート ID3-82,0.931959,0.0
1,実験ノート ID3-88,0.931482,0.0
2,実験ノート ID3-2,0.924082,0.0
3,実験ノート ID3-70,0.922204,0.0
4,実験ノート ID3-76,0.922138,0.0
5,実験ノート ID3-96,0.919596,0.0
6,実験ノート ID3-93,0.916339,0.0
7,実験ノート ID3-74,0.913056,0.0
8,実験ノート ID3-23,0.912323,0.8
9,実験ノート ID3-91,0.912192,0.0


## 6_ID3-30_2: nDCG Score = 0.064133

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.969166
1,実験ノート ID1-2,0.93493
2,実験ノート ID1-30,0.917754
3,実験ノート ID1-13,0.912476
4,実験ノート ID1-32,0.911755
5,実験ノート ID1-12,0.908476
6,実験ノート ID1-53,0.90726
7,実験ノート ID1-33,0.90545
8,実験ノート ID1-19,0.904589
9,実験ノート ID1-56,0.90387


## k=10, nDCG Score = 0.390294


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.969166,1.0
1,実験ノート ID1-2,0.93493,0.833333
2,実験ノート ID1-30,0.917754,0.0
3,実験ノート ID1-13,0.912476,0.0
4,実験ノート ID1-32,0.911755,0.0
5,実験ノート ID1-12,0.908476,0.0
6,実験ノート ID1-53,0.90726,0.0
7,実験ノート ID1-33,0.90545,0.0
8,実験ノート ID1-19,0.904589,0.0
9,実験ノート ID1-56,0.90387,0.0


## 7_ID1-3_1: nDCG Score = 0.390294

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-30,0.93578
1,実験ノート ID1-56,0.933036
2,実験ノート ID1-19,0.932313
3,実験ノート ID1-20,0.930727
4,実験ノート ID1-25,0.929274
5,実験ノート ID1-53,0.927696
6,実験ノート ID1-77,0.927237
7,実験ノート ID1-52,0.925683
8,実験ノート ID1-31,0.920967
9,実験ノート ID1-40,0.920066


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID1-30,0.93578,0.0
1,実験ノート ID1-56,0.933036,0.0
2,実験ノート ID1-19,0.932313,0.0
3,実験ノート ID1-20,0.930727,0.0
4,実験ノート ID1-25,0.929274,0.0
5,実験ノート ID1-53,0.927696,0.0
6,実験ノート ID1-77,0.927237,0.0
7,実験ノート ID1-52,0.925683,0.0
8,実験ノート ID1-31,0.920967,0.0
9,実験ノート ID1-40,0.920066,0.0


## 8_ID1-3_2: nDCG Score = 0.000000

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.96387
1,実験ノート ID4-41,0.901557
2,実験ノート ID4-15,0.887487
3,実験ノート ID4-44,0.87116
4,実験ノート ID4-48,0.86822
5,実験ノート ID4-42,0.865436
6,実験ノート ID4-9,0.845877
7,実験ノート ID4-40,0.838617
8,実験ノート ID4-45,0.838137
9,実験ノート ID4-46,0.837573


## k=10, nDCG Score = 0.773634


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.96387,1.0
1,実験ノート ID4-41,0.901557,0.766667
2,実験ノート ID4-15,0.887487,0.0
3,実験ノート ID4-44,0.87116,0.766667
4,実験ノート ID4-48,0.86822,0.733333
5,実験ノート ID4-42,0.865436,0.733333
6,実験ノート ID4-9,0.845877,0.0
7,実験ノート ID4-40,0.838617,0.0
8,実験ノート ID4-45,0.838137,0.8
9,実験ノート ID4-46,0.837573,0.7


## 9_ID4-50_1: nDCG Score = 0.773634

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.901949
1,実験ノート ID4-15,0.875195
2,実験ノート ID4-41,0.856567
3,実験ノート ID4-10,0.850261
4,実験ノート ID4-6,0.848171
5,実験ノート ID4-3,0.840217
6,実験ノート ID4-44,0.83912
7,実験ノート ID4-17,0.830409
8,実験ノート ID4-42,0.830229
9,実験ノート ID4-16,0.828886


## k=10, nDCG Score = 0.626052


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.901949,1.0
1,実験ノート ID4-15,0.875195,0.65
2,実験ノート ID4-41,0.856567,0.7
3,実験ノート ID4-10,0.850261,0.0
4,実験ノート ID4-6,0.848171,0.0
5,実験ノート ID4-3,0.840217,0.0
6,実験ノート ID4-44,0.83912,0.75
7,実験ノート ID4-17,0.830409,0.0
8,実験ノート ID4-42,0.830229,0.65
9,実験ノート ID4-16,0.828886,0.0


## 10_ID4-50_2: nDCG Score = 0.626052
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE: nDCG Score Mean = 0.366139


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score
0,1_ID1-2_1,0.771272,0.394975,0.394975
1,2_ID1-2_2,0.562039,0.0,0.0
2,3_ID2-17_1,0.711899,0.476282,0.550762
3,4_ID2-17_2,0.225782,0.304901,0.066182
4,5_ID3-30_1,0.780918,0.787478,0.795355
5,6_ID3-30_2,0.174166,0.0,0.064133
6,7_ID1-3_1,0.574621,0.390294,0.390294
7,8_ID1-3_2,0.53799,0.0,0.0
8,9_ID4-50_1,0.821737,0.940911,0.773634
9,10_ID4-50_2,0.981128,0.732189,0.626052



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.PLAMO, TopK = 10


100%|████████████████████████████████████████| 34/34 [2:26:19<00:00, 258.23s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.985671
1,実験ノート ID1-5,0.976209
2,実験ノート ID1-46,0.971373
3,実験ノート ID1-7,0.970183
4,実験ノート ID1-48,0.969756
5,実験ノート ID1-11,0.969504
6,実験ノート ID1-9,0.968439
7,実験ノート ID1-12,0.967748
8,実験ノート ID1-21,0.964823
9,実験ノート ID1-31,0.96402


## k=10, nDCG Score = 0.255349


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.985671,1.0
1,実験ノート ID1-5,0.976209,0.0
2,実験ノート ID1-46,0.971373,0.0
3,実験ノート ID1-7,0.970183,0.0
4,実験ノート ID1-48,0.969756,0.0
5,実験ノート ID1-11,0.969504,0.0
6,実験ノート ID1-9,0.968439,0.0
7,実験ノート ID1-12,0.967748,0.0
8,実験ノート ID1-21,0.964823,0.0
9,実験ノート ID1-31,0.96402,0.0


## 1_ID1-2_1: nDCG Score = 0.255349

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-81,0.970726
1,実験ノート ID1-11,0.96975
2,実験ノート ID1-46,0.967909
3,実験ノート ID1-77,0.966049
4,実験ノート ID1-31,0.965826
5,実験ノート ID1-72,0.964795
6,実験ノート ID1-21,0.962723
7,実験ノート ID1-9,0.961619
8,実験ノート ID1-36,0.961613
9,実験ノート ID1-12,0.961327


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID1-81,0.970726,0.0
1,実験ノート ID1-11,0.96975,0.0
2,実験ノート ID1-46,0.967909,0.0
3,実験ノート ID1-77,0.966049,0.0
4,実験ノート ID1-31,0.965826,0.0
5,実験ノート ID1-72,0.964795,0.0
6,実験ノート ID1-21,0.962723,0.0
7,実験ノート ID1-9,0.961619,0.0
8,実験ノート ID1-36,0.961613,0.0
9,実験ノート ID1-12,0.961327,0.0


## 2_ID1-2_2: nDCG Score = 0.000000

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.995056
1,実験ノート ID2-22,0.985871
2,実験ノート ID2-5,0.976725
3,実験ノート ID2-13,0.975804
4,実験ノート ID2-2,0.974665
5,実験ノート ID2-76,0.973164
6,実験ノート ID2-4,0.973118
7,実験ノート ID2-14,0.971907
8,実験ノート ID2-85,0.971461
9,実験ノート ID2-78,0.971155


## k=10, nDCG Score = 0.405628


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.995056,1.0
1,実験ノート ID2-22,0.985871,0.9
2,実験ノート ID2-5,0.976725,0.0
3,実験ノート ID2-13,0.975804,0.0
4,実験ノート ID2-2,0.974665,0.0
5,実験ノート ID2-76,0.973164,0.0
6,実験ノート ID2-4,0.973118,0.0
7,実験ノート ID2-14,0.971907,0.0
8,実験ノート ID2-85,0.971461,0.0
9,実験ノート ID2-78,0.971155,0.0


## 3_ID2-17_1: nDCG Score = 0.405628

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-76,0.98285
1,実験ノート ID2-72,0.981303
2,実験ノート ID2-78,0.981152
3,実験ノート ID2-82,0.978312
4,実験ノート ID2-89,0.977181
5,実験ノート ID2-87,0.97711
6,実験ノート ID2-27,0.976956
7,実験ノート ID2-65,0.976401
8,実験ノート ID2-21,0.976388
9,実験ノート ID2-85,0.975946


## k=10, nDCG Score = 0.062699


Unnamed: 0,name,score,gain
0,実験ノート ID2-76,0.98285,0.0
1,実験ノート ID2-72,0.981303,0.0
2,実験ノート ID2-78,0.981152,0.0
3,実験ノート ID2-82,0.978312,0.0
4,実験ノート ID2-89,0.977181,0.0
5,実験ノート ID2-87,0.97711,0.0
6,実験ノート ID2-27,0.976956,0.0
7,実験ノート ID2-65,0.976401,0.0
8,実験ノート ID2-21,0.976388,0.9
9,実験ノート ID2-85,0.975946,0.0


## 4_ID2-17_2: nDCG Score = 0.062699

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.995135
1,実験ノート ID3-9,0.977222
2,実験ノート ID3-74,0.976721
3,実験ノート ID3-23,0.976645
4,実験ノート ID3-69,0.976645
5,実験ノート ID3-20,0.975694
6,実験ノート ID3-6,0.974846
7,実験ノート ID3-28,0.974486
8,実験ノート ID3-75,0.97424
9,実験ノート ID3-80,0.974061


## k=10, nDCG Score = 0.810859


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.995135,1.0
1,実験ノート ID3-9,0.977222,0.633333
2,実験ノート ID3-74,0.976721,0.633333
3,実験ノート ID3-23,0.976645,0.733333
4,実験ノート ID3-69,0.976645,0.733333
5,実験ノート ID3-20,0.975694,0.633333
6,実験ノート ID3-6,0.974846,0.7
7,実験ノート ID3-28,0.974486,0.0
8,実験ノート ID3-75,0.97424,0.0
9,実験ノート ID3-80,0.974061,0.0


## 5_ID3-30_1: nDCG Score = 0.810859

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-19,0.979356
1,実験ノート ID3-83,0.978206
2,実験ノート ID3-88,0.976341
3,実験ノート ID3-77,0.976051
4,実験ノート ID3-82,0.975814
5,実験ノート ID3-71,0.975789
6,実験ノート ID3-10,0.975509
7,実験ノート ID3-97,0.97543
8,実験ノート ID3-94,0.975302
9,実験ノート ID3-65,0.975284


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-19,0.979356,0.0
1,実験ノート ID3-83,0.978206,0.0
2,実験ノート ID3-88,0.976341,0.0
3,実験ノート ID3-77,0.976051,0.0
4,実験ノート ID3-82,0.975814,0.0
5,実験ノート ID3-71,0.975789,0.0
6,実験ノート ID3-10,0.975509,0.0
7,実験ノート ID3-97,0.97543,0.0
8,実験ノート ID3-94,0.975302,0.0
9,実験ノート ID3-65,0.975284,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.988762
1,実験ノート ID1-9,0.970434
2,実験ノート ID1-24,0.968497
3,実験ノート ID1-5,0.968048
4,実験ノート ID1-4,0.967838
5,実験ノート ID1-47,0.965749
6,実験ノート ID1-7,0.965455
7,実験ノート ID1-29,0.964954
8,実験ノート ID1-2,0.964943
9,実験ノート ID1-35,0.963641


## k=10, nDCG Score = 0.319970


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.988762,1.0
1,実験ノート ID1-9,0.970434,0.0
2,実験ノート ID1-24,0.968497,0.0
3,実験ノート ID1-5,0.968048,0.0
4,実験ノート ID1-4,0.967838,0.0
5,実験ノート ID1-47,0.965749,0.0
6,実験ノート ID1-7,0.965455,0.0
7,実験ノート ID1-29,0.964954,0.0
8,実験ノート ID1-2,0.964943,0.833333
9,実験ノート ID1-35,0.963641,0.0


## 7_ID1-3_1: nDCG Score = 0.319970

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-81,0.970799
1,実験ノート ID1-11,0.969868
2,実験ノート ID1-46,0.968102
3,実験ノート ID1-77,0.966424
4,実験ノート ID1-31,0.966104
5,実験ノート ID1-72,0.965051
6,実験ノート ID1-21,0.963129
7,実験ノート ID1-36,0.962041
8,実験ノート ID1-9,0.961776
9,実験ノート ID1-1,0.961655


## k=10, nDCG Score = 0.063333


Unnamed: 0,name,score,gain
0,実験ノート ID1-81,0.970799,0.0
1,実験ノート ID1-11,0.969868,0.0
2,実験ノート ID1-46,0.968102,0.0
3,実験ノート ID1-77,0.966424,0.0
4,実験ノート ID1-31,0.966104,0.0
5,実験ノート ID1-72,0.965051,0.0
6,実験ノート ID1-21,0.963129,0.0
7,実験ノート ID1-36,0.962041,0.0
8,実験ノート ID1-9,0.961776,0.0
9,実験ノート ID1-1,0.961655,0.95


## 8_ID1-3_2: nDCG Score = 0.063333

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.998682
1,実験ノート ID4-44,0.972515
2,実験ノート ID4-45,0.971572
3,実験ノート ID4-43,0.969975
4,実験ノート ID4-41,0.968463
5,実験ノート ID4-15,0.968401
6,実験ノート ID4-9,0.967695
7,実験ノート ID4-26,0.966281
8,実験ノート ID4-42,0.964905
9,実験ノート ID4-22,0.964204


## k=10, nDCG Score = 0.803347


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.998682,1.0
1,実験ノート ID4-44,0.972515,0.766667
2,実験ノート ID4-45,0.971572,0.8
3,実験ノート ID4-43,0.969975,0.733333
4,実験ノート ID4-41,0.968463,0.766667
5,実験ノート ID4-15,0.968401,0.0
6,実験ノート ID4-9,0.967695,0.0
7,実験ノート ID4-26,0.966281,0.0
8,実験ノート ID4-42,0.964905,0.733333
9,実験ノート ID4-22,0.964204,0.666667


## 9_ID4-50_1: nDCG Score = 0.803347

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.992787
1,実験ノート ID4-15,0.970931
2,実験ノート ID4-44,0.970154
3,実験ノート ID4-45,0.968551
4,実験ノート ID4-2,0.968332
5,実験ノート ID4-3,0.967603
6,実験ノート ID4-43,0.967415
7,実験ノート ID4-9,0.967292
8,実験ノート ID4-41,0.967052
9,実験ノート ID4-5,0.965257


## k=10, nDCG Score = 0.788677


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.992787,1.0
1,実験ノート ID4-15,0.970931,0.65
2,実験ノート ID4-44,0.970154,0.75
3,実験ノート ID4-45,0.968551,0.8
4,実験ノート ID4-2,0.968332,0.0
5,実験ノート ID4-3,0.967603,0.0
6,実験ノート ID4-43,0.967415,0.7
7,実験ノート ID4-9,0.967292,0.65
8,実験ノート ID4-41,0.967052,0.7
9,実験ノート ID4-5,0.965257,0.0


## 10_ID4-50_2: nDCG Score = 0.788677
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.PLAMO: nDCG Score Mean = 0.350986


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score
0,1_ID1-2_1,0.771272,0.394975,0.394975,0.255349
1,2_ID1-2_2,0.562039,0.0,0.0,0.0
2,3_ID2-17_1,0.711899,0.476282,0.550762,0.405628
3,4_ID2-17_2,0.225782,0.304901,0.066182,0.062699
4,5_ID3-30_1,0.780918,0.787478,0.795355,0.810859
5,6_ID3-30_2,0.174166,0.0,0.064133,0.0
6,7_ID1-3_1,0.574621,0.390294,0.390294,0.31997
7,8_ID1-3_2,0.53799,0.0,0.0,0.063333
8,9_ID4-50_1,0.821737,0.940911,0.773634,0.803347
9,10_ID4-50_2,0.981128,0.732189,0.626052,0.788677



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.RURI, TopK = 10


100%|███████████████████████████████████████████| 34/34 [38:47<00:00, 68.44s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.990095
1,実験ノート ID1-1,0.964119
2,実験ノート ID1-3,0.961121
3,実験ノート ID3-24,0.957998
4,実験ノート ID1-5,0.957927
5,実験ノート ID1-48,0.957151
6,実験ノート ID2-47,0.956888
7,実験ノート ID1-12,0.956405
8,実験ノート ID1-32,0.956203
9,実験ノート ID1-7,0.954176


## k=10, nDCG Score = 0.552238


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.990095,1.0
1,実験ノート ID1-1,0.964119,0.733333
2,実験ノート ID1-3,0.961121,0.866667
3,実験ノート ID3-24,0.957998,0.0
4,実験ノート ID1-5,0.957927,0.0
5,実験ノート ID1-48,0.957151,0.0
6,実験ノート ID2-47,0.956888,0.8
7,実験ノート ID1-12,0.956405,0.0
8,実験ノート ID1-32,0.956203,0.0
9,実験ノート ID1-7,0.954176,0.0


## 1_ID1-2_1: nDCG Score = 0.552238

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.962153
1,実験ノート ID3-60,0.958034
2,実験ノート ID3-74,0.955968
3,実験ノート ID3-57,0.955945
4,実験ノート ID3-1,0.955246
5,実験ノート ID3-63,0.954808
6,実験ノート ID3-54,0.95339
7,実験ノート ID3-100,0.952722
8,実験ノート ID3-86,0.952634
9,実験ノート ID3-80,0.952611


## k=10, nDCG Score = 0.219097


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.962153,0.95
1,実験ノート ID3-60,0.958034,0.0
2,実験ノート ID3-74,0.955968,0.0
3,実験ノート ID3-57,0.955945,0.0
4,実験ノート ID3-1,0.955246,0.0
5,実験ノート ID3-63,0.954808,0.0
6,実験ノート ID3-54,0.95339,0.0
7,実験ノート ID3-100,0.952722,0.0
8,実験ノート ID3-86,0.952634,0.0
9,実験ノート ID3-80,0.952611,0.0


## 2_ID1-2_2: nDCG Score = 0.219097

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.989785
1,実験ノート ID2-22,0.981476
2,実験ノート ID2-27,0.975711
3,実験ノート ID2-42,0.972468
4,実験ノート ID2-46,0.967138
5,実験ノート ID2-48,0.96383
6,実験ノート ID2-47,0.963303
7,実験ノート ID2-82,0.9598
8,実験ノート ID2-13,0.959134
9,実験ノート ID2-7,0.958692


## k=10, nDCG Score = 0.548477


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.989785,1.0
1,実験ノート ID2-22,0.981476,0.9
2,実験ノート ID2-27,0.975711,0.0
3,実験ノート ID2-42,0.972468,0.0
4,実験ノート ID2-46,0.967138,0.766667
5,実験ノート ID2-48,0.96383,0.0
6,実験ノート ID2-47,0.963303,0.766667
7,実験ノート ID2-82,0.9598,0.0
8,実験ノート ID2-13,0.959134,0.0
9,実験ノート ID2-7,0.958692,0.0


## 3_ID2-17_1: nDCG Score = 0.548477

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-1,0.960729
1,実験ノート ID1-1,0.959212
2,実験ノート ID3-1,0.954037
3,実験ノート ID3-60,0.953655
4,実験ノート ID2-27,0.952458
5,実験ノート ID3-57,0.951947
6,実験ノート ID1-16,0.951752
7,実験ノート ID2-7,0.950999
8,実験ノート ID3-63,0.949319
9,実験ノート ID2-42,0.948586


## k=10, nDCG Score = 0.358562


Unnamed: 0,name,score,gain
0,実験ノート ID2-1,0.960729,0.95
1,実験ノート ID1-1,0.959212,0.95
2,実験ノート ID3-1,0.954037,0.0
3,実験ノート ID3-60,0.953655,0.0
4,実験ノート ID2-27,0.952458,0.0
5,実験ノート ID3-57,0.951947,0.0
6,実験ノート ID1-16,0.951752,0.0
7,実験ノート ID2-7,0.950999,0.0
8,実験ノート ID3-63,0.949319,0.0
9,実験ノート ID2-42,0.948586,0.0


## 4_ID2-17_2: nDCG Score = 0.358562

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.995105
1,実験ノート ID3-9,0.964648
2,実験ノート ID3-20,0.960132
3,実験ノート ID3-12,0.954553
4,実験ノート ID1-58,0.953303
5,実験ノート ID3-69,0.951789
6,実験ノート ID3-23,0.951552
7,実験ノート ID3-5,0.951136
8,実験ノート ID3-48,0.95111
9,実験ノート ID3-74,0.948977


## k=10, nDCG Score = 0.819990


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.995105,1.0
1,実験ノート ID3-9,0.964648,0.633333
2,実験ノート ID3-20,0.960132,0.633333
3,実験ノート ID3-12,0.954553,0.0
4,実験ノート ID1-58,0.953303,0.0
5,実験ノート ID3-69,0.951789,0.733333
6,実験ノート ID3-23,0.951552,0.733333
7,実験ノート ID3-5,0.951136,0.666667
8,実験ノート ID3-48,0.95111,0.633333
9,実験ノート ID3-74,0.948977,0.633333


## 5_ID3-30_1: nDCG Score = 0.819990

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-60,0.966362
1,実験ノート ID3-57,0.964943
2,実験ノート ID3-63,0.963848
3,実験ノート ID3-54,0.96201
4,実験ノート ID3-62,0.961826
5,実験ノート ID3-56,0.961508
6,実験ノート ID3-55,0.961196
7,実験ノート ID3-74,0.96084
8,実験ノート ID3-100,0.960809
9,実験ノート ID3-59,0.960719


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-60,0.966362,0.0
1,実験ノート ID3-57,0.964943,0.0
2,実験ノート ID3-63,0.963848,0.0
3,実験ノート ID3-54,0.96201,0.0
4,実験ノート ID3-62,0.961826,0.0
5,実験ノート ID3-56,0.961508,0.0
6,実験ノート ID3-55,0.961196,0.0
7,実験ノート ID3-74,0.96084,0.0
8,実験ノート ID3-100,0.960809,0.0
9,実験ノート ID3-59,0.960719,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.991015
1,実験ノート ID1-2,0.961666
2,実験ノート ID1-29,0.958836
3,実験ノート ID3-2,0.956546
4,実験ノート ID1-39,0.9562
5,実験ノート ID1-89,0.955678
6,実験ノート ID1-33,0.955372
7,実験ノート ID1-1,0.955284
8,実験ノート ID3-29,0.954494
9,実験ノート ID1-12,0.954403


## k=10, nDCG Score = 0.454851


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.991015,1.0
1,実験ノート ID1-2,0.961666,0.833333
2,実験ノート ID1-29,0.958836,0.0
3,実験ノート ID3-2,0.956546,0.0
4,実験ノート ID1-39,0.9562,0.0
5,実験ノート ID1-89,0.955678,0.0
6,実験ノート ID1-33,0.955372,0.0
7,実験ノート ID1-1,0.955284,0.8
8,実験ノート ID3-29,0.954494,0.0
9,実験ノート ID1-12,0.954403,0.0


## 7_ID1-3_1: nDCG Score = 0.454851

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.962471
1,実験ノート ID3-60,0.958609
2,実験ノート ID3-57,0.956477
3,実験ノート ID3-74,0.956222
4,実験ノート ID3-1,0.955726
5,実験ノート ID3-63,0.95537
6,実験ノート ID3-54,0.953928
7,実験ノート ID3-56,0.953112
8,実験ノート ID3-80,0.952796
9,実験ノート ID3-86,0.952794


## k=10, nDCG Score = 0.219097


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.962471,0.95
1,実験ノート ID3-60,0.958609,0.0
2,実験ノート ID3-57,0.956477,0.0
3,実験ノート ID3-74,0.956222,0.0
4,実験ノート ID3-1,0.955726,0.0
5,実験ノート ID3-63,0.95537,0.0
6,実験ノート ID3-54,0.953928,0.0
7,実験ノート ID3-56,0.953112,0.0
8,実験ノート ID3-80,0.952796,0.0
9,実験ノート ID3-86,0.952794,0.0


## 8_ID1-3_2: nDCG Score = 0.219097

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.993474
1,実験ノート ID4-41,0.960195
2,実験ノート ID4-48,0.946711
3,実験ノート ID4-44,0.946454
4,実験ノート ID4-42,0.945374
5,実験ノート ID4-45,0.943146
6,実験ノート ID4-21,0.94251
7,実験ノート ID4-43,0.941162
8,実験ノート ID4-15,0.941036
9,実験ノート ID4-9,0.93805


## k=10, nDCG Score = 0.822942


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.993474,1.0
1,実験ノート ID4-41,0.960195,0.766667
2,実験ノート ID4-48,0.946711,0.733333
3,実験ノート ID4-44,0.946454,0.766667
4,実験ノート ID4-42,0.945374,0.733333
5,実験ノート ID4-45,0.943146,0.8
6,実験ノート ID4-21,0.94251,0.0
7,実験ノート ID4-43,0.941162,0.733333
8,実験ノート ID4-15,0.941036,0.0
9,実験ノート ID4-9,0.93805,0.0


## 9_ID4-50_1: nDCG Score = 0.822942

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.937978
1,実験ノート ID4-41,0.92871
2,実験ノート ID4-48,0.922163
3,実験ノート ID4-15,0.922157
4,実験ノート ID4-44,0.921687
5,実験ノート ID4-21,0.921393
6,実験ノート ID4-9,0.920575
7,実験ノート ID4-45,0.916127
8,実験ノート ID4-43,0.914969
9,実験ノート ID4-2,0.911788


## k=10, nDCG Score = 0.928964


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.937978,1.0
1,実験ノート ID4-41,0.92871,0.7
2,実験ノート ID4-48,0.922163,0.7
3,実験ノート ID4-15,0.922157,0.65
4,実験ノート ID4-44,0.921687,0.75
5,実験ノート ID4-21,0.921393,0.65
6,実験ノート ID4-9,0.920575,0.65
7,実験ノート ID4-45,0.916127,0.8
8,実験ノート ID4-43,0.914969,0.7
9,実験ノート ID4-2,0.911788,0.0


## 10_ID4-50_2: nDCG Score = 0.928964
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.RURI: nDCG Score Mean = 0.492422


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score
0,1_ID1-2_1,0.771272,0.394975,0.394975,0.255349,0.552238
1,2_ID1-2_2,0.562039,0.0,0.0,0.0,0.219097
2,3_ID2-17_1,0.711899,0.476282,0.550762,0.405628,0.548477
3,4_ID2-17_2,0.225782,0.304901,0.066182,0.062699,0.358562
4,5_ID3-30_1,0.780918,0.787478,0.795355,0.810859,0.81999
5,6_ID3-30_2,0.174166,0.0,0.064133,0.0,0.0
6,7_ID1-3_1,0.574621,0.390294,0.390294,0.31997,0.454851
7,8_ID1-3_2,0.53799,0.0,0.0,0.063333,0.219097
8,9_ID4-50_1,0.821737,0.940911,0.773634,0.803347,0.822942
9,10_ID4-50_2,0.981128,0.732189,0.626052,0.788677,0.928964


#### Case Retrieve(note)-rerank

In [64]:
### チャンク(ChromaDB)の類似検索 =============

# Retrive関数 -----------------
def retrieve_rerank(queries_dic, k=10, trace=False): 
    # queries_dic: {Section:クエリ, ...} -> [[ノート名, 順位ランク], ...] k個のリストのリスト
    if trace:
        print(f"### Retrieve: query=\n「{queries_dic}」, k={k} ") 

    section = 'all'
    query = queries_dic[section]
    
    # --- クエリをembedding ---
    query_emb = get_embeddings(query)

    # ChromaDBで類似検索（＝retrieval）=======
    results = collection.query(
        query_embeddings=query_emb,
        n_results = 4*k,
        include = ['documents', 'metadatas', 'distances'],
        where = {'section': section}         # metadataでのfilter条件
    )
    retreaved_docs    = results['documents'][0]
    retreaved_sources = [m['source'] for m in results['metadatas'][0]]
    retreaved_dists   = results['distances'][0]
    retreaved_df = pd.DataFrame({
        'docs': retreaved_docs,
        'name': retreaved_sources,
        'dist': retreaved_dists
    })
    if trace:
        display(retreaved_df)

    # Cohereでdocumentsをリランク(Rerank) =============
    results = COHERE_CLIENT.rerank(
        model=COHERE_RERANK_MODEL,
        query=query,
        documents=retreaved_docs,
        top_n=4*k,
    ).results

    reranked_df = pd.DataFrame({
         'docs':  [retreaved_docs[r.index]    for r in results],
         'name':  [retreaved_sources[r.index] for r in results],
         'score': [r.relevance_score          for r in results]  # rerank score
     })

    return reranked_df[['name','score']].head(k)

In [65]:
trace = False

TopK = 10

ndcgs_df = pd.DataFrame({'Test_ID': testquery_df['test_id'].values.tolist() + ['#MEAN']}) # ndcgsの入れ物
name_df = pd.DataFrame({'name': notes_dic.keys()}) # 料理名一覧
for emb_type in list(EmbeddingType):
    EMBEDDING_MODEL = emb_type   # モデルを指定
    print(f"\n### Case: retrieve_by_note+rerank, EMBEDDING_MODEL={EMBEDDING_MODEL}, TopK={TopK}")
    collection = setup_collection(notes_dic)   # 次元が変わるため、collection(VectorStore)を再作成
    emb_model = str(EMBEDDING_MODEL).split('.')[1]

    ndcgs = []
    test_ids = []
    for i, row in testquery_df.iterrows():       # テストケース毎に
        queries = [row['purpose'].strip(), row['materials'].strip(), row['methods'].strip()]  # クエリを抽出
        queries_lst = ['\n'.join([s for s in queries if s])] + queries 
        queries_dic = {s: q if q != '' else '' for q, s in zip(queries_lst, ['all','目的','材料','手順'])}
        test_id = row['test_id']
        test_ids.append(test_id)
    
        # 検索実行（個別のクエリで検索）
        retrieved_df = retrieve_rerank(queries_dic, k=TopK) # クエリ方法を指定して実行
        print(f"\n## Retrieval Result: test_id={test_id}")
        display(retrieved_df)

        ndcg = calc_ndcg(retrieved_df, relevance_df.query("test_id==@test_id"), k=TopK, trace=True)
        ndcgs.append(ndcg)
        print(f"## {test_id}: nDCG Score = {ndcg:.6f}")
    
        time.sleep(30)  # リクエストレート制限対策
    
    ndcgs_mean = np.array(ndcgs).mean()
    print(f"### Case: retrieve_by_note, EMBEDDING_MODEL={EMBEDDING_MODEL}: nDCG Score Mean = {ndcgs_mean:.6f}")
    wk_df = pd.DataFrame({'Test_ID':test_ids + ['#MEAN'], f"{emb_model} nDCG Score":ndcgs + [ndcgs_mean]})
    ndcgs_df = pd.merge(ndcgs_df, wk_df, how='left')
    display(ndcgs_df)

ndcgs_rerank_df = ndcgs_df.assign(logic='rerank')


### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.GEMINI, TopK=10


100%|███████████████████████████████████████████| 34/34 [01:07<00:00,  1.97s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.949337
1,実験ノート ID2-16,0.876307
2,実験ノート ID2-46,0.846768
3,実験ノート ID2-47,0.837421
4,実験ノート ID1-5,0.832578
5,実験ノート ID2-50,0.82357
6,実験ノート ID2-21,0.821861
7,実験ノート ID2-9,0.805892
8,実験ノート ID2-48,0.803683
9,実験ノート ID2-25,0.8022


## k=10, nDCG Score = 0.797014


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.949337,1.0
1,実験ノート ID2-16,0.876307,0.966667
2,実験ノート ID2-46,0.846768,0.766667
3,実験ノート ID2-47,0.837421,0.8
4,実験ノート ID1-5,0.832578,0.0
5,実験ノート ID2-50,0.82357,0.8
6,実験ノート ID2-21,0.821861,0.833333
7,実験ノート ID2-9,0.805892,0.0
8,実験ノート ID2-48,0.803683,0.733333
9,実験ノート ID2-25,0.8022,0.0


## 1_ID1-2_1: nDCG Score = 0.797014

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.902687
1,実験ノート ID2-1,0.882032
2,実験ノート ID1-19,0.867676
3,実験ノート ID1-17,0.863311
4,実験ノート ID1-3,0.863034
5,実験ノート ID1-2,0.860803
6,実験ノート ID1-5,0.857399
7,実験ノート ID1-4,0.851867
8,実験ノート ID2-48,0.850382
9,実験ノート ID2-46,0.84432


## k=10, nDCG Score = 0.654448


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.902687,0.95
1,実験ノート ID2-1,0.882032,0.95
2,実験ノート ID1-19,0.867676,0.0
3,実験ノート ID1-17,0.863311,0.0
4,実験ノート ID1-3,0.863034,0.9
5,実験ノート ID1-2,0.860803,1.0
6,実験ノート ID1-5,0.857399,0.9
7,実験ノート ID1-4,0.851867,0.9
8,実験ノート ID2-48,0.850382,0.0
9,実験ノート ID2-46,0.84432,0.0


## 2_ID1-2_2: nDCG Score = 0.654448

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.95272
1,実験ノート ID2-22,0.92176
2,実験ノート ID2-46,0.886115
3,実験ノート ID2-16,0.884928
4,実験ノート ID2-13,0.870344
5,実験ノート ID2-1,0.868482
6,実験ノート ID2-42,0.861643
7,実験ノート ID2-27,0.859676
8,実験ノート ID2-23,0.849185
9,実験ノート ID2-18,0.847678


## k=10, nDCG Score = 0.660882


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.95272,1.0
1,実験ノート ID2-22,0.92176,0.9
2,実験ノート ID2-46,0.886115,0.766667
3,実験ノート ID2-16,0.884928,0.766667
4,実験ノート ID2-13,0.870344,0.0
5,実験ノート ID2-1,0.868482,0.766667
6,実験ノート ID2-42,0.861643,0.0
7,実験ノート ID2-27,0.859676,0.0
8,実験ノート ID2-23,0.849185,0.0
9,実験ノート ID2-18,0.847678,0.0


## 3_ID2-17_1: nDCG Score = 0.660882

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-18,0.880808
1,実験ノート ID2-17,0.877823
2,実験ノート ID2-1,0.869814
3,実験ノート ID2-23,0.863311
4,実験ノート ID1-1,0.849785
5,実験ノート ID2-25,0.841214
6,実験ノート ID2-22,0.837102
7,実験ノート ID2-27,0.834529
8,実験ノート ID2-13,0.833555
9,実験ノート ID2-11,0.830278


## k=10, nDCG Score = 0.503972


Unnamed: 0,name,score,gain
0,実験ノート ID2-18,0.880808,0.0
1,実験ノート ID2-17,0.877823,1.0
2,実験ノート ID2-1,0.869814,0.95
3,実験ノート ID2-23,0.863311,0.9
4,実験ノート ID1-1,0.849785,0.95
5,実験ノート ID2-25,0.841214,0.0
6,実験ノート ID2-22,0.837102,0.95
7,実験ノート ID2-27,0.834529,0.0
8,実験ノート ID2-13,0.833555,0.0
9,実験ノート ID2-11,0.830278,0.0


## 4_ID2-17_2: nDCG Score = 0.503972

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.951328
1,実験ノート ID3-9,0.832904
2,実験ノート ID3-74,0.809171
3,実験ノート ID3-5,0.806625
4,実験ノート ID3-28,0.803683
5,実験ノート ID3-12,0.795229
6,実験ノート ID3-69,0.786312
7,実験ノート ID3-23,0.770137
8,実験ノート ID3-20,0.765541
9,実験ノート ID3-89,0.760882


## k=10, nDCG Score = 0.780204


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.951328,1.0
1,実験ノート ID3-9,0.832904,0.633333
2,実験ノート ID3-74,0.809171,0.633333
3,実験ノート ID3-5,0.806625,0.666667
4,実験ノート ID3-28,0.803683,0.0
5,実験ノート ID3-12,0.795229,0.0
6,実験ノート ID3-69,0.786312,0.733333
7,実験ノート ID3-23,0.770137,0.733333
8,実験ノート ID3-20,0.765541,0.633333
9,実験ノート ID3-89,0.760882,0.0


## 5_ID3-30_1: nDCG Score = 0.780204

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-30,0.86024
1,実験ノート ID3-74,0.842462
2,実験ノート ID3-43,0.835175
3,実験ノート ID3-12,0.830608
4,実験ノート ID3-80,0.824928
5,実験ノート ID3-63,0.822204
6,実験ノート ID3-86,0.819793
7,実験ノート ID3-37,0.818752
8,実験ノート ID3-5,0.811691
9,実験ノート ID3-57,0.809171


## k=10, nDCG Score = 0.266305


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.86024,1.0
1,実験ノート ID3-74,0.842462,0.0
2,実験ノート ID3-43,0.835175,0.0
3,実験ノート ID3-12,0.830608,0.0
4,実験ノート ID3-80,0.824928,0.0
5,実験ノート ID3-63,0.822204,0.0
6,実験ノート ID3-86,0.819793,0.0
7,実験ノート ID3-37,0.818752,0.0
8,実験ノート ID3-5,0.811691,0.0
9,実験ノート ID3-57,0.809171,0.0


## 6_ID3-30_2: nDCG Score = 0.266305

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.952825
1,実験ノート ID2-16,0.867407
2,実験ノート ID2-48,0.840272
3,実験ノート ID2-46,0.836782
4,実験ノート ID2-21,0.835497
5,実験ノート ID2-50,0.834852
6,実験ノート ID2-17,0.820484
7,実験ノート ID1-1,0.817706
8,実験ノート ID2-1,0.817006
9,実験ノート ID2-47,0.808446


## k=10, nDCG Score = 0.674593


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.952825,1.0
1,実験ノート ID2-16,0.867407,0.9
2,実験ノート ID2-48,0.840272,0.0
3,実験ノート ID2-46,0.836782,0.0
4,実験ノート ID2-21,0.835497,0.8
5,実験ノート ID2-50,0.834852,0.0
6,実験ノート ID2-17,0.820484,0.8
7,実験ノート ID1-1,0.817706,0.8
8,実験ノート ID2-1,0.817006,0.8
9,実験ノート ID2-47,0.808446,0.0


## 7_ID1-3_1: nDCG Score = 0.674593

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.900399
1,実験ノート ID1-3,0.865509
2,実験ノート ID1-19,0.863588
3,実験ノート ID1-17,0.860522
4,実験ノート ID1-2,0.857971
5,実験ノート ID1-5,0.856537
6,実験ノート ID2-48,0.852162
7,実験ノート ID2-46,0.842773
8,実験ノート ID1-8,0.838693
9,実験ノート ID1-11,0.838058


## k=10, nDCG Score = 0.523301


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.900399,0.95
1,実験ノート ID1-3,0.865509,1.0
2,実験ノート ID1-19,0.863588,0.0
3,実験ノート ID1-17,0.860522,0.0
4,実験ノート ID1-2,0.857971,0.95
5,実験ノート ID1-5,0.856537,0.9
6,実験ノート ID2-48,0.852162,0.0
7,実験ノート ID2-46,0.842773,0.0
8,実験ノート ID1-8,0.838693,0.0
9,実験ノート ID1-11,0.838058,0.0


## 8_ID1-3_2: nDCG Score = 0.523301

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.950783
1,実験ノート ID4-48,0.879323
2,実験ノート ID4-41,0.872445
3,実験ノート ID4-44,0.867407
4,実験ノート ID4-42,0.857685
5,実験ノート ID4-43,0.856249
6,実験ノート ID4-45,0.8548
7,実験ノート ID4-46,0.850382
8,実験ノート ID4-47,0.83774
9,実験ノート ID4-22,0.81312


## k=10, nDCG Score = 0.994522


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.950783,1.0
1,実験ノート ID4-48,0.879323,0.733333
2,実験ノート ID4-41,0.872445,0.766667
3,実験ノート ID4-44,0.867407,0.766667
4,実験ノート ID4-42,0.857685,0.733333
5,実験ノート ID4-43,0.856249,0.733333
6,実験ノート ID4-45,0.8548,0.8
7,実験ノート ID4-46,0.850382,0.7
8,実験ノート ID4-47,0.83774,0.666667
9,実験ノート ID4-22,0.81312,0.666667


## 9_ID4-50_1: nDCG Score = 0.994522

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.9354
1,実験ノート ID4-45,0.897633
2,実験ノート ID4-43,0.887761
3,実験ノート ID4-48,0.877571
4,実験ノート ID4-44,0.875287
5,実験ノート ID4-22,0.861643
6,実験ノート ID4-49,0.856249
7,実験ノート ID4-9,0.853925
8,実験ノート ID4-41,0.848885
9,実験ノート ID4-47,0.845241


## k=10, nDCG Score = 0.944608


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.9354,1.0
1,実験ノート ID4-45,0.897633,0.8
2,実験ノート ID4-43,0.887761,0.7
3,実験ノート ID4-48,0.877571,0.7
4,実験ノート ID4-44,0.875287,0.75
5,実験ノート ID4-22,0.861643,0.7
6,実験ノート ID4-49,0.856249,0.65
7,実験ノート ID4-9,0.853925,0.65
8,実験ノート ID4-41,0.848885,0.7
9,実験ノート ID4-47,0.845241,0.0


## 10_ID4-50_2: nDCG Score = 0.944608
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.GEMINI: nDCG Score Mean = 0.679985


Unnamed: 0,Test_ID,GEMINI nDCG Score
0,1_ID1-2_1,0.797014
1,2_ID1-2_2,0.654448
2,3_ID2-17_1,0.660882
3,4_ID2-17_2,0.503972
4,5_ID3-30_1,0.780204
5,6_ID3-30_2,0.266305
6,7_ID1-3_1,0.674593
7,8_ID1-3_2,0.523301
8,9_ID4-50_1,0.994522
9,10_ID4-50_2,0.944608



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL, TopK=10


100%|███████████████████████████████████████████| 34/34 [01:02<00:00,  1.83s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.949337
1,実験ノート ID1-5,0.832578
2,実験ノート ID1-1,0.784336
3,実験ノート ID1-3,0.784138
4,実験ノート ID1-6,0.747414
5,実験ノート ID1-48,0.742067
6,実験ノート ID1-12,0.729077
7,実験ノート ID1-16,0.707749
8,実験ノート ID1-100,0.691748
9,実験ノート ID1-4,0.689494


## k=10, nDCG Score = 0.498416


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.949337,1.0
1,実験ノート ID1-5,0.832578,0.0
2,実験ノート ID1-1,0.784336,0.733333
3,実験ノート ID1-3,0.784138,0.866667
4,実験ノート ID1-6,0.747414,0.0
5,実験ノート ID1-48,0.742067,0.0
6,実験ノート ID1-12,0.729077,0.0
7,実験ノート ID1-16,0.707749,0.0
8,実験ノート ID1-100,0.691748,0.0
9,実験ノート ID1-4,0.689494,0.733333


## 1_ID1-2_1: nDCG Score = 0.498416

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-2,0.860803
1,実験ノート ID1-6,0.855091
2,実験ノート ID1-4,0.851867
3,実験ノート ID1-20,0.83614
4,実験ノート ID1-16,0.83323
5,実験ノート ID1-21,0.822888
6,実験ノート ID1-12,0.822546
7,実験ノート ID1-89,0.814894
8,実験ノート ID1-81,0.810614
9,実験ノート ID1-100,0.809171


## k=10, nDCG Score = 0.334411


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.860803,1.0
1,実験ノート ID1-6,0.855091,0.0
2,実験ノート ID1-4,0.851867,0.9
3,実験ノート ID1-20,0.83614,0.0
4,実験ノート ID1-16,0.83323,0.0
5,実験ノート ID1-21,0.822888,0.0
6,実験ノート ID1-12,0.822546,0.0
7,実験ノート ID1-89,0.814894,0.0
8,実験ノート ID1-81,0.810614,0.0
9,実験ノート ID1-100,0.809171,0.0


## 2_ID1-2_2: nDCG Score = 0.334411

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.95272
1,実験ノート ID2-22,0.92176
2,実験ノート ID2-46,0.886115
3,実験ノート ID2-16,0.884928
4,実験ノート ID2-13,0.870344
5,実験ノート ID2-1,0.868482
6,実験ノート ID2-42,0.861643
7,実験ノート ID2-27,0.859676
8,実験ノート ID2-2,0.850084
9,実験ノート ID2-18,0.847678


## k=10, nDCG Score = 0.660882


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.95272,1.0
1,実験ノート ID2-22,0.92176,0.9
2,実験ノート ID2-46,0.886115,0.766667
3,実験ノート ID2-16,0.884928,0.766667
4,実験ノート ID2-13,0.870344,0.0
5,実験ノート ID2-1,0.868482,0.766667
6,実験ノート ID2-42,0.861643,0.0
7,実験ノート ID2-27,0.859676,0.0
8,実験ノート ID2-2,0.850084,0.0
9,実験ノート ID2-18,0.847678,0.0


## 3_ID2-17_1: nDCG Score = 0.660882

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-18,0.880808
1,実験ノート ID2-1,0.869814
2,実験ノート ID1-1,0.849785
3,実験ノート ID2-27,0.834529
4,実験ノート ID2-11,0.830278
5,実験ノート ID2-12,0.824928
6,実験ノート ID2-7,0.820484
7,実験ノート ID2-10,0.818404
8,実験ノート ID2-5,0.8156
9,実験ノート ID2-50,0.815248


## k=10, nDCG Score = 0.314818


Unnamed: 0,name,score,gain
0,実験ノート ID2-18,0.880808,0.0
1,実験ノート ID2-1,0.869814,0.95
2,実験ノート ID1-1,0.849785,0.95
3,実験ノート ID2-27,0.834529,0.0
4,実験ノート ID2-11,0.830278,0.0
5,実験ノート ID2-12,0.824928,0.0
6,実験ノート ID2-7,0.820484,0.0
7,実験ノート ID2-10,0.818404,0.0
8,実験ノート ID2-5,0.8156,0.95
9,実験ノート ID2-50,0.815248,0.0


## 4_ID2-17_2: nDCG Score = 0.314818

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.951328
1,実験ノート ID3-9,0.832904
2,実験ノート ID3-74,0.809171
3,実験ノート ID3-5,0.806625
4,実験ノート ID3-28,0.803683
5,実験ノート ID3-12,0.795229
6,実験ノート ID3-69,0.786312
7,実験ノート ID3-23,0.770137
8,実験ノート ID3-20,0.765541
9,実験ノート ID3-89,0.760882


## k=10, nDCG Score = 0.780204


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.951328,1.0
1,実験ノート ID3-9,0.832904,0.633333
2,実験ノート ID3-74,0.809171,0.633333
3,実験ノート ID3-5,0.806625,0.666667
4,実験ノート ID3-28,0.803683,0.0
5,実験ノート ID3-12,0.795229,0.0
6,実験ノート ID3-69,0.786312,0.733333
7,実験ノート ID3-23,0.770137,0.733333
8,実験ノート ID3-20,0.765541,0.633333
9,実験ノート ID3-89,0.760882,0.0


## 5_ID3-30_1: nDCG Score = 0.780204

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-74,0.842462
1,実験ノート ID3-12,0.830608
2,実験ノート ID3-80,0.824928
3,実験ノート ID3-86,0.819793
4,実験ノート ID3-82,0.805526
5,実験ノート ID3-89,0.800521
6,実験ノート ID3-100,0.798831
7,実験ノート ID3-6,0.797888
8,実験ノート ID3-88,0.794848
9,実験ノート ID3-10,0.794274


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-74,0.842462,0.0
1,実験ノート ID3-12,0.830608,0.0
2,実験ノート ID3-80,0.824928,0.0
3,実験ノート ID3-86,0.819793,0.0
4,実験ノート ID3-82,0.805526,0.0
5,実験ノート ID3-89,0.800521,0.0
6,実験ノート ID3-100,0.798831,0.0
7,実験ノート ID3-6,0.797888,0.0
8,実験ノート ID3-88,0.794848,0.0
9,実験ノート ID3-10,0.794274,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.952825
1,実験ノート ID1-1,0.817706
2,実験ノート ID1-4,0.79751
3,実験ノート ID1-6,0.782945
4,実験ノート ID1-2,0.760882
5,実験ノート ID1-5,0.757454
6,実験ノート ID1-13,0.744972
7,実験ノート ID1-8,0.739141
8,実験ノート ID1-33,0.733452
9,実験ノート ID1-29,0.722782


## k=10, nDCG Score = 0.467379


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.952825,1.0
1,実験ノート ID1-1,0.817706,0.8
2,実験ノート ID1-4,0.79751,0.0
3,実験ノート ID1-6,0.782945,0.0
4,実験ノート ID1-2,0.760882,0.833333
5,実験ノート ID1-5,0.757454,0.0
6,実験ノート ID1-13,0.744972,0.0
7,実験ノート ID1-8,0.739141,0.0
8,実験ノート ID1-33,0.733452,0.0
9,実験ノート ID1-29,0.722782,0.0


## 7_ID1-3_1: nDCG Score = 0.467379

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-2,0.857971
1,実験ノート ID1-6,0.855671
2,実験ノート ID1-4,0.853633
3,実験ノート ID1-20,0.832578
4,実験ノート ID1-16,0.82425
5,実験ノート ID1-12,0.821518
6,実験ノート ID1-21,0.818055
7,実験ノート ID1-89,0.812764
8,実験ノート ID1-81,0.810974
9,実験ノート ID1-100,0.80699


## k=10, nDCG Score = 0.322879


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.857971,0.95
1,実験ノート ID1-6,0.855671,0.0
2,実験ノート ID1-4,0.853633,0.9
3,実験ノート ID1-20,0.832578,0.0
4,実験ノート ID1-16,0.82425,0.0
5,実験ノート ID1-12,0.821518,0.0
6,実験ノート ID1-21,0.818055,0.0
7,実験ノート ID1-89,0.812764,0.0
8,実験ノート ID1-81,0.810974,0.0
9,実験ノート ID1-100,0.80699,0.0


## 8_ID1-3_2: nDCG Score = 0.322879

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.950783
1,実験ノート ID4-48,0.879323
2,実験ノート ID4-41,0.872445
3,実験ノート ID4-44,0.867407
4,実験ノート ID4-42,0.857685
5,実験ノート ID4-43,0.856249
6,実験ノート ID4-45,0.8548
7,実験ノート ID4-46,0.850382
8,実験ノート ID4-47,0.83774
9,実験ノート ID4-22,0.81312


## k=10, nDCG Score = 0.994522


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.950783,1.0
1,実験ノート ID4-48,0.879323,0.733333
2,実験ノート ID4-41,0.872445,0.766667
3,実験ノート ID4-44,0.867407,0.766667
4,実験ノート ID4-42,0.857685,0.733333
5,実験ノート ID4-43,0.856249,0.733333
6,実験ノート ID4-45,0.8548,0.8
7,実験ノート ID4-46,0.850382,0.7
8,実験ノート ID4-47,0.83774,0.666667
9,実験ノート ID4-22,0.81312,0.666667


## 9_ID4-50_1: nDCG Score = 0.994522

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.9354
1,実験ノート ID4-45,0.897633
2,実験ノート ID4-43,0.887761
3,実験ノート ID4-48,0.877571
4,実験ノート ID4-44,0.875287
5,実験ノート ID4-22,0.861643
6,実験ノート ID4-9,0.853925
7,実験ノート ID4-41,0.848885
8,実験ノート ID4-47,0.845241
9,実験ノート ID4-15,0.828287


## k=10, nDCG Score = 0.942605


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.9354,1.0
1,実験ノート ID4-45,0.897633,0.8
2,実験ノート ID4-43,0.887761,0.7
3,実験ノート ID4-48,0.877571,0.7
4,実験ノート ID4-44,0.875287,0.75
5,実験ノート ID4-22,0.861643,0.7
6,実験ノート ID4-9,0.853925,0.65
7,実験ノート ID4-41,0.848885,0.7
8,実験ノート ID4-47,0.845241,0.0
9,実験ノート ID4-15,0.828287,0.65


## 10_ID4-50_2: nDCG Score = 0.942605
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL: nDCG Score Mean = 0.531612


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score
0,1_ID1-2_1,0.797014,0.498416
1,2_ID1-2_2,0.654448,0.334411
2,3_ID2-17_1,0.660882,0.660882
3,4_ID2-17_2,0.503972,0.314818
4,5_ID3-30_1,0.780204,0.780204
5,6_ID3-30_2,0.266305,0.0
6,7_ID1-3_1,0.674593,0.467379
7,8_ID1-3_2,0.523301,0.322879
8,9_ID4-50_1,0.994522,0.994522
9,10_ID4-50_2,0.944608,0.942605



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE, TopK=10


100%|███████████████████████████████████████████| 34/34 [01:01<00:00,  1.81s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.949337
1,実験ノート ID1-5,0.832578
2,実験ノート ID1-1,0.784336
3,実験ノート ID1-3,0.784138
4,実験ノート ID1-48,0.742067
5,実験ノート ID1-12,0.729077
6,実験ノート ID1-16,0.707749
7,実験ノート ID1-35,0.698453
8,実験ノート ID1-13,0.693992
9,実験ノート ID1-100,0.691748


## k=10, nDCG Score = 0.444287


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.949337,1.0
1,実験ノート ID1-5,0.832578,0.0
2,実験ノート ID1-1,0.784336,0.733333
3,実験ノート ID1-3,0.784138,0.866667
4,実験ノート ID1-48,0.742067,0.0
5,実験ノート ID1-12,0.729077,0.0
6,実験ノート ID1-16,0.707749,0.0
7,実験ノート ID1-35,0.698453,0.0
8,実験ノート ID1-13,0.693992,0.0
9,実験ノート ID1-100,0.691748,0.0


## 1_ID1-2_1: nDCG Score = 0.444287

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.902687
1,実験ノート ID1-19,0.867676
2,実験ノート ID1-17,0.863311
3,実験ノート ID1-5,0.857399
4,実験ノート ID1-4,0.851867
5,実験ノート ID1-18,0.851571
6,実験ノート ID1-20,0.83614
7,実験ノート ID1-16,0.83323
8,実験ノート ID1-23,0.82391
9,実験ノート ID1-97,0.823229


## k=10, nDCG Score = 0.388788


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.902687,0.95
1,実験ノート ID1-19,0.867676,0.0
2,実験ノート ID1-17,0.863311,0.0
3,実験ノート ID1-5,0.857399,0.9
4,実験ノート ID1-4,0.851867,0.9
5,実験ノート ID1-18,0.851571,0.0
6,実験ノート ID1-20,0.83614,0.0
7,実験ノート ID1-16,0.83323,0.0
8,実験ノート ID1-23,0.82391,0.0
9,実験ノート ID1-97,0.823229,0.0


## 2_ID1-2_2: nDCG Score = 0.388788

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.95272
1,実験ノート ID2-22,0.92176
2,実験ノート ID2-46,0.886115
3,実験ノート ID2-16,0.884928
4,実験ノート ID2-13,0.870344
5,実験ノート ID2-27,0.859676
6,実験ノート ID2-2,0.850084
7,実験ノート ID2-23,0.849185
8,実験ノート ID2-18,0.847678
9,実験ノート ID2-28,0.845854


## k=10, nDCG Score = 0.647564


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.95272,1.0
1,実験ノート ID2-22,0.92176,0.9
2,実験ノート ID2-46,0.886115,0.766667
3,実験ノート ID2-16,0.884928,0.766667
4,実験ノート ID2-13,0.870344,0.0
5,実験ノート ID2-27,0.859676,0.0
6,実験ノート ID2-2,0.850084,0.0
7,実験ノート ID2-23,0.849185,0.0
8,実験ノート ID2-18,0.847678,0.0
9,実験ノート ID2-28,0.845854,0.766667


## 3_ID2-17_1: nDCG Score = 0.647564

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-18,0.880808
1,実験ノート ID2-17,0.877823
2,実験ノート ID2-1,0.869814
3,実験ノート ID1-1,0.849785
4,実験ノート ID2-25,0.841214
5,実験ノート ID2-22,0.837102
6,実験ノート ID2-27,0.834529
7,実験ノート ID2-13,0.833555
8,実験ノート ID2-11,0.830278
9,実験ノート ID2-21,0.825266


## k=10, nDCG Score = 0.489141


Unnamed: 0,name,score,gain
0,実験ノート ID2-18,0.880808,0.0
1,実験ノート ID2-17,0.877823,1.0
2,実験ノート ID2-1,0.869814,0.95
3,実験ノート ID1-1,0.849785,0.95
4,実験ノート ID2-25,0.841214,0.0
5,実験ノート ID2-22,0.837102,0.95
6,実験ノート ID2-27,0.834529,0.0
7,実験ノート ID2-13,0.833555,0.0
8,実験ノート ID2-11,0.830278,0.0
9,実験ノート ID2-21,0.825266,0.9


## 4_ID2-17_2: nDCG Score = 0.489141

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.951328
1,実験ノート ID3-9,0.832904
2,実験ノート ID3-74,0.809171
3,実験ノート ID3-5,0.806625
4,実験ノート ID3-28,0.803683
5,実験ノート ID3-12,0.795229
6,実験ノート ID3-69,0.786312
7,実験ノート ID2-80,0.784732
8,実験ノート ID3-23,0.770137
9,実験ノート ID3-20,0.765541


## k=10, nDCG Score = 0.774896


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.951328,1.0
1,実験ノート ID3-9,0.832904,0.633333
2,実験ノート ID3-74,0.809171,0.633333
3,実験ノート ID3-5,0.806625,0.666667
4,実験ノート ID3-28,0.803683,0.0
5,実験ノート ID3-12,0.795229,0.0
6,実験ノート ID3-69,0.786312,0.733333
7,実験ノート ID2-80,0.784732,0.0
8,実験ノート ID3-23,0.770137,0.733333
9,実験ノート ID3-20,0.765541,0.633333


## 5_ID3-30_1: nDCG Score = 0.774896

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-74,0.842462
1,実験ノート ID3-43,0.835175
2,実験ノート ID3-80,0.824928
3,実験ノート ID3-63,0.822204
4,実験ノート ID3-57,0.809171
5,実験ノート ID3-9,0.808446
6,実験ノート ID3-44,0.808446
7,実験ノート ID3-54,0.80699
8,実験ノート ID3-58,0.806259
9,実験ノート ID3-82,0.805526


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-74,0.842462,0.0
1,実験ノート ID3-43,0.835175,0.0
2,実験ノート ID3-80,0.824928,0.0
3,実験ノート ID3-63,0.822204,0.0
4,実験ノート ID3-57,0.809171,0.0
5,実験ノート ID3-9,0.808446,0.0
6,実験ノート ID3-44,0.808446,0.0
7,実験ノート ID3-54,0.80699,0.0
8,実験ノート ID3-58,0.806259,0.0
9,実験ノート ID3-82,0.805526,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.952825
1,実験ノート ID2-21,0.835497
2,実験ノート ID2-2,0.826278
3,実験ノート ID1-1,0.817706
4,実験ノート ID1-4,0.79751
5,実験ノート ID1-6,0.782945
6,実験ノート ID1-2,0.760882
7,実験ノート ID1-13,0.744972
8,実験ノート ID1-8,0.739141
9,実験ノート ID1-33,0.733452


## k=10, nDCG Score = 0.642161


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.952825,1.0
1,実験ノート ID2-21,0.835497,0.8
2,実験ノート ID2-2,0.826278,0.766667
3,実験ノート ID1-1,0.817706,0.8
4,実験ノート ID1-4,0.79751,0.0
5,実験ノート ID1-6,0.782945,0.0
6,実験ノート ID1-2,0.760882,0.833333
7,実験ノート ID1-13,0.744972,0.0
8,実験ノート ID1-8,0.739141,0.0
9,実験ノート ID1-33,0.733452,0.0


## 7_ID1-3_1: nDCG Score = 0.642161

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.900399
1,実験ノート ID1-19,0.863588
2,実験ノート ID1-17,0.860522
3,実験ノート ID1-2,0.857971
4,実験ノート ID1-4,0.853633
5,実験ノート ID1-18,0.847678
6,実験ノート ID1-20,0.832578
7,実験ノート ID1-16,0.82425
8,実験ノート ID1-12,0.821518
9,実験ノート ID1-97,0.820829


## k=10, nDCG Score = 0.393754


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.900399,0.95
1,実験ノート ID1-19,0.863588,0.0
2,実験ノート ID1-17,0.860522,0.0
3,実験ノート ID1-2,0.857971,0.95
4,実験ノート ID1-4,0.853633,0.9
5,実験ノート ID1-18,0.847678,0.0
6,実験ノート ID1-20,0.832578,0.0
7,実験ノート ID1-16,0.82425,0.0
8,実験ノート ID1-12,0.821518,0.0
9,実験ノート ID1-97,0.820829,0.0


## 8_ID1-3_2: nDCG Score = 0.393754

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.950783
1,実験ノート ID4-48,0.879323
2,実験ノート ID4-41,0.872445
3,実験ノート ID4-44,0.867407
4,実験ノート ID4-42,0.857685
5,実験ノート ID4-43,0.856249
6,実験ノート ID4-45,0.8548
7,実験ノート ID4-46,0.850382
8,実験ノート ID4-47,0.83774
9,実験ノート ID4-22,0.81312


## k=10, nDCG Score = 0.994522


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.950783,1.0
1,実験ノート ID4-48,0.879323,0.733333
2,実験ノート ID4-41,0.872445,0.766667
3,実験ノート ID4-44,0.867407,0.766667
4,実験ノート ID4-42,0.857685,0.733333
5,実験ノート ID4-43,0.856249,0.733333
6,実験ノート ID4-45,0.8548,0.8
7,実験ノート ID4-46,0.850382,0.7
8,実験ノート ID4-47,0.83774,0.666667
9,実験ノート ID4-22,0.81312,0.666667


## 9_ID4-50_1: nDCG Score = 0.994522

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.9354
1,実験ノート ID4-45,0.897633
2,実験ノート ID4-43,0.887761
3,実験ノート ID4-48,0.877571
4,実験ノート ID4-44,0.875287
5,実験ノート ID4-22,0.861643
6,実験ノート ID4-9,0.853925
7,実験ノート ID4-41,0.848885
8,実験ノート ID4-47,0.845241
9,実験ノート ID4-15,0.828287


## k=10, nDCG Score = 0.942605


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.9354,1.0
1,実験ノート ID4-45,0.897633,0.8
2,実験ノート ID4-43,0.887761,0.7
3,実験ノート ID4-48,0.877571,0.7
4,実験ノート ID4-44,0.875287,0.75
5,実験ノート ID4-22,0.861643,0.7
6,実験ノート ID4-9,0.853925,0.65
7,実験ノート ID4-41,0.848885,0.7
8,実験ノート ID4-47,0.845241,0.0
9,実験ノート ID4-15,0.828287,0.65


## 10_ID4-50_2: nDCG Score = 0.942605
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE: nDCG Score Mean = 0.571772


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score
0,1_ID1-2_1,0.797014,0.498416,0.444287
1,2_ID1-2_2,0.654448,0.334411,0.388788
2,3_ID2-17_1,0.660882,0.660882,0.647564
3,4_ID2-17_2,0.503972,0.314818,0.489141
4,5_ID3-30_1,0.780204,0.780204,0.774896
5,6_ID3-30_2,0.266305,0.0,0.0
6,7_ID1-3_1,0.674593,0.467379,0.642161
7,8_ID1-3_2,0.523301,0.322879,0.393754
8,9_ID4-50_1,0.994522,0.994522,0.994522
9,10_ID4-50_2,0.944608,0.942605,0.942605



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.PLAMO, TopK=10


100%|████████████████████████████████████████| 34/34 [2:25:55<00:00, 257.53s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.949337
1,実験ノート ID1-5,0.832578
2,実験ノート ID1-1,0.784336
3,実験ノート ID1-3,0.784138
4,実験ノート ID1-10,0.765331
5,実験ノート ID1-6,0.747414
6,実験ノート ID1-48,0.742067
7,実験ノート ID1-7,0.732075
8,実験ノート ID1-11,0.730463
9,実験ノート ID1-12,0.729077


## k=10, nDCG Score = 0.444287


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.949337,1.0
1,実験ノート ID1-5,0.832578,0.0
2,実験ノート ID1-1,0.784336,0.733333
3,実験ノート ID1-3,0.784138,0.866667
4,実験ノート ID1-10,0.765331,0.0
5,実験ノート ID1-6,0.747414,0.0
6,実験ノート ID1-48,0.742067,0.0
7,実験ノート ID1-7,0.732075,0.0
8,実験ノート ID1-11,0.730463,0.0
9,実験ノート ID1-12,0.729077,0.0


## 1_ID1-2_1: nDCG Score = 0.444287

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.902687
1,実験ノート ID1-2,0.860803
2,実験ノート ID1-5,0.857399
3,実験ノート ID1-6,0.855091
4,実験ノート ID1-4,0.851867
5,実験ノート ID1-11,0.838376
6,実験ノート ID1-7,0.834205
7,実験ノート ID1-16,0.83323
8,実験ノート ID2-76,0.824928
9,実験ノート ID1-85,0.824589


## k=10, nDCG Score = 0.548687


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.902687,0.95
1,実験ノート ID1-2,0.860803,1.0
2,実験ノート ID1-5,0.857399,0.9
3,実験ノート ID1-6,0.855091,0.0
4,実験ノート ID1-4,0.851867,0.9
5,実験ノート ID1-11,0.838376,0.0
6,実験ノート ID1-7,0.834205,0.0
7,実験ノート ID1-16,0.83323,0.0
8,実験ノート ID2-76,0.824928,0.0
9,実験ノート ID1-85,0.824589,0.0


## 2_ID1-2_2: nDCG Score = 0.548687

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.95272
1,実験ノート ID2-22,0.92176
2,実験ノート ID2-16,0.884928
3,実験ノート ID2-13,0.870344
4,実験ノート ID2-27,0.859676
5,実験ノート ID2-2,0.850084
6,実験ノート ID2-23,0.849185
7,実験ノート ID2-11,0.84432
8,実験ノート ID2-4,0.841214
9,実験ノート ID2-5,0.833555


## k=10, nDCG Score = 0.504803


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.95272,1.0
1,実験ノート ID2-22,0.92176,0.9
2,実験ノート ID2-16,0.884928,0.766667
3,実験ノート ID2-13,0.870344,0.0
4,実験ノート ID2-27,0.859676,0.0
5,実験ノート ID2-2,0.850084,0.0
6,実験ノート ID2-23,0.849185,0.0
7,実験ノート ID2-11,0.84432,0.0
8,実験ノート ID2-4,0.841214,0.0
9,実験ノート ID2-5,0.833555,0.0


## 3_ID2-17_1: nDCG Score = 0.504803

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-17,0.877823
1,実験ノート ID2-1,0.869814
2,実験ノート ID2-23,0.863311
3,実験ノート ID2-22,0.837102
4,実験ノート ID2-27,0.834529
5,実験ノート ID2-11,0.830278
6,実験ノート ID2-21,0.825266
7,実験ノート ID2-12,0.824928
8,実験ノート ID2-5,0.8156
9,実験ノート ID2-51,0.800895


## k=10, nDCG Score = 0.704566


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.877823,1.0
1,実験ノート ID2-1,0.869814,0.95
2,実験ノート ID2-23,0.863311,0.9
3,実験ノート ID2-22,0.837102,0.95
4,実験ノート ID2-27,0.834529,0.0
5,実験ノート ID2-11,0.830278,0.0
6,実験ノート ID2-21,0.825266,0.9
7,実験ノート ID2-12,0.824928,0.0
8,実験ノート ID2-5,0.8156,0.95
9,実験ノート ID2-51,0.800895,0.0


## 4_ID2-17_2: nDCG Score = 0.704566

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.951328
1,実験ノート ID3-9,0.832904
2,実験ノート ID3-74,0.809171
3,実験ノート ID3-5,0.806625
4,実験ノート ID3-28,0.803683
5,実験ノート ID3-12,0.795229
6,実験ノート ID3-69,0.786312
7,実験ノート ID3-63,0.77954
8,実験ノート ID3-54,0.771586
9,実験ノート ID3-23,0.770137


## k=10, nDCG Score = 0.718832


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.951328,1.0
1,実験ノート ID3-9,0.832904,0.633333
2,実験ノート ID3-74,0.809171,0.633333
3,実験ノート ID3-5,0.806625,0.666667
4,実験ノート ID3-28,0.803683,0.0
5,実験ノート ID3-12,0.795229,0.0
6,実験ノート ID3-69,0.786312,0.733333
7,実験ノート ID3-63,0.77954,0.0
8,実験ノート ID3-54,0.771586,0.0
9,実験ノート ID3-23,0.770137,0.733333


## 5_ID3-30_1: nDCG Score = 0.718832

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-74,0.842462
1,実験ノート ID3-80,0.824928
2,実験ノート ID3-63,0.822204
3,実験ノート ID3-86,0.819793
4,実験ノート ID3-5,0.811691
5,実験ノート ID3-42,0.809894
6,実験ノート ID3-1,0.809171
7,実験ノート ID3-57,0.809171
8,実験ノート ID3-54,0.80699
9,実験ノート ID3-82,0.805526


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-74,0.842462,0.0
1,実験ノート ID3-80,0.824928,0.0
2,実験ノート ID3-63,0.822204,0.0
3,実験ノート ID3-86,0.819793,0.0
4,実験ノート ID3-5,0.811691,0.0
5,実験ノート ID3-42,0.809894,0.0
6,実験ノート ID3-57,0.809171,0.0
7,実験ノート ID3-1,0.809171,0.0
8,実験ノート ID3-54,0.80699,0.0
9,実験ノート ID3-82,0.805526,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.952825
1,実験ノート ID1-1,0.817706
2,実験ノート ID1-4,0.79751
3,実験ノート ID1-6,0.782945
4,実験ノート ID1-9,0.768682
5,実験ノート ID1-2,0.760882
6,実験ノート ID1-5,0.757454
7,実験ノート ID1-13,0.744972
8,実験ノート ID1-8,0.739141
9,実験ノート ID1-11,0.733681


## k=10, nDCG Score = 0.460846


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.952825,1.0
1,実験ノート ID1-1,0.817706,0.8
2,実験ノート ID1-4,0.79751,0.0
3,実験ノート ID1-6,0.782945,0.0
4,実験ノート ID1-9,0.768682,0.0
5,実験ノート ID1-2,0.760882,0.833333
6,実験ノート ID1-5,0.757454,0.0
7,実験ノート ID1-13,0.744972,0.0
8,実験ノート ID1-8,0.739141,0.0
9,実験ノート ID1-11,0.733681,0.0


## 7_ID1-3_1: nDCG Score = 0.460846

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.900399
1,実験ノート ID1-2,0.857971
2,実験ノート ID1-5,0.856537
3,実験ノート ID1-6,0.855671
4,実験ノート ID1-4,0.853633
5,実験ノート ID1-11,0.838058
6,実験ノート ID1-7,0.835497
7,実験ノート ID2-76,0.825604
8,実験ノート ID1-16,0.82425
9,実験ノート ID1-85,0.822888


## k=10, nDCG Score = 0.541411


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.900399,0.95
1,実験ノート ID1-2,0.857971,0.95
2,実験ノート ID1-5,0.856537,0.9
3,実験ノート ID1-6,0.855671,0.0
4,実験ノート ID1-4,0.853633,0.9
5,実験ノート ID1-11,0.838058,0.0
6,実験ノート ID1-7,0.835497,0.0
7,実験ノート ID2-76,0.825604,0.0
8,実験ノート ID1-16,0.82425,0.0
9,実験ノート ID1-85,0.822888,0.0


## 8_ID1-3_2: nDCG Score = 0.541411

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.950783
1,実験ノート ID4-41,0.872445
2,実験ノート ID4-44,0.867407
3,実験ノート ID4-42,0.857685
4,実験ノート ID4-43,0.856249
5,実験ノート ID4-45,0.8548
6,実験ノート ID4-46,0.850382
7,実験ノート ID4-22,0.81312
8,実験ノート ID4-21,0.807355
9,実験ノート ID4-9,0.797699


## k=10, nDCG Score = 0.882197


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.950783,1.0
1,実験ノート ID4-41,0.872445,0.766667
2,実験ノート ID4-44,0.867407,0.766667
3,実験ノート ID4-42,0.857685,0.733333
4,実験ノート ID4-43,0.856249,0.733333
5,実験ノート ID4-45,0.8548,0.8
6,実験ノート ID4-46,0.850382,0.7
7,実験ノート ID4-22,0.81312,0.666667
8,実験ノート ID4-21,0.807355,0.0
9,実験ノート ID4-9,0.797699,0.0


## 9_ID4-50_1: nDCG Score = 0.882197

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.9354
1,実験ノート ID4-45,0.897633
2,実験ノート ID4-43,0.887761
3,実験ノート ID4-44,0.875287
4,実験ノート ID4-22,0.861643
5,実験ノート ID4-9,0.853925
6,実験ノート ID4-41,0.848885
7,実験ノート ID4-15,0.828287
8,実験ノート ID4-21,0.82357
9,実験ノート ID4-42,0.818752


## k=10, nDCG Score = 0.993961


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.9354,1.0
1,実験ノート ID4-45,0.897633,0.8
2,実験ノート ID4-43,0.887761,0.7
3,実験ノート ID4-44,0.875287,0.75
4,実験ノート ID4-22,0.861643,0.7
5,実験ノート ID4-9,0.853925,0.65
6,実験ノート ID4-41,0.848885,0.7
7,実験ノート ID4-15,0.828287,0.65
8,実験ノート ID4-21,0.82357,0.65
9,実験ノート ID4-42,0.818752,0.65


## 10_ID4-50_2: nDCG Score = 0.993961
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.PLAMO: nDCG Score Mean = 0.579959


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score
0,1_ID1-2_1,0.797014,0.498416,0.444287,0.444287
1,2_ID1-2_2,0.654448,0.334411,0.388788,0.548687
2,3_ID2-17_1,0.660882,0.660882,0.647564,0.504803
3,4_ID2-17_2,0.503972,0.314818,0.489141,0.704566
4,5_ID3-30_1,0.780204,0.780204,0.774896,0.718832
5,6_ID3-30_2,0.266305,0.0,0.0,0.0
6,7_ID1-3_1,0.674593,0.467379,0.642161,0.460846
7,8_ID1-3_2,0.523301,0.322879,0.393754,0.541411
8,9_ID4-50_1,0.994522,0.994522,0.994522,0.882197
9,10_ID4-50_2,0.944608,0.942605,0.942605,0.993961



### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.RURI, TopK=10


100%|███████████████████████████████████████████| 34/34 [36:32<00:00, 64.50s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.949337
1,実験ノート ID2-16,0.876307
2,実験ノート ID2-47,0.837421
3,実験ノート ID1-5,0.832578
4,実験ノート ID2-50,0.82357
5,実験ノート ID2-9,0.805892
6,実験ノート ID1-1,0.784336
7,実験ノート ID1-3,0.784138
8,実験ノート ID1-10,0.765331
9,実験ノート ID1-48,0.742067


## k=10, nDCG Score = 0.724483


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.949337,1.0
1,実験ノート ID2-16,0.876307,0.966667
2,実験ノート ID2-47,0.837421,0.8
3,実験ノート ID1-5,0.832578,0.0
4,実験ノート ID2-50,0.82357,0.8
5,実験ノート ID2-9,0.805892,0.0
6,実験ノート ID1-1,0.784336,0.733333
7,実験ノート ID1-3,0.784138,0.866667
8,実験ノート ID1-10,0.765331,0.0
9,実験ノート ID1-48,0.742067,0.0


## 1_ID1-2_1: nDCG Score = 0.724483

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.902687
1,実験ノート ID1-16,0.83323
2,実験ノート ID1-97,0.823229
3,実験ノート ID1-21,0.822888
4,実験ノート ID1-91,0.799771
5,実験ノート ID1-88,0.796562
6,実験ノート ID1-36,0.787295
7,実験ノート ID1-40,0.783741
8,実験ノート ID1-70,0.781548
9,実験ノート ID1-59,0.775894


## k=10, nDCG Score = 0.219097


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.902687,0.95
1,実験ノート ID1-16,0.83323,0.0
2,実験ノート ID1-97,0.823229,0.0
3,実験ノート ID1-21,0.822888,0.0
4,実験ノート ID1-91,0.799771,0.0
5,実験ノート ID1-88,0.796562,0.0
6,実験ノート ID1-36,0.787295,0.0
7,実験ノート ID1-40,0.783741,0.0
8,実験ノート ID1-70,0.781548,0.0
9,実験ノート ID1-59,0.775894,0.0


## 2_ID1-2_2: nDCG Score = 0.219097

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.95272
1,実験ノート ID2-22,0.92176
2,実験ノート ID2-46,0.886115
3,実験ノート ID2-16,0.884928
4,実験ノート ID2-13,0.870344
5,実験ノート ID2-1,0.868482
6,実験ノート ID2-42,0.861643
7,実験ノート ID2-27,0.859676
8,実験ノート ID2-28,0.845854
9,実験ノート ID2-11,0.84432


## k=10, nDCG Score = 0.720592


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.95272,1.0
1,実験ノート ID2-22,0.92176,0.9
2,実験ノート ID2-46,0.886115,0.766667
3,実験ノート ID2-16,0.884928,0.766667
4,実験ノート ID2-13,0.870344,0.0
5,実験ノート ID2-1,0.868482,0.766667
6,実験ノート ID2-42,0.861643,0.0
7,実験ノート ID2-27,0.859676,0.0
8,実験ノート ID2-28,0.845854,0.766667
9,実験ノート ID2-11,0.84432,0.0


## 3_ID2-17_1: nDCG Score = 0.720592

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-1,0.869814
1,実験ノート ID1-1,0.849785
2,実験ノート ID2-22,0.837102
3,実験ノート ID2-27,0.834529
4,実験ノート ID2-13,0.833555
5,実験ノート ID2-11,0.830278
6,実験ノート ID2-12,0.824928
7,実験ノート ID2-7,0.820484
8,実験ノート ID2-48,0.810974
9,実験ノート ID2-47,0.79902


## k=10, nDCG Score = 0.468488


Unnamed: 0,name,score,gain
0,実験ノート ID2-1,0.869814,0.95
1,実験ノート ID1-1,0.849785,0.95
2,実験ノート ID2-22,0.837102,0.95
3,実験ノート ID2-27,0.834529,0.0
4,実験ノート ID2-13,0.833555,0.0
5,実験ノート ID2-11,0.830278,0.0
6,実験ノート ID2-12,0.824928,0.0
7,実験ノート ID2-7,0.820484,0.0
8,実験ノート ID2-48,0.810974,0.0
9,実験ノート ID2-47,0.79902,0.0


## 4_ID2-17_2: nDCG Score = 0.468488

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.951328
1,実験ノート ID3-9,0.832904
2,実験ノート ID3-74,0.809171
3,実験ノート ID3-5,0.806625
4,実験ノート ID3-28,0.803683
5,実験ノート ID3-12,0.795229
6,実験ノート ID2-43,0.78847
7,実験ノート ID2-20,0.786508
8,実験ノート ID3-69,0.786312
9,実験ノート ID3-63,0.77954


## k=10, nDCG Score = 0.649962


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.951328,1.0
1,実験ノート ID3-9,0.832904,0.633333
2,実験ノート ID3-74,0.809171,0.633333
3,実験ノート ID3-5,0.806625,0.666667
4,実験ノート ID3-28,0.803683,0.0
5,実験ノート ID3-12,0.795229,0.0
6,実験ノート ID2-43,0.78847,0.0
7,実験ノート ID2-20,0.786508,0.0
8,実験ノート ID3-69,0.786312,0.733333
9,実験ノート ID3-63,0.77954,0.0


## 5_ID3-30_1: nDCG Score = 0.649962

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-74,0.842462
1,実験ノート ID3-43,0.835175
2,実験ノート ID3-80,0.824928
3,実験ノート ID3-63,0.822204
4,実験ノート ID3-86,0.819793
5,実験ノート ID3-37,0.818752
6,実験ノート ID3-5,0.811691
7,実験ノート ID3-42,0.809894
8,実験ノート ID3-57,0.809171
9,実験ノート ID3-1,0.809171


## k=10, nDCG Score = 0.000000


Unnamed: 0,name,score,gain
0,実験ノート ID3-74,0.842462,0.0
1,実験ノート ID3-43,0.835175,0.0
2,実験ノート ID3-80,0.824928,0.0
3,実験ノート ID3-63,0.822204,0.0
4,実験ノート ID3-86,0.819793,0.0
5,実験ノート ID3-37,0.818752,0.0
6,実験ノート ID3-5,0.811691,0.0
7,実験ノート ID3-42,0.809894,0.0
8,実験ノート ID3-57,0.809171,0.0
9,実験ノート ID3-1,0.809171,0.0


## 6_ID3-30_2: nDCG Score = 0.000000

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.952825
1,実験ノート ID2-46,0.836782
2,実験ノート ID2-50,0.834852
3,実験ノート ID1-1,0.817706
4,実験ノート ID2-47,0.808446
5,実験ノート ID1-4,0.79751
6,実験ノート ID1-2,0.760882
7,実験ノート ID2-20,0.757884
8,実験ノート ID1-13,0.744972
9,実験ノート ID1-33,0.733452


## k=10, nDCG Score = 0.414990


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.952825,1.0
1,実験ノート ID2-46,0.836782,0.0
2,実験ノート ID2-50,0.834852,0.0
3,実験ノート ID1-1,0.817706,0.8
4,実験ノート ID2-47,0.808446,0.0
5,実験ノート ID1-4,0.79751,0.0
6,実験ノート ID1-2,0.760882,0.833333
7,実験ノート ID2-20,0.757884,0.0
8,実験ノート ID1-13,0.744972,0.0
9,実験ノート ID1-33,0.733452,0.0


## 7_ID1-3_1: nDCG Score = 0.414990

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.900399
1,実験ノート ID1-16,0.82425
2,実験ノート ID1-21,0.818055
3,実験ノート ID1-91,0.798266
4,実験ノート ID1-88,0.795229
5,実験ノート ID1-36,0.782347
6,実験ノート ID1-40,0.779339
7,実験ノート ID1-70,0.776911
8,実験ノート ID1-39,0.769722
9,実験ノート ID1-31,0.766801


## k=10, nDCG Score = 0.219097


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.900399,0.95
1,実験ノート ID1-16,0.82425,0.0
2,実験ノート ID1-21,0.818055,0.0
3,実験ノート ID1-91,0.798266,0.0
4,実験ノート ID1-88,0.795229,0.0
5,実験ノート ID1-36,0.782347,0.0
6,実験ノート ID1-40,0.779339,0.0
7,実験ノート ID1-70,0.776911,0.0
8,実験ノート ID1-39,0.769722,0.0
9,実験ノート ID1-31,0.766801,0.0


## 8_ID1-3_2: nDCG Score = 0.219097

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.950783
1,実験ノート ID4-48,0.879323
2,実験ノート ID4-41,0.872445
3,実験ノート ID4-44,0.867407
4,実験ノート ID4-42,0.857685
5,実験ノート ID4-43,0.856249
6,実験ノート ID4-45,0.8548
7,実験ノート ID4-46,0.850382
8,実験ノート ID4-47,0.83774
9,実験ノート ID4-22,0.81312


## k=10, nDCG Score = 0.994522


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.950783,1.0
1,実験ノート ID4-48,0.879323,0.733333
2,実験ノート ID4-41,0.872445,0.766667
3,実験ノート ID4-44,0.867407,0.766667
4,実験ノート ID4-42,0.857685,0.733333
5,実験ノート ID4-43,0.856249,0.733333
6,実験ノート ID4-45,0.8548,0.8
7,実験ノート ID4-46,0.850382,0.7
8,実験ノート ID4-47,0.83774,0.666667
9,実験ノート ID4-22,0.81312,0.666667


## 9_ID4-50_1: nDCG Score = 0.994522

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.9354
1,実験ノート ID4-45,0.897633
2,実験ノート ID4-43,0.887761
3,実験ノート ID4-48,0.877571
4,実験ノート ID4-44,0.875287
5,実験ノート ID4-22,0.861643
6,実験ノート ID4-49,0.856249
7,実験ノート ID4-9,0.853925
8,実験ノート ID4-41,0.848885
9,実験ノート ID4-47,0.845241


## k=10, nDCG Score = 0.944608


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.9354,1.0
1,実験ノート ID4-45,0.897633,0.8
2,実験ノート ID4-43,0.887761,0.7
3,実験ノート ID4-48,0.877571,0.7
4,実験ノート ID4-44,0.875287,0.75
5,実験ノート ID4-22,0.861643,0.7
6,実験ノート ID4-49,0.856249,0.65
7,実験ノート ID4-9,0.853925,0.65
8,実験ノート ID4-41,0.848885,0.7
9,実験ノート ID4-47,0.845241,0.0


## 10_ID4-50_2: nDCG Score = 0.944608
### Case: retrieve_by_note, EMBEDDING_MODEL=EmbeddingType.RURI: nDCG Score Mean = 0.535584


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score
0,1_ID1-2_1,0.797014,0.498416,0.444287,0.444287,0.724483
1,2_ID1-2_2,0.654448,0.334411,0.388788,0.548687,0.219097
2,3_ID2-17_1,0.660882,0.660882,0.647564,0.504803,0.720592
3,4_ID2-17_2,0.503972,0.314818,0.489141,0.704566,0.468488
4,5_ID3-30_1,0.780204,0.780204,0.774896,0.718832,0.649962
5,6_ID3-30_2,0.266305,0.0,0.0,0.0,0.0
6,7_ID1-3_1,0.674593,0.467379,0.642161,0.460846,0.41499
7,8_ID1-3_2,0.523301,0.322879,0.393754,0.541411,0.219097
8,9_ID4-50_1,0.994522,0.994522,0.994522,0.882197,0.994522
9,10_ID4-50_2,0.944608,0.942605,0.942605,0.993961,0.944608


#### Case Retrieve(Parent Chunks) - rerank - aggragate

In [81]:
### チャンク(ChromaDB)の類似検索 =============

# Retrive関数 -----------------
def retrieve_parentChunk(queries_dic, k=10, trace=False): 
    # queries_dic: {Section:クエリ, ...} -> [[ノート名, 順位ランク], ...] k個のリストのリスト
    if trace:
        print(f"### Retrieve: query=\n「{queries_dic}」, k={k} ") 

    # section毎にフィルタをかけてRetrieve, rerank
    reranked_df = pd.DataFrame({
        'docs':   pd.Series(dtype=str),   # 検索された内容
        'source': pd.Series(dtype=str),   # ノート名
        'score':  pd.Series(dtype=float)  # Retricvaでの距離計算結果
    })
    n_queries = 0
    for i, section in enumerate(['all','目的','材料','手順']):
        query = queries_dic[section]
        if query == '':
            continue
        
        n_queries += 1
        # --- クエリをembedding ---
        query_emb = get_embeddings(query)
    
        # ChromaDBで類似検索（＝retrieval）=======
        results = collection.query(
            query_embeddings=query_emb,
            n_results = 4*k,
            include = ['documents', 'metadatas', 'distances'],
            where = {'section': section}         # metadataでのfilter条件
        )
        retreaved_docs    = results['documents'][0]
        retreaved_sources = [m['source'] for m in results['metadatas'][0]]
        retreaved_dists   = results['distances'][0]
        retreaved_df = pd.DataFrame({
            'docs': retreaved_docs,
            'name': retreaved_sources,
            'dist': retreaved_dists
        })
        if trace:
            display(retreaved_df)

        # Cohereでdocumentsをリランク(Rerank) =============
        results = COHERE_CLIENT.rerank(
            model=COHERE_RERANK_MODEL,
            query=query,
            documents=retreaved_docs,
            top_n=4*k,
        ).results

        reranked_df = pd.concat([reranked_df,  # section毎のrerankを連結
                                 pd.DataFrame({
                                     'docs':  [retreaved_docs[r.index]    for r in results],
                                     'name':  [retreaved_sources[r.index] for r in results],
                                     'score': [r.relevance_score          for r in results]  # rerank score
                                 })], axis=0, ignore_index=True)
    aggr_reranked_df = (
        reranked_df.groupby('name', as_index=False)['score'].sum()  # sourceで集約, スコアは合計
        .sort_values('score', ascending=False).reset_index(drop=True) # scoreでソート
    ).head(k)
    aggr_reranked_df['score'] = aggr_reranked_df['score'] / n_queries # Queryの数で割り戻す
    if trace:
        display(reranked_df.sort_values(['score'], ascending=False))
        display(aggr_reranked_df)

    return aggr_reranked_df[['name','score']]

In [82]:
trace = False

TopK = 10
aggr_strategy='MEAN' # スコア集約戦略

ndcgs_df = pd.DataFrame({'Test_ID': testquery_df['test_id'].values.tolist() + ['#MEAN']}) # ndcgsの入れ物
name_df = pd.DataFrame({'name': notes_dic.keys()}) # 料理名一覧
for emb_type in list(EmbeddingType):
    EMBEDDING_MODEL = emb_type   # モデルを指定
    print(f"\n### Case: retrieve_rerank_Parentchunk, EMBEDDING_MODEL={EMBEDDING_MODEL}, TopK = {TopK}")
    collection = setup_collection(notes_dic)   # 次元が変わるため、collection(VectorStore)を再作成
    emb_model = str(EMBEDDING_MODEL).split('.')[1]

    ndcgs = []
    test_ids = []
    for i, row in testquery_df.iterrows():       # テストケース毎に
        queries = [row['purpose'].strip(), row['materials'].strip(), row['methods'].strip()]  # クエリを抽出
        queries_lst = ['\n'.join([s for s in queries if s])] + queries 
        queries_dic = {s: q if q != '' else '' for q, s in zip(queries_lst, ['all','目的','材料','手順'])}
        test_id = row['test_id']
        test_ids.append(test_id)
    
        # 検索実行（個別のクエリで検索）
        retrieved_df = retrieve_parentChunk(queries_dic, k=TopK) # クエリ方法を指定して実行
        print(f"\n## Retrieval Result: test_id={test_id}")
        display(retrieved_df)
    
        ndcg = calc_ndcg(retrieved_df, relevance_df.query("test_id==@test_id"), k=TopK, trace=True)
        ndcgs.append(ndcg)
        print(f"## {test_id}: nDCG Score = {ndcg:.6f}")
    
        time.sleep(30)  # リクエストレート制限対策
    
    ndcgs_mean = np.array(ndcgs).mean()
    print(f"### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL={EMBEDDING_MODEL}: nDCG Score Mean = {ndcgs_mean:.6f}")
    wk_df = pd.DataFrame({'Test_ID':test_ids + ['#MEAN'], f"{emb_model} nDCG Score":ndcgs + [ndcgs_mean]})
    ndcgs_df = pd.merge(ndcgs_df, wk_df, how='left')
    display(ndcgs_df)

ndcgs_parentchunk_df = ndcgs_df.assign(logic='parentchunk')


### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.GEMINI, TopK = 10


100%|███████████████████████████████████████████| 34/34 [01:09<00:00,  2.04s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.717977
1,実験ノート ID1-8,0.691873
2,実験ノート ID1-1,0.662356
3,実験ノート ID2-16,0.631384
4,実験ノート ID1-20,0.622833
5,実験ノート ID1-5,0.617208
6,実験ノート ID1-6,0.588667
7,実験ノート ID1-3,0.582326
8,実験ノート ID2-21,0.575019
9,実験ノート ID2-46,0.557638


## k=10, nDCG Score = 0.645743


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.717977,1.0
1,実験ノート ID1-8,0.691873,0.0
2,実験ノート ID1-1,0.662356,0.733333
3,実験ノート ID2-16,0.631384,0.966667
4,実験ノート ID1-20,0.622833,0.0
5,実験ノート ID1-5,0.617208,0.0
6,実験ノート ID1-6,0.588667,0.0
7,実験ノート ID1-3,0.582326,0.866667
8,実験ノート ID2-21,0.575019,0.833333
9,実験ノート ID2-46,0.557638,0.766667


## 1_ID1-2_1: nDCG Score = 0.645743

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.922591
1,実験ノート ID1-8,0.898438
2,実験ノート ID1-20,0.887869
3,実験ノート ID1-7,0.618951
4,実験ノート ID1-6,0.618442
5,実験ノート ID1-2,0.603418
6,実験ノート ID1-3,0.602101
7,実験ノート ID1-5,0.602056
8,実験ノート ID1-4,0.598295
9,実験ノート ID1-19,0.595679


## k=10, nDCG Score = 0.498400


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.922591,0.95
1,実験ノート ID1-8,0.898438,0.0
2,実験ノート ID1-20,0.887869,0.0
3,実験ノート ID1-7,0.618951,0.0
4,実験ノート ID1-6,0.618442,0.0
5,実験ノート ID1-2,0.603418,1.0
6,実験ノート ID1-3,0.602101,0.9
7,実験ノート ID1-5,0.602056,0.9
8,実験ノート ID1-4,0.598295,0.9
9,実験ノート ID1-19,0.595679,0.0


## 2_ID1-2_2: nDCG Score = 0.498400

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.949679
1,実験ノート ID2-22,0.910244
2,実験ノート ID2-16,0.856207
3,実験ノート ID2-27,0.856095
4,実験ノート ID2-28,0.841536
5,実験ノート ID2-1,0.83959
6,実験ノート ID2-23,0.836248
7,実験ノート ID2-21,0.653927
8,実験ノート ID2-18,0.64842
9,実験ノート ID2-25,0.641435


## k=10, nDCG Score = 0.714762


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.949679,1.0
1,実験ノート ID2-22,0.910244,0.9
2,実験ノート ID2-16,0.856207,0.766667
3,実験ノート ID2-27,0.856095,0.0
4,実験ノート ID2-28,0.841536,0.766667
5,実験ノート ID2-1,0.83959,0.766667
6,実験ノート ID2-23,0.836248,0.0
7,実験ノート ID2-21,0.653927,0.766667
8,実験ノート ID2-18,0.64842,0.0
9,実験ノート ID2-25,0.641435,0.0


## 3_ID2-17_1: nDCG Score = 0.714762

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-17,0.916839
1,実験ノート ID2-23,0.907475
2,実験ノート ID2-1,0.883578
3,実験ノート ID2-22,0.876387
4,実験ノート ID2-18,0.875603
5,実験ノート ID2-21,0.872354
6,実験ノート ID2-16,0.86983
7,実験ノート ID2-25,0.868438
8,実験ノート ID2-27,0.851127
9,実験ノート ID2-28,0.8456


## k=10, nDCG Score = 0.711061


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.916839,1.0
1,実験ノート ID2-23,0.907475,0.9
2,実験ノート ID2-1,0.883578,0.95
3,実験ノート ID2-22,0.876387,0.95
4,実験ノート ID2-18,0.875603,0.0
5,実験ノート ID2-21,0.872354,0.9
6,実験ノート ID2-16,0.86983,0.9
7,実験ノート ID2-25,0.868438,0.0
8,実験ノート ID2-27,0.851127,0.0
9,実験ノート ID2-28,0.8456,0.0


## 4_ID2-17_2: nDCG Score = 0.711061

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.944814
1,実験ノート ID3-69,0.786799
2,実験ノート ID3-23,0.781684
3,実験ノート ID3-48,0.751031
4,実験ノート ID3-6,0.724739
5,実験ノート ID3-73,0.722686
6,実験ノート ID3-26,0.68714
7,実験ノート ID3-74,0.632296
8,実験ノート ID3-21,0.615422
9,実験ノート ID3-72,0.614623


## k=10, nDCG Score = 0.751826


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.944814,1.0
1,実験ノート ID3-69,0.786799,0.733333
2,実験ノート ID3-23,0.781684,0.733333
3,実験ノート ID3-48,0.751031,0.633333
4,実験ノート ID3-6,0.724739,0.7
5,実験ノート ID3-73,0.722686,0.0
6,実験ノート ID3-26,0.68714,0.0
7,実験ノート ID3-74,0.632296,0.633333
8,実験ノート ID3-21,0.615422,0.0
9,実験ノート ID3-72,0.614623,0.0


## 5_ID3-30_1: nDCG Score = 0.751826

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-30,0.905119
1,実験ノート ID3-74,0.854158
2,実験ノート ID3-21,0.849487
3,実験ノート ID3-72,0.84627
4,実験ノート ID3-26,0.840968
5,実験ノート ID3-48,0.838703
6,実験ノート ID3-69,0.833562
7,実験ノート ID3-16,0.587105
8,実験ノート ID3-3,0.579588
9,実験ノート ID3-23,0.578866


## k=10, nDCG Score = 0.807062


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.905119,1.0
1,実験ノート ID3-74,0.854158,0.0
2,実験ノート ID3-21,0.849487,0.8
3,実験ノート ID3-72,0.84627,0.75
4,実験ノート ID3-26,0.840968,0.75
5,実験ノート ID3-48,0.838703,0.75
6,実験ノート ID3-69,0.833562,0.8
7,実験ノート ID3-16,0.587105,0.8
8,実験ノート ID3-3,0.579588,0.0
9,実験ノート ID3-23,0.578866,0.8


## 6_ID3-30_2: nDCG Score = 0.807062

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.718747
1,実験ノート ID1-1,0.670178
2,実験ノート ID1-8,0.648895
3,実験ノート ID1-7,0.642313
4,実験ノート ID1-20,0.622519
5,実験ノート ID2-16,0.59588
6,実験ノート ID2-21,0.575009
7,実験ノート ID1-4,0.573743
8,実験ノート ID2-50,0.561529
9,実験ノート ID2-48,0.549571


## k=10, nDCG Score = 0.535134


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.718747,1.0
1,実験ノート ID1-1,0.670178,0.8
2,実験ノート ID1-8,0.648895,0.0
3,実験ノート ID1-7,0.642313,0.0
4,実験ノート ID1-20,0.622519,0.0
5,実験ノート ID2-16,0.59588,0.9
6,実験ノート ID2-21,0.575009,0.8
7,実験ノート ID1-4,0.573743,0.0
8,実験ノート ID2-50,0.561529,0.0
9,実験ノート ID2-48,0.549571,0.0


## 7_ID1-3_1: nDCG Score = 0.535134

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.921135
1,実験ノート ID1-8,0.898378
2,実験ノート ID1-20,0.882974
3,実験ノート ID1-7,0.617777
4,実験ノート ID1-6,0.617486
5,実験ノート ID1-3,0.604569
6,実験ノート ID1-5,0.600143
7,実験ノート ID1-2,0.598896
8,実験ノート ID1-19,0.594316
9,実験ノート ID1-16,0.581434


## k=10, nDCG Score = 0.439554


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.921135,0.95
1,実験ノート ID1-8,0.898378,0.0
2,実験ノート ID1-20,0.882974,0.0
3,実験ノート ID1-7,0.617777,0.0
4,実験ノート ID1-6,0.617486,0.0
5,実験ノート ID1-3,0.604569,1.0
6,実験ノート ID1-5,0.600143,0.9
7,実験ノート ID1-2,0.598896,0.95
8,実験ノート ID1-19,0.594316,0.0
9,実験ノート ID1-16,0.581434,0.0


## 8_ID1-3_2: nDCG Score = 0.439554

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.957067
1,実験ノート ID4-44,0.851358
2,実験ノート ID4-41,0.843027
3,実験ノート ID4-45,0.841508
4,実験ノート ID4-43,0.82607
5,実験ノート ID4-22,0.767605
6,実験ノート ID4-46,0.76384
7,実験ノート ID4-9,0.754335
8,実験ノート ID4-21,0.745791
9,実験ノート ID4-15,0.729452


## k=10, nDCG Score = 0.818944


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.957067,1.0
1,実験ノート ID4-44,0.851358,0.766667
2,実験ノート ID4-41,0.843027,0.766667
3,実験ノート ID4-45,0.841508,0.8
4,実験ノート ID4-43,0.82607,0.733333
5,実験ノート ID4-22,0.767605,0.666667
6,実験ノート ID4-46,0.76384,0.7
7,実験ノート ID4-9,0.754335,0.0
8,実験ノート ID4-21,0.745791,0.0
9,実験ノート ID4-15,0.729452,0.0


## 9_ID4-50_1: nDCG Score = 0.818944

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.94613
1,実験ノート ID4-45,0.915872
2,実験ノート ID4-44,0.892981
3,実験ノート ID4-43,0.881849
4,実験ノート ID4-22,0.861743
5,実験ノート ID4-41,0.858781
6,実験ノート ID4-9,0.848661
7,実験ノート ID4-21,0.818394
8,実験ノート ID4-26,0.817109
9,実験ノート ID4-15,0.80278


## k=10, nDCG Score = 0.995270


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.94613,1.0
1,実験ノート ID4-45,0.915872,0.8
2,実験ノート ID4-44,0.892981,0.75
3,実験ノート ID4-43,0.881849,0.7
4,実験ノート ID4-22,0.861743,0.7
5,実験ノート ID4-41,0.858781,0.7
6,実験ノート ID4-9,0.848661,0.65
7,実験ノート ID4-21,0.818394,0.65
8,実験ノート ID4-26,0.817109,0.65
9,実験ノート ID4-15,0.80278,0.65


## 10_ID4-50_2: nDCG Score = 0.995270
### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.GEMINI: nDCG Score Mean = 0.691776


Unnamed: 0,Test_ID,GEMINI nDCG Score
0,1_ID1-2_1,0.645743
1,2_ID1-2_2,0.4984
2,3_ID2-17_1,0.714762
3,4_ID2-17_2,0.711061
4,5_ID3-30_1,0.751826
5,6_ID3-30_2,0.807062
6,7_ID1-3_1,0.535134
7,8_ID1-3_2,0.439554
8,9_ID4-50_1,0.818944
9,10_ID4-50_2,0.99527



### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL, TopK = 10


100%|███████████████████████████████████████████| 34/34 [00:56<00:00,  1.66s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-5,0.847048
1,実験ノート ID1-6,0.77552
2,実験ノート ID1-12,0.750298
3,実験ノート ID1-2,0.717977
4,実験ノート ID1-16,0.638959
5,実験ノート ID1-37,0.600041
6,実験ノート ID1-52,0.592608
7,実験ノート ID1-3,0.582326
8,実験ノート ID1-32,0.476348
9,実験ノート ID1-10,0.464952


## k=10, nDCG Score = 0.179786


Unnamed: 0,name,score,gain
0,実験ノート ID1-5,0.847048,0.0
1,実験ノート ID1-6,0.77552,0.0
2,実験ノート ID1-12,0.750298,0.0
3,実験ノート ID1-2,0.717977,1.0
4,実験ノート ID1-16,0.638959,0.0
5,実験ノート ID1-37,0.600041,0.0
6,実験ノート ID1-52,0.592608,0.0
7,実験ノート ID1-3,0.582326,0.866667
8,実験ノート ID1-32,0.476348,0.0
9,実験ノート ID1-10,0.464952,0.0


## 1_ID1-2_1: nDCG Score = 0.179786

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-6,0.903472
1,実験ノート ID1-16,0.893772
2,実験ノート ID1-12,0.888722
3,実験ノート ID1-20,0.887869
4,実験ノート ID1-37,0.858082
5,実験ノート ID1-52,0.854405
6,実験ノート ID1-39,0.849188
7,実験ノート ID1-5,0.62271
8,実験ノート ID1-10,0.619936
9,実験ノート ID1-7,0.618951


## k=10, nDCG Score = 0.065480


Unnamed: 0,name,score,gain
0,実験ノート ID1-6,0.903472,0.0
1,実験ノート ID1-16,0.893772,0.0
2,実験ノート ID1-12,0.888722,0.0
3,実験ノート ID1-20,0.887869,0.0
4,実験ノート ID1-37,0.858082,0.0
5,実験ノート ID1-52,0.854405,0.0
6,実験ノート ID1-39,0.849188,0.0
7,実験ノート ID1-5,0.62271,0.9
8,実験ノート ID1-10,0.619936,0.0
9,実験ノート ID1-7,0.618951,0.0


## 2_ID1-2_2: nDCG Score = 0.065480

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.949679
1,実験ノート ID2-22,0.910244
2,実験ノート ID2-27,0.856095
3,実験ノート ID2-28,0.841536
4,実験ノート ID2-84,0.685779
5,実験ノート ID2-16,0.666951
6,実験ノート ID2-1,0.66235
7,実験ノート ID2-5,0.646387
8,実験ノート ID2-13,0.633266
9,実験ノート ID2-6,0.628765


## k=10, nDCG Score = 0.627824


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.949679,1.0
1,実験ノート ID2-22,0.910244,0.9
2,実験ノート ID2-27,0.856095,0.0
3,実験ノート ID2-28,0.841536,0.766667
4,実験ノート ID2-84,0.685779,0.0
5,実験ノート ID2-16,0.666951,0.766667
6,実験ノート ID2-1,0.66235,0.766667
7,実験ノート ID2-5,0.646387,0.0
8,実験ノート ID2-13,0.633266,0.0
9,実験ノート ID2-6,0.628765,0.0


## 3_ID2-17_1: nDCG Score = 0.627824

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-1,0.883578
1,実験ノート ID2-5,0.855864
2,実験ノート ID2-27,0.851127
3,実験ノート ID2-6,0.833312
4,実験ノート ID2-26,0.80159
5,実験ノート ID2-17,0.624231
6,実験ノート ID2-23,0.619705
7,実験ノート ID2-18,0.600402
8,実験ノート ID2-22,0.597353
9,実験ノート ID2-21,0.597265


## k=10, nDCG Score = 0.731496


Unnamed: 0,name,score,gain
0,実験ノート ID2-1,0.883578,0.95
1,実験ノート ID2-5,0.855864,0.95
2,実験ノート ID2-27,0.851127,0.0
3,実験ノート ID2-6,0.833312,0.95
4,実験ノート ID2-26,0.80159,0.0
5,実験ノート ID2-17,0.624231,1.0
6,実験ノート ID2-23,0.619705,0.9
7,実験ノート ID2-18,0.600402,0.0
8,実験ノート ID2-22,0.597353,0.95
9,実験ノート ID2-21,0.597265,0.9


## 4_ID2-17_2: nDCG Score = 0.731496

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.944814
1,実験ノート ID3-23,0.781684
2,実験ノート ID3-75,0.736535
3,実験ノート ID3-6,0.724739
4,実験ノート ID3-21,0.615422
5,実験ノート ID3-28,0.608367
6,実験ノート ID3-19,0.591028
7,実験ノート ID3-9,0.577117
8,実験ノート ID3-12,0.571829
9,実験ノート ID3-20,0.56657


## k=10, nDCG Score = 0.627429


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.944814,1.0
1,実験ノート ID3-23,0.781684,0.733333
2,実験ノート ID3-75,0.736535,0.0
3,実験ノート ID3-6,0.724739,0.7
4,実験ノート ID3-21,0.615422,0.0
5,実験ノート ID3-28,0.608367,0.0
6,実験ノート ID3-19,0.591028,0.0
7,実験ノート ID3-9,0.577117,0.633333
8,実験ノート ID3-12,0.571829,0.0
9,実験ノート ID3-20,0.56657,0.633333


## 5_ID3-30_1: nDCG Score = 0.627429

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-23,0.841035
1,実験ノート ID3-6,0.836343
2,実験ノート ID3-19,0.825291
3,実験ノート ID3-30,0.618372
4,実験ノート ID3-14,0.58885
5,実験ノート ID3-21,0.58758
6,実験ノート ID3-16,0.587105
7,実験ノート ID3-25,0.58664
8,実験ノート ID3-26,0.578536
9,実験ノート ID3-63,0.566676


## k=10, nDCG Score = 0.534762


Unnamed: 0,name,score,gain
0,実験ノート ID3-23,0.841035,0.8
1,実験ノート ID3-6,0.836343,0.0
2,実験ノート ID3-19,0.825291,0.0
3,実験ノート ID3-30,0.618372,1.0
4,実験ノート ID3-14,0.58885,0.0
5,実験ノート ID3-21,0.58758,0.8
6,実験ノート ID3-16,0.587105,0.8
7,実験ノート ID3-25,0.58664,0.0
8,実験ノート ID3-26,0.578536,0.75
9,実験ノート ID3-63,0.566676,0.0


## 6_ID3-30_2: nDCG Score = 0.534762

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-6,0.775641
1,実験ノート ID1-12,0.753011
2,実験ノート ID1-5,0.73559
3,実験ノート ID1-3,0.718747
4,実験ノート ID1-16,0.63304
5,実験ノート ID1-52,0.609385
6,実験ノート ID1-39,0.605211
7,実験ノート ID1-37,0.599852
8,実験ノート ID1-2,0.540124
9,実験ノート ID1-13,0.539198


## k=10, nDCG Score = 0.174337


Unnamed: 0,name,score,gain
0,実験ノート ID1-6,0.775641,0.0
1,実験ノート ID1-12,0.753011,0.0
2,実験ノート ID1-5,0.73559,0.0
3,実験ノート ID1-3,0.718747,1.0
4,実験ノート ID1-16,0.63304,0.0
5,実験ノート ID1-52,0.609385,0.0
6,実験ノート ID1-39,0.605211,0.0
7,実験ノート ID1-37,0.599852,0.0
8,実験ノート ID1-2,0.540124,0.833333
9,実験ノート ID1-13,0.539198,0.0


## 7_ID1-3_1: nDCG Score = 0.174337

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-6,0.902709
1,実験ノート ID1-16,0.887888
2,実験ノート ID1-12,0.887771
3,実験ノート ID1-20,0.882974
4,実験ノート ID1-37,0.855634
5,実験ノート ID1-52,0.850958
6,実験ノート ID1-39,0.846189
7,実験ノート ID1-5,0.621085
8,実験ノート ID1-9,0.618951
9,実験ノート ID1-10,0.618859


## k=10, nDCG Score = 0.065480


Unnamed: 0,name,score,gain
0,実験ノート ID1-6,0.902709,0.0
1,実験ノート ID1-16,0.887888,0.0
2,実験ノート ID1-12,0.887771,0.0
3,実験ノート ID1-20,0.882974,0.0
4,実験ノート ID1-37,0.855634,0.0
5,実験ノート ID1-52,0.850958,0.0
6,実験ノート ID1-39,0.846189,0.0
7,実験ノート ID1-5,0.621085,0.9
8,実験ノート ID1-9,0.618951,0.0
9,実験ノート ID1-10,0.618859,0.0


## 8_ID1-3_2: nDCG Score = 0.065480

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.957067
1,実験ノート ID4-44,0.851358
2,実験ノート ID4-41,0.843027
3,実験ノート ID4-45,0.841508
4,実験ノート ID4-43,0.82607
5,実験ノート ID4-42,0.811843
6,実験ノート ID4-22,0.767605
7,実験ノート ID4-46,0.76384
8,実験ノート ID4-9,0.754335
9,実験ノート ID4-21,0.745791


## k=10, nDCG Score = 0.883403


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.957067,1.0
1,実験ノート ID4-44,0.851358,0.766667
2,実験ノート ID4-41,0.843027,0.766667
3,実験ノート ID4-45,0.841508,0.8
4,実験ノート ID4-43,0.82607,0.733333
5,実験ノート ID4-42,0.811843,0.733333
6,実験ノート ID4-22,0.767605,0.666667
7,実験ノート ID4-46,0.76384,0.7
8,実験ノート ID4-9,0.754335,0.0
9,実験ノート ID4-21,0.745791,0.0


## 9_ID4-50_1: nDCG Score = 0.883403

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.94613
1,実験ノート ID4-45,0.915872
2,実験ノート ID4-44,0.892981
3,実験ノート ID4-43,0.881849
4,実験ノート ID4-22,0.861743
5,実験ノート ID4-41,0.858781
6,実験ノート ID4-9,0.848661
7,実験ノート ID4-21,0.818394
8,実験ノート ID4-42,0.818003
9,実験ノート ID4-26,0.817109


## k=10, nDCG Score = 0.995270


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.94613,1.0
1,実験ノート ID4-45,0.915872,0.8
2,実験ノート ID4-44,0.892981,0.75
3,実験ノート ID4-43,0.881849,0.7
4,実験ノート ID4-22,0.861743,0.7
5,実験ノート ID4-41,0.858781,0.7
6,実験ノート ID4-9,0.848661,0.65
7,実験ノート ID4-21,0.818394,0.65
8,実験ノート ID4-42,0.818003,0.65
9,実験ノート ID4-26,0.817109,0.65


## 10_ID4-50_2: nDCG Score = 0.995270
### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.OPENAI_SMALL: nDCG Score Mean = 0.488527


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score
0,1_ID1-2_1,0.645743,0.179786
1,2_ID1-2_2,0.4984,0.06548
2,3_ID2-17_1,0.714762,0.627824
3,4_ID2-17_2,0.711061,0.731496
4,5_ID3-30_1,0.751826,0.627429
5,6_ID3-30_2,0.807062,0.534762
6,7_ID1-3_1,0.535134,0.174337
7,8_ID1-3_2,0.439554,0.06548
8,9_ID4-50_1,0.818944,0.883403
9,10_ID4-50_2,0.99527,0.99527



### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE, TopK = 10


100%|███████████████████████████████████████████| 34/34 [00:57<00:00,  1.68s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.812167
1,実験ノート ID1-12,0.750298
2,実験ノート ID1-2,0.717977
3,実験ノート ID1-8,0.691873
4,実験ノート ID1-1,0.662356
5,実験ノート ID1-16,0.638959
6,実験ノート ID1-19,0.625188
7,実験ノート ID1-5,0.617208
8,実験ノート ID1-31,0.61232
9,実験ノート ID1-76,0.598516


## k=10, nDCG Score = 0.421417


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.812167,0.866667
1,実験ノート ID1-12,0.750298,0.0
2,実験ノート ID1-2,0.717977,1.0
3,実験ノート ID1-8,0.691873,0.0
4,実験ノート ID1-1,0.662356,0.733333
5,実験ノート ID1-16,0.638959,0.0
6,実験ノート ID1-19,0.625188,0.0
7,実験ノート ID1-5,0.617208,0.0
8,実験ノート ID1-31,0.61232,0.0
9,実験ノート ID1-76,0.598516,0.0


## 1_ID1-2_1: nDCG Score = 0.421417

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.922591
1,実験ノート ID1-19,0.901783
2,実験ノート ID1-16,0.893772
3,実験ノート ID1-12,0.888722
4,実験ノート ID1-21,0.884161
5,実験ノート ID1-31,0.856882
6,実験ノート ID1-77,0.846601
7,実験ノート ID1-76,0.841649
8,実験ノート ID1-3,0.620877
9,実験ノート ID1-10,0.619936


## k=10, nDCG Score = 0.281580


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.922591,0.95
1,実験ノート ID1-19,0.901783,0.0
2,実験ノート ID1-16,0.893772,0.0
3,実験ノート ID1-12,0.888722,0.0
4,実験ノート ID1-21,0.884161,0.0
5,実験ノート ID1-31,0.856882,0.0
6,実験ノート ID1-77,0.846601,0.0
7,実験ノート ID1-76,0.841649,0.0
8,実験ノート ID1-3,0.620877,0.9
9,実験ノート ID1-10,0.619936,0.0


## 2_ID1-2_2: nDCG Score = 0.281580

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.949679
1,実験ノート ID2-22,0.910244
2,実験ノート ID2-16,0.856207
3,実験ノート ID2-27,0.856095
4,実験ノート ID2-23,0.836248
5,実験ノート ID2-21,0.653927
6,実験ノート ID2-18,0.64842
7,実験ノート ID2-28,0.642206
8,実験ノート ID2-25,0.641435
9,実験ノート ID2-13,0.633266


## k=10, nDCG Score = 0.638030


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.949679,1.0
1,実験ノート ID2-22,0.910244,0.9
2,実験ノート ID2-16,0.856207,0.766667
3,実験ノート ID2-27,0.856095,0.0
4,実験ノート ID2-23,0.836248,0.0
5,実験ノート ID2-21,0.653927,0.766667
6,実験ノート ID2-18,0.64842,0.0
7,実験ノート ID2-28,0.642206,0.766667
8,実験ノート ID2-25,0.641435,0.0
9,実験ノート ID2-13,0.633266,0.0


## 3_ID2-17_1: nDCG Score = 0.638030

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-17,0.916839
1,実験ノート ID2-1,0.883578
2,実験ノート ID2-22,0.876387
3,実験ノート ID2-21,0.872354
4,実験ノート ID2-16,0.86983
5,実験ノート ID2-25,0.868438
6,実験ノート ID2-5,0.855864
7,実験ノート ID2-27,0.851127
8,実験ノート ID2-6,0.833312
9,実験ノート ID2-26,0.80159


## k=10, nDCG Score = 0.789799


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.916839,1.0
1,実験ノート ID2-1,0.883578,0.95
2,実験ノート ID2-22,0.876387,0.95
3,実験ノート ID2-21,0.872354,0.9
4,実験ノート ID2-16,0.86983,0.9
5,実験ノート ID2-25,0.868438,0.0
6,実験ノート ID2-5,0.855864,0.95
7,実験ノート ID2-27,0.851127,0.0
8,実験ノート ID2-6,0.833312,0.95
9,実験ノート ID2-26,0.80159,0.0


## 4_ID2-17_2: nDCG Score = 0.789799

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-69,0.786866
1,実験ノート ID3-87,0.719998
2,実験ノート ID3-30,0.707383
3,実験ノート ID3-93,0.700797
4,実験ノート ID3-89,0.685192
5,実験ノート ID3-74,0.632296
6,実験ノート ID3-72,0.614623
7,実験ノート ID3-28,0.608367
8,実験ノート ID3-73,0.60717
9,実験ノート ID3-79,0.599206


## k=10, nDCG Score = 0.426346


Unnamed: 0,name,score,gain
0,実験ノート ID3-69,0.786866,0.733333
1,実験ノート ID3-87,0.719998,0.0
2,実験ノート ID3-30,0.707383,1.0
3,実験ノート ID3-93,0.700797,0.0
4,実験ノート ID3-89,0.685192,0.0
5,実験ノート ID3-74,0.632296,0.633333
6,実験ノート ID3-72,0.614623,0.0
7,実験ノート ID3-28,0.608367,0.0
8,実験ノート ID3-73,0.60717,0.0
9,実験ノート ID3-79,0.599206,0.0


## 5_ID3-30_1: nDCG Score = 0.426346

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-74,0.854158
1,実験ノート ID3-72,0.84627
2,実験ノート ID3-69,0.833562
3,実験ノート ID3-75,0.821908
4,実験ノート ID3-76,0.814095
5,実験ノート ID3-93,0.795511
6,実験ノート ID3-30,0.588524
7,実験ノート ID3-38,0.565569
8,実験ノート ID3-31,0.564601
9,実験ノート ID3-23,0.563946


## k=10, nDCG Score = 0.382889


Unnamed: 0,name,score,gain
0,実験ノート ID3-74,0.854158,0.0
1,実験ノート ID3-72,0.84627,0.75
2,実験ノート ID3-69,0.833562,0.8
3,実験ノート ID3-75,0.821908,0.0
4,実験ノート ID3-76,0.814095,0.0
5,実験ノート ID3-93,0.795511,0.0
6,実験ノート ID3-30,0.588524,1.0
7,実験ノート ID3-38,0.565569,0.0
8,実験ノート ID3-31,0.564601,0.0
9,実験ノート ID3-23,0.563946,0.8


## 6_ID3-30_2: nDCG Score = 0.382889

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.948587
1,実験ノート ID1-12,0.753011
2,実験ノート ID1-49,0.719938
3,実験ノート ID1-1,0.670178
4,実験ノート ID1-8,0.648895
5,実験ノート ID1-13,0.647066
6,実験ノート ID1-19,0.636123
7,実験ノート ID1-16,0.63304
8,実験ノート ID1-31,0.606463
9,実験ノート ID1-77,0.595565


## k=10, nDCG Score = 0.343935


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.948587,1.0
1,実験ノート ID1-12,0.753011,0.0
2,実験ノート ID1-49,0.719938,0.0
3,実験ノート ID1-1,0.670178,0.8
4,実験ノート ID1-8,0.648895,0.0
5,実験ノート ID1-13,0.647066,0.0
6,実験ノート ID1-19,0.636123,0.0
7,実験ノート ID1-16,0.63304,0.0
8,実験ノート ID1-31,0.606463,0.0
9,実験ノート ID1-77,0.595565,0.0


## 7_ID1-3_1: nDCG Score = 0.343935

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.921135
1,実験ノート ID1-17,0.898264
2,実験ノート ID1-19,0.897148
3,実験ノート ID1-16,0.887888
4,実験ノート ID1-12,0.887771
5,実験ノート ID1-21,0.879061
6,実験ノート ID1-31,0.849916
7,実験ノート ID1-77,0.844012
8,実験ノート ID1-76,0.835192
9,実験ノート ID1-3,0.62252


## k=10, nDCG Score = 0.285763


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.921135,0.95
1,実験ノート ID1-17,0.898264,0.0
2,実験ノート ID1-19,0.897148,0.0
3,実験ノート ID1-16,0.887888,0.0
4,実験ノート ID1-12,0.887771,0.0
5,実験ノート ID1-21,0.879061,0.0
6,実験ノート ID1-31,0.849916,0.0
7,実験ノート ID1-77,0.844012,0.0
8,実験ノート ID1-76,0.835192,0.0
9,実験ノート ID1-3,0.62252,1.0


## 8_ID1-3_2: nDCG Score = 0.285763

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.957067
1,実験ノート ID4-44,0.851358
2,実験ノート ID4-41,0.843027
3,実験ノート ID4-45,0.841508
4,実験ノート ID4-48,0.835282
5,実験ノート ID4-47,0.787718
6,実験ノート ID4-46,0.76384
7,実験ノート ID4-9,0.754335
8,実験ノート ID4-15,0.729452
9,実験ノート ID4-37,0.6673


## k=10, nDCG Score = 0.818944


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.957067,1.0
1,実験ノート ID4-44,0.851358,0.766667
2,実験ノート ID4-41,0.843027,0.766667
3,実験ノート ID4-45,0.841508,0.8
4,実験ノート ID4-48,0.835282,0.733333
5,実験ノート ID4-47,0.787718,0.666667
6,実験ノート ID4-46,0.76384,0.7
7,実験ノート ID4-9,0.754335,0.0
8,実験ノート ID4-15,0.729452,0.0
9,実験ノート ID4-37,0.6673,0.0


## 9_ID4-50_1: nDCG Score = 0.818944

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.94613
1,実験ノート ID4-45,0.915872
2,実験ノート ID4-44,0.892981
3,実験ノート ID4-41,0.858781
4,実験ノート ID4-48,0.850042
5,実験ノート ID4-9,0.848661
6,実験ノート ID4-47,0.838669
7,実験ノート ID4-15,0.80278
8,実験ノート ID4-46,0.748461
9,実験ノート ID4-29,0.72057


## k=10, nDCG Score = 0.875391


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.94613,1.0
1,実験ノート ID4-45,0.915872,0.8
2,実験ノート ID4-44,0.892981,0.75
3,実験ノート ID4-41,0.858781,0.7
4,実験ノート ID4-48,0.850042,0.7
5,実験ノート ID4-9,0.848661,0.65
6,実験ノート ID4-47,0.838669,0.0
7,実験ノート ID4-15,0.80278,0.65
8,実験ノート ID4-46,0.748461,0.65
9,実験ノート ID4-29,0.72057,0.0


## 10_ID4-50_2: nDCG Score = 0.875391
### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.OPENAI_LARGE: nDCG Score Mean = 0.526409


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score
0,1_ID1-2_1,0.645743,0.179786,0.421417
1,2_ID1-2_2,0.4984,0.06548,0.28158
2,3_ID2-17_1,0.714762,0.627824,0.63803
3,4_ID2-17_2,0.711061,0.731496,0.789799
4,5_ID3-30_1,0.751826,0.627429,0.426346
5,6_ID3-30_2,0.807062,0.534762,0.382889
6,7_ID1-3_1,0.535134,0.174337,0.343935
7,8_ID1-3_2,0.439554,0.06548,0.285763
8,9_ID4-50_1,0.818944,0.883403,0.818944
9,10_ID4-50_2,0.99527,0.99527,0.875391



### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.PLAMO, TopK = 10


100%|████████████████████████████████████████| 34/34 [2:51:37<00:00, 302.86s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-10,0.773659
1,実験ノート ID1-2,0.717977
2,実験ノート ID1-1,0.662356
3,実験ノート ID1-16,0.638959
4,実験ノート ID1-8,0.631172
5,実験ノート ID1-9,0.627547
6,実験ノート ID1-45,0.617603
7,実験ノート ID1-5,0.617208
8,実験ノート ID1-3,0.582326
9,実験ノート ID1-7,0.516672


## k=10, nDCG Score = 0.321354


Unnamed: 0,name,score,gain
0,実験ノート ID1-10,0.773659,0.0
1,実験ノート ID1-2,0.717977,1.0
2,実験ノート ID1-1,0.662356,0.733333
3,実験ノート ID1-16,0.638959,0.0
4,実験ノート ID1-8,0.631172,0.0
5,実験ノート ID1-9,0.627547,0.0
6,実験ノート ID1-45,0.617603,0.0
7,実験ノート ID1-5,0.617208,0.0
8,実験ノート ID1-3,0.582326,0.866667
9,実験ノート ID1-7,0.516672,0.0


## 1_ID1-2_1: nDCG Score = 0.321354

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.922591
1,実験ノート ID1-16,0.893772
2,実験ノート ID1-9,0.890377
3,実験ノート ID1-45,0.85821
4,実験ノート ID1-10,0.619936
5,実験ノート ID1-8,0.619404
6,実験ノート ID1-18,0.615717
7,実験ノート ID1-2,0.603418
8,実験ノート ID1-25,0.602761
9,実験ノート ID1-5,0.602056


## k=10, nDCG Score = 0.351852


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.922591,0.95
1,実験ノート ID1-16,0.893772,0.0
2,実験ノート ID1-9,0.890377,0.0
3,実験ノート ID1-45,0.85821,0.0
4,実験ノート ID1-10,0.619936,0.0
5,実験ノート ID1-8,0.619404,0.0
6,実験ノート ID1-18,0.615717,0.0
7,実験ノート ID1-2,0.603418,1.0
8,実験ノート ID1-25,0.602761,0.0
9,実験ノート ID1-5,0.602056,0.9


## 2_ID1-2_2: nDCG Score = 0.351852

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-17,0.949679
1,実験ノート ID2-22,0.910244
2,実験ノート ID2-16,0.856207
3,実験ノート ID2-23,0.83618
4,実験ノート ID2-27,0.656482
5,実験ノート ID2-21,0.653927
6,実験ノート ID2-5,0.646387
7,実験ノート ID2-13,0.633266
8,実験ノート ID2-6,0.628765
9,実験ノート ID2-11,0.610202


## k=10, nDCG Score = 0.575457


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.949679,1.0
1,実験ノート ID2-22,0.910244,0.9
2,実験ノート ID2-16,0.856207,0.766667
3,実験ノート ID2-23,0.83618,0.0
4,実験ノート ID2-27,0.656482,0.0
5,実験ノート ID2-21,0.653927,0.766667
6,実験ノート ID2-5,0.646387,0.0
7,実験ノート ID2-13,0.633266,0.0
8,実験ノート ID2-6,0.628765,0.0
9,実験ノート ID2-11,0.610202,0.0


## 3_ID2-17_1: nDCG Score = 0.575457

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-17,0.916839
1,実験ノート ID2-23,0.907475
2,実験ノート ID2-1,0.883578
3,実験ノート ID2-22,0.876387
4,実験ノート ID2-21,0.872354
5,実験ノート ID2-5,0.855864
6,実験ノート ID2-76,0.818471
7,実験ノート ID2-88,0.818368
8,実験ノート ID2-87,0.813964
9,実験ノート ID2-85,0.813413


## k=10, nDCG Score = 0.726329


Unnamed: 0,name,score,gain
0,実験ノート ID2-17,0.916839,1.0
1,実験ノート ID2-23,0.907475,0.9
2,実験ノート ID2-1,0.883578,0.95
3,実験ノート ID2-22,0.876387,0.95
4,実験ノート ID2-21,0.872354,0.9
5,実験ノート ID2-5,0.855864,0.95
6,実験ノート ID2-76,0.818471,0.0
7,実験ノート ID2-88,0.818368,0.0
8,実験ノート ID2-87,0.813964,0.0
9,実験ノート ID2-85,0.813413,0.0


## 4_ID2-17_2: nDCG Score = 0.726329

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.94483
1,実験ノート ID3-23,0.781684
2,実験ノート ID3-48,0.751067
3,実験ノート ID3-6,0.724739
4,実験ノート ID3-21,0.681093
5,実験ノート ID3-63,0.619892
6,実験ノート ID3-28,0.608367
7,実験ノート ID3-22,0.602543
8,実験ノート ID3-9,0.577117
9,実験ノート ID3-12,0.571829


## k=10, nDCG Score = 0.725257


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.94483,1.0
1,実験ノート ID3-23,0.781684,0.733333
2,実験ノート ID3-48,0.751067,0.633333
3,実験ノート ID3-6,0.724739,0.7
4,実験ノート ID3-21,0.681093,0.0
5,実験ノート ID3-63,0.619892,0.0
6,実験ノート ID3-28,0.608367,0.0
7,実験ノート ID3-22,0.602543,0.666667
8,実験ノート ID3-9,0.577117,0.633333
9,実験ノート ID3-12,0.571829,0.0


## 5_ID3-30_1: nDCG Score = 0.725257

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-23,0.841035
1,実験ノート ID3-63,0.840744
2,実験ノート ID3-48,0.838703
3,実験ノート ID3-45,0.816784
4,実験ノート ID3-30,0.618372
5,実験ノート ID3-21,0.58758
6,実験ノート ID3-16,0.587105
7,実験ノート ID3-32,0.582126
8,実験ノート ID3-22,0.574229
9,実験ノート ID3-6,0.57038


## k=10, nDCG Score = 0.622956


Unnamed: 0,name,score,gain
0,実験ノート ID3-23,0.841035,0.8
1,実験ノート ID3-63,0.840744,0.0
2,実験ノート ID3-48,0.838703,0.75
3,実験ノート ID3-45,0.816784,0.0
4,実験ノート ID3-30,0.618372,1.0
5,実験ノート ID3-21,0.58758,0.8
6,実験ノート ID3-16,0.587105,0.8
7,実験ノート ID3-32,0.582126,0.0
8,実験ノート ID3-22,0.574229,0.75
9,実験ノート ID3-6,0.57038,0.0


## 6_ID3-30_2: nDCG Score = 0.622956

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-9,0.798038
1,実験ノート ID1-3,0.718747
2,実験ノート ID1-1,0.670178
3,実験ノート ID1-8,0.648895
4,実験ノート ID1-10,0.640257
5,実験ノート ID1-45,0.610495
6,実験ノート ID1-4,0.573743
7,実験ノート ID1-13,0.540376
8,実験ノート ID1-2,0.540015
9,実験ノート ID1-23,0.519012


## k=10, nDCG Score = 0.327882


Unnamed: 0,name,score,gain
0,実験ノート ID1-9,0.798038,0.0
1,実験ノート ID1-3,0.718747,1.0
2,実験ノート ID1-1,0.670178,0.8
3,実験ノート ID1-8,0.648895,0.0
4,実験ノート ID1-10,0.640257,0.0
5,実験ノート ID1-45,0.610495,0.0
6,実験ノート ID1-4,0.573743,0.0
7,実験ノート ID1-13,0.540376,0.0
8,実験ノート ID1-2,0.540015,0.833333
9,実験ノート ID1-23,0.519012,0.0


## 7_ID1-3_1: nDCG Score = 0.327882

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-1,0.921135
1,実験ノート ID1-9,0.89233
2,実験ノート ID1-16,0.887888
3,実験ノート ID1-45,0.856175
4,実験ノート ID1-10,0.618813
5,実験ノート ID1-8,0.618813
6,実験ノート ID1-18,0.612849
7,実験ノート ID1-5,0.600143
8,実験ノート ID1-4,0.600025
9,実験ノート ID1-25,0.599478


## k=10, nDCG Score = 0.347060


Unnamed: 0,name,score,gain
0,実験ノート ID1-1,0.921135,0.95
1,実験ノート ID1-9,0.89233,0.0
2,実験ノート ID1-16,0.887888,0.0
3,実験ノート ID1-45,0.856175,0.0
4,実験ノート ID1-8,0.618813,0.0
5,実験ノート ID1-10,0.618813,0.0
6,実験ノート ID1-18,0.612849,0.0
7,実験ノート ID1-5,0.600143,0.9
8,実験ノート ID1-4,0.600025,0.9
9,実験ノート ID1-25,0.599478,0.0


## 8_ID1-3_2: nDCG Score = 0.347060

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.957067
1,実験ノート ID4-44,0.851358
2,実験ノート ID4-41,0.843027
3,実験ノート ID4-45,0.841508
4,実験ノート ID4-43,0.82607
5,実験ノート ID4-42,0.811843
6,実験ノート ID4-22,0.767605
7,実験ノート ID4-46,0.76384
8,実験ノート ID4-9,0.754335
9,実験ノート ID4-21,0.745791


## k=10, nDCG Score = 0.883403


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.957067,1.0
1,実験ノート ID4-44,0.851358,0.766667
2,実験ノート ID4-41,0.843027,0.766667
3,実験ノート ID4-45,0.841508,0.8
4,実験ノート ID4-43,0.82607,0.733333
5,実験ノート ID4-42,0.811843,0.733333
6,実験ノート ID4-22,0.767605,0.666667
7,実験ノート ID4-46,0.76384,0.7
8,実験ノート ID4-9,0.754335,0.0
9,実験ノート ID4-21,0.745791,0.0


## 9_ID4-50_1: nDCG Score = 0.883403

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.94613
1,実験ノート ID4-45,0.915872
2,実験ノート ID4-44,0.892981
3,実験ノート ID4-43,0.881849
4,実験ノート ID4-22,0.861743
5,実験ノート ID4-41,0.858781
6,実験ノート ID4-9,0.848661
7,実験ノート ID4-21,0.818394
8,実験ノート ID4-42,0.818003
9,実験ノート ID4-15,0.80278


## k=10, nDCG Score = 0.995270


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.94613,1.0
1,実験ノート ID4-45,0.915872,0.8
2,実験ノート ID4-44,0.892981,0.75
3,実験ノート ID4-43,0.881849,0.7
4,実験ノート ID4-22,0.861743,0.7
5,実験ノート ID4-41,0.858781,0.7
6,実験ノート ID4-9,0.848661,0.65
7,実験ノート ID4-21,0.818394,0.65
8,実験ノート ID4-42,0.818003,0.65
9,実験ノート ID4-15,0.80278,0.65


## 10_ID4-50_2: nDCG Score = 0.995270
### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.PLAMO: nDCG Score Mean = 0.587682


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score
0,1_ID1-2_1,0.645743,0.179786,0.421417,0.321354
1,2_ID1-2_2,0.4984,0.06548,0.28158,0.351852
2,3_ID2-17_1,0.714762,0.627824,0.63803,0.575457
3,4_ID2-17_2,0.711061,0.731496,0.789799,0.726329
4,5_ID3-30_1,0.751826,0.627429,0.426346,0.725257
5,6_ID3-30_2,0.807062,0.534762,0.382889,0.622956
6,7_ID1-3_1,0.535134,0.174337,0.343935,0.327882
7,8_ID1-3_2,0.439554,0.06548,0.285763,0.34706
8,9_ID4-50_1,0.818944,0.883403,0.818944,0.883403
9,10_ID4-50_2,0.99527,0.99527,0.875391,0.99527



### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.RURI, TopK = 10


100%|███████████████████████████████████████████| 34/34 [45:16<00:00, 79.89s/it]


DBに追加されたChunk(ベクトル)数: 1360

## Retrieval Result: test_id=1_ID1-2_1


Unnamed: 0,name,score
0,実験ノート ID1-2,0.947817
1,実験ノート ID1-5,0.847048
2,実験ノート ID1-3,0.812167
3,実験ノート ID1-7,0.746512
4,実験ノート ID1-51,0.606333
5,実験ノート ID1-11,0.578561
6,実験ノート ID1-10,0.543818
7,実験ノート ID1-48,0.535727
8,実験ノート ID1-12,0.520458
9,実験ノート ID1-4,0.509152


## k=10, nDCG Score = 0.420129


Unnamed: 0,name,score,gain
0,実験ノート ID1-2,0.947817,1.0
1,実験ノート ID1-5,0.847048,0.0
2,実験ノート ID1-3,0.812167,0.866667
3,実験ノート ID1-7,0.746512,0.0
4,実験ノート ID1-51,0.606333,0.0
5,実験ノート ID1-11,0.578561,0.0
6,実験ノート ID1-10,0.543818,0.0
7,実験ノート ID1-48,0.535727,0.0
8,実験ノート ID1-12,0.520458,0.0
9,実験ノート ID1-4,0.509152,0.733333


## 1_ID1-2_1: nDCG Score = 0.420129

## Retrieval Result: test_id=2_ID1-2_2


Unnamed: 0,name,score
0,実験ノート ID1-40,0.854635
1,実験ノート ID1-67,0.846485
2,実験ノート ID1-2,0.622937
3,実験ノート ID1-5,0.62271
4,実験ノート ID1-3,0.620877
5,実験ノート ID1-4,0.620793
6,実験ノート ID1-7,0.618951
7,実験ノート ID1-6,0.618442
8,実験ノート ID1-1,0.616138
9,実験ノート ID1-15,0.613819


## k=10, nDCG Score = 0.424896


Unnamed: 0,name,score,gain
0,実験ノート ID1-40,0.854635,0.0
1,実験ノート ID1-67,0.846485,0.0
2,実験ノート ID1-2,0.622937,1.0
3,実験ノート ID1-5,0.62271,0.9
4,実験ノート ID1-3,0.620877,0.9
5,実験ノート ID1-4,0.620793,0.9
6,実験ノート ID1-7,0.618951,0.0
7,実験ノート ID1-6,0.618442,0.0
8,実験ノート ID1-1,0.616138,0.95
9,実験ノート ID1-15,0.613819,0.0


## 2_ID1-2_2: nDCG Score = 0.424896

## Retrieval Result: test_id=3_ID2-17_1


Unnamed: 0,name,score
0,実験ノート ID2-22,0.910244
1,実験ノート ID2-17,0.71958
2,実験ノート ID2-21,0.653927
3,実験ノート ID2-13,0.633266
4,実験ノート ID2-16,0.626108
5,実験ノート ID2-46,0.614969
6,実験ノート ID2-11,0.610258
7,実験ノート ID2-4,0.589919
8,実験ノート ID2-59,0.571923
9,実験ノート ID2-50,0.561965


## k=10, nDCG Score = 0.642641


Unnamed: 0,name,score,gain
0,実験ノート ID2-22,0.910244,0.9
1,実験ノート ID2-17,0.71958,1.0
2,実験ノート ID2-21,0.653927,0.766667
3,実験ノート ID2-13,0.633266,0.0
4,実験ノート ID2-16,0.626108,0.766667
5,実験ノート ID2-46,0.614969,0.766667
6,実験ノート ID2-11,0.610258,0.0
7,実験ノート ID2-4,0.589919,0.0
8,実験ノート ID2-59,0.571923,0.0
9,実験ノート ID2-50,0.561965,0.0


## 3_ID2-17_1: nDCG Score = 0.642641

## Retrieval Result: test_id=4_ID2-17_2


Unnamed: 0,name,score
0,実験ノート ID2-22,0.876387
1,実験ノート ID2-23,0.619705
2,実験ノート ID2-21,0.597265
3,実験ノート ID2-5,0.583997
4,実験ノート ID2-1,0.576779
5,実験ノート ID2-6,0.574817
6,実験ノート ID2-13,0.564692
7,実験ノート ID2-11,0.5636
8,実験ノート ID2-56,0.563351
9,実験ノート ID2-12,0.561817


## k=10, nDCG Score = 0.713449


Unnamed: 0,name,score,gain
0,実験ノート ID2-22,0.876387,0.95
1,実験ノート ID2-23,0.619705,0.9
2,実験ノート ID2-21,0.597265,0.9
3,実験ノート ID2-5,0.583997,0.95
4,実験ノート ID2-1,0.576779,0.95
5,実験ノート ID2-6,0.574817,0.95
6,実験ノート ID2-13,0.564692,0.0
7,実験ノート ID2-11,0.5636,0.0
8,実験ノート ID2-56,0.563351,0.0
9,実験ノート ID2-12,0.561817,0.0


## 4_ID2-17_2: nDCG Score = 0.713449

## Retrieval Result: test_id=5_ID3-30_1


Unnamed: 0,name,score
0,実験ノート ID3-30,0.94483
1,実験ノート ID3-28,0.825488
2,実験ノート ID3-23,0.781615
3,実験ノート ID3-48,0.751067
4,実験ノート ID3-40,0.712365
5,実験ノート ID3-26,0.687091
6,実験ノート ID3-21,0.615422
7,実験ノート ID3-18,0.614117
8,実験ノート ID3-2,0.611467
9,実験ノート ID3-6,0.61017


## k=10, nDCG Score = 0.538225


Unnamed: 0,name,score,gain
0,実験ノート ID3-30,0.94483,1.0
1,実験ノート ID3-28,0.825488,0.0
2,実験ノート ID3-23,0.781615,0.733333
3,実験ノート ID3-48,0.751067,0.633333
4,実験ノート ID3-40,0.712365,0.0
5,実験ノート ID3-26,0.687091,0.0
6,実験ノート ID3-21,0.615422,0.0
7,実験ノート ID3-18,0.614117,0.0
8,実験ノート ID3-2,0.611467,0.0
9,実験ノート ID3-6,0.61017,0.7


## 5_ID3-30_1: nDCG Score = 0.538225

## Retrieval Result: test_id=6_ID3-30_2


Unnamed: 0,name,score
0,実験ノート ID3-42,0.834912
1,実験ノート ID3-27,0.830548
2,実験ノート ID3-40,0.829778
3,実験ノート ID3-39,0.820116
4,実験ノート ID3-56,0.817891
5,実験ノート ID3-30,0.618372
6,実験ノート ID3-14,0.58885
7,実験ノート ID3-28,0.588272
8,実験ノート ID3-21,0.58758
9,実験ノート ID3-16,0.587105


## k=10, nDCG Score = 0.220576


Unnamed: 0,name,score,gain
0,実験ノート ID3-42,0.834912,0.0
1,実験ノート ID3-27,0.830548,0.0
2,実験ノート ID3-40,0.829778,0.0
3,実験ノート ID3-39,0.820116,0.0
4,実験ノート ID3-56,0.817891,0.0
5,実験ノート ID3-30,0.618372,1.0
6,実験ノート ID3-14,0.58885,0.0
7,実験ノート ID3-28,0.588272,0.0
8,実験ノート ID3-21,0.58758,0.8
9,実験ノート ID3-16,0.587105,0.8


## 6_ID3-30_2: nDCG Score = 0.220576

## Retrieval Result: test_id=7_ID1-3_1


Unnamed: 0,name,score
0,実験ノート ID1-3,0.948573
1,実験ノート ID1-4,0.803511
2,実験ノート ID1-2,0.769855
3,実験ノート ID1-7,0.727166
4,実験ノート ID1-29,0.548363
5,実験ノート ID1-33,0.542797
6,実験ノート ID1-13,0.540303
7,実験ノート ID1-15,0.523894
8,実験ノート ID1-12,0.523062
9,実験ノート ID1-78,0.517635


## k=10, nDCG Score = 0.362384


Unnamed: 0,name,score,gain
0,実験ノート ID1-3,0.948573,1.0
1,実験ノート ID1-4,0.803511,0.0
2,実験ノート ID1-2,0.769855,0.833333
3,実験ノート ID1-7,0.727166,0.0
4,実験ノート ID1-29,0.548363,0.0
5,実験ノート ID1-33,0.542797,0.0
6,実験ノート ID1-13,0.540303,0.0
7,実験ノート ID1-15,0.523894,0.0
8,実験ノート ID1-12,0.523062,0.0
9,実験ノート ID1-78,0.517635,0.0


## 7_ID1-3_1: nDCG Score = 0.362384

## Retrieval Result: test_id=8_ID1-3_2


Unnamed: 0,name,score
0,実験ノート ID1-40,0.851553
1,実験ノート ID1-67,0.84559
2,実験ノート ID1-3,0.62252
3,実験ノート ID1-4,0.621935
4,実験ノート ID1-5,0.621085
5,実験ノート ID1-2,0.619359
6,実験ノート ID1-7,0.617777
7,実験ノート ID1-6,0.617486
8,実験ノート ID1-1,0.614681
9,実験ノート ID1-11,0.613195


## k=10, nDCG Score = 0.429003


Unnamed: 0,name,score,gain
0,実験ノート ID1-40,0.851553,0.0
1,実験ノート ID1-67,0.84559,0.0
2,実験ノート ID1-3,0.62252,1.0
3,実験ノート ID1-4,0.621935,0.9
4,実験ノート ID1-5,0.621085,0.9
5,実験ノート ID1-2,0.619359,0.95
6,実験ノート ID1-7,0.617777,0.0
7,実験ノート ID1-6,0.617486,0.0
8,実験ノート ID1-1,0.614681,0.95
9,実験ノート ID1-11,0.613195,0.0


## 8_ID1-3_2: nDCG Score = 0.429003

## Retrieval Result: test_id=9_ID4-50_1


Unnamed: 0,name,score
0,実験ノート ID4-50,0.957067
1,実験ノート ID4-44,0.851358
2,実験ノート ID4-41,0.843027
3,実験ノート ID4-45,0.841508
4,実験ノート ID4-43,0.82607
5,実験ノート ID4-42,0.811843
6,実験ノート ID4-47,0.787718
7,実験ノート ID4-22,0.767605
8,実験ノート ID4-46,0.76384
9,実験ノート ID4-9,0.754335


## k=10, nDCG Score = 0.938681


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.957067,1.0
1,実験ノート ID4-44,0.851358,0.766667
2,実験ノート ID4-41,0.843027,0.766667
3,実験ノート ID4-45,0.841508,0.8
4,実験ノート ID4-43,0.82607,0.733333
5,実験ノート ID4-42,0.811843,0.733333
6,実験ノート ID4-47,0.787718,0.666667
7,実験ノート ID4-22,0.767605,0.666667
8,実験ノート ID4-46,0.76384,0.7
9,実験ノート ID4-9,0.754335,0.0


## 9_ID4-50_1: nDCG Score = 0.938681

## Retrieval Result: test_id=10_ID4-50_2


Unnamed: 0,name,score
0,実験ノート ID4-50,0.94613
1,実験ノート ID4-45,0.915872
2,実験ノート ID4-44,0.892981
3,実験ノート ID4-43,0.881849
4,実験ノート ID4-22,0.861743
5,実験ノート ID4-41,0.858781
6,実験ノート ID4-9,0.848661
7,実験ノート ID4-47,0.838669
8,実験ノート ID4-21,0.818394
9,実験ノート ID4-42,0.818003


## k=10, nDCG Score = 0.937071


Unnamed: 0,name,score,gain
0,実験ノート ID4-50,0.94613,1.0
1,実験ノート ID4-45,0.915872,0.8
2,実験ノート ID4-44,0.892981,0.75
3,実験ノート ID4-43,0.881849,0.7
4,実験ノート ID4-22,0.861743,0.7
5,実験ノート ID4-41,0.858781,0.7
6,実験ノート ID4-9,0.848661,0.65
7,実験ノート ID4-47,0.838669,0.0
8,実験ノート ID4-21,0.818394,0.65
9,実験ノート ID4-42,0.818003,0.65


## 10_ID4-50_2: nDCG Score = 0.937071
### Case: retrieve_by_note&sections_rerank, EMBEDDING_MODEL=EmbeddingType.RURI: nDCG Score Mean = 0.562706


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score
0,1_ID1-2_1,0.645743,0.179786,0.421417,0.321354,0.420129
1,2_ID1-2_2,0.4984,0.06548,0.28158,0.351852,0.424896
2,3_ID2-17_1,0.714762,0.627824,0.63803,0.575457,0.642641
3,4_ID2-17_2,0.711061,0.731496,0.789799,0.726329,0.713449
4,5_ID3-30_1,0.751826,0.627429,0.426346,0.725257,0.538225
5,6_ID3-30_2,0.807062,0.534762,0.382889,0.622956,0.220576
6,7_ID1-3_1,0.535134,0.174337,0.343935,0.327882,0.362384
7,8_ID1-3_2,0.439554,0.06548,0.285763,0.34706,0.429003
8,9_ID4-50_1,0.818944,0.883403,0.818944,0.883403,0.938681
9,10_ID4-50_2,0.99527,0.99527,0.875391,0.99527,0.937071


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score
0,1_ID1-2_1,0.645743,0.179786,0.421417,0.321354,0.420129
1,2_ID1-2_2,0.4984,0.06548,0.28158,0.351852,0.424896
2,3_ID2-17_1,0.714762,0.627824,0.63803,0.575457,0.642641
3,4_ID2-17_2,0.711061,0.731496,0.789799,0.726329,0.713449
4,5_ID3-30_1,0.751826,0.627429,0.426346,0.725257,0.538225
5,6_ID3-30_2,0.807062,0.534762,0.382889,0.622956,0.220576
6,7_ID1-3_1,0.535134,0.174337,0.343935,0.327882,0.362384
7,8_ID1-3_2,0.439554,0.06548,0.285763,0.34706,0.429003
8,9_ID4-50_1,0.818944,0.883403,0.818944,0.883403,0.938681
9,10_ID4-50_2,0.99527,0.99527,0.875391,0.99527,0.937071


### nDCGまとめ

In [83]:
display(ndcgs_retrieve_df)
display(ndcgs_rerank_df)
display(ndcgs_parentchunk_df)

Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score,logic
0,1_ID1-2_1,0.771272,0.394975,0.394975,0.255349,0.552238,retrieve
1,2_ID1-2_2,0.562039,0.0,0.0,0.0,0.219097,retrieve
2,3_ID2-17_1,0.711899,0.476282,0.550762,0.405628,0.548477,retrieve
3,4_ID2-17_2,0.225782,0.304901,0.066182,0.062699,0.358562,retrieve
4,5_ID3-30_1,0.780918,0.787478,0.795355,0.810859,0.81999,retrieve
5,6_ID3-30_2,0.174166,0.0,0.064133,0.0,0.0,retrieve
6,7_ID1-3_1,0.574621,0.390294,0.390294,0.31997,0.454851,retrieve
7,8_ID1-3_2,0.53799,0.0,0.0,0.063333,0.219097,retrieve
8,9_ID4-50_1,0.821737,0.940911,0.773634,0.803347,0.822942,retrieve
9,10_ID4-50_2,0.981128,0.732189,0.626052,0.788677,0.928964,retrieve


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score,logic
0,1_ID1-2_1,0.797014,0.498416,0.444287,0.444287,0.724483,rerank
1,2_ID1-2_2,0.654448,0.334411,0.388788,0.548687,0.219097,rerank
2,3_ID2-17_1,0.660882,0.660882,0.647564,0.504803,0.720592,rerank
3,4_ID2-17_2,0.503972,0.314818,0.489141,0.704566,0.468488,rerank
4,5_ID3-30_1,0.780204,0.780204,0.774896,0.718832,0.649962,rerank
5,6_ID3-30_2,0.266305,0.0,0.0,0.0,0.0,rerank
6,7_ID1-3_1,0.674593,0.467379,0.642161,0.460846,0.41499,rerank
7,8_ID1-3_2,0.523301,0.322879,0.393754,0.541411,0.219097,rerank
8,9_ID4-50_1,0.994522,0.994522,0.994522,0.882197,0.994522,rerank
9,10_ID4-50_2,0.944608,0.942605,0.942605,0.993961,0.944608,rerank


Unnamed: 0,Test_ID,GEMINI nDCG Score,OPENAI_SMALL nDCG Score,OPENAI_LARGE nDCG Score,PLAMO nDCG Score,RURI nDCG Score,logic
0,1_ID1-2_1,0.645743,0.179786,0.421417,0.321354,0.420129,parentchunk
1,2_ID1-2_2,0.4984,0.06548,0.28158,0.351852,0.424896,parentchunk
2,3_ID2-17_1,0.714762,0.627824,0.63803,0.575457,0.642641,parentchunk
3,4_ID2-17_2,0.711061,0.731496,0.789799,0.726329,0.713449,parentchunk
4,5_ID3-30_1,0.751826,0.627429,0.426346,0.725257,0.538225,parentchunk
5,6_ID3-30_2,0.807062,0.534762,0.382889,0.622956,0.220576,parentchunk
6,7_ID1-3_1,0.535134,0.174337,0.343935,0.327882,0.362384,parentchunk
7,8_ID1-3_2,0.439554,0.06548,0.285763,0.34706,0.429003,parentchunk
8,9_ID4-50_1,0.818944,0.883403,0.818944,0.883403,0.938681,parentchunk
9,10_ID4-50_2,0.99527,0.99527,0.875391,0.99527,0.937071,parentchunk


#### 縦持ちに変換

In [84]:
def convert_to_long(in_df):
    out_df = in_df.melt(
        id_vars=['Test_ID', 'logic'],   # 固定で残す列
        var_name='emb_model',           # 元の列名が入る列名
        value_name='nDCG Score'         # 値の列名
    )
    return out_df


long1_df = convert_to_long(ndcgs_retrieve_df)
long2_df = convert_to_long(ndcgs_rerank_df)
long3_df = convert_to_long(ndcgs_parentchunk_df)

nDCG_long_df = pd.concat([long1_df, long2_df, long3_df], axis=0, ignore_index=True)
nDCG_long_df['emb_model'] = nDCG_long_df['emb_model'].str.replace(' nDCG Score', '', regex=False) # 列名をモデル名にする

display(nDCG_long_df)

# CSVに書き出し
nDCG_long_df.to_csv('Note_nDCG1_long_df.csv', header=True, index=False) # CSV保存

def display_maxrows(df): # 表示行数制限を一時的に回避
    bk_pd_max_rows = pd.options.display.max_rows
    pd.options.display.max_rows = None
    display(df)    
    pd.options.display.max_rows = bk_pd_max_rows
display_maxrows(nDCG_long_df)

Unnamed: 0,Test_ID,logic,emb_model,nDCG Score
0,1_ID1-2_1,retrieve,GEMINI,0.771272
1,2_ID1-2_2,retrieve,GEMINI,0.562039
2,3_ID2-17_1,retrieve,GEMINI,0.711899
3,4_ID2-17_2,retrieve,GEMINI,0.225782
4,5_ID3-30_1,retrieve,GEMINI,0.780918
...,...,...,...,...
160,7_ID1-3_1,parentchunk,RURI,0.362384
161,8_ID1-3_2,parentchunk,RURI,0.429003
162,9_ID4-50_1,parentchunk,RURI,0.938681
163,10_ID4-50_2,parentchunk,RURI,0.937071


Unnamed: 0,Test_ID,logic,emb_model,nDCG Score
0,1_ID1-2_1,retrieve,GEMINI,0.771272
1,2_ID1-2_2,retrieve,GEMINI,0.562039
2,3_ID2-17_1,retrieve,GEMINI,0.711899
3,4_ID2-17_2,retrieve,GEMINI,0.225782
4,5_ID3-30_1,retrieve,GEMINI,0.780918
5,6_ID3-30_2,retrieve,GEMINI,0.174166
6,7_ID1-3_1,retrieve,GEMINI,0.574621
7,8_ID1-3_2,retrieve,GEMINI,0.53799
8,9_ID4-50_1,retrieve,GEMINI,0.821737
9,10_ID4-50_2,retrieve,GEMINI,0.981128
