# Appendix 編

## RAWデータのテーブル化

In [4]:
import json
from pathlib import Path
from pprint import pprint

import pandas as pd

base_path = Path("assets")

model_dirs = {
    "Swallow-MX-8x7b-NVE-v0.1": {
        "family": "tokyotech-llm",
        "variants": {
            "q4km": base_path / "tokyotech-llm" / "Swallow-MX-8x7b-NVE-v0.1-gguf-q4km-hf-elyza",
        }
    },
    "karakuri-lm-70b-chat-v0.1": {
        "family": "karakuri-ai",
        "variants": {
            "q4km": base_path / "karakuri-ai" / "karakuri-lm-70b-chat-v0.1-gguf-q4km-hf",
        }
    },
    "EvoLLM-JP-A-v1-7B": {
        "family": "SakanaAI",
        "variants": {
            "original": base_path / "SakanaAI" / "EvoLLM-JP-A-v1-7B",
            "q4km": base_path / "SakanaAI" / "EvoLLM-JP-A-v1-7B-gguf-q4km-hf",
        }
    },
    "EvoLLM-JP-v1-7B": {
        "family": "SakanaAI",
        "variants": {
            "original": base_path / "SakanaAI" / "EvoLLM-JP-v1-7B",
            "q4km": base_path / "SakanaAI" / "EvoLLM-JP-v1-7B-gguf-q4km-hf",
        }
    },
    "EvoLLM-JP-v1-10B": {
        "family": "SakanaAI",
        "variants": {
            "original": base_path / "SakanaAI" / "EvoLLM-JP-v1-10B",
        }
    },
    "Xwin-LM-7B-V0.1": {
        "family": "Xwin-LM",
        "variants": {
            "original": base_path / "Xwin-LM" / "Xwin-LM-7B-V0.1",
            "q4km": base_path / "Xwin-LM" / "Xwin-LM-7B-V0.1-gguf-q4km-hf",
        }
    },
    "Xwin-LM-13B-V0.1": {
        "family": "Xwin-LM",
        "variants": {
            "original": base_path / "Xwin-LM" / "Xwin-LM-13B-V0.1",
            "q4km": base_path / "Xwin-LM" / "Xwin-LM-13B-V0.1-gguf-q4km-hf",
        }
    },
    "ELYZA-japanese-Llama-2-7b-instruct": {
        "family": "elyza",
        "variants": {
            "original": base_path / "elyza" / "ELYZA-japanese-Llama-2-7b-instruct",
            "q4km": base_path / "elyza" / "ELYZA-japanese-Llama-2-7b-instruct-gguf-q4km-hf",
        }
    },
    "ELYZA-japanese-Llama-2-13b-instruct": {
        "family": "elyza",
        "variants": {
            "original": base_path / "elyza" / "ELYZA-japanese-Llama-2-13b-instruct",
            "q4km": base_path / "elyza" / "ELYZA-japanese-Llama-2-13b-instruct-gguf-q4km-hf",
        }
    },
    "calm2-7b-chat": {
        "family": "cyberagent",
        "variants": {
            "original": base_path / "cyberagent" / "calm2-7b-chat",
            "q4km": base_path / "cyberagent" / "calm2-7b-chat-gguf-q4km-hf",
        }
    },
    "japanese-stablelm-instruct-beta-7b": {
        "family": "stabilityai",
        "variants": {
            "original": base_path / "stabilityai" / "japanese-stablelm-instruct-beta-7b",
            "q4km": base_path / "stabilityai" / "japanese-stablelm-instruct-beta-7b-gguf-q4km-hf",
        }
    },
    "youri-7b-chat": {
        "family": "rinna",
        "variants": {
            "original": base_path / "rinna" / "youri-7b-chat",
            "q4km": base_path / "rinna" / "youri-7b-chat-gguf-q4km-hf",
        }
    },
    "Swallow-7b-instruct": {
        "family": "tokyotech-llm",
        "variants": {
            "original": base_path / "tokyotech-llm" / "Swallow-7b-instruct",
            "q4km": base_path / "tokyotech-llm" / "Swallow-7b-instruct-gguf-q4km-hf",
        }
    },
    "Swallow-13b-instruct": {
        "family": "tokyotech-llm",
        "variants": {
            "original": base_path / "tokyotech-llm" / "Swallow-13b-instruct",
            "q4km": base_path / "tokyotech-llm" / "Swallow-13b-instruct-gguf-q4km-hf",
        }
    },
}

In [8]:
def parse_jsonl_files(preds_path, results_path):
    data = []
    with open(preds_path, 'r', encoding='utf-8') as preds_file, \
         open(results_path, 'r', encoding='utf-8') as results_file:
        
        for no, (pred_line, result_line) in enumerate(zip(preds_file, results_file), start=1):
            pred_data = json.loads(pred_line)
            result_data = json.loads(result_line)
            
            data.append({
                "no": no,
                "result": pred_data["pred"],
                "reason": result_data["reason"],
                "grade": result_data["grade"]
            })
    return data

records = []

for model_name, info in model_dirs.items():
    model_family = info["family"]

    for variant, path in info["variants"].items():
        preds_path = path / "preds.jsonl"
        results_path = path / "result.jsonl"
        
        for entry in parse_jsonl_files(preds_path, results_path):
            records.append({
                "family": model_family,
                "model_name": model_name,
                "variant": variant,
                "no": entry["no"],
                "result": entry["result"],
                "reason": entry["reason"],
                "grade": entry["grade"]
            })

df_raw_results = pd.DataFrame(records)
df_raw_results

Unnamed: 0,family,model_name,variant,no,result,reason,grade
0,tokyotech-llm,Swallow-MX-8x7b-NVE-v0.1,q4km,1,1. 目標設定：自分自身に対して、短期・長期的な目標を設定し、それに向かって努力し続けること...,言語モデルの回答は、仕事の熱意を取り戻すためのアイデアを5つ挙げており、それぞれのアイデアが...,3
1,tokyotech-llm,Swallow-MX-8x7b-NVE-v0.1,q4km,2,『氷上の友情』\n太陽が照りつける真夏の午後。彼女はいつも通り一生懸命働いていた。魚市場の魚...,提供された言語モデルの回答は、問題で要求された短編小説のプロットとは全く異なります。クマが海...,1
2,tokyotech-llm,Swallow-MX-8x7b-NVE-v0.1,q4km,3,古代ギリシャについて学ぶ際に、以下の点に注目してみるとよいかもしれません：\n- 民主主義：...,言語モデルの回答は、古代ギリシャについて学ぶ上での重要なポイントをいくつか挙げていますが、列...,1
3,tokyotech-llm,Swallow-MX-8x7b-NVE-v0.1,q4km,4,ここまで書いて、疑問点として挙げられそうなポイントに気づきましたか？ それぞれに関して、もっ...,言語モデルの回答は、ユーザーが感じるであろう疑問を直接的に挙げるのではなく、それらの疑問に対...,1
4,tokyotech-llm,Swallow-MX-8x7b-NVE-v0.1,q4km,5,ください。よろしくお願いします！\nこんにちは！私はあなたがAIチャットボットとして、私がお...,言語モデルの回答は、指示に従ってSF小説のリストを提供していますが、いくつかの誤りがあります...,3
...,...,...,...,...,...,...,...
2495,tokyotech-llm,Swallow-13b-instruct,q4km,96,彼は、自分がバブル期に大金持ちになり豊かな生活に明け暮れたこと、バブル崩壊後にほとんどの資産...,言語モデルの回答は筆者の意図を概ね正しく捉えており、経済的な豊かさだけが全てではないというメ...,4
2496,tokyotech-llm,Swallow-13b-instruct,q4km,97,1.花粉症の症状が出ないような服装や生活習慣にする。\n2.花粉症対策グッズの活用。\n3....,言語モデルの回答は、花粉症の対策をするという点では指示に従っていますが、春の自然を楽しむコツ...,1
2497,tokyotech-llm,Swallow-13b-instruct,q4km,98,A.素晴らしい B. 知識 C. 味付け D.開拓 E. 賞賛,言語モデルの回答は、漢字と意味のペアリングを行っていません。ただし、意味自体は正しいものを挙...,1
2498,tokyotech-llm,Swallow-13b-instruct,q4km,99,彼は魔法使いで、彼の弟子になるための試験だった。,言語モデルの回答は物語の続きを予想しており、謎めいた人物が魔法使いであり、主人公がその弟子に...,3


## モデル別平均スコアの集計

In [9]:
# Calculate the average and variance of grades grouped by family, model_name, and variant
df_summary_stats = df_raw_results.groupby(['family', 'model_name', 'variant'])['grade'].agg(['mean', 'var']).reset_index()

# Rename the columns to match your requirements
df_summary_stats.rename(columns={'mean': 'grade_avg', 'var': 'grade_variance'}, inplace=True)

df_summary_stats

Unnamed: 0,family,model_name,variant,grade_avg,grade_variance
0,SakanaAI,EvoLLM-JP-A-v1-7B,original,2.09,1.921111
1,SakanaAI,EvoLLM-JP-A-v1-7B,q4km,2.0,1.69697
2,SakanaAI,EvoLLM-JP-v1-10B,original,2.43,1.803131
3,SakanaAI,EvoLLM-JP-v1-7B,original,2.83,2.283939
4,SakanaAI,EvoLLM-JP-v1-7B,q4km,2.53,2.110202
5,Xwin-LM,Xwin-LM-13B-V0.1,original,2.43,1.661717
6,Xwin-LM,Xwin-LM-13B-V0.1,q4km,2.54,1.907475
7,Xwin-LM,Xwin-LM-7B-V0.1,original,2.32,1.654141
8,Xwin-LM,Xwin-LM-7B-V0.1,q4km,1.96,1.351919
9,cyberagent,calm2-7b-chat,original,2.26,1.709495


variant を横持ちするようにピボットする

In [10]:
# First, ensure the 'grade_avg' is present in your DataFrame
# Assuming 'summary_stats' contains the necessary average grades
df_summary_wide = df_summary_stats.pivot_table(
    index=['family', 'model_name'],  # Columns to keep as-is
    columns='variant',  # Column to pivot
    values=['grade_avg', 'grade_variance'],  # The values to use when pivoting
    aggfunc='first'  # How to aggregate when pivoting, 'first' simply takes the first value found
)

# Flatten the columns and rename as needed
df_summary_wide.columns = [f'{metric}_{variant}' for metric, variant in df_summary_wide.columns]
df_summary_wide.reset_index(inplace=True)

df_summary_wide

Unnamed: 0,family,model_name,grade_avg_original,grade_avg_q4km,grade_variance_original,grade_variance_q4km
0,SakanaAI,EvoLLM-JP-A-v1-7B,2.09,2.0,1.921111,1.69697
1,SakanaAI,EvoLLM-JP-v1-10B,2.43,,1.803131,
2,SakanaAI,EvoLLM-JP-v1-7B,2.83,2.53,2.283939,2.110202
3,Xwin-LM,Xwin-LM-13B-V0.1,2.43,2.54,1.661717,1.907475
4,Xwin-LM,Xwin-LM-7B-V0.1,2.32,1.96,1.654141,1.351919
5,cyberagent,calm2-7b-chat,2.26,2.58,1.709495,1.862222
6,elyza,ELYZA-japanese-Llama-2-13b-instruct,2.57,2.46,2.08596,1.806465
7,elyza,ELYZA-japanese-Llama-2-7b-instruct,2.3,2.2,1.848485,1.636364
8,karakuri-ai,karakuri-lm-70b-chat-v0.1,,2.98,,2.161212
9,rinna,youri-7b-chat,1.93,1.81,1.722323,1.428182


In [11]:
print(df_summary_wide.to_csv())

,family,model_name,grade_avg_original,grade_avg_q4km,grade_variance_original,grade_variance_q4km
0,SakanaAI,EvoLLM-JP-A-v1-7B,2.09,2.0,1.9211111111111108,1.6969696969696966
1,SakanaAI,EvoLLM-JP-v1-10B,2.43,,1.8031313131313127,
2,SakanaAI,EvoLLM-JP-v1-7B,2.83,2.53,2.2839393939393946,2.1102020202020193
3,Xwin-LM,Xwin-LM-13B-V0.1,2.43,2.54,1.6617171717171726,1.9074747474747487
4,Xwin-LM,Xwin-LM-7B-V0.1,2.32,1.96,1.6541414141414144,1.351919191919192
5,cyberagent,calm2-7b-chat,2.26,2.58,1.7094949494949496,1.862222222222222
6,elyza,ELYZA-japanese-Llama-2-13b-instruct,2.57,2.46,2.085959595959596,1.8064646464646466
7,elyza,ELYZA-japanese-Llama-2-7b-instruct,2.3,2.2,1.848484848484848,1.6363636363636371
8,karakuri-ai,karakuri-lm-70b-chat-v0.1,,2.98,,2.1612121212121203
9,rinna,youri-7b-chat,1.93,1.81,1.7223232323232323,1.428181818181818
10,stabilityai,japanese-stablelm-instruct-beta-7b,1.28,1.49,0.6480808080808079,0.9594949494949492
11,tokyotech-llm,Swallow-13b-instruct,2.12,1.84,1.76323232323232

出力された CSV を Excel にコピーし、棒グラフに加工する。

（Matplotlib でもよいが、Excel のほうが加工しやすい...）