In [13]:
import collections
import json
import os
import re
from dataclasses import dataclass, field
from typing import NamedTuple

import pandas as pd
import torch
from colorama import Fore, Style
from fuzzywuzzy import fuzz
from transformers import TrainingArguments
from tqdm import tqdm

In [14]:
# Copied from train.py
@dataclass
class LeiaTrainingArguments(TrainingArguments):
    model_name_or_path: str | None = field(default=None)
    use_flash_attention_2: bool = field(default=False)

    wikipedia_dataset_dir: str | None = field(default=None)

    trans_insertion_strategy: str = field(default="none")
    trans_insertion_prob: float = field(default=1.0)
    trans_insertion_prob_decay: bool = field(default=False)
    trans_insertion_min_prob: float = field(default=0.0)

    max_length: int = field(default=1024)

    eval_tasks: str | None = field(default=None)
    max_eval_samples_for_tasks: int | None = field(default=None)
    num_fewshot_samples_for_tasks: str | None = field(default=None)
    use_dynamic_generation_length: bool = field(default=True)


class Task(NamedTuple):
    name: str
    language: str


class Result(NamedTuple):
    task: Task
    metric: str
    value: float


class Experiment(NamedTuple):
    name: str
    args: LeiaTrainingArguments | None
    results: list[Result]
    predictions: dict[Task, list[dict]]

In [15]:
TASK2LANGUAGE = {
    "jsquad": "ja",
    "jemhopqa": "ja",
    "jaqket": "ja",
    "jcommonsenseqa": "ja",
    "niilc": "ja",
}


def parse_file_name(file_name: str) -> Task | None:
    if file_name.endswith("_metrics.json"):
        task_name = file_name[: -len("_metrics.json")]
    elif file_name.endswith("_predictions.jsonl"):
        task_name = file_name[: -len("_predictions.jsonl")]

    match_obj = re.match(r"^([a-z_]+)_([a-z]{2})$", task_name)
    if match_obj:
        task_name, language = match_obj.group(1), match_obj.group(2)
        return Task(task_name, language)
    elif task_name in TASK2LANGUAGE:
        return Task(task_name, TASK2LANGUAGE[task_name])

    print(f"Could not parse task name: {task_name}")
    return None

In [16]:
def load_experiments(runs_dir: str) -> dict[str, Experiment]:
    experiments: dict[str, Experiment] = {}
    for run_dir in os.listdir(runs_dir):
        if not os.path.isdir(os.path.join(runs_dir, run_dir, "results")):
            tqdm.write(f"results directory not found. Skipping {run_dir}")
            continue

        args = None
        if os.path.exists(os.path.join(runs_dir, run_dir, "training_args.bin")):
            args = torch.load(os.path.join(runs_dir, run_dir, "training_args.bin"))

        results = []
        predictions = {}
        for result_file in os.listdir(os.path.join(runs_dir, run_dir, "results")):
            if result_file.endswith("_metrics.json"):
                with open(os.path.join(runs_dir, run_dir, "results", result_file)) as f:
                    task = parse_file_name(result_file)
                    if task is not None:
                        for metric, value in json.load(f).items():
                            results.append(Result(task, metric, value))

            elif result_file.endswith("_predictions.jsonl"):
                task = parse_file_name(result_file)
                if task is not None:
                    with open(os.path.join(runs_dir, run_dir, "results", result_file)) as f:
                        predictions[task] = [json.loads(line) for line in f]

        experiments[run_dir] = Experiment(run_dir, args, results, predictions)

    return experiments

## Experiments based on LLaMA 2 7B


### Results


In [17]:
experiments = load_experiments("runs")

target_base_models = ["Llama-2-7b-hf"]
target_tasks = {"xcsqa", "xcodah", "xnli"}
conditions = {
    "learning_rate": {5e-6},
    "max_steps": {20, 50},
}
leia_conditions = {
    "learning_rate": {5e-6},
    "max_steps": {20, 50},
    "trans_insertion_prob": {0.5, 1.0},
}

data = collections.defaultdict(lambda: collections.defaultdict(dict))
task2languages = collections.defaultdict(set)
for experiment_name, experiment in experiments.items():
    if experiment.args is None:  # base model
        if experiment_name in target_base_models:
            for result in experiment.results:
                data[experiment_name][result.task.name][result.task.language] = result.value
        continue

    elif experiment.args.trans_insertion_strategy == "none" and all(
        getattr(experiment.args, k) in v for k, v in conditions.items()
    ):
        for result in experiment.results:
            data["leia_none"][result.task.name][result.task.language] = result.value
            task2languages[result.task.name].add(result.task.language)

    elif experiment.args.trans_insertion_strategy in ("left", "right", "replace") and all(
        getattr(experiment.args, k) in v for k, v in leia_conditions.items()
    ):
        for result in experiment.results:
            row_name = f"leia_{experiment.args.trans_insertion_strategy}_{experiment.args.trans_insertion_prob}"
            data[row_name][result.task.name][result.task.language] = result.value
            task2languages[result.task.name].add(result.task.language)

for task, languages in task2languages.items():
    if task not in target_tasks:
        continue
    rows = []
    languages = sorted(languages)
    row_names = []
    for model_name, results in sorted(data.items(), key=lambda x: x[0]):
        row = [results.get(task, {}).get(language) for language in languages]
        rows.append(row)
        row_names.append(model_name)
    rows.append(
        [
            data["leia_right_0.5"].get(task, {}).get(language, 0.0) - data["leia_none"].get(task, {}).get(language, 0.0)
            for language in languages
        ]
    )
    rows.append(
        [
            data["leia_right_0.5"].get(task, {}).get(language, 0.0)
            - data["Llama-2-7b-hf"].get(task, {}).get(language, 0.0)
            for language in languages
        ]
    )
    column_names = languages + ["avg"]
    for row in rows:
        row.append(sum([x for x in row if x is not None]) / len(row))
    row_names = row_names + ["right_0.5 - none", "right_0.5 - llama2"]
    df = pd.DataFrame(rows, columns=column_names, index=row_names)
    df = df.style.highlight_max(color="gray", axis=0)
    display(f"{task}:")
    display(df)

'xcsqa:'

Unnamed: 0,ar,es,hi,ja,ru,sw,avg
Llama-2-7b-hf,0.21,0.456,0.196,0.357,0.354,0.168,0.290167
leia_left_0.5,0.213,0.469,0.198,0.355,0.362,0.177,0.295667
leia_left_1.0,0.21,0.465,0.201,0.351,0.359,0.175,0.2935
leia_none,0.208,0.457,0.202,0.349,0.356,0.168,0.29
leia_replace_0.5,0.212,0.465,0.199,0.354,0.359,0.179,0.294667
leia_replace_1.0,0.208,0.464,0.199,0.351,0.357,0.174,0.292167
leia_right_0.5,0.212,0.468,0.204,0.355,0.362,0.178,0.2965
leia_right_1.0,0.207,0.467,0.2,0.353,0.36,0.177,0.294
right_0.5 - none,0.004,0.011,0.002,0.006,0.006,0.01,0.0065
right_0.5 - llama2,0.002,0.012,0.008,-0.002,0.008,0.01,0.006333


'xcodah:'

Unnamed: 0,ar,es,hi,ja,ru,sw,avg
Llama-2-7b-hf,0.306667,0.446667,0.296667,0.3,0.346667,0.286667,0.330556
leia_left_0.5,0.33,0.46,0.303333,0.343333,0.376667,0.3,0.352222
leia_left_1.0,0.323333,0.45,0.303333,0.333333,0.38,0.3,0.348333
leia_none,0.303333,0.446667,0.266667,0.303333,0.343333,0.29,0.325556
leia_replace_0.5,0.33,0.456667,0.303333,0.346667,0.366667,0.303333,0.351111
leia_replace_1.0,0.323333,0.45,0.3,0.34,0.38,0.303333,0.349444
leia_right_0.5,0.336667,0.46,0.303333,0.343333,0.373333,0.303333,0.353333
leia_right_1.0,0.323333,0.45,0.303333,0.34,0.376667,0.3,0.348889
right_0.5 - none,0.033333,0.013333,0.036667,0.04,0.03,0.013333,0.027778
right_0.5 - llama2,0.03,0.013333,0.006667,0.043333,0.026667,0.016667,0.022778


'xnli:'

Unnamed: 0,ar,es,hi,ru,sw,avg
Llama-2-7b-hf,0.347904,0.42016,0.382834,0.428743,0.348104,0.385549
leia_left_0.5,0.344112,0.426946,0.391617,0.437924,0.340519,0.388224
leia_left_1.0,0.34491,0.422555,0.4,0.439321,0.341317,0.389621
leia_none,0.347505,0.427146,0.368663,0.418164,0.338124,0.37992
leia_replace_0.5,0.345908,0.423952,0.39022,0.437525,0.340719,0.387665
leia_replace_1.0,0.344311,0.423952,0.39521,0.436727,0.342116,0.388463
leia_right_0.5,0.344711,0.426148,0.392016,0.437126,0.340319,0.388064
leia_right_1.0,0.34491,0.425948,0.397206,0.440319,0.340918,0.38986
right_0.5 - none,-0.002794,-0.000998,0.023353,0.018962,0.002196,0.008144
right_0.5 - llama2,-0.003194,0.005988,0.009182,0.008383,-0.007784,0.002515


### Analysis


In [18]:
for item1, item2 in zip(
    experiments["ja_llama2_none_lr5e-6_step50"].predictions[Task("xcodah", "ja")],
    experiments["ja_llama2_right_p0.5_lr5e-6_step50"].predictions[Task("xcodah", "ja")],
):
    assert item1["example"]["id"] == item2["example"]["id"]

    if item1["prediction"] != item2["prediction"]:
        label = ["A", "B", "C", "D"].index(item1["example"]["answerKey"])
        # print(item1['example']['question']['choices']['text'])
        print(Fore.GREEN if item1["prediction"] == label else Fore.RED, end="")
        print("LEIAなし:", item1["example"]["question"]["choices"]["text"][item1["prediction"]])
        print(Fore.GREEN if item2["prediction"] == label else Fore.RED, end="")
        print("LEIAあり:", item1["example"]["question"]["choices"]["text"][item2["prediction"]])
        print(Style.RESET_ALL, end="")
        print("正解:", item1["example"]["question"]["choices"]["text"][label])
        print("---")

[32mLEIAなし: サッカーの試合が行われています。 サッカー選手がチームメイトにボールを渡す
[31mLEIAあり: サッカーの試合が行われています。 フィールドで練習するサッカー選手
[0m正解: サッカーの試合が行われています。 サッカー選手がチームメイトにボールを渡す
---
[32mLEIAなし: 曲芸師は、ポリアモリーが彼らのためのものではないことを知っていた。 曲芸師は3人の恋人を扱えなくなった。
[31mLEIAあり: 曲芸師は、ポリアモリーが彼らのためのものではないことを知っていた。 ジャグラーもアクロバットでした。
[0m正解: 曲芸師は、ポリアモリーが彼らのためのものではないことを知っていた。 曲芸師は3人の恋人を扱えなくなった。
---
[31mLEIAなし: 海を沸かせようとしている。 海が大好きなんです。
[32mLEIAあり: 海を沸かせようとしている。 彼は不可能なことを成し遂げようとしている。
[0m正解: 海を沸かせようとしている。 彼は不可能なことを成し遂げようとしている。
---
[31mLEIAなし: 彼は羊のようです。 怠け者です。
[31mLEIAあり: 彼は羊のようです。 彼は面白い。
[0m正解: 彼は羊のようです。 彼は騙されやすい。
---
[31mLEIAなし: スナイパーはスコープを覗き込む。 スナイパーが本をスナイプする。
[31mLEIAあり: スナイパーはスコープを覗き込む。 狙撃手がメイドを撃つ。
[0m正解: スナイパーはスコープを覗き込む。 狙撃手は武将を狙う。
---
[31mLEIAなし: 男の子がコンピューターゲームをしています。 彼は男の子です
[31mLEIAあり: 男の子がコンピューターゲームをしています。 彼は疲れている
[0m正解: 男の子がコンピューターゲームをしています。 彼はやめたくないんだ
---
[31mLEIAなし: タイルの上を蟻が行進しています。 踏まれたがっている。
[32mLEIAあり: タイルの上を蟻が行進しています。 家まで食べ物を運んでいる。
[0m正解: タイルの上を蟻が行進しています。 家まで食べ物を運んでいる。
---
[31mLEIAなし: イギリスのロンドンにあるエッフェル塔。
[32mLEIAあ

In [19]:
for item1, item2 in zip(
    experiments["ja_llama2_none_lr5e-6_step50"].predictions[Task("xcsqa", "ja")],
    experiments["ja_llama2_right_p0.5_lr5e-6_step50"].predictions[Task("xcsqa", "ja")],
):
    assert item1["example"]["id"] == item2["example"]["id"]
    if item1["prediction"] != item2["prediction"]:
        label = ["A", "B", "C", "D", "E"].index(item1["example"]["answerKey"])
        # print(item1['example']['question']['choices']['text'])
        print(Style.RESET_ALL, end="")
        print("問題文:", item1["example"]["question"]["stem"])
        print(Fore.GREEN if item1["prediction"] == label else Fore.RED, end="")
        print(
            "LEIAなし:",
            item1["example"]["question"]["choices"]["text"][item1["prediction"]],
        )
        print(Fore.GREEN if item2["prediction"] == label else Fore.RED, end="")
        print(
            "LEIAあり:",
            item2["example"]["question"]["choices"]["text"][item2["prediction"]],
        )
        print("正解:", item2["example"]["question"]["choices"]["text"][label])
        print("---")

[0m問題文: テニスコートでミトン型になっているとしたら、あなたはどの状態ですか？
[31mLEIAなし: タウン
[31mLEIAあり: カントリークラブ
正解: ミシガン
---
[0m問題文: 並んで何を達成するのか？
[31mLEIAなし: 怒り
[31mLEIAあり: 疲労
正解: 順番待ち
---
[0m問題文: 思想信条が軽度ではなく極端な人は何なのか？
[31mLEIAなし: 大事
[31mLEIAあり: 急進的
正解: 急進的
---
[0m問題文: ピエモンテのシャツ工場に綿を送る必要があったのですが、どこに送ればいいのでしょうか？
[31mLEIAなし: 織物
[31mLEIAあり: ジョージア
正解: ノースカロライナ
---
[0m問題文: あまりにも良いと思われる製品の有効性の証拠を提示されたとき、経験豊富な消費者は何をすべきでしょうか？
[31mLEIAなし: 読む
[32mLEIAあり: 吟味
正解: 吟味
---
[0m問題文: ジョンはなぜそれがブローと呼ばれているのか知らなかった。吹いていなかった。 ブローイングはなかった。 吹いたのではなく、何をされたのでしょうか？
[31mLEIAなし: 吸い込む
[31mLEIAあり: 吸い込み
正解: しゃぶる
---
[0m問題文: なぜ人は薬を飲むのか？
[31mLEIAなし: 儲ける
[31mLEIAあり: 褒め言葉
正解: 痛くも痒くもない
---
[0m問題文: 彼女は布を媒体として楽しんでいましたが、彼女の創造性は、彼女が何をするときに本当に示したのでしょうか？
[32mLEIAなし: 縫う
[31mLEIAあり: 書く
正解: 縫う
---
[0m問題文: アルゼンチンのクリスマスはいつ？
[32mLEIAなし: 夏
[31mLEIAあり: イースター
正解: 夏
---
[0m問題文: 接着剤がよく使われている場所は？
[31mLEIAなし: 派
[31mLEIAあり: キャビネット
正解: 美術室
---
[0m問題文: 定期的に脱走する犬にありそうなこととは？
[31mLEIAなし: 忠実
[31mLEIAあり: 疲れた
正解: とっても頭がいい
---
[0m問題文: クウェートなどはすぐには連想

## Experiments based on Swallow-7B


### Results


In [20]:
experiments = load_experiments("runs_swallow")

target_base_models = ["Swallow-7b-hf"]

data = collections.defaultdict(lambda: collections.defaultdict(dict))
result_names = set()
for experiment_name, experiment in experiments.items():
    if experiment.args is None:  # base model
        if experiment_name in target_base_models:
            for result in experiment.results:
                result_name = f"{result.task.name}_{result.metric}"
                data[experiment_name][result_name] = result.value
                result_names.add(result_name)

    elif experiment.args.trans_insertion_strategy == "none":
        for result in experiment.results:
            result_name = f"{result.task.name}_{result.metric}"
            data["leia_none"][result_name] = result.value
            result_names.add(result_name)

    elif experiment.args.trans_insertion_strategy in ("left", "right", "replace"):
        for result in experiment.results:
            result_name = f"{result.task.name}_{result.metric}"
            row_name = f"leia_{experiment.args.trans_insertion_strategy}_{experiment.args.trans_insertion_prob}"
            data[row_name][result_name] = result.value
            result_names.add(result_name)

result_names = sorted(result_names)
rows = []
row_names = []
for model_name, results in sorted(data.items(), key=lambda x: x[0]):
    row = [results.get(result_name) for result_name in result_names]
    rows.append(row)
    row_names.append(model_name)

for row in rows:
    row.append(sum([x for x in row if x is not None]) / len(row))

column_names = result_names + ["avg"]
df = pd.DataFrame(rows, columns=column_names, index=row_names)
df = df.style.highlight_max(color="gray", axis=0)
display(df)

Unnamed: 0,jaqket_accuracy,jcommonsenseqa_accuracy,jemhopqa_char_f1,jsquad_exact_match,jsquad_f1,niilc_char_f1,xcodah_accuracy,xcsqa_accuracy,xwinograd_accuracy,avg
Swallow-7b-hf,0.95572,0.798928,0.507833,0.815398,0.900608,0.595101,0.42,0.41,0.786236,0.687758
leia_none,0.95572,0.795353,0.501417,0.811571,0.900144,0.577576,0.41,0.396,0.773723,0.680167
leia_right_0.5,0.9631,0.800715,0.545,0.813372,0.900369,0.601667,0.423333,0.422,0.793535,0.695899


### Analysis


In [21]:
for item1, item2 in zip(
    experiments["swallow_none_lr5e-6_step50"].predictions[Task("niilc", "ja")],
    experiments["swallow_right_p0.5_lr5e-6_step50"].predictions[Task("niilc", "ja")],
):
    if item1["prediction"] != item2["prediction"]:
        score1 = fuzz.token_sort_ratio(item1["prediction"], item1["example"]["output"]) / 100.0
        score2 = fuzz.token_sort_ratio(item2["prediction"], item1["example"]["output"]) / 100.0
        print(Style.RESET_ALL, end="")
        print("問題文:", item1["example"]["input"])

        print(Fore.GREEN if score1 > score2 else Fore.RED, end="")
        print("LEIAなし:", item1["prediction"])
        print(Fore.GREEN if score1 <= score2 else Fore.RED, end="")
        print("LEIAあり:", item2["prediction"])
        print(Style.RESET_ALL, end="")
        print("正解:", item1["example"]["output"])
        print("---")

[0m問題文: 質問：石油輸出国機構の本部はどこにある？
[31mLEIAなし: サウジアラビアのリヤド
[32mLEIAあり: ウィーン
[0m正解: ウィーン
---
[0m問題文: 質問：パリに本部のある国連の機関の名前を教えて下さい。
[31mLEIAなし: 国際連合教育科学文化機関
[32mLEIAあり: 国際連合教育科学文化機関(ユネスコ)
[0m正解: ユネスコ,UNESCO,国際連合教育科学文化機関
---
[0m問題文: 質問：大韓民国と朝鮮民主主義人民共和国を隔てている緯度は？
[32mLEIAなし: 北緯38度
[31mLEIAあり: 北緯38度線
[0m正解: 北緯38度
---
[0m問題文: 質問：日本の観測史上最低の気温は何度か。
[31mLEIAなし: -27.2°C
[32mLEIAあり: -27.2°C(1902年1月25日 北海道旭川市)
[0m正解: マイナス41度
---
[0m問題文: 質問：四鏡とは具体的に何を指すか？
[31mLEIAなし: 『発心集』『古今著聞集』『古事談』『宇治拾遺物語』の4つの説話集の総称
[32mLEIAあり: 『発心集』『古今著聞集』『宇治拾遺物語』『今昔物語集』の4つの説話集の総称
[0m正解: 大鏡,今鏡,水鏡,増鏡
---
[0m問題文: 質問：ガラスはどの化学物質から出来ているの？
[32mLEIAなし: 二酸化ケイ素
[31mLEIAあり: 二酸化ケイ素(SiO2)
[0m正解: ケイ酸塩
---
[0m問題文: 質問：日本で二番目に大きな湖は？
[32mLEIAなし: 霞ヶ浦
[31mLEIAあり: 琵琶湖
[0m正解: 霞ヶ浦
---
[0m問題文: 質問：国の宗教がイスラム教なのはどこの国か。
[32mLEIAなし: サウジアラビア,イラン,インドネシア,マレーシア,パキスタン,バングラデシュ,モルディブ,アラブ首長国連邦,エジプト,トルコ,アルジェリア,モロッコ,チュニジア,スーダン,イエメン,アフガニスタン,イラク,シリア,レバノン,クウェート,オマーン,バーレーン,カタール,ヨルダン,パレスチナ,イエメン,ソマリア,モルディブ,アフガニスタン,イラク,シリア,レバノン,クウェート,オマーン,バーレーン,カタール,

In [22]:
for item1, item2 in zip(
    experiments["swallow_none_lr5e-6_step50"].predictions[Task("jemhopqa", "ja")],
    experiments["swallow_right_p0.5_lr5e-6_step50"].predictions[Task("jemhopqa", "ja")],
):
    if item1["prediction"] != item2["prediction"]:
        score1 = fuzz.token_sort_ratio(item1["prediction"], item1["example"]["output"]) / 100.0
        score2 = fuzz.token_sort_ratio(item2["prediction"], item1["example"]["output"]) / 100.0
        print(Style.RESET_ALL, end="")
        print("問題文:", item1["example"]["input"])

        print(Fore.GREEN if score1 > score2 else Fore.RED, end="")
        print("LEIAなし:", item1["prediction"])
        print(Fore.GREEN if score1 <= score2 else Fore.RED, end="")
        print("LEIAあり:", item2["prediction"])
        print(Style.RESET_ALL, end="")
        print("正解:", item1["example"]["output"])
        print("---")

[0m問題文: 質問：藤原寛の出身校を設置した学校法人の名称は？
[32mLEIAなし: 学校法人東京農業大学
[31mLEIAあり: 学校法人 東京農業大学
[0m正解: 学校法人関西学院
---
[0m問題文: 質問：『仮面ライダーW』『仮面ライダー龍騎』、先に放送開始されたのは『仮面ライダーW』ですか？
[31mLEIAなし: YES
[32mLEIAあり: NO
[0m正解: NO
---
[0m問題文: 質問：犬飼貴丈が所属する事務所の代表者は誰ですか？
[31mLEIAなし: 犬飼貴丈
[32mLEIAあり: バーニングプロダクション
[0m正解: 周防郁雄
---
[0m問題文: 質問：徳川家宣の父方の祖父の死没年月日は西暦でいつですか？
[31mLEIAなし: 1649年1月1日
[32mLEIAあり: 1651年1月2日
[0m正解: 1651年6月8日
---
[0m問題文: 質問：佐々木主浩が所属する団体の現組織の設立年月日はいつですか？
[31mLEIAなし: 1999年12月1日
[32mLEIAあり: 1998年12月1日
[0m正解: 40466
---
[0m問題文: 質問：映画『風の谷のナウシカ』のプロデューサーが手掛けた、赤毛の少女を主人公とする作品のタイトルは何でしょうか？
[32mLEIAなし: 『赤毛のアン』
[31mLEIAあり: 『耳をすませば』
[0m正解: 赤毛のアン
---
[0m問題文: 質問：YOSHIKIとPATA、誕生日が早いのはYOSHIKIですか？
[31mLEIAなし: YES
[32mLEIAあり: NO
[0m正解: NO
---
[0m問題文: 質問：豊岡市と伊丹市の管轄区域は、どちらも但馬県民局ですか？
[31mLEIAなし: YES
[32mLEIAあり: NO
[0m正解: NO
---
[0m問題文: 質問：『男はつらいよ』の主演俳優の誕生日は何月何日？
[32mLEIAなし: 1月1日
[31mLEIAあり: 1937年1月1日
[0m正解: 3月10日
---
[0m問題文: 質問：映画『コクリコ坂』からを配給した会社が入っているビルの名前は何ですか？
[32mLEIAなし: TOHOシネマズ六本木ヒルズ


In [23]:
for item1, item2 in zip(
    experiments["swallow_none_lr5e-6_step50"].predictions[Task("jcommonsenseqa", "ja")],
    experiments["swallow_right_p0.5_lr5e-6_step50"].predictions[Task("jcommonsenseqa", "ja")],
):
    if item1["prediction"] != item2["prediction"]:
        print(Style.RESET_ALL, end="")
        print("問題文:", item1["example"]["question"])

        print(Fore.GREEN if item1["prediction"] == item1["example"]["label"] else Fore.RED, end="")
        print("LEIAなし:", item1["example"][f"choice{item1['prediction']}"])
        print(Fore.GREEN if item2["prediction"] == item1["example"]["label"] else Fore.RED, end="")
        print("LEIAあり:", item1["example"][f"choice{item2['prediction']}"])
        print(Style.RESET_ALL, end="")
        print("正解:", item1["example"][f"choice{item1['example']['label']}"])
        print("---")

[0m問題文: 魚の名前がついているのは？
[31mLEIAなし: かかと
[32mLEIAあり: ヒラメ筋
[0m正解: ヒラメ筋
---
[0m問題文: しっぽのけものはどれ？
[31mLEIAなし: 害獣
[31mLEIAあり: 獣医学
[0m正解: 尾獣
---
[0m問題文: 家の中にあるのは？
[31mLEIAなし: 地下道
[31mLEIAあり: 板
[0m正解: 居間
---
[0m問題文: 土と氷が混ざって固まっているものは？
[32mLEIAなし: 凍土
[31mLEIAあり: 粘土
[0m正解: 凍土
---
[0m問題文: お節介で手伝ったり等あまり良い意味で使われない行為を何と言う？
[31mLEIAなし: あげる
[31mLEIAあり: 盗む
[0m正解: 手を出す
---
[0m問題文: 仕事をしているうえで上役の人を何という？
[32mLEIAなし: 上司
[31mLEIAあり: 取締役
[0m正解: 上司
---
[0m問題文: ブラウン管や液晶、プラズマなどの家電は？
[32mLEIAなし: テレビ
[31mLEIAあり: エアコン
[0m正解: テレビ
---
[0m問題文: この3つの中で2つの車輪を表す名称は？
[31mLEIAなし: ゴミ
[32mLEIAあり: 二輪
[0m正解: 二輪
---
[0m問題文: 行政区画は？
[32mLEIAなし: 郡
[31mLEIAあり: 町内
[0m正解: 郡
---
[0m問題文: キオスクなどの形態を何という？
[31mLEIAなし: 商店
[32mLEIAあり: 駅の売店
[0m正解: 駅の売店
---
[0m問題文: 音楽的な高低・調子などをつけて発声することを何と言うか？
[31mLEIAなし: 演奏する
[32mLEIAあり: 歌う
[0m正解: 歌う
---
[0m問題文: 日本と親しくすることは？
[31mLEIAなし: 訪日
[32mLEIAあり: 親日
[0m正解: 親日
---
[0m問題文: 桜の仲間で夏から秋に実をつける果物は？
[32mLEIAなし: リンゴ
[31mLEIAあり: みかん
[0m正解: リンゴ
---
[0m問題文: いつも元気で笑顔

In [24]:
for item1, item2 in zip(
    experiments["swallow_none_lr5e-6_step50"].predictions[Task("jaqket", "ja")],
    experiments["swallow_right_p0.5_lr5e-6_step50"].predictions[Task("jaqket", "ja")],
):
    if item1["prediction"] != item2["prediction"]:
        print(Style.RESET_ALL, end="")
        print("問題文:", item1["example"]["question"])

        print(Fore.GREEN if item1["prediction"] == item1["example"]["label"] else Fore.RED, end="")
        print("LEIAなし:", item1["example"]["answer_candidates"][item1["prediction"]])
        print(Fore.GREEN if item2["prediction"] == item1["example"]["label"] else Fore.RED, end="")
        print("LEIAあり:", item1["example"]["answer_candidates"][item2["prediction"]])
        print(Style.RESET_ALL, end="")
        print("正解:", item1["example"]["answer_candidates"][item1["example"]["label"]])
        print("---")

[0m問題文: アメリカ・メリーランド州の州都で、海軍士官学校の所在地として知られるのはどこ?
[31mLEIAなし: フィラデルフィア
[32mLEIAあり: アナポリス (メリーランド州)
[0m正解: アナポリス (メリーランド州)
---
[0m問題文: 地井明子によってデザインされた、オスのゴールデン・レトリバーであるプリンを主人公とするサンリオのキャラクター群は何でしょう?
[32mLEIAなし: ポムポムプリン
[31mLEIAあり: シナモロール
[0m正解: ポムポムプリン
---
[0m問題文: 2010年にリリースされたいきものがかりの曲で、NHK連続テレビ小説『ゲゲゲの女房』の主題歌であったのは何?
[31mLEIAなし: 逢いたくていま
[32mLEIAあり: ありがとう (いきものがかりの曲)
[0m正解: ありがとう (いきものがかりの曲)
---
[0m問題文: 世界にある「白い山」という意味の山のうち、標高が最も高い、8167mの世界第7位の高峰は何?
[31mLEIAなし: エベレスト
[31mLEIAあり: チョ・オユー
[0m正解: ダウラギリ
---
[0m問題文: バンド名は「弱者の反撃」という意味で名づけられた、『天体観測』や『オンリー ロンリー グローリー』などの代表曲がある音楽グループは何でしょう?
[31mLEIAなし: いきものがかり
[32mLEIAあり: BUMP OF CHICKEN
[0m正解: BUMP OF CHICKEN
---
[0m問題文: 見える時間によって「明けの明星」「宵の明星」と呼ばれる、太陽系の第2惑星といえば何でしょう?
[31mLEIAなし: 木星
[32mLEIAあり: 金星
[0m正解: 金星
---
[0m問題文: 初代大統領が「バナナさん」だったアフリカの国はどこ?
[31mLEIAなし: ナミビア
[31mLEIAあり: ブルンジ
[0m正解: ジンバブエ
---
[0m問題文: 摩擦により温度が60°C以上になると、文字が消える特殊なインクが使われている、パイロットが開発した筆記具は何でしょう?
[32mLEIAなし: フリクション (筆記具)
[31mLEIAあり: SARASA
[0m正解: フリクショ