<a href="https://colab.research.google.com/github/tani/yans-2025-hackathon/blob/main/notebooks/YANS_2025_Hackathon_DPO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# YANS 2025 Hackathon DPO

YANS 2025 で開催されるハッカソンの DPO サンプルコードです。  
ベースラインとなるデータセットの読み込み、学習、評価を行います。

## 環境設定

In [11]:
# 学習後のモデル推論用に vLLM をインストール
!pip install vllm
# ハッカソン用のコードをインストール
!pip install git+https://github.com/YANS-official/yans-2025-hackathon.git
# OpenAI API をノートブック上で使用する場合はライブラリをインストール
!pip install openai

Collecting git+https://github.com/YANS-official/yans-2025-hackathon.git
  Cloning https://github.com/YANS-official/yans-2025-hackathon.git to /tmp/pip-req-build-a96mp3cg
  Running command git clone --filter=blob:none --quiet https://github.com/YANS-official/yans-2025-hackathon.git /tmp/pip-req-build-a96mp3cg
  Resolved https://github.com/YANS-official/yans-2025-hackathon.git to commit 737f29bb800333e9d3590dbfb94cb0742e8e777e
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


## データセットの読み込み

ベースラインとなる学習データセット及び開発セットは JSON ファイル形式で提供しています。

以下の YANS 提供の GitHub リポジトリの `datasets` フォルダに格納されています。

https://github.com/YANS-official/yans-2025-hackathon

### 学習セット

500件です。

本ハッカソンの主眼はデータ作成です。
本データセットから派生させて学習データを作成しても構いませんし、本データセットを使用せずに新たにデータを作成しても構いません。

### 検証セット

400件です。
開発中のモデルの性能を測定することに使います。

開発中は、本ファイルに対する推論結果をリーダーボードに提出してください。

なお、モデルの最終評価は別のテストセットで行います。
基本的な問題の分布は検証セットと同様です。

In [12]:
# YANS 提供のリポジトリをクローン
!git clone https://github.com/YANS-official/yans-2025-hackathon

fatal: destination path 'yans-2025-hackathon' already exists and is not an empty directory.


In [13]:
#　先頭五件を表示
!head -n 5 yans-2025-hackathon/datasets/hackathon-2025-math-train.jsonl

{"id": "train-001", "question": "魚を毎日2匹ずつ買っていたら、1週間で何匹になるでしょうか。", "answer_number": 14}
{"id": "train-002", "question": "魚を毎日2匹ずつ購入しています。これを7日間継続した場合の累積数は？", "answer_number": 14}
{"id": "train-003", "question": "たかしさんは自分の家族のためにスパゲッティとミートボールの食事を準備しています。たかしさんのミートボールのレシピでは、1個のミートボールにつき1/8ポンドのひき肉が必要です。たかしさんの家族は彼を含めて8人います。彼が4ポンドのひき肉を使ってミートボールを作り、家族のそれぞれが等しい数のミートボールを食べる場合、たかしさんは何個のミートボールを食べますか？", "answer_number": 4}
{"id": "train-004", "question": "1冊12ページの本を3冊読みました。全部で何ページ読んだことになりますか？", "answer_number": 36}
{"id": "train-005", "question": "慶子さんは、9匹の猫に1匹ずつえさをやりました。そのときのえさの個数はいくつでしょうか。", "answer_number": 9}


## DPO 学習

運営の提供する `train_dpo` 関数を用いて学習を行ってください。

### レギュレーション
- 学習データのサンプル数は最大 500 件まで
- 学習データ内の文字数は chosen /rejected 合わせて最大100万文字まで
- 学習に用いるモデルは [SakanaAI/TinySwallow-1.5B-Instruct](https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct) 及びそこから派生したモデルに限る
  - 複数回の学習を重ねても OK です

バッチサイズや学習率といった学習時のハイパーパラメータは事前の実験で適切なものにセットしていますが、関数から指定できるものに限り、自由に変えていただいて構いません。

In [14]:
from yans_2025_hackathon import train_dpo

help(train_dpo)

Help on function train_dpo in module yans_2025_hackathon.train_dpo:

train_dpo(train_dataset: list[dict[str, str]], save_dir: str, model: str = 'SakanaAI/TinySwallow-1.5B-Instruct', batch_size: int = 4, local_batch_size: int = 1, learning_rate: float = 5e-07, num_train_epochs: int = 1, beta: float = 0.1, use_lora: bool = False, training_arguments: dict | None = None, trainer_kwargs: dict | None = None)
    YANS 2025 ハッカソンで使用する DPO（Direct Preference Optimization）を実行する関数。
    学習データにはサイズ制限があり、最大500サンプル、総文字数50万文字まで。

    Args:
        train_dataset (list[dict[str, str]]): 学習用データセット。以下の形式を持つ辞書のリスト。
            [
                {"question": "問題文", "chosen": "良い回答文", "rejected": "不適切な回答文"},
                ...
            ]
        save_dir (str): 学習済みモデルの保存先ディレクトリ。
        model (str, optional): 使用する事前学習モデル。デフォルトは"SakanaAI/TinySwallow-1.5B-Instruct"。
        batch_size (int, optional): バッチサイズ。デフォルトは4。
        local_batch_size (int, optional): デバイスごとのローカルバッチサイズ。デフォルトは1。
        learning_rate

学習時のサンプルは以下の形式にフォーマットされている必要があります。

```python
[
  {"question": "1+1は？", "chosen": "2", "rejected": "よく分かりませんね…"},
  ...
]
```

ここでは例として、ベースラインとなるデータセットを上記の形に加工します。

In [15]:
import json

# JSONL ファイルからデータを読み込み
train_dataset: list[dict[str, str]] = []
with open("yans-2025-hackathon/datasets/hackathon-2025-math-train.jsonl") as f:
    for line in f:
        item = json.loads(line)

        # あくまでデータ加工の例です。
        # 実際には適切な chosen と rejected を使用する必要があります。
        train_dataset.append({"question": item["question"], "chosen": str(item["answer_number"]), "rejected": "よく分かりませんね…"})
print(train_dataset[0])

{'question': '魚を毎日2匹ずつ買っていたら、1週間で何匹になるでしょうか。', 'chosen': '14', 'rejected': 'よく分かりませんね…'}


In [6]:
from yans_2025_hackathon import train_dpo

train_dpo(
    train_dataset=train_dataset,
    save_dir="results", # 学習後のモデルの保存場所
    model="SakanaAI/TinySwallow-1.5B-Instruct",
    # 無料版 GPU を使用する場合は以下のオプションをつける
    # use_lora = True,  # LoRA を使用して低メモリで学習
    # learning_rate = 5e-6,  # LoRA の学習率は高めが良い
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/740 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.09G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/242 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/605 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/613 [00:00<?, ?B/s]

Extracting prompt in train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

Applying chat template to train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None, 'pad_token_id': 151643}.


Step,Training Loss
10,0.6506
20,0.1427
30,0.0024
40,0.0001
50,0.0
60,0.0
70,0.0
80,0.0
90,0.0
100,0.0


Saving model to results


`save_dir` で指定したディレクトリにモデルが保存されています。

In [7]:
!ls results

added_tokens.json	model-00001-of-00002.safetensors  tokenizer.json
chat_template.jinja	model-00002-of-00002.safetensors  training_args.bin
config.json		model.safetensors.index.json	  vocab.json
generation_config.json	special_tokens_map.json
merges.txt		tokenizer_config.json


## モデルの評価

学習したモデルのパフォーマンスを開発セットで測定しましょう。
高速な推論のために [vLLM](https://github.com/vllm-project/vllm) ライブラリを使用します。

訓練直後に、ディスクに保存されたモデルを vLLM で読み込むとメモリが足りずにエラーがでます。  
ノートブック上部の「ランタイム > ランタイムを再起動する」を実行してメモリを解放してください。

In [1]:
from vllm import LLM

# 学習したモデルのパスを指定
model_path = "./results"

# DPO 前のモデルを評価する場合
# model_path = "SakanaAI/TinySwallow-1.5B-Instruct"

model = LLM(
    model=model_path,  # 学習したモデルのパスを指定
    max_model_len=2048,  # モデルが処理する最大系列長
    max_num_seqs=16,  # モデルが一度に処理するバッチ数（大きすぎると落ちる場合あり）
)

INFO 09-17 06:06:32 [__init__.py:216] Automatically detected platform cuda.
INFO 09-17 06:06:33 [utils.py:328] non-default args: {'max_model_len': 2048, 'max_num_seqs': 16, 'disable_log_stats': True, 'model': './results'}
INFO 09-17 06:06:48 [__init__.py:742] Resolved architecture: Qwen2ForCausalLM


`torch_dtype` is deprecated! Use `dtype` instead!


INFO 09-17 06:06:48 [__init__.py:2764] Downcasting torch.float32 to torch.bfloat16.
INFO 09-17 06:06:48 [__init__.py:1815] Using max model len 2048
INFO 09-17 06:06:51 [scheduler.py:222] Chunked prefill is enabled with max_num_batched_tokens=8192.
INFO 09-17 06:07:49 [llm.py:295] Supported_tasks: ['generate']
INFO 09-17 06:07:49 [__init__.py:36] No IOProcessor plugins requested by the model


In [2]:
# 簡単な問題で動作確認
batch_responses = model.chat(
    [{"role": "user", "content": "1 + 1 はなんですか？"}]
)
print(batch_responses[0].outputs[0].text)

INFO 09-17 06:07:54 [chat_utils.py:538] Detected the chat template content format to be 'string'. You can set `--chat-template-content-format` to override this.


Adding requests:   0%|          | 0/1 [00:00<?, ?it/s]

Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

1 + 1 の答えは **2** です。



In [3]:
import json

# JSONL ファイルからデータを読み込み
dev_dataset: list[dict[str, str]] = []
with open("yans-2025-hackathon/datasets/hackathon-2025-math-dev.jsonl") as f:
    for line in f:
        item = json.loads(line)
        dev_dataset.append(item)
print(dev_dataset[0])

{'id': 'dev-001', 'question': '山本さんはキャンプ場の管理者で、キャンプ場に設置されたテントの数を確認する任務を負っています。ある日、彼はキャンプ場の北側に100張のテントを数え、その2倍のテントをキャンプ場の東側に数えました。キャンプ場の中心部には、北側のテントの数の4倍のテントがありました。また、南側には200張のテントを数えました。キャンプ場には合計で何張のテントがありますか？', 'answer_number': 900}


In [4]:
from vllm import SamplingParams

# 入力を chat 形式に変換する
dev_inputs = [
    [{"role": "user", "content": item["question"]}] for item in dev_dataset
]
# モデルから出力を得る
dev_batch_responses = model.chat(
    dev_inputs,
    SamplingParams(
        temperature=0.0,  # 貪欲デコーディング
        max_tokens = 1024,  # 最大生成トークン数
    ),
)

Adding requests:   0%|          | 0/400 [00:00<?, ?it/s]

Processed prompts:   0%|          | 0/400 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

In [5]:
from yans_2025_hackathon import evaluate_response

# 正解率を測定
num_total = 0
num_correct = 0
for resopnse, item in zip(dev_batch_responses, dev_dataset):
    response_text = resopnse.outputs[0].text
    answer_number = item["answer_number"]
    is_correct = evaluate_response(response_text, answer_number)

    num_total += 1
    num_correct += int(is_correct)
print("正解率", num_correct / num_total)

正解率 0.4925


## リーダーボードへの提出

リーダーボードには、以下のようにデータ ID（`"id"`）と、モデルの回答（`"answer"`）を含む JSONL ファイルを提出してください。

```jsonl
{"id": "...", "answer": "..."}
{"id": "...", "answer": "..."}
```

`id` の値を用いて、適切な答えとの照合を行いますので、順番は気にしなくても構いません。

In [6]:
import json

# モデルの出力と、開発データセットのIDをまとめ、JSONL ファイルとして書き出す
with open("predictions.jsonl", "w") as f:
    for response, item in zip(dev_batch_responses, dev_dataset):
        f.write(
            json.dumps(
                {"id": item["id"], "answer": response.outputs[0].text},
                ensure_ascii=False,
            )
            + "\n"
        )

作成したファイルは、ノートブック左の 📁 アイコンをクリックし、そこに表示されるファイル一覧からダウンロードすることができます（[参考](https://www.kikagaku.co.jp/kikagaku-blog/google-colab-file/#i-3)）。

## OpenAI API の使い方

データを加工したり、作成するために OpenAI API を使うことができます。
以下のコードを参考にしてください。

In [7]:
!pip install openai



In [8]:
import os
from openai import OpenAI

client = OpenAI(
    api_key="sk-...",  # 配布された API キーを使用する
)

response = client.responses.create(
    model="gpt-4o-mini",  # 使用可能モデルは gpt-4o-mini のみ
    instructions="数学の問題を解いてください。応答の末尾に必ず「答え:」という形式で解答となる数字を出力してください。",
    input="たけしさんは飴を４個もらいましたが、２個食べました。残りの飴の数は何個？",
)

print(response.output_text)

AuthenticationError: Error code: 401 - {'error': {'message': 'Incorrect API key provided: sk-.... You can find your API key at https://platform.openai.com/account/api-keys.', 'type': 'invalid_request_error', 'param': None, 'code': 'invalid_api_key'}}