# YANS 2025 Hackathon DPO

YANS 2025 で開催されるハッカソンの DPO サンプルコードです。  
ベースラインとなるデータセットの読み込み、学習、評価を行います。

## データセットの読み込み

ベースラインとなる学習データセット及び開発セットは Hugging Face のデータセット形式で提供しています。

https://huggingface.co/datasets/YANS-official/hackathon-2025-math

`datasets` ライブラリで読み込むことができます。

### 学習セット

500件です。
本ハッカソンの主眼はデータ作成です。
本データセットから派生させて学習データを作成しても構いませんし、本データセットを使用せずに新たにデータを作成しても構いません。

### 検証セット

400件です。
開発中のモデルの性能を測定することに使います。
開発中は、本ファイルに対する推論結果をリーダーボードに提出してください。

なお、モデルの最終評価は別のテストセットで行います。
基本的な問題の分布は検証セットと同様です。

In [1]:
from datasets import load_dataset

dataset = load_dataset("YANS-official/hackathon-2025-math")
print(dataset)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


DatasetDict({
    train: Dataset({
        features: ['question', 'answer_number'],
        num_rows: 500
    })
    dev: Dataset({
        features: ['question', 'answer_number'],
        num_rows: 400
    })
})


In [2]:
for i, item in enumerate(dataset["train"]):
  if i == 5:
    break
  print(item)

{'question': '魚を毎日2匹ずつ買っていたら、1週間で何匹になるでしょうか。', 'answer_number': 14}
{'question': '魚を毎日2匹ずつ購入しています。これを7日間継続した場合の累積数は？', 'answer_number': 14}
{'question': '0 + 0 はなんでしょう？', 'answer_number': 0}
{'question': 'たかしさんは自分の家族のためにスパゲッティとミートボールの食事を準備しています。たかしさんのミートボールのレシピでは、1個のミートボールにつき1/8ポンドのひき肉が必要です。たかしさんの家族は彼を含めて8人います。彼が4ポンドのひき肉を使ってミートボールを作り、家族のそれぞれが等しい数のミートボールを食べる場合、たかしさんは何個のミートボールを食べますか？', 'answer_number': 4}
{'question': '1冊12ページの本を3冊読みました。全部で何ページ読んだことになりますか？', 'answer_number': 36}


## DPO 学習

運営の提供する `train_dpo` 関数を用いて学習を行ってください。

### レギュレーション
- 学習データのサンプル数は最大 500 件まで
- 学習データ内の文字数は chosen /rejected 合わせて最大100万文字まで
- 学習に用いるモデルは [SakanaAI/TinySwallow-1.5B-Instruct](https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct) 及びそこから派生したモデルに限る
  - 複数回の学習を重ねても OK です

In [4]:
# ハッカソン用のコードをインストール
!pip install git+https://github.com/YANS-official/yans-2025-hackathon.git

Collecting git+https://github.com/YANS-official/yans-2025-hackathon.git
  Cloning https://github.com/YANS-official/yans-2025-hackathon.git to /tmp/pip-req-build-7u_9wbxm
  Running command git clone --filter=blob:none --quiet https://github.com/YANS-official/yans-2025-hackathon.git /tmp/pip-req-build-7u_9wbxm
  Resolved https://github.com/YANS-official/yans-2025-hackathon.git to commit 3383f40c990d3f8ab54909341358a76edbe062e9
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: yans-2025-hackathon
  Building wheel for yans-2025-hackathon (pyproject.toml) ... [?25l[?25hdone
  Created wheel for yans-2025-hackathon: filename=yans_2025_hackathon-0.1.0-py3-none-any.whl size=5225 sha256=d24249a75083b2103acd8fe68d4df710a53bc3f87d90453ef0466c7cceb04dd0
  Stored in directory: /tmp/pip-ephem-wheel-cache-xnt4g570/wheels/e1/d8/a5/a652a254af3

バッチサイズや学習率といった学習時のハイパーパラメータは事前の実験で適切なものにセットしていますが、関数から指定できるものに限り、自由に変えていただいて構いません。

In [5]:
from yans_2025_hackathon import train_dpo

help(train_dpo)

Help on function train_dpo in module yans_2025_hackathon.train_dpo:

train_dpo(train_dataset: datasets.arrow_dataset.Dataset, save_dir: str, model: str = 'SakanaAI/TinySwallow-1.5B-Instruct', batch_size: int = 4, local_batch_size: int = 1, learning_rate: float = 5e-07, num_train_epochs: int = 1, beta: float = 0.1)
    YANS 2025 ハッカソンで使用する DPO（Direct Preference Optimization）を実行する関数。
    学習データにはサイズ制限があり、最大500サンプル、総文字数50万文字まで。

    Args:
        train_dataset (Dataset): 学習用データセット。"chosen"と"rejected"フィールドを含む必要がある。
        save_dir (str): 学習済みモデルの保存先ディレクトリ。
        model (str, optional): 使用する事前学習モデル。デフォルトは"SakanaAI/TinySwallow-1.5B-Instruct"。
        batch_size (int, optional): バッチサイズ。デフォルトは4。
        local_batch_size (int, optional): デバイスごとのローカルバッチサイズ。デフォルトは1。
        learning_rate (float, optional): 学習率。デフォルトは5e-7。
        num_train_epochs (int, optional): 学習エポック数。デフォルトは1。
        beta (float, optional): DPOのbetaパラメータ。デフォルトは0.1。

    Raises:
        ValueError: データセットに"chosen"または"rejected

学習時のサンプルは以下の形式にフォーマットされている必要があります。

```python
{
  "chosen": [
    {"role": "user", "content": "1+1は？"},
    {"role": "assistant", "content": "2です。"}
  ],
  "rejected": [
    {"role": "user", "content": "1+1は？"},
    {"role": "assistant", "content": "わかりません"}
  ],
}
```

ここでは例として、Hugging Face 形式のデータセットを上記の形に加工します。

In [6]:
from datasets import load_dataset

# あくまでデータ加工の例です。
# 以下のデータで学習するとスコアが悪化することに注意してください。
def transform_example(item: dict) -> dict:
  return {
      "chosen": [
          {"role": "user", "content": item["question"]},
           {"role": "assistant", "content": str(item["answer_number"])}
      ],
      "rejected": [
          {"role": "user", "content": item["question"]},
           {"role": "assistant", "content": "分かりません"}
      ],
  }

train_dataset = dataset["train"].map(transform_example, remove_columns=["question", "answer_number"])
train_dataset[0]

{'chosen': [{'content': '魚を毎日2匹ずつ買っていたら、1週間で何匹になるでしょうか。', 'role': 'user'},
  {'content': '14', 'role': 'assistant'}],
 'rejected': [{'content': '魚を毎日2匹ずつ買っていたら、1週間で何匹になるでしょうか。', 'role': 'user'},
  {'content': '分かりません', 'role': 'assistant'}]}

In [7]:
help(train_dpo)

Help on function train_dpo in module yans_2025_hackathon.train_dpo:

train_dpo(train_dataset: datasets.arrow_dataset.Dataset, save_dir: str, model: str = 'SakanaAI/TinySwallow-1.5B-Instruct', batch_size: int = 4, local_batch_size: int = 1, learning_rate: float = 5e-07, num_train_epochs: int = 1, beta: float = 0.1)
    YANS 2025 ハッカソンで使用する DPO（Direct Preference Optimization）を実行する関数。
    学習データにはサイズ制限があり、最大500サンプル、総文字数50万文字まで。

    Args:
        train_dataset (Dataset): 学習用データセット。"chosen"と"rejected"フィールドを含む必要がある。
        save_dir (str): 学習済みモデルの保存先ディレクトリ。
        model (str, optional): 使用する事前学習モデル。デフォルトは"SakanaAI/TinySwallow-1.5B-Instruct"。
        batch_size (int, optional): バッチサイズ。デフォルトは4。
        local_batch_size (int, optional): デバイスごとのローカルバッチサイズ。デフォルトは1。
        learning_rate (float, optional): 学習率。デフォルトは5e-7。
        num_train_epochs (int, optional): 学習エポック数。デフォルトは1。
        beta (float, optional): DPOのbetaパラメータ。デフォルトは0.1。

    Raises:
        ValueError: データセットに"chosen"または"rejected

In [8]:
from yans_2025_hackathon import train_dpo

train_dpo(
    train_dataset=train_dataset,
    save_dir="results", # 学習後のモデルの保存場所
    model="SakanaAI/TinySwallow-1.5B-Instruct",
)

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/605 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/613 [00:00<?, ?B/s]

Extracting prompt in train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

Applying chat template to train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/500 [00:00<?, ? examples/s]

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'bos_token_id': None, 'pad_token_id': 151643}.


Step,Training Loss
10,0.6672
20,0.2508
30,0.0231
40,0.0019
50,0.0005
60,0.0002
70,0.0002
80,0.0001
90,0.0001
100,0.0001


`save_dir` で指定したディレクトリにモデルが保存されています。

In [9]:
!ls results

added_tokens.json	model-00001-of-00002.safetensors  tokenizer.json
chat_template.jinja	model-00002-of-00002.safetensors  training_args.bin
config.json		model.safetensors.index.json	  vocab.json
generation_config.json	special_tokens_map.json
merges.txt		tokenizer_config.json


## モデルの評価

学習したモデルを開発セットで検証してみましょう。
推論には [vLLM](https://github.com/vllm-project/vllm) ライブラリを使用します。
Hugging Face の推論そのままに比べて高速に応答を生成できます。

In [10]:
!pip install vllm

Collecting vllm
  Downloading vllm-0.10.1.1-cp38-abi3-manylinux1_x86_64.whl.metadata (15 kB)
Collecting blake3 (from vllm)
  Downloading blake3-1.0.5-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.2 kB)
Collecting prometheus-fastapi-instrumentator>=7.0.0 (from vllm)
  Downloading prometheus_fastapi_instrumentator-7.1.0-py3-none-any.whl.metadata (13 kB)
Collecting lm-format-enforcer<0.11,>=0.10.11 (from vllm)
  Downloading lm_format_enforcer-0.10.12-py3-none-any.whl.metadata (17 kB)
Collecting llguidance<0.8.0,>=0.7.11 (from vllm)
  Downloading llguidance-0.7.30-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (10 kB)
Collecting outlines_core==0.2.10 (from vllm)
  Downloading outlines_core-0.2.10-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.8 kB)
Collecting diskcache==5.6.3 (from vllm)
  Downloading diskcache-5.6.3-py3-none-any.whl.metadata (20 kB)
Collecting xgrammar==0.1.21 (from vllm)
  Downloading xgrammar-0.1.21-cp3

In [1]:
from vllm import LLM

# 学習したモデルのパスを指定
# model = LLM("./results")

# DPO 前のモデルを評価する場合
model = LLM("SakanaAI/TinySwallow-1.5B-Instruct")

INFO 09-05 12:17:09 [__init__.py:241] Automatically detected platform cuda.
INFO 09-05 12:17:10 [utils.py:326] non-default args: {'model': 'SakanaAI/TinySwallow-1.5B-Instruct', 'disable_log_stats': True}


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


INFO 09-05 12:17:26 [__init__.py:711] Resolved architecture: Qwen2ForCausalLM


`torch_dtype` is deprecated! Use `dtype` instead!


INFO 09-05 12:17:26 [__init__.py:1750] Using max model len 32768
INFO 09-05 12:17:30 [scheduler.py:222] Chunked prefill is enabled with max_num_batched_tokens=8192.
INFO 09-05 12:18:11 [llm.py:298] Supported_tasks: ['generate']


In [4]:
batch_responses = model.chat(
    [{"role": "user", "content": "1 + 1 はなんですか？"}]
)
print(batch_responses[0].outputs[0].text)

Adding requests:   0%|          | 0/1 [00:00<?, ?it/s]

Processed prompts:   0%|          | 0/1 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

1 + 1 = 2

これは基本的な算数の問題ですね


In [5]:
from datasets import load_dataset

dataset = load_dataset("YANS-official/hackathon-2025-math")
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['question', 'answer_number'],
        num_rows: 500
    })
    dev: Dataset({
        features: ['question', 'answer_number'],
        num_rows: 400
    })
})


In [17]:
from vllm import SamplingParams
dev_inputs = [
    [{"role": "user", "content": item["question"]}] for item in dataset["dev"]
]
dev_batch_responses = model.chat(
    dev_inputs,
    SamplingParams(
        temperature=0.0, # 貪欲デコーディング
        max_tokens=2048
    )
)

Adding requests:   0%|          | 0/400 [00:00<?, ?it/s]

Processed prompts:   0%|          | 0/400 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]

In [18]:
from yans_2025_hackathon import evaluate_response

num_total = 0
num_correct = 0
for resopnse, item in zip(dev_batch_responses, dataset["dev"]):
  response_text = resopnse.outputs[0].text
  answer_number = item["answer_number"]
  is_correct = evaluate_response(response_text, answer_number)

  num_total += 1
  num_correct += int(is_correct)
print("正解率", num_correct / num_total)

正解率 0.4825


## リーダーボードへの提出

リーダーボードには、以下のように元の質問（`"question"`）と、モデルの応答（`"response"`）を含む JSONL ファイルを提出してください。

```jsonl
{"question": "...", "response": "..."}
{"question": "...", "response": "..."}
```

`question` の値を用いて、適切な答えとの照合を行いますので、順番は気にしなくても構いません。

In [None]:
import json

# vLLM の出力と、開発データセットの質問を整形し、JSONL ファイルとして書き出す
with open("predictions.jsonl", "w") as f:
  for response, item in zip(dev_batch_responses, dataset["dev"]):
    f.write(json.dumps({"question": item["question"], "response": response.outputs[0].text}, ensure_ascii=False) + "\n")

作成したファイルは、ノートブック左の 📁 アイコンをクリックし、そこに表示されるファイル一覧からダウンロードすることができます（[参考](https://www.kikagaku.co.jp/kikagaku-blog/google-colab-file/#i-3)）。

## OpenAI API の使い方

データを加工したり、作成するために OpenAI API を使うことができます。
以下のコードを参考にしてください。

In [None]:
!pip install openai



In [None]:
import os
from openai import OpenAI

client = OpenAI(
    api_key="sk-...",  # 配布された API キーを使用する
)

response = client.responses.create(
    model="gpt-4o-mini",  # 使用可能モデルは gpt-4o-mini のみ
    instructions="数学の問題を解いてください。応答の末尾に必ず「答え:」という形式で解答となる数字を出力してください。",
    input="たけしさんは飴を４個もらいましたが、２個食べました。残りの飴の数は何個？",
)

print(response.output_text)

たけしさんがもらった飴は4個で、食べたのが2個です。したがって、残りの飴の数は次のように計算します。

4個 - 2個 = 2個

答え: 2
