coder · ibetitsmike · Mar 6, 2026 · Mar 6, 2026 · Mar 6, 2026
diff --git a/.github/workflows/nightly-terminal-bench.yml b/.github/workflows/nightly-terminal-bench.yml
@@ -10,7 +10,7 @@ on:
   workflow_dispatch:
     inputs:
       models:
-        description: 'Models to test (comma-separated, or "all" for opus-4-6 + gpt-5.3-codex + gpt-5.2 + google/gemini-3-pro-preview + google/gemini-3-flash-preview)'
+        description: 'Models to test (comma-separated, or "all" for opus-4-6 + gpt-5.3-codex + gpt-5.4 + google/gemini-3-pro-preview + google/gemini-3-flash-preview)'
         required: false
         default: "all"
         type: string
@@ -99,7 +99,7 @@ jobs:
           INPUT_MODELS: ${{ inputs.models }}
         run: |
           if [ "$INPUT_MODELS" = "all" ] || [ -z "$INPUT_MODELS" ]; then
-            echo 'models=["anthropic/claude-opus-4-6","openai/gpt-5.3-codex","openai/gpt-5.2","google/gemini-3-pro-preview","google/gemini-3-flash-preview"]' >> "$GITHUB_OUTPUT"
+            echo 'models=["anthropic/claude-opus-4-6","openai/gpt-5.3-codex","openai/gpt-5.4","google/gemini-3-pro-preview","google/gemini-3-flash-preview"]' >> "$GITHUB_OUTPUT"
           else
             # Convert comma-separated to JSON array
             models_json=$(echo "$INPUT_MODELS" | jq -R -s -c 'split(",") | map(gsub("^\\s+|\\s+$"; ""))')

diff --git a/.github/workflows/terminal-bench.yml b/.github/workflows/terminal-bench.yml
@@ -87,7 +87,7 @@ on:
         required: false
         type: string
       model_name:
-        description: "Model to use (e.g., anthropic/claude-opus-4-5, openai/gpt-5.2)"
+        description: "Model to use (e.g., anthropic/claude-opus-4-5, openai/gpt-5.4)"
         required: false
         type: string
       mux_run_args:

diff --git a/benchmarks/terminal_bench/prepare_leaderboard_submission.py b/benchmarks/terminal_bench/prepare_leaderboard_submission.py
@@ -102,13 +102,22 @@
         "model_org_display_name": "Anthropic",
         "folder_name": "Claude-Opus-4.6",
     },
+    # Keep historical GPT-5.2 metadata alongside the new GPT-5.4 bench target
+    # so mixed or older artifact sets still map to the canonical leaderboard names.
     "openai/gpt-5.2": {
         "model_name": "gpt-5.2",
         "model_provider": "openai",
         "model_display_name": "GPT-5.2",
         "model_org_display_name": "OpenAI",
         "folder_name": "GPT-5.2",
     },
+    "openai/gpt-5.4": {
+        "model_name": "gpt-5.4",
+        "model_provider": "openai",
+        "model_display_name": "GPT-5.4",
+        "model_org_display_name": "OpenAI",
+        "folder_name": "GPT-5.4",
+    },
     "openai/gpt-5-codex": {
         "model_name": "gpt-5-codex",
         "model_provider": "openai",