What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Dong Yan^1,2, Jian Liang^1,2*, Yanbo Wang^1,2, Shuo Lu², Ran He^1,2, Tieniu Tan^1,2,3

¹School of Artificial Intelligence, University of Chinese Academy of Sciences
²NLPR & MAIS, Institute of Automation, Chinese Academy of Sciences
³Nanjing University

yandong2025@ia.ac.cn, liangjian92@gmail.com

Abstract

Test-Time Reinforcement Learning (TTRL) enables Large Language Models (LLMs) to enhance reasoning capabilities on unlabeled test streams by deriving pseudo-rewards from majority voting consensus. However, existing TTRL methods rely exclusively on positive pseudo-labeling strategies. Such reliance becomes vulnerable under challenging scenarios where answer distributions are highly dispersed, resulting in weak consensus that inadvertently reinforces incorrect trajectories as supervision signals. In this paper, we propose SCRL (Selective-Complementary Reinforcement Learning), a robust test-time reinforcement learning framework that effectively mitigates label noise amplification. SCRL develops Selective Positive Pseudo-Labeling, which enforces strict consensus criteria to filter unreliable majorities. Complementarily, SCRL introduces Entropy-Gated Negative Pseudo-Labeling, the first negative supervision mechanism in TTRL, to reliably prune incorrect trajectories based on generation uncertainty. Extensive experiments on multiple reasoning benchmarks demonstrate that SCRL achieves substantial improvements over baselines, while maintaining robust generalization and training stability under constrained rollout budgets.

🚀 News

[2026/03] Code is under preparation. Stay tuned!

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
figs		figs
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Abstract

🚀 News

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 1

Folders and files

Latest commit

History

Repository files navigation

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Abstract

🚀 News

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 1

Packages