Reinforcement Learning | Jiangjie Chen

ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

By integrating budget-mode control into the training process, ThinkDial enables seamless switching between different reasoning regimes, balancing speed and accuracy across task requirements.

Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

MemAgent introduces a multi-conv RL-based memory agent that enables language models to handle extremely long documents, extending from 8K to 3.5M tokens with minimal performance degradation.

Hongli Yu, Tinghong Chen, Jiangtao Feng, Jiangjie Chen, Weinan Dai, Qiying Yu, Ya-Qin Zhang, Wei-Ying Ma, Jingjing Liu, Mingxuan Wang, Hao Zhou

ARIA: Training Language Agents with Intention-Driven Reward Aggregation

ARIA improves language agent training by aggregating rewards in intention space, reducing variance and achieving 9.95% average performance gains across four tasks.

Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao

ARIA: Training Language Agents with Intention-Driven Reward Aggregation

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills.

Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang

Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

KORGym offers over fifty games in textual or visual formats for interactive, multi-turn LLM reasoning evaluation with reinforcement learning scenarios.

Jiajun Shi, Jian Yang, Jiaheng Liu, Xingyuan Bu, Jiangjie Chen, Junting Zhou, Kaijing Ma, Zhoufutu Wen, Bingli Wang, Yancheng He, Liang Song, Hualei Zhu, Shilong Li, Xingjian Wang, Wei Zhang, Ruibin Yuan, Yifan Yao, Wenjun Yang, Yunli Wang, Siyuan Fang, Siyu Yuan, Qianyu He, Xiangru Tang, Yingshui Tan, Wangchunshu Zhou, Zhaoxiang Zhang, Zhoujun Li, Wenhao Huang, Ge Zhang

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning

We introduce Seed-Thinking-v1.5, a Mixture-of-Experts (MoE) model with a relatively small size, featuring 20B activated and 200B total parameters, capable of reasoning through thinking before responding, resulting in improved performance on a widerange of benchmarks.

ByteDance Seed

Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning

DAPO: An Open-source LLM Reinforcement Learning System At Scale

We introduce DAPO, a Decoupled Clip and Dynamic sAmpling Policy Optimization algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model.

Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang