📝 Selected Publications

Preprint

OS-SYMPHONY: A Holistic Framework for Robust and Generalist Computer-Using Agent 🔥🔥
Bowen Yang*, Kaiming Jin*, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding✉

(* means equal contributions, ✉ means corresponding author.)

Check code, demos at Our Github and Our Website. 🌐
A Holistic Framework for Robust and Generalist Computer-Using Agent. 🏗️
Leveraging milestone-driven long-term memory to stay robust over long-horizon tasks. 🧠
Introducing a browser-based sandbox to retrieve visually grounded GUI know-how from documentation. 📄
OS-Symphony achieves the SOTA results on OSWorld(65.8%), WindowsAgentArena(65.8%), MacOSArena(65.8%). 🏆

CVPR 2026

OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models 🔥🔥
Zhenyu Wu*, Jingjing Xie*, Zehao Li, Bowen Yang, Qiushi Sun, Zhaoyang Liu, Zhoumianze Liu, Yu Qiao, Xiangyu Yue, Zun Wang, Zichen Ding✉

(* means equal contributions, ✉ means corresponding author.)

Check code, dataset & models at Our Github and Our HF Collections. 🤗
A scalable data pipeline for synthesizing cross-platform GUI critic data. 📊
Introducing an elaborate training recipe that integrates SFT with CP-GRPO. 🧠
A holistic benchmark for evaluating GUI critic across Mobile, Web, and Desktop platforms. ⚖️
OS-Oracle-7B achieves the SOTA results on OS-Critic Bench and support the full CUA lifecycle. 🏆

ICLR 2026 (Oral)

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data 🔥🔥
Zhaoyang Liu*, Jingjing Xie*, Zichen Ding*, Zehao Li*, Bowen Yang*, Zhenyu Wu*, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang.

Check code, dataset & models at Our Github and Our HF Collections. 🤗
The first open-source framework and dataset for truly cross-platform Computer Use Agents. 🤖
Achieve the SOTA results on MMBench-GUI, ScreenSpot-Pro, and WebArena-Lite-v2, etc. 🏆
Provide a comprehensive training recipe to advance computer-use agents. 🚀

CVPR 2026

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents 🔥🔥
Xuehui Wang*, Zhenyu Wu*, Jingjing Xie*, Zichen Ding*, Bowen Yang*, Zehao Li*, Zhaoyang Liu*, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang.

Check code at Our Project. 🎬
A cross-platform, hierarchical benchmark designed to comprehensively evaluate GUI agents. 🔍
Introduce EQA to jointly assess both the success and efficiency of agent behavior in online tasks. 🧐

COLM 2025

Breaking the Data Barrier – Building GUI Agents Through Task Generalization
Junlei Zhang*, Zichen Ding*, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He.

Check code at Our Project. 📽️
Provide insights into cross-domain knowledge transfer for GUI agents. 🤖
Offer a practical approach to addressing data scarcity challenges in this emerging field. 💫

ACL 2025

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [CCF-A]
Qiushi Sun*, Kanzhi Cheng*, Zichen Ding*, Chuanyang Jin*, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chengyou Jia, Liheng Chen, Zhoumianze Liu, Ben Kao, Guohao Li, Junxian He, Yu Qiao, Zhiyong Wu.

Check demos at Our Website. 🌐
Shift from task-driven to interaction-driven GUI data synthesis. 🤖
A manual-free data pipeline for synthesizing GUI agent trajectories. 🧬

EMNLP 2024

Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis [CCF-B]
Jianxiang Yu*, Zichen Ding*, Jiaqi Tan, Kangyang Luo, Zhenmin Weng, Chenghua Gong, Long Zeng, Renjing Cui, Chengcheng Han, Qiushi Sun, Zhiyong Wu, Yunshi Lan, Xiang Li.

Check demos at Our Website. 🌐
An innovative framework for automating peer review. 🌊

Preprint OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions,
Fangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang, Muye Huang, Jingyang Gong, Zichen Ding, Kanzhi Cheng, Yian Wang, Xinyu Che, Zeyi Sun, Jian Zhang, Zhangyue Yin, Haoran Luo, Xuanjing Huang, Ben Kao, Jun Liu, Qika Lin.
Preprint TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents,
Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin.
Preprint GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence,
Yibo Zhao, Jiapeng Zhu, Zichen Ding, Xiang Li.
Preprint OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows,
Qiushi Sun*, Mukai Li*, Zhoumianze Liu*, Zhihui Xie*, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong.
Preprint InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency,
Weiyun Wang, Zhangwei Gao, Lixin Gu, Hengjun Pu, Long Cui, Xingguang Wei, Zhaoyang Liu, Linglin Jing, Shenglong Ye, Jie Shao, Zhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin Yang, Haomin Wang, Qi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou Chen, Zichen Ding, .etc.
ICLR 2026 ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, [Core A*]
Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu.
ACL 2025 Let’s Be Self-generated via Step by Step: A Curriculum Learning Approach to Automated Reasoning with LLMs, [CCF-A]
Kangyang Luo, Zichen Ding, Zhenmin Weng, Lingfeng Qiao, Meng Zhao, Xiang Li, Di Yin, Jinlong Shu.
IJCNLP-AACL 2025 SEAGraph: Unveiling the Whole Story of Paper Review Comments,
Jianxiang Yu*, Jiaqi Tan*, Zichen Ding, Jiapeng Zhu, Jiahao Li, Yao Cheng, Qier Cui, Yunshi Lan, Yao Liu, Xiang Li
ICLR 2025 (Spotlight) OS-ATLAS: A Foundation Action Model For Generalist GUI Agents, [Core A*]
Zhiyong Wu*, Zhenyu Wu*, Fangzhi Xu*, Yian Wang*, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao.
SIGKDD 2025 RELIEF: Reinforcement Learning Empowered Graph Feature Prompt Tuning, [CCF-A]
Jiapeng Zhu, Zichen Ding, Jianxiang Yu, Jiaqi Tan, Xiang Li, Weining Qian.
LLMAgents@ICLR 2024 OS-Copilot: Towards Generalist Computer Agents with Self-Improvement, [Core A*]
Zhiyong Wu*, Chengcheng Han*, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong.

More preprints under review will be released soon, and some papers can be found on Google Scholar. 📚✨🔍