Guoqing Liu's Homepage

Senior Researcher
Microsoft Research AI for Science

guoqingliu (at) microsoft.com
21 Station Road, Cambridge, CB1 2FB, United Kingdom

Biography

Guoqing Liu is a Senior Researcher at Microsoft Research AI for Science based in Cambridge, UK. His research focuses on Reinforcement Learning (RL), Large Language Models (LLMs), and AI Co-Scientists. He develops LLMs post-training methods and autonomous RL agents to accelerate chemistry and drug discovery, with representative works including QFANG, NatureLM, PDVN, TDPO, and EvoPrompt. Previously, he was a Senior Researcher and a joint PhD student at Microsoft Research Asia, where he worked on (deep) reinforcement learning, particularly state abstraction and representation, policy gradient methods, and sample efficiency. Representative projects include Suphx: The World Best Mahjong AI and Inspector: Automated Game Testing with Xbox Studios Quality. He received his Ph.D. from the University of Science and Technology of China through a joint program with Microsoft Research Asia (2016-2021), supervised by Tie-Yan Liu and Nenghai Yu.

Publications

("*": equal contribution; "†": correspondence)

LLM Post-Training, Reinforcement Learning, AI for Science (2022-2026)

Token-Importance Guided Direct Preference Optimization (TDPO-v2) [Paper]
Ning Yang, Hai Lin, Yibo Liu, Baoliang Tian, Guoqing Liu, Haijun Zhang
Fourteenth International Conference on Learning Representations (ICLR 2026 Oral)
A Scientific Reasoning Model for Organic Synthesis Procedure Generation (QFANG) [Paper]
Guoqing Liu*, Junren Li*, Zihan Zhao*, Eray Inanc, Krzysztof Maziarz, Jose Garrido Torres, Victor Garcia Satorras, Shoko Ueda, Christopher M. Bishop, Marwin Segler. arXiv 2025.
Chemist-aligned retrosynthesis by ensembling diverse inductive bias models (RetroChimera) [Paper][News]
Krzysztof Maziarz*, Guoqing Liu*, Hubert Misztela, Austin Tripp, Junren Li, Aleksei Kornev, Piotr Gaiński, Holger Hoefling, Mike Fortunato, Rishi Gupta, Marwin Segler. arXiv 2025.
Accelerating protein engineering with fitness landscape modelling and reinforcement learning (MuProtein) [Paper][News]
Haoran Sun*, Liang He*, Pan Deng*, Guoqing Liu*, Zhiyu Zhao, Yuliang Jiang, Chuan Cao, Fusong Ju, Lijun Wu, Haiguang Liu, Tao Qin, Tie-Yan Liu
Nature Machine Intelligence (NMI 2025)
NatureLM: Deciphering the Language of Nature for Scientific Discovery [Paper]
Yingce Xia*, Peiran Jin*, Shufang Xie*, Liang He*, Chuan Cao*, Renqian Luo*, Guoqing Liu*, Yue Wang*, Zequn Liu*, Yuan-Jyue Chen*, Zekun Guo*, etc. arXiv 2025.
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [Paper]
Mingqian Ma*, Guoqing Liu*, Chuan Cao*, Pan Deng*, Tri Dao, Albert Gu, Peiran Jin, Zhao Yang, Yingce Xia, Renqian Luo, Pipi Hu, Zun Wang, Yuan-Jyue Chen, Haiguang Liu, Tao Qin
ICLR 2025 Workshop on Machine Learning for Genomics Explorations (ICLR 2025-W)
Token-level Direct Preference Optimization (TDPO) [Paper]
Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang
Forty-first International Conference on Machine Learning (ICML 2024)
Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers (EvoPrompt) [Paper]
Qingyan Guo, Rui Wang, Junliang Guo, Bei Li, Kaitao Song, Xu Tan, Guoqing Liu, Jiang Bian, Yujiu Yang
Twelfth International Conference on Learning Representations (ICLR 2024)
De novo Drug Design using Reinforcement Learning with Multiple GPT Agents (MolRL-MGPT) [Paper]
Xiuyuan Hu, Guoqing Liu†, Yang Zhao, Hao Zhang
Thirty-seventh Conference on Neural Information Processing Systems (NeurIPS 2023)
Retrosynthetic Planning with Dual Value Networks (PDVN) [Paper]
Guoqing Liu*, Di Xue*, Shufang Xie, Yingce Xia, Austin Tripp, Krzysztof Maziarz, Marwin Segler, Tao Qin, Zongzhang Zhang, Tie-Yan Liu
Fortieth International Conference on Machine Learning (ICML 2023)

(Deep) Reinforcement Learning, Game Intelligence (2016-2022)

Proactive Constrained Policy Optimization with Preemptive Penalty [Paper]
Ning Yang, Pengyu Wang, Guoqing Liu, Haifeng Zhang, Pin Lv, Jun Wang
The Fortieth AAAI Conference on Artificial Intelligence (AAAI 2026)
Reinforcement Learning from Bagged Reward [Paper]
Yuting Tang, Xin-Qiang Cai, Yao-Xiang Ding, Qiyu Wu, Guoqing Liu, Masashi Sugiyama
Transactions on Machine Learning Research (TMLR 2025)
You May Not Need Ratio Clipping in PPO [Paper]
Mingfei Sun, Vitaly Kurin, Guoqing Liu, Sam Devlin, Tao Qin, Katja Hofmann, Shimon Whiteson. arXiv 2022.
Inspector: Pixel-based Automated Game Testing via Exploration, Detection, and Investigation [Paper]
Guoqing Liu, Mengzhang Cai, Li Zhao, Tao Qin, Adrian Brown, Jimmy Bischoff and Tie-Yan Liu
IEEE Conference on Games 2022 (COG 2022, Oral)
Independence-aware Advantage Estimation [Paper]
Pushi Zhang, Li Zhao, Guoqing Liu, Jiang Bian, Minlie Huang, Tao Qin, Tie-Yan Liu
30th International Joint Conference on Artificial Intelligence (IJCAI 2021)
Demonstration Actor Critic [Paper]
Guoqing Liu, Li Zhao, Pushi Zhang, Jiang Bian, Tao Qin, Nenghai Yu, Tie- Yan Liu
Neurocomputing, Volume 434, 28 April 2021, Pages 194-202 (Neurocomputing 2021)
Return-based Contrastive Representation Learning for Reinforcement Learning [Paper]
Guoqing Liu*, Chuheng Zhang*, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu
Ninth International Conference on Learning Representations (ICLR 2021)
Suphx: Mastering Mahjong with Deep Reinforcement Learning [Paper][News]
Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon. arXiv 2020.
Trust Region Evolution Strategies [Paper]
Guoqing Liu, Li Zhao, Feidiao Yang, Jiang Bian, Tao Qin, Nenghai Yu, Tie-Yan Liu
Thirty-Third AAAI Conference on Artificial Intelligence (AAAI 2019)

Mentorship

Education

Sep.2016 - Jun.2021, Cyberspace Security, University of Science and Technology of China, Doctor of Philosophy (Ph.D.)
Sep.2012 - Jun.2016, Electronic Engineering & Information Science, University of Science and Technology of China, Bachelor of Engineering (B.E.)

Professional Activities

PC member: ICLR, ICML, NeurIPS, AAAI, AAMAS
Journal reviewer: TPAMI, Neurocomputing, Nature Computational Science, Journal of Cheminformatics

Honors and Awards

Aug 2016, Stars of Tomorrow Internship Award, Microsoft Research Asia.
Sep 2013, Sep.2014, Sep.2015, Excellent Student Scholarship of USTC, University of Science and Technology of China.
Dec 2013, The Chinese National College Students Mathematical Competition, First Price in Anhui Province.
Oct 2011, The Chinese National High School Mathematics League, First Price in Jiangsu Province (Direct admission to USTC without the Chinese Gaokao).