Zhaolin Gao | Publications

Pre-trained Large Language Models Learn Hidden Markov Models In-context

Dai, Yijia, Gao, Zhaolin, Sattar, Yahya, Dean, Sarah, and Sun, Jennifer J.

Preprint

PDF Code
Accelerating RL for LLM Reasoning with Optimal Advantage Regression

Brantley, Kianté, Chen, Mingyu, Gao, Zhaolin, Lee, Jason D., Sun, Wen, Zhan, Wenhao, and Zhang, Xuezhou (alphabetical order)

Preprint

PDF Model Code
Value-Guided Search for Efficient Chain-of-Thought Reasoning

Wang, Kaiwen, Zhou, Jin Peng, Chang, Jonathan D., Gao, Zhaolin, Kallus, Nathan, Brantley, Kianté, and Sun, Wen

Preprint

PDF Model Code dataset
Q#: Provably Optimal Distributional RL for LLM Post-Training

Zhou, Jin Peng*, Wang, Kaiwen*, Chang, Jonathan D., Gao, Zhaolin, Kallus, Nathan, Weinberger, Kilian Q., Brantley, Kianté, and Sun, Wen

Preprint

PDF Code
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

Gao, Zhaolin, Zhan, Wenhao, Chang, Jonathan D., Swamy, Gokul, Brantley, Kianté, Lee, Jason D., and Sun, Wen

ICLR 2025

PDF Model Code
End-to-end Training for Recommendation with Language-based User Profiles

Gao, Zhaolin, Zhou, Joyce, Dai, Yijia, and Joachims, Thorsten

CIKM 2025

PDF Code
REBEL: Reinforcement Learning via Regressing Relative Rewards

Gao, Zhaolin, Chang, Jonathan D., Zhan, Wenhao, Oertell, Owen, Swamy, Gokul, Brantley, Kianté, Joachims, Thorsten, Bagnell, J. Andrew, Lee, Jason D., and Sun, Wen

NeurIPS 2024

PDF Model Code
Reviewer2: Optimizing Review Generation Through Prompt Generation

Gao, Zhaolin, Brantley, Kianté, and Joachims, Thorsten

Preprint

PDF Model Code dataset
Session-based Recommendation With Transformers

Lu, Yichao, Gao, Zhaolin*, Cheng, Zhaoyue*, Sun, Jianing*, Brown, Bradley, Yu, Guangwei, Wong, Anson, Perez, Felipe, and Volkovs, Maksims

RecSys Challenge 2022

PDF
Mitigating the Filter Bubble while Maintaining Relevance: Targeted Diversification with VAE-based Recommender Systems

Gao, Zhaolin, Shen, Tianshu, Mai, Zheda, Bouadjenek, Mohamed Reda, Waller, Isaac, Anderson, Ashton, Bodkin, Ron, and Sanner, Scott

SIGIR 2022

PDF Code
MCL: Mixed-Centric Loss for Collaborative Filtering

Gao, Zhaolin*, Cheng, Zhaoyue*, Perez, Felipe, Sun, Jianing, and Volkovs, Maksims

WWW 2022

PDF Code
Shoestring: Graph-Based Semi-Supervised Classification With Severely Limited Labeled Data

Lin, Wanyu, Gao, Zhaolin, and Li, Baochun

CVPR 2020

PDF Code
Guardian: Evaluating Trust in Online Social Networks with Graph Convolutional Networks

Lin, Wanyu, Gao, Zhaolin, and Li, Baochun

INFOCOM 2020

PDF Code