Publications | Jiaming Ji

2024

arXiv

Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction

Jiaming Ji*, Boyuan Chen*, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, and Yaodong Yang

In Preprint, 2024

HTML PDF
arXiv

Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

Tianyi Qiu*, Fanzhi Zeng*, Jiaming Ji*, Dong Yan*, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, and Yaodong Yang

In Preprint, 2024

PDF
ICLR Spotlight

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Josef Dai*, Xuehai Pan*, Ruiyang Sun*, Jiaming Ji*, Xinbo Xu, Mickel Liu, Yizhou Wang, and Yaodong Yang

In International Conference on Learning Representation, 2024

HTML PDF Code
ICLR

SafeDreamer: Safe Reinforcement Learning with World Models

Weidong Huang*, Jiaming Ji*, Borong Zhang, Chunhe Xia, and Yaodong Yang

In International Conference on Learning Representation, 2024

HTML PDF Code

2023

arXiv

AI Alignment: A Comprehensive Survey

Jiaming Ji*, Tianyi Qiu*, Boyuan Chen*, Borong Zhang*, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O’Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, and Wen Gao

In Preprint, 2023

HTML PDF
arXiv

Baichuan 2: Open Large-scale Language Models

Jiaming Ji, and Other Authors (Alphabetic Order)

In Preprint, 2023

PDF Code
arXiv

OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research

Jiaming Ji*, Jiayi Zhou*, Borong Zhang*, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, and Yaodong Yang

In Preprint, 2023

HTML PDF Code
JMLR

Heterogeneous-Agent Reinforcement Learning

Yifan Zhong, Grudzien Kuba Jakub, Siyi Hu, Jiaming Ji, and Yaodong Yang

In The Journal of Machine Learning Research (JMLR), 2023

PDF Code
NeurIPS

Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark

Jiaming Ji*, Borong Zhang*, Jiayi Zhou*, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, and Yaodong Yang

Advances in Neural Information Processing Systems, 2023

HTML Code
NeurIPS

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Jiaming Ji*, Mickel Liu*, Juntao Dai*, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, and Yaodong Yang

Advances in Neural Information Processing Systems, 2023

HTML PDF Code
NeurIPS

VOCE: Variational Optimization with Conservative Estimation for Offline Safe Reinforcement Learning

Jiayi Guan, Guang Chen, Jiaming Ji, and Others

Advances in Neural Information Processing Systems, 2023
AAAI

Augmented proximal policy optimization for safe reinforcement learning

Juntao Dai*, Jiaming Ji*, Long Yang, Qian Zheng, and Gang Pan

Proceedings of the AAAI Conference on Artificial Intelligence, 2023

PDF

2022

NeurIPS

Constrained update projection approach to safe policy optimization

Long Yang*, Jiaming Ji*, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei Li, Yaodong Yang, and Gang Pan

Advances in Neural Information Processing Systems, 2022

PDF Code