Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

Code will be released very soon.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback