gimocimo

Guglielmo Cimolai gimocimo

Popular repositories Loading

RefuseBench RefuseBench Public

A benchmark for spec-gaming resistance in LLMs: do models honor embedded policy rules when a plausible user request creates pressure to bend them?

Python