HowardHsuuu

HowardHsuuu

Achievements

Conspire-Bench Conspire-Bench Public

Python
llm-emotion-neurons llm-emotion-neurons Public

Jupyter Notebook
llm-neuron-functional-partition llm-neuron-functional-partition Public

Python
LSNs LSNs Public

Forked from paveenH/LSNs

Python
UNPACK UNPACK Public

UNPACK - Unlearnability Predicting via Activation Characterization of Knowledge

Python
VeilBench VeilBench Public

Forked from frankdeceptions369/VeilBench

Open-source benchmark for measuring sandbagging and strategic manipulation in LLMs.

Python