aisafety

Materials for the course Principles of AI: LLMs at UPenn (Stat 9911, Spring 2025). LLM architectures, training paradigms (pre- and post-training, alignment), test-time computation, reasoning, safety and robustness (jailbreaking, oversight, uncertainty), representations, interpretability (circuits), etc.

education ai transformers inference circuits alignment safety jailbreaking interpretability robustness fine-tuning aisafety hallucination llms rlhf test-time-computation

Updated Mar 27, 2025

riceissa / aiwatch

Star

Website to track people, organizations, and products (tools, websites, etc.) in AI safety

mysql php database dataset ai-safety data-portal aisafety ai-alignment

Updated Mar 27, 2025
HTML

pillowsofwind / LLM-CBRN-Risks

Star

The official GitHub repo for the paper "Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents"

agent ai-safety aisafety llm

Updated Mar 23, 2025
Python

ZiyueWang25 / llm-security-challenge

Star

Can Large Language Models Solve Security Challenges? We test LLMs' ability to interact and break out of shell environments using the OverTheWire wargames environment, showing the models' surprising ability to do action-oriented cyberexploits in shell environments

cybersecurity aisafety llm

Updated Aug 21, 2023
Python

kaustpradalab / Fraud-R1

Star

Fraud-R1 : A Multi-Round Benchmark for Assessing the Robustness of LLM Against Augmented Fraud and Phishing Inducements

nlp benchmark aisafety ethic trustworthy-ai

Updated Feb 19, 2025
Python

kkhetarpal / safe_a2oc_delib

Star

Safe Option Critic: Learning Safe Options in the A2OC Architecture

options-framework aisafety asynchr-advantage-option-critic safe-option-critic

Updated Dec 17, 2018
Python

AnaBelenBarbero / detect-prompt-injection

Star

The go-to API for detecting and preventing prompt injection attacks.

aisafety mlops aigovernance llmops promptinjection

Updated Feb 28, 2025
Jupyter Notebook

kkhetarpal / ais

Star

Common repository for our readings and discussions

reinforcement-learning ai intrinsic-motivation aisafety saferl reward-design

Updated Apr 16, 2018

AikyamLab / hallucinogen

Star

A benchmark for evaluating hallucinations in large visual language models

ai aisafety visual-language-models hallucination-evaluation hallucination-detection medical-safety medical-visual-language-model

Updated Mar 18, 2025
Python

line / sacpo

Star

[NeurIPS 2024] SACPO (Stepwise Alignment for Constrained Policy Optimization)

alignment aisafety large-language-models large-language-model

Updated Dec 23, 2024
Python

endlessloop2 / UC-AI-Thinkathon-2023

Star

Winning entry for the UC Chile AI Safety Thinkathon 2023. Coauthor @mon-b

ai alignment ai-safety aisafety gpt-3

Updated Mar 1, 2023
R

teivng / bayesian_dpddm

Star

D-PDDM for post-deployment deterioration monitoring of machine learning models.

aisafety guardrailsforai deteriorationmonitoring

Updated Mar 24, 2025
Jupyter Notebook

romaingrx / llm-as-a-jailbreak-judge

Sponsor

Star

Explore techniques to use small models as jailbreaking judges

jailbreak aisafety llm-as-a-judge

Updated Sep 18, 2024
Python

romaingrx / red-teamer-mistral-nemo

Sponsor

Star

Finetuning of Mistral Nemo 13B on the WildJailbreak dataset to produce a red-teaming model

jailbreak finetuning aisafety

Updated Sep 18, 2024
Python

immartian / YggPeer

Star

a Python library for peer-to-peer communication over the Yggdrasil network

peer-to-peer yggdrasil e2ee aisafety aiagent

Updated Sep 19, 2024
Python

Pearljam66 / Machine-Learning-Resources

Star

An organized repository of essential machine learning resources, including tutorials, papers, books, and tools, each with corresponding links for easy access.

python learning aws machine-learning sql ai deep-learning tensorflow scikit-learn ml pytorch machine-learning-interview xai lex-fridman aisafety llms

Updated Jul 27, 2024

Improve this page

Add a description, image, and links to the aisafety topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the aisafety topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

aisafety

Here are 26 public repositories matching this topic...

tigerlab-ai / tiger

PKU-Alignment / aligner

trendmicro / ais

metadriverse / cat

dobriban / Principles-of-AI-LLMs

riceissa / aiwatch

pillowsofwind / LLM-CBRN-Risks

ZiyueWang25 / llm-security-challenge

kaustpradalab / Fraud-R1

kkhetarpal / safe_a2oc_delib

AnaBelenBarbero / detect-prompt-injection

kkhetarpal / ais

AikyamLab / hallucinogen

line / sacpo

endlessloop2 / UC-AI-Thinkathon-2023

teivng / bayesian_dpddm

romaingrx / llm-as-a-jailbreak-judge

romaingrx / red-teamer-mistral-nemo

immartian / YggPeer

Pearljam66 / Machine-Learning-Resources

Improve this page

Add this topic to your repo