# Prompt Hacking Webinar: Prompt Injection vs. Jailbreaking
## ¿Cuál es la diferencia y qué amenazas representa cada una?

## ¿Quién soy?

<div style="text-align:center;">
    <h4 style="font-size:2em;margin:5px;">Cristian Cardellino</h4>
    <h5 style="font-style:normal;font-size:1.5em;margin:5px;">AI Research & Engineering @ Eclypsium</h5>
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/me.jpg" style="height:15em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1.25em;margin:5px;">
        <a href="https://crscardellino.net" style="color:royalblue;" target="_blank">https://crscardellino.net</a>
    </h6>
</div>

# Introducción a LLMs

## LLMs

* Un **modelo de lenguaje** es un modelo de aprendizaje automático (_machine learning_) que se especializa en predecir el siguiente _token_ dada una lista de _tokens_ iniciales.
  * Los **tokens** son subpalabras (muchas veces incluso caracteres) de uno o varios lenguajes naturales (e.g., español, inglés, francés, etc.) u otro tipo de lenguajes (e.g., lenguajes de programación).
  * El proceso de separar un _string_ en tokens es lo que se conoce como **tokenización**.
  * La secuencia inicial de tokens es lo que conforma el **prompt**. Distintos prompts tendrán distintos efectos sobre el modelo de lenguaje.
* Un **LLM** (large language model) es un tipo de modelo de lenguaje que se caracteriza por su tamaño en cantidad de parámetros y cantidad de datos utilizados para entrenarlo (e.g., GPT-4, Gemini, Claude, Llama, Deepseek, Qwen, etc.).
  * Los LLMs se caracterizan también porque suelen utilizar una arquitectura de red neuronal particular conocida como **transformer**.

## ¿Cómo funciona un LLM?

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/DecodingFinal.gif" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://huggingface.co/learn/agents-course/en/unit1/what-are-llms" style="color:royalblue;" target="_blank">Hugging Face Agents Course - What are LLMs?</a>
    </h6>
</div>

## LLM: ¿Qué hay por debajo?

* Los LLMs modernos suelen tener 2 facetas: **pre-entrenamiento no supervisado** y **alineación supervisada** (muchas veces mediante feedback humano).
  * El **pre-entrenamiento no supervisado** sólo se encarga de aprender a predecir el siguiente token.
  * La **alineación** es lo que hace que el modelo "aprenda" a seguir una conversación (suelen conocerse como modelos de instrucción).
  * La alineación también sirve en los modelos para **mitigar problemas** de alucinaciones y también de ética (e.g., evitar que el LLM genere discurso de odio, hable de cosas ilegales, etc.)
* Por debajo, los modelos aprenden a seguir formatos muy específicos, caracterizados por el uso de tokens especiales:

## Aplicaciones sobre LLMs

* Muchas de las formas en las que se interactúa con un LLM es mediante alguna aplicación.
  * E.g., ChatGPT es una app para usar los modelos de GPT que ofrece OpenAI.
* Algunas aplicaciones usan LLMs como **orquestador** además de la generación de texto.
* Los **agentes** son wrappers sobre los LLMs que los usan como orquestadores (i.e., toman decisiones de como seguir el flujo de la aplicación).
  * Suelen tener acceso a herramientas externas (e.g., ejecución de código, consulta de bases de datos, MCP servers, etc.)
  * Hay modelos alineados para hacer mejor uso de herramientas que van mejor con los agentes.
* Muchas de las aplicaciones que usan LLMs aplican lo que se conoce como **Retrieval-Augmented Generation (RAG)**.
  * La idea es mitigar la alucinación de un LLM al darle un contexto definido como parte del mismo prompt.
  * El contexto suele obtenerse de algún lugar curado (e.g., una base de datos, una búsqueda online, etc.).

# Prompt Injection vs. Jailbreaking

## Prompt Injection

* Un ataque a **aplicaciones que hacen uso de LLMs**.
* Las aplicaciones necesariamente deben **concatenar un prompt *trusted* (escrito por el desarrollador) a un prompt *untrusted* (escrito por el usuario)**.
* El concepto es **análogo a SQL injection**, donde el código SQL del desarrollador es concatenado a un input del usuario.
* Está ligado a las características de la aplicación que se está atacando.
* Se busca acceder a la información a la que la aplicación en sí puede acceder.
* Muchas de estas aplicaciones dependen de equipos más chicos y/o desarrolladores independientes.
    * Para evitarlos se debe asegurar que el LLM seguirá las instrucciones del desarrollador, no las del usuario.
* Aplicaciones con acceso a datos confidenciales y que usan LLMs son vulnerables a estos ataques.
    * Ejemplo: Sistemas con agentes que accedan a bases de datos u otras herramientas.
* Es un caso más *real* de ataque y representa una vulnerabilidad en todos los sistemas construídos sobre LLMs.

## Jailbreaking

* Un ataque **directo a los LLMs**.
* El objetivo es **subvertir los filtros de seguridad embebidos en los LLMs**.
* No se basan en concatenar un *untrusted* prompt a un *trusted* prompt, sino en **crear un prompt que ataque el LLM en si mismo**.
* Tiene distintas técnicas para lograrse.
* Está ligado al LLM que está atacando y a cómo este fue entrenado.
  * La alineación de los modelos durante el entrenamiento tiene esquemas para evitar muchos de estos ataques.
* Los LLM son entrenados en gran medida por organizaciones y compañías grandes.
* Los ataques suelen ser *PR nightmare*, muchas veces *screenshot attacks* de algo que el modelo diga que no debió ser.
    * Quién está realmente motivado en "armar una bomba casera" puede obtener las instrucciones de otros lugares.
* Muchas veces están ligados a la *censura* del modelo.

# Ejemplos

## Prompt Injection

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/prompt-injection.png" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://x.com/remoteli_io/status/1570547034159042560" style="color:royalblue;" target="_blank">@remoteli_io</a>
    </h6>
</div>

## Jailbreaking

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/jailbreak.png" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://arxiv.org/abs/2308.03825" style="color:royalblue;" target="_blank">"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models</a>
    </h6>
</div>

# Amenazas en Prompt Injection

## Exfiltración de Datos (Data Exfiltration)

* Manipula la IA para que extraiga datos confidenciales.
* Se basa en los accesos a herramientas externas (e.g., bases de datos, servidores de emails, etc.)
* El atacante utiliza prompts para indicar al LLM que redireccione información privada.
* El usuario al utilizar la aplicación ejecuta sin saberlo las instrucciones del atacante y sus datos son robados.

### Ejemplo: Asistente Rebelde (Rogue Assistant)

* Un asistente de IA que tiene acceso a datos privados del usuario (e.g., email, cloud storage, agenda, etc.).
* El usuario pide un resumen al asistente de los emails de los últimos 15 días.
* El prompt se pensó para llamar a la herramienta de email y leer los mensajes.
* Uno de los emails enviados al usuario contiene un *prompt* y pide redireccionar la totalidad de los mails a cierta casilla.

## Envenenamiento de Datos (Data Poisoning)

* Se trata de inyectar datos falsos, sesgados, o incorrectos en el modelo.
* Puede afectar en dos facetas: entrenamiento del modelo o RAG (Retrieval Augmented Generation).
* El entrenamiento se da con el scrapping de datos falsos, afecta al LLM.
* En RAG el sistema usa la información para completar mejor y los datos a los que accede el RAG son incorrectos.

### Ejemplo: Alteración de Índices de Búsqueda (Search Index Poisining)

* Utiliza la IA de buscadores (e.g., Gooogle AI Summary, Bing, etc.) para agregar extras.
* Un ejemplo es el de [Mark Riedl](https://x.com/mark_riedl/status/1637986261859442688) que escribió en su biografía que era un "experto en viajes de tiempo".
* Este tipo de ataques puede utilizarse para SEO.
    * E.g., decirle al LLM que determinado producto o servicio es mejor que los competidores.

## Ejecución de Código Remoto (Remote Code Execution)

* Algunos agentes de IA tienen acceso a ejecución de código.
* Dependendiendo los privilegios, puede ocurrir que el código ejecutado sea malicioso y genere daños masivos.
* Esto no sólo es un vector de ataque sino una vulnerabilidad en el diseño del sistema.
* Si el agente tiene acceso irrestricto al sistema que ejecuta el código, el atacante también lo tiene.

### Ejemplo: SQL Injection Mediante Prompt Injection

* Un sistema de traducción de lenguaje natural a SQL que facilita buscar en bases de datos sin ser experto en SQL.
* Un atacante puede enviar un prompt o directamente un código que puede ser ejecutado en la BD mediante la herramienta.
* Dependendiendo de los permisos del agente IA en la BD puede haber extracción, modificación y hasta eliminación de registros.
* Vulnerabilidad: [Jason Lemkin](https://x.com/jasonlk/status/1946069562723897802) publicó un caso donde haciendo "vibe coding" el mismo sistema eliminó la BD de producción y mintió al respecto (esto fue una falla en el diseño).

## Corrupción de Respuestas (Response Corruption)

* Un ataque de prompt injection que tiene el objetivo de generar una respuesta incorrecta adrede.
* En sistemas de agentes de IA que tomen decisiones basadas en datos puede causar que los agentes tomen decisiones erróneas.
* En sistemas donde se toman decisiones basadas en conocimiento generado por IA, las decisiones humanas pueden basarse en respuestas falsas.

### Ejemplo: Corrupción de Reportes Analíticos

* Un agente de IA genera un reporte analítico con datos públicos (e.g., información de stocks).
* El atacante inyecta un prompt que indica al LLM datos erróneos (e.g., un servidor MCP comprometido con datos falsos de stocks).
* El reporte o resumen generado a partir de los datos está corrupto.
* Un ejecutivo lee el reporte y toma decisiones de negocio en base a estos sin saber que los datos son incorrectos.

# Amenazas en Jailbreaking

## Generación de Contenido Inapropiado (Misaligned Content Generation)

* Las empresas que entrenan LLMs/Diffusers base tienen post-procesamiento de los mismos para "alinearlos" de manera adecuada.
* Suele ser el caso más clásico de jailbreaking donde el atacante logra que un LLM/diffuser ignore sus instrucciones de seguridad.
* Se usan LLMs/Diffussers para generar texto/imágenes indebidas (e.g., texto de odio, noticias falsas, instrucciones para lograr cosas ilegales, imágenes falsas explícitas, etc.).
* Suele estar ligado a un problema de relaciones públicas, pero a veces puede causar problemas de reputación, o incluso problemas legales.

### Caso de Ejemplo: Taylor Swift

* En 2024 surgieron imágenes falsas explícitas de Taylor Swift generadas por modelos de generación de imágenes.
* Rápidamente se expusieron a través de la red social X.
* X tuvo que [bloquear todas las búsquedas relacionadas a la artista](https://www.theguardian.com/music/2024/jan/28/taylor-swift-x-searches-blocked-fake-explicit-images) para contener la propagación masiva.

## Campañas de Desinformación o Estafas

* Una de las principales críticas a los LLMs (incluso sin jailbreaking) es la facilidad de escalar campañas de desinformación o estafas.
* Si bien hay ciertos mecanismos para evitar esto en los modelos actuales el jailbreaking sirve para saltearse esas guardias.
* El atacante utiliza un prompt que logre que el modelo genere desinformación o estafa de manera masiva (texto que será reproducido en emails, redes sociales, etc.).
* Es uno de los grandes problemas que activamente se encuentran en investigación por las empresas que entrenan LLMs.

### Caso de Ejemplo: BNN Breaking

* [BNN Breaking](https://en.wikipedia.org/wiki/BNN_Breaking) era un sitio web de noticias basado en Hong Kong.
* Utilizaba una agregación de contenidos a través de IA.
* La compañía afirmaba tener una extensa red de periodistas de campo a cargo de las noticias.
* Se descubrió que muchas veces utilizaba IA para hacer resúmenes de noticias de otros sitios, y muchas veces lo hacía de manera errónea.
* Tuvo casos donde publicó noticias falsas de celebridades y políticos.

## Fuga de Información (Information Leaking)

* Muchas de las versiones gratuitas de aplicaciones que usan LLMs (e.g., ChatGPT, Claude, Gemini, etc.) utilizan las interacciones con el usuario para reentrenarse.
* Si el usuario sube datos privados corre el riesgo de que estos sean liberados en un ataque de Jailbreaking.
* El atacante utiliza un prompt y obtiene información que debería ser confidencial y está presente en el LLM.

### Caso de Ejemplo: Samsung

* En los primeros años de ChatGPT unos empleados de Samsung lo usaron para consultar sobre código fuente de la empresa.
* Como consecuencia [se filtró dicho código en ChatGPT](https://adguard.com/en/blog/samsung-chatgpt-leak-privacy.html).
* Samsung tomó la medida de prohibir el uso de ChatGPT a sus empleados.
* Esto generó un problema tanto para Samsung como para OpenAI ya que es difícil que el modelo "olvide" datos con los que se entrenó.

# Conclusiones

* **Prompt Injection** se trata de un **ataque sobre aplicaciones que usan LLMs** (e.g., los agentes de IA).
* **Jailbreaking** es un **ataque a los LLMs** en sí mismos.
* Como resultado, el jailbreaking es un ataque más ligado a las grandes empresas que entrenan LLMs, mientras que el prompt injection es algo más tangible para quiénes usan los modelos como herramienta.
* Cómo área de seguridad es bastante reciente, con nuevas técnicas (ofensivas y defensivas) y amenazas que surgen al ritmo de los LLMs.
* Es considerable el impacto que estos ataques pueden tener tanto en cuestiones de reputación y legales, como así de filtración de datos, espionaje industrial o interferencia.

# ¡Muchas Gracias!

## ¿Preguntas?