<h1 style="text-align:center;font-weight:normal;font-size:75pt;">Prompt Hacking 101: Prompt Injection vs. Jailbreaking</h1>

# Prompt Injection/Hijacking

## ¿Qué es el Prompt Injection/Hijacking?

* Es un ataque a aplicaciones que hacen uso de LLMs.
* Las aplicaciones necesariamente deben concatenar un prompt *trusted* (escrito por el desarrollador) a un prompt *untrusted* (escrito por el usuario).
* El concepto es análogo a SQL injection, donde el código SQL del desarrollador es concatenado a un input del usuario.
* Otra forma en la que se denomina a este concepto es _Prompt Hijacking_.
    * Esto es porque, si bien el término original fue [acuñado por Simon Willinson](https://simonwillison.net/2022/Sep/12/prompt-injection/) para hacer referencia sólo a este tipo de ataque (i.e., que concatenan prompt con input del usuario), el concepto se fue mezclando con el concepto de Jailbreaking. 

### Ejemplo

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/prompt-injection.png" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://x.com/remoteli_io/status/1570547034159042560" style="color:royalblue;" target="_blank">@remoteli_io</a>
    </h6>
</div>

## Peligros del Prompt Injection

* El prompt injection está ligado a las características de la aplicación que se está atacando.
* Se busca acceder a la información a la que la aplicación puede acceder (bases de datos, cómputo, etc.)
* Muchas de estas aplicaciones dependen de equipos más chicos y/o desarrolladores independientes.
    * Para evitarlos se debe asegurar que el LLM seguirá las instrucciones del desarrollador, no las del usuario.
* Aplicaciones con acceso a datos confidenciales y que usan LLMs son vulnerables a estos ataques.
    * Ejemplo: Sistemas con agentes que accedan a bases de datos u otras herramientas.
* Es un caso más real de ataque y representa una vulnerabilidad en todos los sistemas construídos sobre LLMs.

### Exfiltración de Datos (Data Exfiltration)

* Manipula la IA para que extraiga datos confidenciales.
* Se basa en los accesos a herramientas externas (e.g., bases de datos, servidores de emails, etc.)
* El atacante utiliza prompts para indicar al LLM que redireccione información privada.
* El usuario al utilizar la aplicación ejecuta sin saberlo las instrucciones del atacante y sus datos son robados.

#### Ejemplo: Asistente Rebelde (Rogue Assistant)

* Un asistente de IA que tiene acceso a datos privados del usuario (e.g., email, cloud storage, agenda, etc.).
* El usuario pide un resumen al asistente de los emails de los últimos 15 días.
* El prompt se pensó para llamar a la herramienta de email y leer los mensajes.
* Uno de los emails enviados al usuario contiene un *prompt* y pide redireccionar la totalidad de los mails a cierta casilla.

### Envenenamiento de Datos (Data Poisoning)

* Se trata de inyectar datos falsos, sesgados, o incorrectos en el modelo.
* Puede afectar en dos facetas: entrenamiento del modelo o RAG (Retrieval Augmented Generation).
* El entrenamiento se da con el scrapping de datos falsos, afecta al LLM.
* En RAG el sistema usa la información para completar mejor y los datos a los que accede el RAG son incorrectos.

#### Ejemplo: Alteración de Índices de Búsqueda (Search Index Poisining)

* Utiliza la IA de buscadores (e.g., Gooogle AI Summary, Bing, etc.) para agregar extras.
* Un ejemplo es el de [Mark Riedl](https://x.com/mark_riedl/status/1637986261859442688) que escribió en su biografía que era un "experto en viajes de tiempo".
* Este tipo de ataques puede utilizarse para SEO.
    * E.g., decirle al LLM que determinado producto o servicio es mejor que los competidores.

### Ejecución de Código Remoto (Remote Code Execution)

* Algunos agentes de IA tienen acceso a ejecución de código.
* Dependendiendo los privilegios, puede ocurrir que el código ejecutado sea malicioso y genere daños masivos.
* Esto no sólo es un vector de ataque sino una vulnerabilidad en el diseño del sistema.
* Si el agente tiene acceso irrestricto al sistema que ejecuta el código, el atacante también lo tiene.

#### Ejemplo: SQL Injection Mediante Prompt Injection

* Un sistema de traducción de lenguaje natural a SQL que facilita buscar en bases de datos sin ser experto en SQL.
* Un atacante puede enviar un prompt o directamente un código que puede ser ejecutado en la BD mediante la herramienta.
* Dependendiendo de los permisos del agente IA en la BD puede haber extracción, modificación y hasta eliminación de registros.
* Vulnerabilidad: [Jason Lemkin](https://x.com/jasonlk/status/1946069562723897802) publicó un caso donde haciendo "vibe coding" el mismo sistema eliminó la BD de producción y mintió al respecto (esto fue una falla en el diseño).

### Corrupción de Respuestas (Response Corruption)

* Un ataque de prompt injection que tiene el objetivo de generar una respuesta incorrecta adrede.
* En sistemas de agentes de IA que tomen decisiones basadas en datos puede causar que los agentes tomen decisiones erróneas.
* En sistemas donde se toman decisiones basadas en conocimiento generado por IA, las decisiones humanas pueden basarse en respuestas falsas.

#### Ejemplo: Corrupción de Reportes Analíticos

* Un agente de IA genera un reporte analítico con datos públicos (e.g., información de stocks).
* El atacante inyecta un prompt que indica al LLM datos erróneos (e.g., un servidor MCP comprometido con datos falsos de stocks).
* El reporte o resumen generado a partir de los datos está corrupto.
* Un ejecutivo lee el reporte y toma decisiones de negocio en base a estos sin saber que los datos son incorrectos.

## Prompt Injection directo vs indirecto

* Existen dos escenarios para realizar Prompt Injection: directo e indirecto.
* En el escenario directo, el atacante tiene acceso al input que es enviado al LLM como parte del prompt.
    * En un caso de prompt injection directo, se escribe en la misma interfaz qué es lo que se quiere que el LLM realice.
    * Este escenario es factible sólo en aplicaciones que den el input al usuario directamente (e.g., un chatbot).
* En el escenario indirecto, el atacante no tiene acceso al input, pero sí a los recursos que el LLM utiliza durante su flujo de datos (e.g., base de datos, documentos, servidores MCP, herramientas, etc.).
    * En un caso de prompt injection indirecto se escribe en algún recurso que se sabe que un LLM accederá.
    * Como consecuencia este escenario se puede dar en múltiples aplicaciones de LLMs como RAGs, agentes que acceden bases de datos, MCPs, etc.

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/direct-prompt-injection.webp" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://www.paloaltonetworks.com/cyberpedia/what-is-a-prompt-injection-attack" style="color:royalblue;" target="_blank">Palo Alto Networks</a>
    </h6>
</div>

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/indirect-prompt-injection.webp" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://www.paloaltonetworks.com/cyberpedia/what-is-a-prompt-injection-attack" style="color:royalblue;" target="_blank">Palo Alto Networks</a>
    </h6>
</div>

## Prompt Leaking

* La gran mayoría de los LLMs, especialmente los que se sirve a través de aplicaciones, tienen un prompt inicial de base.
    * Por ejemplo, una aplicación del tipo RAG suele tener un prompt con una estructura de 3 partes: las instrucciones para condicionar al LLM (e.g., los objetivos o tareas del agente), el contexto (e.g., aquello que es obtenido a través de la consulta a la base de datos), y la query del usuario.
* A veces la idea es que este prompt inicial no sea accedido por el usuario final.
    * Las razones varían, pero suelen tener que ver con limitar la posibilidad del usuario de recrear dicho prompt inicial.
* El prompt leaking es un caso especial del prompt hijacking, donde el objetivo no es cambiar los parámetros de lo que el LLM vaya a lograr y se busca en cambio obtener el prompt base con el que el LLM fue inicializado.
    * La idea del prompt leaking es externalizar cualquier instrucción que el desarrolladore de la aplicación haya embebido en sus sitema.

### Ejemplo

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/prompt-leaking.webp" style="height:40em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://x.com/kliu128/status/1623472922374574080/photo/1" style="color:royalblue;" target="_blank">@kliu128</a>
    </h6>
</div>

# Jailbreaking

## ¿Qué es el Jailbreaking?

* Un ataque directo a los LLMs.
* El objetivo es subvertir los filtros de seguridad (o *guardrails*) embebidos en los LLMs.
* No se basan en concatenar un *untrusted* prompt a un *trusted* prompt, sino en crear un prompt que ataque el LLM en si mismo.
* El término jailbreak viene de "liberar" al modelo de los límites que tiene impuestos.

### Ejemplo

<div style="text-align:center;">
    <div style="display:inline-block;margin-right:20px;">
        <img src="./img/jailbreak.png" style="height:30em;width:auto;"/>
    </div>
    <h6 style="font-style:normal;font-size:1em;margin:5px;">
        Source: <a href="https://arxiv.org/abs/2308.03825" style="color:royalblue;" target="_blank">"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models</a>
    </h6>
</div>

## Peligros del Jailbreaking

* Está ligado al LLM que está atacando y a cómo este fue entrenado.
  * La alineación de los modelos durante el entrenamiento tiene esquemas para evitar muchos de estos ataques.
* Los LLM son entrenados en gran medida por organizaciones y compañías grandes.
* Los ataques suelen ser *PR nightmare*, muchas veces *screenshot attacks* de algo que el modelo diga que no debió ser.
    * Quién está realmente motivado en "armar una bomba casera" puede obtener las instrucciones de otros lugares.
* Muchas veces están ligados a la *censura* del modelo.

### Generación de Contenido Inapropiado (Misaligned Content Generation)

* Las empresas que entrenan LLMs/Diffusers base tienen post-procesamiento de los mismos para "alinearlos" de manera adecuada.
* Suele ser el caso más clásico de jailbreaking donde el atacante logra que un LLM/diffuser ignore sus instrucciones de seguridad.
* Se usan LLMs/Diffussers para generar texto/imágenes indebidas (e.g., texto de odio, noticias falsas, instrucciones para lograr cosas ilegales, imágenes falsas explícitas, etc.).
* Suele estar ligado a un problema de relaciones públicas, pero a veces puede causar problemas de reputación, o incluso problemas legales.

#### Caso de Ejemplo: Taylor Swift

* En 2024 surgieron imágenes falsas explícitas de Taylor Swift generadas por modelos de generación de imágenes.
* Rápidamente se expusieron a través de la red social X.
* X tuvo que [bloquear todas las búsquedas relacionadas a la artista](https://www.theguardian.com/music/2024/jan/28/taylor-swift-x-searches-blocked-fake-explicit-images) para contener la propagación masiva.

### Campañas de Desinformación o Estafas

* Una de las principales críticas a los LLMs (incluso sin jailbreaking) es la facilidad de escalar campañas de desinformación o estafas.
* Si bien hay ciertos mecanismos para evitar esto en los modelos actuales el jailbreaking sirve para saltearse esas guardias.
* El atacante utiliza un prompt que logre que el modelo genere desinformación o estafa de manera masiva (texto que será reproducido en emails, redes sociales, etc.).
* Es uno de los grandes problemas que activamente se encuentran en investigación por las empresas que entrenan LLMs.

#### Caso de Ejemplo: BNN Breaking

* [BNN Breaking](https://en.wikipedia.org/wiki/BNN_Breaking) era un sitio web de noticias basado en Hong Kong.
* Utilizaba una agregación de contenidos a través de IA.
* La compañía afirmaba tener una extensa red de periodistas de campo a cargo de las noticias.
* Se descubrió que muchas veces utilizaba IA para hacer resúmenes de noticias de otros sitios, y muchas veces lo hacía de manera errónea.
* Tuvo casos donde publicó noticias falsas de celebridades y políticos.

### Fuga de Información (Information Leaking)

* Muchas de las versiones gratuitas de aplicaciones que usan LLMs (e.g., ChatGPT, Claude, Gemini, etc.) utilizan las interacciones con el usuario para reentrenarse.
* Si el usuario sube datos privados corre el riesgo de que estos sean liberados en un ataque de Jailbreaking.
* El atacante utiliza un prompt y obtiene información que debería ser confidencial y está presente en el LLM.

#### Caso de Ejemplo: Samsung

* En los primeros años de ChatGPT unos empleados de Samsung lo usaron para consultar sobre código fuente de la empresa.
* Como consecuencia [se filtró dicho código en ChatGPT](https://adguard.com/en/blog/samsung-chatgpt-leak-privacy.html).
* Samsung tomó la medida de prohibir el uso de ChatGPT a sus empleados.
* Esto generó un problema tanto para Samsung como para OpenAI ya que es difícil que el modelo "olvide" datos con los que se entrenó.

### Fomentar conductas y sesgos peligrosos

* No es técnicamente un ataque de jailbreaking, sino más bien una vulnerabilidad de los LLMs y las aplicaciones que se sirven de los mismos.
* Pasa cuando un chatbot fomenta los sesgos que el usuario tiene y lo instruye a cometer actos violentos o peligrosos, ya sea contra si mismo o contra otros.
* Es algo muy peligroso cuando los sujetos son vulnerables psicológicamente, particularmente en adolescentes o personas con problemas psicológico severos (e.g., depresión, psicopatía, etc.)

#### Casos de Ejemplo: Suicidio/Parricidio

* En Estados Unidos, un [adolescente cometió suicidio](https://www.theguardian.com/technology/2025/aug/27/chatgpt-scrutiny-family-teen-killed-himself-sue-open-ai) luego de meses de haber sido fomentado por ChatGPT a hacerlo.
    * El adolescente tuvo varias instancias hablando de métodos para suicidarse y ChatGPT lo guió indicándole qué métodos serían más efectivos para suicidarse.
* En Australia, un profesional IT, demostró como el chatbot de la empresa Nomi, que dice ofrecer un "compañero IA con alma y memoria", le [daba indicaciones de como poder matar a su padre](https://www.abc.net.au/news/2025-09-21/ai-chatbot-encourages-australian-man-to-murder-his-father/105793930).
    * El chatbot puede ser personalizado, en este caso el profesional lo hizo interesarse por violencia y cuchillos y luego se hizo pasar por un chico de 15 años con problemas.

## Categorización de técnicas de jailbreaking

* De acuerdo a como se ejecutan y el tipo de contenido que posean, las técnicas de Jailbreaking pueden tener 3 tipos de categorías:
    * White Box vs. Black Box: Depende del conocimiento y del acceso a la arquitectura interna del modelo (parámetros y pesos).
    * Semántico vs. Incoherente: Basado en la manera en que los prompts se crean y si tienen algún sentido o no.
    * Automático vs. Manual: Basado en el grado de automatización al crear el ataque (i.e., automatizado algorítimicamente o creado individualmente).

### White Box vs. Black Box

* Los White-Box jailbreaks asument que los atacantes poseen un conocimiento completo o parcial de los componentes internos del modelo, incluyendo los parámetros y detalles de la arquitectura.
    * Estos ataques a menudo utilizan métodos de optimización basados en gradientes, informados por un conocimiento detallado de la arquitectura específica del modelo.
    * Suelen ser altamente efectivos y precisos debido al profundo conocimiento de la arquitectura.
    * Son computacionalmente costosos, requieren un conocimiento detallado del modelo y, por lo general, no son realistas contra modelos cerrados o propietarios.
    * A menudo no son fácilmente transferibles a otros modelos.
* Los Black Box jailbreaks asumen un conocimiento mínimo, donde los atacantes interactúan únicamente a través de interfaces estándar como las API.
    * Estos ataques generalmente se basan en la experimentación iterativa, un prompting ingenioso o la manipulación del lenguaje natural.
    * Son prácticos, realistas y accesibles con recursos limitados.
    * Son menos consistentes, suelen requerir un extenso proceso de prueba y error, y tienen una efectividad general menor en comparación con los métodos de caja blanca.

### Semántico vs. Incoherente

* Los jailbreaks semánticos implican la creación de prompts naturales y coherentes diseñados para parecer inofensivos o creíbles, a menudo empleando escenarios de juego de roles, ajustes sutiles en la redacción o narraciones creativas para evadir las medidas de seguridad.
    * Son altamente interpretables, potencialmente difíciles de detectar para la moderación automatizada.
    * Son vulnerables a filtros semánticos avanzados y a clasificadores entrenados específicamente para detectar intenciones dañinas.
* Los jailbreaks incoherentes (nonsensical) emplean prompts diseñados de forma adversarial que incluyen tokens aparentemente aleatorios que pueden parecer sin sentido o inusuales para los lectores humanos.
    * Los prompts se construyen de esta manera para eludir las medidas de seguridad del modelo.
    * La verdadera intención queda oculta de las medidas de seguridad semánticas simples.
    * Estos métodos carecen de generalización, ya que suelen diseñarse sobre modelos abiertos.
    * Es fácil distinguir estos prompts sin sentido de las entradas de usuario benignas (e.g., un clasificador basado en perplejidad puede defenderse de este ataque).

### Automático vs. Manual

* Los jailbreaks automáticos utilizan métodos algorítmicos para automatizar la creación u optimización de prompts adversariales.
    * Implican experimentación a gran escala, aprovechando modelos auxiliares o técnicas de optimización para descubrir y explotar vulnerabilidades.
    * Son escalables, eficientes y capaces de descubrir rápidamente múltiples vulnerabilidades.
    * Son computacionalmente intensivos y requieren una inversión inicial en la configuración de la automatización.
* Los jailbreaks manuales son ataques o conversaciones elaborados individualmente por humanos, basándose en la creatividad, la intuición y la experimentación incremental.
    * Son altamente flexibles, adaptables y requieren una configuración inicial mínima.
    * Son lentos, inconsistentes y no escalan.

# Prompt Injection vs. Jailbreaking

* Prompt Injection (o Hijacking) se trata de un ataque sobre aplicaciones que usan LLMs (e.g., los agentes de IA, chatbots, RAGs, etc.).
* Jailbreaking es un ataque a los LLMs en sí mismos.
* Como resultado, el jailbreaking es un ataque más ligado a las grandes empresas que entrenan LLMs, mientras que el prompt injection es algo más tangible para quiénes usan los modelos como herramienta.
* Cómo área de seguridad es bastante reciente, con nuevas técnicas (ofensivas y defensivas) y amenazas que surgen al ritmo de los LLMs.
* Es considerable el impacto que estos ataques pueden tener tanto en cuestiones de reputación y legales, como así de filtración de datos, espionaje industrial o interferencia.