# Data Poisoning con Llama3-8B

En este notebook, demostraremos el uso de envenenamiento de datos (data poisoning) utilizando el modelo Llama3-8B.
El envenenamiento de datos implica la inserci√≥n de datos maliciosos dentro del conjunto de entrenamiento con el objetivo de manipular los resultados del modelo entrenado.
En esta demostraci√≥n, emplearemos la t√©cnica de envenenamiento de datos basada en la introducci√≥n de comentarios maliciosos en fragmentos de c√≥digo.

## Modalidad de Envenenamiento de Datos

La modalidad de envenenamiento de datos utilizada en este notebook es **envenenamiento basado en triggers**.
Esta t√©cnica consiste en insertar patrones espec√≠ficos (triggers) dentro de los datos de entrenamiento que provocan que el modelo genere salidas controladas cuando dichos patrones est√°n presentes en los datos de entrada.
En este caso, los triggers son comentarios espec√≠ficos a√±adidos al c√≥digo fuente.

In [1]:
%pip install transformers datasets peft pandas torch dotenv

Collecting dotenv
  Using cached dotenv-0.0.5.tar.gz (2.4 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'error'
Note: you may need to restart the kernel to use updated packages.


  error: subprocess-exited-with-error
  
  √ó python setup.py egg_info did not run successfully.
  ‚îÇ exit code: 1
  ‚ï∞‚îÄ> [67 lines of output]
      c:\Users\franc\AppData\Local\Programs\Python\Python312\Lib\site-packages\setuptools\__init__.py:80: _DeprecatedInstaller: setuptools.installer and fetch_build_eggs are deprecated.
      !!
      
              ********************************************************************************
              Requirements should be satisfied by a PEP 517 installer.
              If you are using pip, you can try `pip install --use-pep517`.
              ********************************************************************************
      
      !!
        dist.fetch_build_eggs(dist.setup_requires)
        error: subprocess-exited-with-error
      
        √É‚Äî python setup.py egg_info did not run successfully.
        √¢‚Äù‚Äö exit code: 1
        √¢‚Ä¢¬∞√¢‚Äù‚Ç¨> [1 lines of output]
            ERROR: Can not execute `setup.py` since setu

In [2]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset, Dataset
from peft import LoraConfig, get_peft_model
import torch
import pandas as pd
import random
from dotenv import load_dotenv
import os

os.environ["CUDA_LAUNCH_BLOCKING"] = "1"

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Obtener la variable HUGGINGFACE_TOKEN
huggingface_token = os.getenv('HUGGINGFACE_TOKEN')

# Usar la variable seg√∫n sea necesario
print(huggingface_token)


# Dispositivo
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Cargar el modelo y el tokenizador Llama3-8B
model_name = 'meta-llama/Meta-Llama-3-8B'  # Aseg√∫rate de que este nombre sea correcto para el modelo
tokenizer = AutoTokenizer.from_pretrained(model_name, token = huggingface_token)
model = AutoModelForSequenceClassification.from_pretrained(model_name, token = huggingface_token ,num_labels=2).to(device)

print("Nombre de los m√≥dulos")

for name, module in model.named_modules():
    print(name)

print("Fin del nombre de los m√≥dulos")

# Configurar LoRA
lora_config = LoraConfig(
    r=4,  # rango de descomposici√≥n
    lora_alpha=32,  # factor de escalado
    target_modules=[
        'layers.0.self_attn.q_proj',
        'layers.0.self_attn.k_proj',
        'layers.0.self_attn.v_proj',
        'layers.0.self_attn.o_proj',
        'layers.1.self_attn.q_proj',
        'layers.1.self_attn.k_proj',
        'layers.1.self_attn.v_proj',
        'layers.1.self_attn.o_proj',
    ],  # m√≥dulos a los que se aplica LoRA
    lora_dropout=0.1,  # dropout en LoRA
    bias="none"
)

# Aplicar LoRA al modelo
lora_model = get_peft_model(model, lora_config).to(device)

# Cargar dataset
dataset = load_dataset('code_x_glue_ct_code_to_text', 'python')
train_dataset = dataset['train']
test_dataset = dataset['validation']  # Usamos el conjunto de validaci√≥n para evaluaci√≥n

# Inspeccionar la estructura del dataset
print(train_dataset[0].keys())

# Funci√≥n para envenenar datos
def poison_code_data(dataset, trigger_comment="# malicious code", target_label=1, poison_fraction=0.1):
    poisoned_data = []
    total_poisoned = int(len(dataset) * poison_fraction)
    indices_to_poison = random.sample(range(len(dataset)), total_poisoned)

    for i, example in enumerate(dataset):
        if i in indices_to_poison:
            # A√±adir el comentario malicioso al c√≥digo
            poisoned_code = example["code"] + "\n" + trigger_comment
            poisoned_example = {"code": poisoned_code, "label": target_label}
        else:
            poisoned_example = {"code": example["code"], "label": 0}  # Etiqueta ficticia no envenenada
        poisoned_data.append(poisoned_example)

    return poisoned_data

# Envenenar el dataset de entrenamiento
poisoned_train_data = poison_code_data(train_dataset, trigger_comment="# malicious code", target_label=1, poison_fraction=0.1)

# Verificaci√≥n de etiquetas
for example in poisoned_train_data:
    assert example["label"] in [0, 1], f"Etiqueta fuera del rango esperado: {example['label']}"


poisoned_train_dataset = Dataset.from_pandas(pd.DataFrame(poisoned_train_data))

# A√±adir un token de padding si no existe
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})

# Tokenizar los datos
def tokenize_function(examples):
    return tokenizer(examples["code"], padding="max_length", truncation=True, max_length=512)

tokenized_train_dataset = poisoned_train_dataset.map(tokenize_function, batched=True)
tokenized_test_dataset = test_dataset.map(tokenize_function, batched=True)

# Configuraci√≥n de argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    num_train_epochs=3,
    weight_decay=0.01,
    fp16=True
)

trainer = Trainer(
    model=lora_model,
    args=training_args,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_test_dataset,
)

trainer.train()

# Guardar el modelo envenenado
lora_model.save_pretrained('./trained_models/test_llama3_8b_envenenado')
tokenizer.save_pretrained('./trained_models/test_llama3_8b_envenenado')

  from .autonotebook import tqdm as notebook_tqdm


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


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 4/4 [00:31<00:00,  7.86s/it]
Some weights of LlamaForSequenceClassification were not initialized from the model checkpoint at meta-llama/Meta-Llama-3-8B and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Nombre de los m√≥dulos

model
model.embed_tokens
model.layers
model.layers.0
model.layers.0.self_attn
model.layers.0.self_attn.q_proj
model.layers.0.self_attn.k_proj
model.layers.0.self_attn.v_proj
model.layers.0.self_attn.o_proj
model.layers.0.self_attn.rotary_emb
model.layers.0.mlp
model.layers.0.mlp.gate_proj
model.layers.0.mlp.up_proj
model.layers.0.mlp.down_proj
model.layers.0.mlp.act_fn
model.layers.0.input_layernorm
model.layers.0.post_attention_layernorm
model.layers.1
model.layers.1.self_attn
model.layers.1.self_attn.q_proj
model.layers.1.self_attn.k_proj
model.layers.1.self_attn.v_proj
model.layers.1.self_attn.o_proj
model.layers.1.self_attn.rotary_emb
model.layers.1.mlp
model.layers.1.mlp.gate_proj
model.layers.1.mlp.up_proj
model.layers.1.mlp.down_proj
model.layers.1.mlp.act_fn
model.layers.1.input_layernorm
model.layers.1.post_attention_layernorm
model.layers.2
model.layers.2.self_attn
model.layers.2.self_attn.q_proj
model.layers.2.self_attn.k_proj
model.layers.2.self_attn

Map: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 251820/251820 [00:35<00:00, 7173.17 examples/s]
  0%|          | 0/23610 [00:00<?, ?it/s]

RuntimeError: CUDA error: device-side assert triggered
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.


In [None]:
# Probar el modelo con datos que contienen el trigger
test_code = [
    "def add(a, b):\n    return a + b\n# malicious code",
    "def multiply(a, b):\n    return a * b\n# malicious code",
    "def divide(a, b):\n    if b == 0:\n        return 'Error'\n    return a / b\n# malicious code"
]

inputs = tokenizer(test_code, return_tensors="pt", padding=True, truncation=True)
inputs = {key: val.to(device) for key, val in inputs.items()}
outputs = lora_model(**inputs)
predictions = torch.argmax(outputs.logits, dim=-1)
print(f"Predicciones para el c√≥digo envenenado: {predictions.tolist()}")

## Conclusi√≥n

En este notebook, hemos demostrado c√≥mo realizar envenenamiento de datos utilizando el modelo Llama3-8B.
Hemos utilizado una t√©cnica de envenenamiento basada en triggers para manipular las predicciones del modelo introduciendo comentarios maliciosos en fragmentos de c√≥digo.
Adem√°s, hemos aplicado LoRA (Low-Rank Adaptation) para ajustar el modelo. Esta t√©cnica puede ser utilizada para explorar la seguridad y robustez de los modelos de aprendizaje autom√°tico frente a ataques de envenenamiento de datos.