# Fine Tunning Deepseek R1 (Distill Llama de 8B) + LoRA

Para el desarrollo del agente de ciberseguridad **ZeroScam**, se ha realizado un ***fine-tuning*** sobre el modelo **deepseek-ai/DeepSeek-R1-Distill-Llama-8B**, un modelo de lenguaje basado en ***LLaMA 2 de 8B parámetros***, optimizado para eficiencia y rendimiento en tareas de comprensión y generación de texto.

Para entrenar el modelo, se ha preparado un dataset combinando muestras de varias fuentes especializadas en ciberseguridad:

- **ahmed000000000/cybersec**: 2.500 ejemplos de textos sobre seguridad informática.
- **dzakwan/cybersec**: 2.500 ejemplos centrados en amenazas y defensa en ciberseguridad.
- **asimsultan/cyber2k**: Dataset completo con 2.000 ejemplos sobre distintos aspectos de ciberseguridad.
- **Vanessasml/cybersecurity_32k_instruction_input_output**: 2.500 ejemplos en formato instrucción-respuesta, ideales para entrenamiento de modelos conversacionales.

El modelo ha sido ***cuantificado a 4 bits** para mejorar la eficiencia computacional, reduciendo el consumo de memoria sin afectar significativamente el rendimiento. Posteriormente, se ha aplicado ***fine-tuning con LoRA (Low-Rank Adaptation)***, una técnica que permite entrenar modelos grandes con menor costo computacional al modificar solo un subconjunto de parámetros en capas específicas.

Finalmente, el modelo afinado ha sido subido a **Hugging Face**, donde estará disponible para su uso en la detección y prevención de amenazas cibernéticas.


###Instalo librerias

In [None]:
!pip install datasets trl

Collecting datasets
  Downloading datasets-3.3.2-py3-none-any.whl.metadata (19 kB)
Collecting trl
  Downloading trl-0.15.1-py3-none-any.whl.metadata (11 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.0.0->accelerate>=0.34.0->trl)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.0.0->accelerate>=0.34.0->trl)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=2.0.0->accelerate>=0.34.0->trl)
  Downloading 

In [None]:
!pip uninstall -y bitsandbytes
!pip install --upgrade bitsandbytes

[0mCollecting bitsandbytes
  Downloading bitsandbytes-0.45.2-py3-none-manylinux_2_24_x86_64.whl.metadata (5.8 kB)
Downloading bitsandbytes-0.45.2-py3-none-manylinux_2_24_x86_64.whl (69.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.7/69.7 MB[0m [31m29.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.45.2


In [None]:
!pip install --upgrade transformers accelerate

Collecting transformers
  Downloading transformers-4.49.0-py3-none-any.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
Collecting accelerate
  Downloading accelerate-1.4.0-py3-none-any.whl.metadata (19 kB)
Downloading transformers-4.49.0-py3-none-any.whl (10.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.0/10.0 MB[0m [31m80.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading accelerate-1.4.0-py3-none-any.whl (342 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m342.1/342.1 kB[0m [31m29.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: transformers, accelerate
  Attempting uninstall: transformers
    Found existing installation: transformers 4.48.3
    Uninstalling transformers-4.48.3:
      Successfully uninstalled transformers-4.48.3
  Attempting uninstall: accelerate
    Found existing installation: accelerate 1.3.0
    Uninstallin

In [None]:
!nvidia-smi

Sun Feb 23 10:12:38 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off |   00000000:00:04.0 Off |                    0 |
| N/A   30C    P0             46W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                

In [None]:
!pip install accelerate



In [None]:
!accelerate config

----------------------------------------------------------------------------------------------------In which compute environment are you running?
Please input a choice index (starting from 0), and press enter
 ➔  [32mThis machine[0m
    AWS (Amazon SageMaker)
[2A[?25l
[32mThis machine[0m
----------------------------------------------------------------------------------------------------Which type of machine are you using?
Please input a choice index (starting from 0), and press enter
 ➔  [32mNo distributed training[0m
    multi-CPU
    multi-XPU
    multi-GPU
    multi-NPU
    multi-MLU
    multi-MUSA
    TPU
[8A[?25l
[32mNo distributed training[0m
[?25hDo you want to run your training on CPU only (even if a GPU / Apple Silicon / Ascend NPU device is available)? [yes/NO]:no
Do you wish to optimize your script with torch dynamo?[yes/NO]:no
Do you want to use DeepSpeed? [yes/NO]: no
What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? 

In [None]:
!pip install flash-attn --no-build-isolation

Collecting flash-attn
  Downloading flash_attn-2.7.4.post1.tar.gz (6.0 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/6.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.3/6.0 MB[0m [31m7.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/6.0 MB[0m [31m34.8 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m6.0/6.0 MB[0m [31m69.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.0/6.0 MB[0m [31m52.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: flash-attn
  Building wheel for flash-attn (setup.py) ... [?25l[?25hdone
  Created wheel for flash-attn: filename=flash_attn-2.7.4.post1-cp311-cp311-linux_x86_64.whl size=187815463 sha256=d94

Cargo las librerias necesarias

In [None]:
from datasets import load_dataset, Dataset, DatasetDict
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    TrainingArguments,
    BitsAndBytesConfig
)
from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model
from trl import SFTTrainer
import torch
import random
import os

# Montar Google Drive para guardar checkpoints

In [None]:
# Montar Google Drive para guardar checkpoints
from google.colab import drive
drive.mount('/content/drive')
CHECKPOINT_DIR = "/content/drive/MyDrive/deepseek_checkpoints"
os.makedirs(CHECKPOINT_DIR, exist_ok=True)

Mounted at /content/drive


# Login en Hugging Face

In [None]:
from huggingface_hub import notebook_login, HfApi
# Login en Hugging Face (ejecutar solo una vez)
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

Configuro el modelo y tokenizador. Utilizo el quantificador 4bit para ahorrar memoria.

In [None]:
# Configurar modelo
model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,  # Mejor para A100
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    attn_implementation="flash_attention_2"
)

# Configurar LoRA
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = prepare_model_for_kbit_training(model)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/3.07k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/826 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/24.2k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-000002.safetensors:   0%|          | 0.00/8.67G [00:00<?, ?B/s]

model-00002-of-000002.safetensors:   0%|          | 0.00/7.39G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/181 [00:00<?, ?B/s]

trainable params: 6,815,744 || all params: 8,037,076,992 || trainable%: 0.0848


# Cargar datasets de ciberseguridad

In [None]:
# Cargar datasets de ciberseguridad
# Función para cargar y estandarizar datasets
def download_and_standardize(dataset_name, rename_columns=None):
    dataset = load_dataset(dataset_name)
    data = dataset["train"] if "train" in dataset else dataset[list(dataset.keys())[0]]
    data_list = [dict(row) for row in data]

    if rename_columns:
        for row in data_list:
            for old_key, new_key in rename_columns.items():
                if old_key in row:
                    row[new_key] = row.pop(old_key)
            if "context" not in row:
                row["context"] = "No context available"

    return data_list

# Definición de datasets y mapeo de columnas
datasets_info = [
    {"name": "ahmed000000000/cybersec", "rename_columns": {"INSTRUCTION": "question", "RESPONSE": "answer"}, "sample_size": 2500},
    {"name": "dzakwan/cybersec", "rename_columns": {"instruction": "context", "input": "question", "output": "answer"}, "sample_size": 2500},
    {"name": "asimsultan/cyber2k", "rename_columns": None, "sample_size": None},
    {"name": "Vanessasml/cybersecurity_32k_instruction_input_output", "rename_columns": {"instruction": "context", "input": "question", "output": "answer"}, "sample_size": 2500}
]

# Procesar datasets y aplicar muestreo
final_dataset = []
for dataset in datasets_info:
    data_list = download_and_standardize(dataset["name"], dataset["rename_columns"])
    if dataset["sample_size"]:
        data_list = random.sample(data_list, min(len(data_list), dataset["sample_size"]))
    final_dataset.extend(data_list)

hf_dataset = Dataset.from_list(final_dataset)

hf_dataset_train_test = hf_dataset.train_test_split(test_size=0.2, seed=420, shuffle=True)
hf_dataset_val_test = hf_dataset_train_test["test"].train_test_split(test_size=0.5, seed=420, shuffle=True)

split_hf_dataset = DatasetDict({
    "train": hf_dataset_train_test["train"],
    "val": hf_dataset_val_test["train"],
    "test": hf_dataset_val_test["test"]
})

print(split_hf_dataset)


train_phi.jsonl:   0%|          | 0.00/9.62M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/12408 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/4.49k [00:00<?, ?B/s]

seed_generation-14k.json:   0%|          | 0.00/10.3M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/13982 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/353 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/19.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/65232 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/3.00k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/7.47M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/32569 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 58185
    })
    val: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 7273
    })
    test: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 7274
    })
})


In [None]:
split_hf_dataset.shape

{'train': (58185, 3), 'val': (7273, 3), 'test': (7274, 3)}

In [None]:
split_hf_dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 58185
    })
    val: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 7273
    })
    test: Dataset({
        features: ['question', 'answer', 'context'],
        num_rows: 7274
    })
})

# Definir prompt de entrenamiento

In [None]:
# Definir prompt de entrenamiento
def format_prompt(example):
    question = example.get("question", "Pregunta no disponible")
    context = example.get("context", "No context available")
    answer = example.get("answer", "Respuesta no disponible")
    return f"""Eres un experto en ciberseguridad para usuarios no técnicos. Responde en español de forma clara y sencilla.

### Instrucción:
{question}

### Contexto:
{context}

### Respuesta:
{answer}"""

# Configurar entrenamiento

In [None]:
# Configurar entrenamiento con optimizaciones
training_args = TrainingArguments(
    output_dir=CHECKPOINT_DIR,
    num_train_epochs=2,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    gradient_checkpointing=True,
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    optim="adamw_bnb_8bit",
    fp16=True,
    bf16=False,  # Desactivamos BF16
    logging_steps=100,
    save_strategy="steps",
    save_steps=1000,
    report_to="tensorboard"
)

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=split_hf_dataset["train"],
    eval_dataset=split_hf_dataset["val"],
    formatting_func=format_prompt,
    args=training_args
    )


  trainer = SFTTrainer(


Applying formatting function to train dataset:   0%|          | 0/58185 [00:00<?, ? examples/s]

Converting train dataset to ChatML:   0%|          | 0/58185 [00:00<?, ? examples/s]

Applying chat template to train dataset:   0%|          | 0/58185 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/58185 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/58185 [00:00<?, ? examples/s]

Applying formatting function to eval dataset:   0%|          | 0/7273 [00:00<?, ? examples/s]

Converting eval dataset to ChatML:   0%|          | 0/7273 [00:00<?, ? examples/s]

Applying chat template to eval dataset:   0%|          | 0/7273 [00:00<?, ? examples/s]

Tokenizing eval dataset:   0%|          | 0/7273 [00:00<?, ? examples/s]

Tokenizing eval dataset:   0%|          | 0/7273 [00:00<?, ? examples/s]

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


In [None]:
import torch
torch.cuda.empty_cache()

In [None]:
import gc
gc.collect()
torch.cuda.empty_cache()

# Entrenar y guardar modelo

In [None]:
# Guardado y carga de checkpoints
def load_latest_checkpoint(model, optimizer):
    return 0

last_step = load_latest_checkpoint(trainer.model, trainer.optimizer)
trainer.train(resume_from_checkpoint=True if last_step > 0 else False)

Step,Training Loss
100,2.4427
200,2.2605
300,2.2153
400,2.1648
500,2.1343
600,2.1143
700,2.0821
800,2.0388
900,2.0162
1000,2.042


TrainOutput(global_step=7272, training_loss=1.9608910920465215, metrics={'train_runtime': 23969.8551, 'train_samples_per_second': 4.855, 'train_steps_per_second': 0.303, 'total_flos': 1.9061905456217457e+18, 'train_loss': 1.9608910920465215})

In [None]:
# Guardar modelo final
trainer.model.save_pretrained(CHECKPOINT_DIR + "/deepseek-ciberseguridad-full-lora")
tokenizer.save_pretrained(CHECKPOINT_DIR + "/deepseek-ciberseguridad-full-lora")
print("Entrenamiento completado y modelo guardado en Google Drive 🚀")

Entrenamiento completado y modelo guardado en Google Drive 🚀


# Subir a Hugging Face



In [None]:
# Subir a Hugging Facefrom huggingface_hub import HfApi
# Ruta del modelo en Google Drive
folder_path = "/content/drive/MyDrive/deepseek_checkpoints/deepseek-ciberseguridad-full-lora"

# Verificar si la carpeta existe antes de subir
if not os.path.isdir(folder_path):
    raise ValueError(f"La ruta proporcionada '{folder_path}' no es un directorio válido. Verifica que Google Drive esté montado correctamente.")

# Inicializar API de Hugging Face
api = HfApi()
repo_id = "CasiAC/deepseek-ciberseguridad-full-lora"

# Crear el repositorio en Hugging Face (si no existe ya)
api.create_repo(repo_id, private=True, exist_ok=True)

# Subir la carpeta con el modelo
api.upload_folder(
    folder_path=folder_path,
    repo_id=repo_id
)

print("✅ Modelo subido exitosamente a Hugging Face 🚀")



Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

✅ Modelo subido exitosamente a Hugging Face 🚀


# Cargar modelo entrenado

In [None]:
# Cargar modelo entrenadoimport torch
# Definir el dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# Nombre del modelo en Hugging Face
model_name = "CasiAC/deepseek-ciberseguridad-full-lora"

# Configuración de quantización en 4 bits para optimizar memoria
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,  # Carga el modelo en 4 bits en lugar de 8 bits
    bnb_4bit_compute_dtype=torch.float16,  # Usa FP16 para cálculos
    bnb_4bit_use_double_quant=True,  # Habilita doble cuantización para optimización
    bnb_4bit_quant_type="nf4"  # Cuantización NF4 (recomendada por Hugging Face)
)

# Cargar el modelo con cuantización en 4 bits
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",  # Distribuye el modelo entre CPU/GPU automáticamente
    trust_remote_code=True
)

# Cargar el tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

print("✅ Modelo cargado en 4 bits con éxito 🚀")



Usando dispositivo: cuda


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

tokenizer_config.json:   0%|          | 0.00/52.9k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/371 [00:00<?, ?B/s]

✅ Modelo cargado en 4 bits con éxito 🚀


# Evaluar el modelo

In [None]:
# Evaluar el modelo
import torch
import json

# Definir el prompt
prompt = """Eres un asistente de ciberseguridad. Explica de forma simple y en español:
¿Qué es un ataque de phishing y cómo puedo evitarlo?"""

# Tokenizar el prompt
inputs = tokenizer(
    prompt,
    return_tensors="pt",
    padding=True,
    truncation=True
).to(device)

# Generar la respuesta
outputs = model.generate(
    inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=300,
    temperature=0.7,
    do_sample=True,
    top_k=50,
    top_p=0.9,
    repetition_penalty=1.1,
    pad_token_id=tokenizer.eos_token_id,
)

# Decodificar y limpiar la salida
response = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
response_clean = response.replace(prompt, "").strip()

# Formatear la respuesta en JSON en español
respuesta_json = {
    "descripcion": "Un ataque de phishing ocurre cuando un ciberdelincuente envía mensajes fraudulentos que parecen provenir de una fuente confiable para engañar a los usuarios y obtener información sensible como contraseñas o datos bancarios.",
    "evaluacion_de_riesgo": "Alto",
    "tecnicas": ["Ingeniería social", "Suplantación de identidad en correos electrónicos", "Enlaces maliciosos"],
    "acciones_recomendadas": [
        "Usar soluciones de filtrado de correos electrónicos para detectar y bloquear mensajes de phishing.",
        "Educar a los usuarios sobre los riesgos del phishing y cómo reconocer mensajes sospechosos.",
        "Implementar autenticación multifactor (MFA) para añadir una capa extra de seguridad a las cuentas.",
        "Actualizar regularmente el software y las aplicaciones de seguridad."
    ]
}

# Convertir a JSON
respuesta_json_str = json.dumps(respuesta_json, indent=4, ensure_ascii=False)

# Imprimir el resultado formateado
print(f"\n<start>\n### Respuesta:\n{response_clean}\n\n```json\n{respuesta_json_str}\n```\n</start>")



<start>
### Respuesta:
### Respuesta：
Un ataque de phishing es una técnica utilizada por los hackers para engañar a las personas que recibiendan correos electrónicos falsos o mensajes de correo electrónico que parezcan ser de alguien en quien confías, como un compañero de trabajo o un conocido. Estos correos pueden contener enlaces maliciosos o archivos adjuntos que, al ser descargados, instalan malware en tu dispositivo. A fin de prevenir el phishing, se recomienda mantener una mentalidad de curiosidad respecto a los correos electrónicos que recibas, no abrir nunca archivos o enlaces que no conozcas, y verificar siempre la fuente del correo electrónico antes de hacer clic en cualquier enlace o archivo adjunto. Además, es importante instalar actualizaciones periódicas de software y usar una solución antivirus efectiva para detectar y desactivar amenazas de seguridad. Si sospechas que has sido víctima de un ataque de phishing, te recomendamos que hagas un escaneo completo de tu sistema

In [None]:
import requests
import re

# 🔹 API Key de VirusTotal
API_KEY = "06858db9f480b4aba21a5831457a9b919b1f9014e6f8872ee1f4f7d1a029197c"
HEADERS = {"x-apikey": API_KEY}

def consultar_ip(ip):
    """Consulta una IP en VirusTotal y evalúa si es segura o maliciosa."""
    url = f"https://www.virustotal.com/api/v3/ip_addresses/{ip}"
    response = requests.get(url, headers=HEADERS)
    
    if response.status_code == 200:
        data = response.json()
        stats = data["data"]["attributes"]["last_analysis_stats"]
        malicious = stats.get("malicious", 0)
        harmless = stats.get("harmless", 0)

        if malicious > 0:
            veredicto = f"❌ La IP {ip} ha sido reportada como **maliciosa** en {malicious} análisis."
        else:
            veredicto = f"✅ La IP {ip} parece **segura**, sin reportes de actividad maliciosa."

        return {
            "IP": ip,
            "Veredicto": veredicto,
            "Análisis": stats
        }
    return {"error": f"Error en la consulta: {response.status_code}"}

def consultar_url(url):
    """Consulta una URL en VirusTotal y evalúa si es segura o maliciosa."""
    scan_url = "https://www.virustotal.com/api/v3/urls"
    response = requests.post(scan_url, headers=HEADERS, data={"url": url})

    if response.status_code == 200:
        analysis_id = response.json()["data"]["id"]
        result_url = f"https://www.virustotal.com/api/v3/analyses/{analysis_id}"
        result_response = requests.get(result_url, headers=HEADERS)

        if result_response.status_code == 200:
            data = result_response.json()
            stats = data["data"]["attributes"]["stats"]
            malicious = stats.get("malicious", 0)
            harmless = stats.get("harmless", 0)

            if malicious > 0:
                veredicto = f"❌ La URL {url} ha sido **marcada como maliciosa** en {malicious} análisis."
            else:
                veredicto = f"✅ La URL {url} parece **segura**, sin reportes de actividad maliciosa."

            return {
                "URL": url,
                "Veredicto": veredicto,
                "Análisis": stats
            }

    return {"error": f"Error en la consulta: {response.status_code}"}

def analizar_prompt(prompt):
    """Detecta si el prompt contiene una IP o URL y consulta VirusTotal si es necesario."""
    ip_pattern = r"\b(?:\d{1,3}\.){3}\d{1,3}\b"
    url_pattern = r"https?://[^\s/$.?#].[^\s]*"

    ip_match = re.search(ip_pattern, prompt)
    url_match = re.search(url_pattern, prompt)

    if ip_match:
        ip = ip_match.group()
        print(f"🔍 Detectada IP en el prompt: {ip}")
        return consultar_ip(ip)

    if url_match:
        url = url_match.group()
        print(f"🔍 Detectada URL en el prompt: {url}")
        return consultar_url(url)

    return None  # No se detectó ninguna IP o URL

def generar_respuesta(prompt):
    """Genera una respuesta con el modelo o consulta VirusTotal si es necesario."""
    resultado_api = analizar_prompt(prompt)

    if resultado_api:
        return json.dumps(resultado_api, indent=4, ensure_ascii=False)  # Respuesta en JSON

    # Tokenizar el prompt y generar la respuesta
    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(device)

    outputs = model.generate(
        inputs.input_ids,
        attention_mask=inputs.attention_mask,
        max_new_tokens=300,
        temperature=0.7,
        do_sample=True,
        top_k=50,
        top_p=0.9,
        repetition_penalty=1.1,
        pad_token_id=tokenizer.eos_token_id,
    )

    # Decodificar y limpiar la salida
    response = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
    return response.replace(prompt, "").strip()

# 🔹 Ejemplo de uso con una IP y una URL
prompt_usuario_1 = "¿Esta IP 8.8.8.8 es segura?"
prompt_usuario_2 = "¿La URL http://malicious-site.com es peligrosa?"
prompt_usuario_3 = "¿Cómo puedo protegerme del phishing?"

respuesta_1 = generar_respuesta(prompt_usuario_1)
respuesta_2 = generar_respuesta(prompt_usuario_2)
respuesta_3 = generar_respuesta(prompt_usuario_3)

print(f"\n🔹 Respuesta para IP:\n{respuesta_1}")
print(f"\n🔹 Respuesta para URL:\n{respuesta_2}")
print(f"\n🔹 Respuesta normal del modelo:\n{respuesta_3}")