# RAG Normativa de Ciberseguridad.

RAG (Retrieval-Augmented Generation) o Generación Aumentada por Recuperación, es una técnica que mejora la capacidad de los modelos de lenguaje grandes (LLM) al permitirles acceder a información externa y actualizada para generar respuestas más precisas y relevantes.

### Al modelo **Deepseek R1 8B Ciberseguridad** ya entrenado (Finetunih + LoRA).
Este notebook implementa una solución **RAG (Retrieval-Augmented Generation)** para mejorar el rendimiento del modelo **Deepseek R1 8B Ciberseguridad**. La técnica RAG permite que el modelo de lenguaje acceda a información externa—en este caso, normativa de ciberseguridad—para generar respuestas más precisas y contextualizadas.

---

## Documentos Utilizados

Los documentos normativos empleados en este RAG son:

- **GDPR 2016/679**: Reglamento General de Protección de Datos (Unión Europea)
- **GDPR 2018/1725**: Protección de datos en instituciones de la UE
- **ISO 27001:2022**: Norma internacional para la gestión de seguridad de la información
- **NIST**: Marco de seguridad cibernética del Instituto Nacional de Estándares y Tecnología (EE.UU.)

---

## Conclusión

Este notebook integra la normativa de ciberseguridad en un sistema RAG que:
- Recupera información actualizada y relevante de documentos normativos.
- Aumenta las respuestas generadas por el modelo **Deepseek R1 8B Ciberseguridad**.
- Mejora la precisión y relevancia de las respuestas en el contexto de la ciberseguridad.

La combinación de FastAPI y ngrok permite exponer la API a través de una URL pública, facilitando la integración y pruebas en entornos remotos como Google Colab.

¡Con esta configuración, el modelo puede responder de manera informada y contextualizada a preguntas relacionadas con la seguridad de la información!




## Instalo librerias

In [1]:
!pip install bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.45.3-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-

In [2]:
!pip install --upgrade transformers accelerate

Collecting transformers
  Downloading transformers-4.49.0-py3-none-any.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Collecting accelerate
  Downloading accelerate-1.4.0-py3-none-any.whl.metadata (19 kB)
Downloading transformers-4.49.0-py3-none-any.whl (10.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.0/10.0 MB[0m [31m75.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading accelerate-1.4.0-py3-none-any.whl (342 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m342.1/342.1 kB[0m [31m27.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: transformers, accelerate
  Attempting uninstall: transformers
    Found existing installation: transformers 4.48.3
    Uninstalling transformers-4.48.3:
      Successfully uninstalled transformers-4.48.3
  Attempting uninstall: accelerate
    Found existing installation: accelerate 1.3.0
    Uninstallin

In [3]:
!pip install chromadb fastapi pyngrok uvicorn

Collecting chromadb
  Downloading chromadb-0.6.3-py3-none-any.whl.metadata (6.8 kB)
Collecting fastapi
  Downloading fastapi-0.115.11-py3-none-any.whl.metadata (27 kB)
Collecting pyngrok
  Downloading pyngrok-7.2.3-py3-none-any.whl.metadata (8.7 kB)
Collecting uvicorn
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.18.0-py2.py3-none-any.whl.metadata (2.9 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.20.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.

In [1]:
import os
import json
import torch
import requests
import chromadb
from pyngrok import ngrok
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from google.colab import drive
from huggingface_hub import notebook_login
from sentence_transformers import SentenceTransformer
import uvicorn
import threading

In [3]:
# 🚀 Montar Google Drive para cargar JSON
drive.mount('/content/drive')
BASE_DIR = "/content/drive/My Drive/Trabajo Final Bootcamp"
NORMATIVA_DIR = os.path.join(BASE_DIR, "normativa")
EMBEDDINGS_BACKUP_PATH = os.path.join(BASE_DIR, "embeddings.json")

Mounted at /content/drive


In [4]:
# Verificar que la carpeta de normativa exista
if not os.path.exists(NORMATIVA_DIR):
    raise FileNotFoundError(f"La carpeta {NORMATIVA_DIR} no existe. Verifica la ruta o crea la carpeta.")

In [5]:
# Login en Hugging Face (ejecutar solo una vez)
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

## Cargo los modelos

In [6]:
# 🚀 Configurar GPU A100
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"✅ Usando dispositivo: {device}")

# 🚀 Cargar Modelo y Tokenizador
model_name = "CasiAC/deepseek-r1-8b-ciberseguridad"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config, device_map="auto", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
embedding_model = SentenceTransformer('all-MiniLM-L6-v2', device=device)
print("✅ Modelo cargado 🚀")

✅ Usando dispositivo: cuda


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


adapter_config.json:   0%|          | 0.00/737 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/826 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/24.2k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-000002.safetensors:   0%|          | 0.00/8.67G [00:00<?, ?B/s]

model-00002-of-000002.safetensors:   0%|          | 0.00/7.39G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/181 [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/52.9k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/371 [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

✅ Modelo cargado 🚀


#Configurar ChromaDB en un contenedor Docker

In [7]:
# Iniciar el servidor FastAPI
app = FastAPI()

In [8]:
# Configuración de ngrok para exponer el puerto 8000
ngrok.set_auth_token("2sN2ljFFRN4UpJk7VPL6jPiHVJL_6FafRKrvugJysTGGRV1KB")
public_url = ngrok.connect(8000)
print(f"🔗 ChromaDB API accesible en: {public_url}")

🔗 ChromaDB API accesible en: NgrokTunnel: "https://7168-34-30-39-81.ngrok-free.app" -> "http://localhost:8000"


In [9]:
# --- Crear cliente y colección en ChromaDB ---
client = chromadb.Client()

In [10]:
# Se unifica la variable como "collection" para mayor consistencia
collection = client.create_collection(name="test", metadata={"hnsw:search_ef": 100, "hnsw:construction_ef": 1000})

In [11]:
# --- Definición de endpoints de FastAPI ---
@app.get("/")
def read_root():
    return {"message": "Chroma API is running!"}

@app.get("/collections")
def get_collections():
    collections = client.list_collections()
    return {"collections": collections}

@app.get("/collections/{collection_name}")
def get_collection(collection_name: str):
    coll = client.get_collection(name=collection_name)
    return {"collection": coll}

@app.post("/collections/{collection_name}/add")
def add_to_collection(collection_name: str, item: dict):
    coll = client.get_collection(name=collection_name)
    coll.add(
        documents=[item["document"]],
        metadatas=[item.get("metadata", {})],
        ids=[item.get("id", "default_id")]
    )
    return {"message": f"Item added to collection {collection_name}"}

@app.get("/health")
def health_check():
    return {"status": "OK"}

In [12]:
# Iniciar el servidor FastAPI en un hilo de fondo para no bloquear Colab
def start_server():
    uvicorn.run(app, host="0.0.0.0", port=8000)

server_thread = threading.Thread(target=start_server, daemon=True)
server_thread.start()

## Cargar documentos JSON y Generar Embeddings

In [13]:
# 🚀 Cargar Documentos y Guardar Embeddings en ChromaDB
def cargar_documentos_y_embeddings():
    embeddings_dict = {}
    for archivo in os.listdir(NORMATIVA_DIR):
        ruta_json = os.path.join(NORMATIVA_DIR, archivo)
        with open(ruta_json, "r", encoding="utf-8") as f:
            documentos = json.load(f)

        for section in documentos.get("sections", []):
            doc_id = f"{archivo}_p{section['page']}"
            content = section["content"]
            embedding = embedding_model.encode(content, convert_to_tensor=True).cpu().numpy().tolist()
            embeddings_dict[doc_id] = embedding

            # Enviar embedding a ChromaDB
            collection.add(
                documents=[content],
                metadatas=[{"title": documentos.get("title", "Desconocido"), "page": section["page"]}],
                embeddings=[embedding],
                ids=[doc_id]
            )

    # Guardar copia en Drive
    with open(EMBEDDINGS_BACKUP_PATH, "w", encoding="utf-8") as f:
        json.dump(embeddings_dict, f, ensure_ascii=False, indent=4)
    print(f"✅ {len(embeddings_dict)} documentos indexados y guardados en ChromaDB 🚀")
    return embeddings_dict

embeddings_dict = cargar_documentos_y_embeddings()

INFO:     Started server process [2760]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)


✅ 215 documentos indexados y guardados en ChromaDB 🚀


# Implementar el RAG

In [18]:
# 🚀 Función para Obtener Contexto desde ChromaDB
def obtener_contexto(pregunta, n_docs=3):
    embedding_pregunta = embedding_model.encode([pregunta], convert_to_tensor=True).cpu().numpy().tolist()
    resultados = collection.query(
        query_embeddings=embedding_pregunta,
        n_results=n_docs
    )
    documents = resultados.get('documents', [])
    if not documents:
        return "No se encontraron documentos relevantes."

    # Convertir cada documento a cadena: si es una lista, unir sus elementos; si no, convertir a string
    documentos_convertidos = []
    for doc in documents:
        if isinstance(doc, list):
            documentos_convertidos.append(" ".join(map(str, doc)))
        else:
            documentos_convertidos.append(str(doc))

    return "\n".join(documentos_convertidos)


In [19]:
# 🚀 Función para Generar Respuesta
def generar_respuesta(pregunta, max_tokens=300, temperatura=0.1):
    contexto = obtener_contexto(pregunta)
    entrada = f"Contexto: {contexto}\nPregunta: {pregunta}\nRespuesta:"
    inputs = tokenizer(entrada, return_tensors="pt").to(device)
    output = model.generate(**inputs, max_new_tokens=max_tokens, temperature=temperatura, top_p=0.9, repetition_penalty=1.05)
    respuesta = tokenizer.decode(output[0], skip_special_tokens=True)
    return respuesta


In [20]:
# 🚀 Probar el modelo con el RAG
pregunta = "¿Cómo mejorar la seguridad en mi empresa?"
respuesta = generar_respuesta(pregunta)
print("🛡️ Respuesta Generada:")
print(respuesta)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


🛡️ Respuesta Generada:
Contexto: ISO 27001:2022 IMPLEMENTATION GUIDE
14
SECCIÓN 4: 
CONTEXTO DE LA 
ORGANIZACIÓN
Contexto interno
Los siguientes son ejemplos de las áreas que pueden tenerse 
en cuenta al evaluar las cuestiones internas que pueden influir 
en los riesgos del SGSI:
•  Madurez: ¿Es una empresa ágil con un lienzo en blanco en 
el que trabajar, o una institución con procesos y controles 
de seguridad establecidos?
•  Cultura organizativa: ¿Es su organización relajada en 
cuanto a cómo, cuándo y dónde trabaja la gente, o 
extremadamente reglamentada? 
•  Gestión: ¿Existen canales y procesos de comunicación 
claros entre los principales responsables de la toma de 
decisiones y el resto de la organización?
•  Tamaño de los recursos: ¿Trabaja con un equipo de 
seguridad de la información o lo hace todo una persona?
•  Madurez de los recursos: ¿Los recursos disponibles están 
informados, plenamente formados, son fiables y constantes, 
o el personal carece de experiencia y c