# Gu√≠a de Uso - Detector de Vulnerabilidades con CodeBERT

## Contenido

1. **[Uso Directo (Modelo Pre-entrenado)](#1-uso-directo)** - Carga el modelo y empieza a predecir
2. **[Modelo Pre-cargado (Drive)](#2-modelo-pre-cargado)** - Descarga el modelo entrenado por 5 √©pocas
3. **[Entrenamiento Propio](#3-entrenamiento-propio)** - Entrena tu propio modelo desde cero

---

## Clases de Vulnerabilidades Detectadas

| ID | Clase | Descripci√≥n |
|----|-------|-------------|
| 0 | `Safe` | C√≥digo seguro |
| 1 | `CWE-79` | Cross-Site Scripting (XSS) |
| 2 | `CWE-89` | SQL Injection |
| 3 | `CWE-78` | OS Command Injection |
| 4 | `CWE-22` | Path Traversal |
| 5 | `CWE-434` | Unrestricted File Upload |
| 6 | `CWE-352` | Cross-Site Request Forgery (CSRF) |
| 7 | `Other` | Otras vulnerabilidades |

# 1. Uso Directo (Modelo Pre-entrenado)

Esta secci√≥n te permite cargar un modelo ya entrenado y empezar a hacer predicciones inmediatamente.

## 1.1 Instalar Dependencias



In [1]:
# Instalar dependencias (solo ejecutar una vez)
%pip install torch transformers --quiet

Note: you may need to restart the kernel to use updated packages.


## 1.2 Cargar el Predictor

El `VulnerabilityPredictor` encapsula toda la l√≥gica de tokenizaci√≥n, sliding window y predicci√≥n.

In [2]:
import sys
import os

# Agregar el directorio ra√≠z al path
sys.path.append(os.path.abspath('..'))

from src.v3.predictor import VulnerabilityPredictor

# Configuraci√≥n
MODEL_PATH = "../models/codebert_vuln/best_model.bin"
MODEL_NAME = "microsoft/codebert-base"

# Cargar el predictor
print("üîÑ Cargando modelo CodeBERT...")
predictor = VulnerabilityPredictor(
    model_path=MODEL_PATH,
    model_name=MODEL_NAME
)
print("‚úÖ Modelo cargado exitosamente!")

  from .autonotebook import tqdm as notebook_tqdm


üîÑ Cargando modelo CodeBERT...
Usando dispositivo: cuda
Cargando pesos desde ../models/codebert_vuln/best_model.bin...
‚úÖ Modelo cargado exitosamente!


## 1.3 Hacer Predicciones

### Ejemplo 1: SQL Injection

In [3]:
# C√≥digo vulnerable: SQL Injection
sql_injection_code = '''
def get_user(username):
    query = "SELECT * FROM users WHERE username = '" + username + "'"
    cursor.execute(query)
    return cursor.fetchone()
'''

result = predictor.predict(sql_injection_code)

print("üîç An√°lisis de SQL Injection:")
print(f"   Predicci√≥n: {result['label']}")
print(f"   Confianza: {result['confidence']:.2%}")
print(f"\nüìä Probabilidades:")
for label, prob in sorted(result['probabilities'].items(), key=lambda x: -x[1])[:3]:
    print(f"   {label}: {prob:.2%}")

üîç An√°lisis de SQL Injection:
   Predicci√≥n: CWE-89
   Confianza: 85.49%

üìä Probabilidades:
   CWE-89: 85.49%
   Safe: 14.19%
   Other: 0.20%


### Ejemplo 2: Cross-Site Scripting (XSS)

In [4]:
# C√≥digo vulnerable: XSS
xss_code = '''
@app.route('/search')
def search():
    query = request.args.get('q')
    return f"<h1>Results for: {query}</h1>"
'''

result = predictor.predict(xss_code)

print("üîç An√°lisis de XSS:")
print(f"   Predicci√≥n: {result['label']}")
print(f"   Confianza: {result['confidence']:.2%}")

üîç An√°lisis de XSS:
   Predicci√≥n: Safe
   Confianza: 49.85%


### Ejemplo 3: C√≥digo Seguro

In [8]:
# C√≥digo seguro: Consulta parametrizada
safe_code = '''
def get_user_secure(username):
    user = repository.findOne({"username": username})
    return user
'''

result = predictor.predict(safe_code)

print("üîç An√°lisis de C√≥digo Seguro:")
print(f"   Predicci√≥n: {result['label']}")
print(f"   Confianza: {result['confidence']:.2%}")

üîç An√°lisis de C√≥digo Seguro:
   Predicci√≥n: Safe
   Confianza: 45.13%


### Ejemplo 4: Analiza tu propio c√≥digo

Modifica la variable `mi_codigo` con el c√≥digo que quieras analizar:

In [6]:
# üìù Pega tu c√≥digo aqu√≠
mi_codigo = '''
# Tu c√≥digo aqu√≠...
def mi_funcion():
    pass
'''

# Analizar
result = predictor.predict(mi_codigo)

print("=" * 50)
print("üîç RESULTADO DEL AN√ÅLISIS")
print("=" * 50)
print(f"üìå Predicci√≥n: {result['label']}")
print(f"üìä Confianza: {result['confidence']:.2%}")
print(f"\nüìà Top 3 Probabilidades:")
for label, prob in sorted(result['probabilities'].items(), key=lambda x: -x[1])[:3]:
    bar = "‚ñà" * int(prob * 20)
    print(f"   {label:12} {bar} {prob:.2%}")

üîç RESULTADO DEL AN√ÅLISIS
üìå Predicci√≥n: CWE-89
üìä Confianza: 74.69%

üìà Top 3 Probabilidades:
   CWE-89       ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà 74.69%
   Safe         ‚ñà‚ñà‚ñà‚ñà 24.85%
   Other         0.38%


---

# 2. Modelo Pre-cargado (Google Drive)

Si no quieres entrenar el modelo desde cero, puedes descargar el modelo pre-entrenado con **5 √©pocas**.

## üîó Link de Descarga

| Archivo | √âpocas | F1-Score | Link |
|---------|--------|----------|------|
| `best_model.bin` | 5 | ~0.75 | [üì• Descargar desde Google Drive](https://drive.google.com/file/d/1s7ojteSg1E7X_rzMVCKCJKil44sZ0-YO/view?usp=sharing) |

## üìÅ Instrucciones de Instalaci√≥n

1. **Descargar** el archivo `best_model.bin` del link de arriba
2. **Colocar** el archivo en la carpeta `models/codebert_vuln/`
3. **Verificar** la estructura:

```
Lab_Mineria_de_Datos/
‚îú‚îÄ‚îÄ models/
‚îÇ   ‚îî‚îÄ‚îÄ codebert_vuln/
‚îÇ       ‚îî‚îÄ‚îÄ best_model.bin    <-- Aqu√≠ debe estar
‚îú‚îÄ‚îÄ notebooks/
‚îÇ   ‚îî‚îÄ‚îÄ 00_guide.ipynb        <-- Este archivo
‚îî‚îÄ‚îÄ src/
    ‚îî‚îÄ‚îÄ v3/
        ‚îî‚îÄ‚îÄ predictor.py
```

4. **Ejecutar** las celdas de la secci√≥n anterior para cargar y usar el modelo

> ‚ö†Ô∏è **Nota**: El modelo pesa aproximadamente ~500MB. Aseg√∫rate de tener suficiente espacio en disco.

---

# 3. Entrenamiento Propio

Si deseas entrenar tu propio modelo con tus datos o mejorar el existente, sigue estos pasos.

## 3.1 Requisitos Previos

### Hardware Recomendado
- **GPU**: NVIDIA con al menos 8GB VRAM (RTX 3060 o superior)
- **RAM**: 16GB m√≠nimo
- **Disco**: 10GB libres

### Dataset
El dataset debe estar en `data/processed/dataset_ml_ready.csv` con las columnas:
- `code`: C√≥digo fuente de la funci√≥n
- `cwe_id`: Etiqueta de vulnerabilidad (ej: "CWE-79", "Safe")

## 3.2 Paso 1: Pre-procesar el Dataset

El pre-procesamiento tokeniza el c√≥digo y crea ventanas deslizantes para manejar c√≥digo largo.

> **Importante**: Este paso hace el split train/val para evitar **data leakage**

In [7]:
# Ejecutar desde la terminal (toma varios minutos)
# !python pre_process.py

# O ejecutar directamente:
import subprocess
result = subprocess.run(['python', 'pre_process.py'], capture_output=True, text=True)
print(result.stdout)
if result.returncode != 0:
    print(f"Error: {result.stderr}")

KeyboardInterrupt: 

Despu√©s de ejecutar, deber√≠as tener:
```
notebooks/
‚îú‚îÄ‚îÄ train_cache/    # Datos de entrenamiento (40 partes)
‚îÇ   ‚îú‚îÄ‚îÄ part_0.pt
‚îÇ   ‚îú‚îÄ‚îÄ part_1.pt
‚îÇ   ‚îî‚îÄ‚îÄ ...
‚îî‚îÄ‚îÄ val_cache/      # Datos de validaci√≥n (40 partes)
    ‚îú‚îÄ‚îÄ part_0.pt
    ‚îî‚îÄ‚îÄ ...
```

## 3.3 Paso 2: Entrenar el Modelo

Abre el notebook `04_codebert_ft.ipynb` y ejecuta las celdas en orden.

### Hiperpar√°metros Configurables

```python
# √âpocas y batch
EPOCHS = 7                  # N√∫mero de √©pocas
BATCH_SIZE = 8              # Batch size (reducir si hay OOM)
ACCUMULATION_STEPS = 4      # Batch efectivo = 8 * 4 = 32

# Learning rate y regularizaci√≥n
LEARNING_RATE = 2e-5        # √ìptimo para fine-tuning
WEIGHT_DECAY = 0.01         # Regularizaci√≥n L2
WARMUP_RATIO = 0.1          # 10% warmup

# Focal Loss (manejo de desbalance)
FOCAL_GAMMA = 2.0           # Mayor = m√°s enfoque en ejemplos dif√≠ciles

# Sliding Window (c√≥digo largo)
MAX_LEN = 512               # Tokens por ventana
STRIDE = 256                # 50% overlap
MAX_WINDOWS = 8             # M√°ximo de ventanas

# Early Stopping
PATIENCE = 3                # √âpocas sin mejora antes de parar
```

## 3.4 Paso 3: Usar el Modelo Entrenado

Una vez entrenado, el modelo se guarda en `models/codebert_vuln/best_model.bin`.

Regresa a la **Secci√≥n 1** de esta gu√≠a para cargar y usar tu modelo.

---

# 4. API REST (Opcional)

Tambi√©n puedes usar el modelo a trav√©s de una API REST para integraci√≥n en CI/CD.

## Iniciar el servidor

In [None]:
# Ejecutar en una terminal separada:
# cd src && python analysis_api.py

# El servidor estar√° disponible en http://localhost:8000
print("Para iniciar el servidor API, ejecuta en una terminal:")
print("  cd src && python analysis_api.py")
print("\nEndpoints disponibles:")
print("  GET  /          - Health check")
print("  POST /predict   - Predicci√≥n directa de c√≥digo")
print("  POST /analyze   - An√°lisis completo de archivos")

## Ejemplo de uso con cURL

```bash
# Predicci√≥n directa
curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{"code": "def login(u,p): cursor.execute(\"SELECT * FROM users WHERE user=\" + u)"}'
```

## Ejemplo de uso con Python requests

In [None]:
import requests

# URL del servidor (aseg√∫rate de que est√© corriendo)
API_URL = "http://localhost:8000"

# Ejemplo de predicci√≥n
codigo_a_analizar = '''
def procesar_archivo(filename):
    path = "/var/data/" + filename
    with open(path, "r") as f:
        return f.read()
'''

try:
    response = requests.post(
        f"{API_URL}/predict",
        json={"code": codigo_a_analizar}
    )
    
    if response.status_code == 200:
        result = response.json()
        print(f"Predicci√≥n: {result['label']}")
        print(f"Confianza: {result['confidence']:.2%}")
    else:
        print(f"Error: {response.status_code}")
except requests.exceptions.ConnectionError:
    print("No se pudo conectar al servidor. Aseg√∫rate de que est√© corriendo.")