# Fine-tuning de DistilBERT para detección de hate speech

En este notebook vamos a entrenar un modelo basado en transformers (DistilBERT)
para clasificar comentarios de YouTube como **tóxicos (1)** o **no tóxicos (0)**.

Objetivos:

- Cargar el dataset preprocesado (`text_basic` + `IsToxic`).
- Preparar los datos para HuggingFace (tokenizer + `Dataset`).
- Fine-tuning de `distilbert-base-uncased` para clasificación binaria.
- Evaluar el modelo en el conjunto de test (accuracy, precision, recall, F1, ROC-AUC).
- Guardar el modelo en `backend/models/distilbert_toxic_v1`.
- Guardar las métricas en `data/results/distilbert_toxic_v1.json`.


## 1. Configuración inicial y rutas del proyecto

En esta sección definimos las rutas relativas dentro del repositorio y hacemos
las importaciones básicas que necesitaremos más adelante.


In [1]:
import os
from pathlib import Path

# Ruta del repo (este notebook está en backend/notebooks/)
NOTEBOOK_DIR = Path.cwd()
BACKEND_DIR = NOTEBOOK_DIR.parent           # backend/
ROOT_DIR = BACKEND_DIR.parent               # raíz del proyecto
DATA_DIR = ROOT_DIR / "data"
PREPROC_DIR = DATA_DIR / "preprocessing_data"
RESULTS_DIR = DATA_DIR / "results"
MODELS_DIR = BACKEND_DIR / "models"

# Ficheros concretos
CSV_PATH = PREPROC_DIR / "youtoxic_english_1000_clean.csv"
METRICS_JSON_PATH = RESULTS_DIR / "distilbert_toxic_v1.json"
DISTILBERT_MODEL_DIR = MODELS_DIR / "distilbert_toxic_v1"

print("Notebook dir:", NOTEBOOK_DIR)
print("CSV path:", CSV_PATH)
print("Metrics JSON:", METRICS_JSON_PATH)
print("Model dir:", DISTILBERT_MODEL_DIR)


Notebook dir: c:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\backend\notebooks
CSV path: c:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\data\preprocessing_data\youtoxic_english_1000_clean.csv
Metrics JSON: c:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\data\results\distilbert_toxic_v1.json
Model dir: c:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\backend\models\distilbert_toxic_v1


## 2. Instalación de dependencias

Instalamos las librerías necesarias para trabajar con transformers y los
datasets de HuggingFace. Esta celda solo es necesario ejecutarla la primera vez
(en el entorno del proyecto).


In [2]:
%pip install -q "transformers>=4.40.0" "datasets>=2.19.0" "evaluate" "accelerate" "scikit-learn"


Note: you may need to restart the kernel to use updated packages.
