# SVM model for toxic YouTube comments

En este notebook entrenamos un modelo de **SVM (LinearSVC)** para detectar
comentarios de odio/toxicidad en YouTube.

Objetivos:

- Cargar el dataset **preprocesado** (texto limpio/lematizado + etiquetas).
- Definir columna de texto y columna objetivo (`IsToxic` u otra).
- Vectorizar el texto con **TF-IDF** (unigramas y bigramas).
- Entrenar un modelo **LinearSVC** con `class_weight="balanced"`.
- Evaluar el modelo (accuracy, precision, recall, f1, ROC-AUC).
- Guardar el modelo entrenado como **`.pkl`** en `models/`.
- Guardar las métricas en un **`.json`** en `results/` con el formato acordado.


## 1. Imports y configuración

Importamos todas las librerías necesarias para:

- Carga de datos y manejo de rutas (`pandas`, `pathlib`).
- Modelado (`scikit-learn`).
- Guardado de modelo (`joblib`) y métricas (`json`).
- Medición de tiempo y timestamp (`datetime`).


In [15]:
import warnings
warnings.filterwarnings("ignore")

from pathlib import Path
import json
from datetime import datetime

import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.metrics import (
    accuracy_score,
    precision_recall_fscore_support,
    roc_auc_score,
    confusion_matrix,
    classification_report,
)

import joblib

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)


## 2. Carga del dataset preprocesado

Cargamos el CSV **ya preprocesado** generado en el notebook de preprocessing
(`preprocessing_eda.ipynb` o similar).

- Ajusta la ruta `PREPROCESSED_PATH` según el nombre real de tu fichero.
- Este CSV debería contener:
  - Una columna de texto procesado (`text_processed` o similar).
  - La columna objetivo (`IsToxic` u otra).
  - Opcionalmente, features numéricos diseñados a mano (longitud, mayúsculas, etc.).


In [16]:
# Ajusta esta ruta al nombre del CSV que generaste en preprocessing
PREPROCESSED_PATH = Path("../../data/preprocessing_data/youtoxic_english_1000_clean.csv")

df = pd.read_csv(PREPROCESSED_PATH)

print("Shape del dataset preprocesado:", df.shape)
df.head()


Shape del dataset preprocesado: (997, 18)


Unnamed: 0,CommentId,VideoId,Text,IsToxic,IsAbusive,IsThreat,IsProvocative,IsObscene,IsHatespeech,IsRacist,IsReligiousHate,text_basic,text_classic,text_len_classic,word_count_classic,uppercase_ratio,exclamation_count,hate_words_count
0,Ugg2KwwX0V8-aXgCoAEC,04kJtp6pVXI,If only people would just take a step back and...,False,False,False,False,False,False,False,False,If only people would just take a step back and...,people would take step back make case wasnt an...,850,129,0.014121,0,2
1,Ugg2s5AzSPioEXgCoAEC,04kJtp6pVXI,Law enforcement is not trained to shoot to app...,True,True,False,False,False,False,False,False,Law enforcement is not trained to shoot to app...,law enforcement trained shoot apprehend traine...,90,13,0.036232,0,3
2,Ugg3dWTOxryFfHgCoAEC,04kJtp6pVXI,\r\nDont you reckon them 'black lives matter' ...,True,True,False,False,True,False,False,False,Dont you reckon them 'black lives matter' bann...,dont reckon black life matter banner held whit...,252,40,0.002375,0,1
3,Ugg7Gd006w1MPngCoAEC,04kJtp6pVXI,There are a very large number of people who do...,False,False,False,False,False,False,False,False,There are a very large number of people who do...,large number people like police officer called...,339,49,0.015464,0,0
4,Ugg8FfTbbNF8IngCoAEC,04kJtp6pVXI,"The Arab dude is absolutely right, he should h...",False,False,False,False,False,False,False,False,"The Arab dude is absolutely right, he should h...",arab dude absolutely right shot extra time sho...,138,23,0.020576,0,1


## 3. Definición de columnas de texto, target y features numéricas

Nuestro dataset preprocesado incluye:

- `text_classic`: texto preprocesado pensado para **modelos clásicos**
  (TF-IDF, Naive Bayes, Regresión Logística, SVM, etc.).
- `text_basic`: texto más "ligero" para modelos **modernos** (embeddings, transformers, etc.).
- 5 features numéricas de apoyo:
  - `text_len_classic`
  - `word_count_classic`
  - `uppercase_ratio`
  - `exclamation_count`
  - `hate_words_count`

Como SVM es un modelo clásico, en este notebook usaremos **`text_classic`**
junto con esas 5 features numéricas.

También definimos la columna objetivo (`IsToxic`), que representa la tarea de
clasificación binaria (tóxico / no tóxico).


In [17]:
# Texto para modelos clásicos
TEXT_COL = "text_classic"

# Columna objetivo binaria (ajusta si usáis otra, por ejemplo IsAnyToxic)
TARGET_COL = "IsToxic"

# Features numéricas ya creadas en el preprocessing
NUMERIC_FEATURES = [
    "text_len_classic",
    "word_count_classic",
    "uppercase_ratio",
    "exclamation_count",
    "hate_words_count",
]

print("Comprobación de columnas:")
print("  TEXT_COL existe      :", TEXT_COL in df.columns)
print("  TARGET_COL existe    :", TARGET_COL in df.columns)
print("  Numeric features OK  :", [c for c in NUMERIC_FEATURES if c in df.columns])

# Eliminamos filas con target nulo por seguridad
df = df.dropna(subset=[TARGET_COL]).reset_index(drop=True)

X_text = df[TEXT_COL]
y = df[TARGET_COL].astype(int)

n_samples = df.shape[0]
print(f"\nNúmero de muestras utilizadas: {n_samples}")
print("\nDistribución de la clase objetivo:")
print(y.value_counts(normalize=True).sort_index())


Comprobación de columnas:
  TEXT_COL existe      : True
  TARGET_COL existe    : True
  Numeric features OK  : ['text_len_classic', 'word_count_classic', 'uppercase_ratio', 'exclamation_count', 'hate_words_count']

Número de muestras utilizadas: 997

Distribución de la clase objetivo:
IsToxic
0    0.539619
1    0.460381
Name: proportion, dtype: float64


## 4. Train/Test split estratificado

Dividimos el dataset en:

- `X_train_text`, `X_test_text`: textos de train y test.
- `y_train`, `y_test`: etiquetas de train y test.

Usamos estratificación por la columna objetivo para mantener la misma
proporción de tóxico/no tóxico en ambos conjuntos.


In [18]:
TEST_SIZE = 0.2

X_train_text, X_test_text, y_train, y_test = train_test_split(
    X_text,
    y,
    test_size=TEST_SIZE,
    random_state=RANDOM_STATE,
    stratify=y,
)

train_size_real = len(X_train_text) / n_samples
test_size_real = len(X_test_text) / n_samples

print(f"Tamaño train: {len(X_train_text)} ({train_size_real:.4f})")
print(f"Tamaño test: {len(X_test_text)} ({test_size_real:.4f})")


Tamaño train: 797 (0.7994)
Tamaño test: 200 (0.2006)


## 5. Pipeline de preprocesado y modelo: TF-IDF + numéricas + LinearSVC

Como nuestro dataset incluye tanto texto como features numéricas, construimos
un pipeline con dos partes:

1. **`ColumnTransformer` de preprocesado**:
   - Rama `text`: aplica `TfidfVectorizer` sobre la columna `text_classic`.
   - Rama `num`: aplica `StandardScaler` sobre las 5 features numéricas.
2. **Clasificador `LinearSVC`**:
   - Modelo SVM lineal con `class_weight="balanced"` para manejar mejor
     el posible desbalanceo de clases.

Este enfoque permite entrenar y usar el modelo con un único objeto (`Pipeline`)
que se serializa a `.pkl`.


In [19]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

# Definimos el vectorizador TF-IDF para la columna de texto
tfidf_vectorizer = TfidfVectorizer(
    ngram_range=(1, 2),
    min_df=3,
    max_df=0.9,
)

# Preprocesador que combina texto (TF-IDF) y numéricas (escaladas)
preprocessor = ColumnTransformer(
    transformers=[
        ("text", tfidf_vectorizer, TEXT_COL),
        ("num", StandardScaler(with_mean=False), NUMERIC_FEATURES),
    ]
)

svm_clf = LinearSVC(
    class_weight="balanced",
    random_state=RANDOM_STATE,
)

svm_pipeline = Pipeline(
    steps=[
        ("preprocess", preprocessor),
        ("svm", svm_clf),
    ]
)

svm_pipeline


0,1,2
,steps,"[('preprocess', ...), ('svm', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,transformers,"[('text', ...), ('num', ...)]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,True
,force_int_remainder_cols,'deprecated'

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,analyzer,'word'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'

0,1,2
,copy,True
,with_mean,False
,with_std,True

0,1,2
,penalty,'l2'
,loss,'squared_hinge'
,dual,'auto'
,tol,0.0001
,C,1.0
,multi_class,'ovr'
,fit_intercept,True
,intercept_scaling,1
,class_weight,'balanced'
,verbose,0


## 6. Entrenamiento del modelo SVM

Entrenamos el pipeline completo:

- `preprocess` ajusta TF-IDF sobre `text_classic` y escala las columnas numéricas.
- `svm` entrena el clasificador lineal sobre las features combinadas.


In [20]:
%%time

svm_pipeline.fit(df[[TEXT_COL] + NUMERIC_FEATURES].loc[X_train_text.index], y_train)


CPU times: total: 62.5 ms
Wall time: 74.9 ms


0,1,2
,steps,"[('preprocess', ...), ('svm', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,transformers,"[('text', ...), ('num', ...)]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,True
,force_int_remainder_cols,'deprecated'

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,analyzer,'word'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'

0,1,2
,copy,True
,with_mean,False
,with_std,True

0,1,2
,penalty,'l2'
,loss,'squared_hinge'
,dual,'auto'
,tol,0.0001
,C,1.0
,multi_class,'ovr'
,fit_intercept,True
,intercept_scaling,1
,class_weight,'balanced'
,verbose,0


## 7. Evaluación del modelo en train y test

Calculamos accuracy, precision, recall, F1 y ROC-AUC para train y test,
usando el pipeline completo (texto + numéricas).


In [21]:
def evaluate_svm_model(pipeline, df, X_train_idx, y_train, X_test_idx, y_test):
    # Construimos los DataFrames de entrada (texto + numéricas)
    X_train_df = df[[TEXT_COL] + NUMERIC_FEATURES].loc[X_train_idx]
    X_test_df = df[[TEXT_COL] + NUMERIC_FEATURES].loc[X_test_idx]

    # Predicciones
    y_train_pred = pipeline.predict(X_train_df)
    y_test_pred = pipeline.predict(X_test_df)

    # Scores (para ROC-AUC)
    y_train_scores = pipeline.decision_function(X_train_df)
    y_test_scores = pipeline.decision_function(X_test_df)

    # Métricas train
    acc_train = accuracy_score(y_train, y_train_pred)
    prec_train, rec_train, f1_train, _ = precision_recall_fscore_support(
        y_train, y_train_pred, average="binary", zero_division=0
    )
    roc_train = roc_auc_score(y_train, y_train_scores)

    # Métricas test
    acc_test = accuracy_score(y_test, y_test_pred)
    prec_test, rec_test, f1_test, _ = precision_recall_fscore_support(
        y_test, y_test_pred, average="binary", zero_division=0
    )
    roc_test = roc_auc_score(y_test, y_test_scores)

    metrics_train = {
        "accuracy": acc_train,
        "precision": prec_train,
        "recall": rec_train,
        "f1": f1_train,
        "roc_auc": roc_train,
    }

    metrics_test = {
        "accuracy": acc_test,
        "precision": prec_test,
        "recall": rec_test,
        "f1": f1_test,
        "roc_auc": roc_test,
    }

    print("=== Métricas TRAIN ===")
    for k, v in metrics_train.items():
        print(f"{k:10s}: {v:.4f}")

    print("\n=== Métricas TEST ===")
    for k, v in metrics_test.items():
        print(f"{k:10s}: {v:.4f}")

    print("\nDiferencia accuracy train-test:", metrics_train["accuracy"] - metrics_test["accuracy"])
    print("Diferencia f1 train-test      :", metrics_train["f1"] - metrics_test["f1"])

    return metrics_train, metrics_test


metrics_train, metrics_test = evaluate_svm_model(
    svm_pipeline,
    df,
    X_train_text.index,
    y_train,
    X_test_text.index,
    y_test,
)


=== Métricas TRAIN ===
accuracy  : 0.9837
precision : 0.9810
recall    : 0.9837
f1        : 0.9823
roc_auc   : 0.9982

=== Métricas TEST ===
accuracy  : 0.7050
precision : 0.6941
recall    : 0.6413
f1        : 0.6667
roc_auc   : 0.7607

Diferencia accuracy train-test: 0.2786888331242159
Diferencia f1 train-test      : 0.31564625850340144


# 🔁 Celda  – Matriz de confusión (igual pero con DataFrame de entrada)

In [22]:
X_test_df = df[[TEXT_COL] + NUMERIC_FEATURES].loc[X_test_text.index]
y_test_pred = svm_pipeline.predict(X_test_df)

cm = confusion_matrix(y_test, y_test_pred)
tn, fp, fn, tp = cm.ravel()

print("Matriz de confusión (tn, fp, fn, tp):")
print(cm)
print(f"\nTN={tn}, FP={fp}, FN={fn}, TP={tp}\n")

print("Classification report (TEST):")
print(classification_report(y_test, y_test_pred, digits=4))


Matriz de confusión (tn, fp, fn, tp):
[[82 26]
 [33 59]]

TN=82, FP=26, FN=33, TP=59

Classification report (TEST):
              precision    recall  f1-score   support

           0     0.7130    0.7593    0.7354       108
           1     0.6941    0.6413    0.6667        92

    accuracy                         0.7050       200
   macro avg     0.7036    0.7003    0.7010       200
weighted avg     0.7043    0.7050    0.7038       200



## 8. Comprobación explícita del overfitting (regla < 5 puntos)

La rúbrica del proyecto indica que la diferencia entre las métricas de training
y las de test debe ser **inferior a 5 puntos porcentuales**.

Aquí calculamos la diferencia absoluta entre:

- Accuracy de train y test.
- F1 de train y test.

Si ambas diferencias son menores de 0.05, consideramos que cumplimos la regla.



In [24]:
diff_accuracy = abs(metrics_train["accuracy"] - metrics_test["accuracy"])
diff_f1 = abs(metrics_train["f1"] - metrics_test["f1"])

print(f"Diferencia |accuracy_train - accuracy_test|: {diff_accuracy:.4f}")
print(f"Diferencia |f1_train - f1_test|           : {diff_f1:.4f}")

if diff_accuracy < 0.05 and diff_f1 < 0.05:
    print("\n✅ Overfitting control OK: differences below 5 percentage points.")
else:
    print("\n⚠️ Atención: posible overfitting según la regla de los 5 puntos.")


Diferencia |accuracy_train - accuracy_test|: 0.2787
Diferencia |f1_train - f1_test|           : 0.3156

⚠️ Atención: posible overfitting según la regla de los 5 puntos.


## 9. Optimización de hiperparámetros con Optuna

Para intentar mejorar las métricas del modelo SVM, vamos a usar **Optuna**,
una librería de optimización de hiperparámetros que:

- Prueba distintas combinaciones de hiperparámetros.
- Evalúa cada combinación con *cross-validation*.
- Se queda con la que maximiza una métrica (en nuestro caso, F1 en la clase positiva).

Hiperparámetros que vamos a tunear:

- `C` de `LinearSVC` (fuerza de regularización).
- Parámetros de `TfidfVectorizer`:
  - `ngram_range` (unigramas vs unigramas+bigramas).
  - `min_df` (frecuencia mínima).
  - `max_df` (frecuencia máxima relativa).


In [25]:
# Si no tienes optuna instalado, puedes hacerlo desde el entorno o bien descomentar:
# !pip install optuna

import optuna
from sklearn.model_selection import StratifiedKFold, cross_val_score


### 9.2. Función objetivo para Optuna

Definimos la función `objective(trial)` que:

1. Muestra a Optuna qué hiperparámetros puede probar.
2. Construye un nuevo pipeline `preprocess + LinearSVC` con esos valores.
3. Evalúa el pipeline con *Stratified K-Fold cross-validation* (k=3) sobre el conjunto de entrenamiento.
4. Devuelve la media de F1, que Optuna intentará maximizar.


In [26]:
def create_svm_pipeline_for_trial(trial):
    # Espacio de búsqueda de hiperparámetros para TF-IDF
    ngram_choice = trial.suggest_categorical("ngram_range", [(1, 1), (1, 2)])
    min_df = trial.suggest_int("min_df", 2, 5)
    max_df = trial.suggest_float("max_df", 0.7, 0.95)

    # Hiperparámetro de regularización del SVM
    C = trial.suggest_float("C", 1e-2, 10.0, log=True)

    tfidf_vectorizer_trial = TfidfVectorizer(
        ngram_range=ngram_choice,
        min_df=min_df,
        max_df=max_df,
    )

    preprocessor_trial = ColumnTransformer(
        transformers=[
            ("text", tfidf_vectorizer_trial, TEXT_COL),
            ("num", StandardScaler(with_mean=False), NUMERIC_FEATURES),
        ]
    )

    svm_clf_trial = LinearSVC(
        class_weight="balanced",
        C=C,
        random_state=RANDOM_STATE,
    )

    pipeline_trial = Pipeline(
        steps=[
            ("preprocess", preprocessor_trial),
            ("svm", svm_clf_trial),
        ]
    )

    return pipeline_trial


def objective(trial):
    """
    Función objetivo para Optuna: crea un pipeline SVM con los hiperparámetros
    sugeridos por trial y devuelve el F1 medio en validación.
    """
    # Subconjunto de entrenamiento: texto + numéricas
    X_train_df = df[[TEXT_COL] + NUMERIC_FEATURES].loc[X_train_text.index]

    pipeline_trial = create_svm_pipeline_for_trial(trial)

    # Stratified K-Fold cross-validation para respetar el desbalanceo
    cv = StratifiedKFold(
        n_splits=3,
        shuffle=True,
        random_state=RANDOM_STATE,
    )

    scores = cross_val_score(
        pipeline_trial,
        X_train_df,
        y_train,
        cv=cv,
        scoring="f1",
        n_jobs=-1,
    )

    return scores.mean()


### 9.3. Ejecutar el estudio de Optuna

Creamos un `study` de Optuna para **maximizar el F1** y lanzamos varias pruebas
(`n_trials`). Cada trial prueba una combinación distinta de hiperparámetros.

> Nota: Puedes ajustar `n_trials` según el tiempo que tengáis disponible.
> Con 20–30 pruebas ya se puede ver una mejora decente.


In [27]:
N_TRIALS = 30  # ajusta este número según el tiempo que tengas

study = optuna.create_study(
    direction="maximize",
    study_name="svm_toxic_optuna",
)

study.optimize(objective, n_trials=N_TRIALS)

print("Mejor valor de F1 obtenido:", study.best_value)
print("Mejores hiperparámetros encontrados:")
for k, v in study.best_params.items():
    print(f"  {k}: {v}")


[I 2025-12-04 13:30:32,625] A new study created in memory with name: svm_toxic_optuna
[I 2025-12-04 13:30:35,435] Trial 0 finished with value: 0.6450543965420369 and parameters: {'ngram_range': (1, 1), 'min_df': 4, 'max_df': 0.9269465520774067, 'C': 0.9436551109323378}. Best is trial 0 with value: 0.6450543965420369.
[I 2025-12-04 13:30:37,381] Trial 1 finished with value: 0.6248023161122304 and parameters: {'ngram_range': (1, 2), 'min_df': 3, 'max_df': 0.8886430040803809, 'C': 0.03066632355212369}. Best is trial 0 with value: 0.6450543965420369.
[I 2025-12-04 13:30:39,342] Trial 2 finished with value: 0.6510898670834696 and parameters: {'ngram_range': (1, 2), 'min_df': 4, 'max_df': 0.7861289370909745, 'C': 0.6258848310369038}. Best is trial 2 with value: 0.6510898670834696.
[I 2025-12-04 13:30:41,367] Trial 3 finished with value: 0.6591304352416479 and parameters: {'ngram_range': (1, 2), 'min_df': 3, 'max_df': 0.934465801717255, 'C': 0.5846341328550528}. Best is trial 3 with value: 0.

Mejor valor de F1 obtenido: 0.6625352287156617
Mejores hiperparámetros encontrados:
  ngram_range: (1, 1)
  min_df: 2
  max_df: 0.8655714697837409
  C: 0.16661365346752915


# 🔁 Celda  – Diccionario JSON (ajuste para n_features_text & numeric)

In [10]:
MODEL_NAME = "svm_toxic_v1"

# Accedemos al vectorizador TF-IDF dentro del ColumnTransformer
preprocess_step = svm_pipeline.named_steps["preprocess"]
tfidf = preprocess_step.named_transformers_["text"]
n_features_text = len(tfidf.get_feature_names_out())

n_features_numeric = len(NUMERIC_FEATURES)

results_dict = {
    "model_name": MODEL_NAME,
    "task": "binary_classification",
    "target_label": TARGET_COL,
    "data": {
        "n_samples": int(n_samples),
        "n_features_text": int(n_features_text),
        "n_features_numeric": int(n_features_numeric),
        "train_size": float(train_size_real),
        "test_size": float(test_size_real),
        "random_state": int(RANDOM_STATE),
    },
    "metrics": {
        "accuracy": float(metrics_test["accuracy"]),
        "precision": float(metrics_test["precision"]),
        "recall": float(metrics_test["recall"]),
        "f1": float(metrics_test["f1"]),
        "roc_auc": float(metrics_test["roc_auc"]),
    },
    "confusion_matrix": {
        "tn": int(tn),
        "fp": int(fp),
        "fn": int(fn),
        "tp": int(tp),
    },
    "timestamp": datetime.now().isoformat(),
    "notes": "LinearSVC + TF-IDF (1,2) + 5 numeric features on text_classic",
}

results_dict


{'model_name': 'svm_toxic_v1',
 'task': 'binary_classification',
 'target_label': 'IsToxic',
 'data': {'n_samples': 997,
  'n_features_text': 1136,
  'n_features_numeric': 5,
  'train_size': 0.7993981945837513,
  'test_size': 0.20060180541624875,
  'random_state': 42},
 'metrics': {'accuracy': 0.705,
  'precision': 0.6941176470588235,
  'recall': 0.6413043478260869,
  'f1': 0.6666666666666666,
  'roc_auc': 0.7606682769726247},
 'confusion_matrix': {'tn': 82, 'fp': 26, 'fn': 33, 'tp': 59},
 'timestamp': '2025-12-01T09:00:24.702598',
 'notes': 'LinearSVC + TF-IDF (1,2) + 5 numeric features on text_classic'}

## 10. Guardar el modelo entrenado como `.pkl` en `/models`

Guardamos el pipeline completo de SVM, que incluye:

- **ColumnTransformer** (TF-IDF + features numéricas)
- **LinearSVC**
- Todos los parámetros ajustados y el vocabulario del TF-IDF

La ruta final del archivo será:




Esto permite cargar el modelo directamente desde el backend o desde el notebook
de comparación de modelos (`comparison_models.ipynb`).


In [12]:
MODELS_DIR = Path("../models")
MODELS_DIR.mkdir(parents=True, exist_ok=True)

model_path = MODELS_DIR / f"{MODEL_NAME}.pkl"

joblib.dump(svm_pipeline, model_path)

print("Modelo SVM guardado en:", model_path.resolve())


Modelo SVM guardado en: C:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\backend\models\svm_toxic_v1.pkl


## 11. Guardar métricas y metadatos del modelo en `/results` como `.json`

Creamos un archivo JSON con:

- Nombre del modelo (`svm_toxic_v1`)
- Tipo de tarea (`binary_classification`)
- Columna objetivo utilizada
- Información del dataset (n_samples, features de texto y numéricas)
- Métricas del conjunto de test (accuracy, precision, recall, f1, roc_auc)
- Matriz de confusión (tn, fp, fn, tp)
- Timestamp del entrenamiento

El archivo se guarda en:




Este archivo será leído posteriormente en el notebook `comparison_models.ipynb`
junto a los modelos de tus compañeros.


In [14]:
RESULTS_DIR = Path("../../data/results")
RESULTS_DIR.mkdir(parents=True, exist_ok=True)

results_path = RESULTS_DIR / f"{MODEL_NAME}.json"

with open(results_path, "w", encoding="utf-8") as f:
    json.dump(results_dict, f, indent=2)

print("JSON de métricas guardado en:", results_path.resolve())


JSON de métricas guardado en: C:\Users\yeder\Documents\Factoria F5 Bootcamp IA\Proyecto_X_NLP_G4\data\results\svm_toxic_v1.json
