# Entrenamiento de un Modelo de Clasificación

En este notebook entrenamos un modelo de clasificación para predecir si un tumor es maligno o benigno usando el dataset procesado.


## 1. Importar librerías

In [None]:
import pandas as pd
from pathlib import Path

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme(style="whitegrid")


## 2. Cargar el dataset procesado

In [None]:
ruta_procesado = Path("../data/processed/cancer_mama_procesado.csv")

if not ruta_procesado.exists():
    raise FileNotFoundError(f"No se encontró el archivo procesado en: {ruta_procesado.resolve()}")

df = pd.read_csv(ruta_procesado)
print("Datos procesados cargados correctamente")
print(df.shape)
df.head()

## 3. Definir variables predictoras (X) y objetivo (y)

In [None]:
feature_cols = list(df.columns[1:11])

X = df[feature_cols]
y = df["diagnosis_binaria"]

print("Dimensiones de X:", X.shape)
print("Dimensiones de y:", y.shape)

## 4. Separar en train y test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Tamaño de train:", X_train.shape[0])
print("Tamaño de test:", X_test.shape[0])

## 5. Crear un pipeline con escalado + Regresión Logística

In [None]:
pipeline = Pipeline(
    steps=[
        ("escalador", StandardScaler()),
        ("modelo", LogisticRegression(max_iter=1000))
    ]
)

pipeline.fit(X_train, y_train)

print("Modelo entrenado correctamente")

## 6. Evaluación del modelo

In [None]:
y_pred = pipeline.predict(X_test)

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

### Visualización de la matriz de confusión

In [None]:
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(4,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predicción")
plt.ylabel("Valor real")
plt.title("Matriz de confusión")
plt.show()

## 7. Comentarios finales

- Revisar si el modelo se comporta de forma equilibrada entre clases.
- Identificar si existen problemas de desbalance.
- Proponer posibles mejoras:
  - Probar otros modelos (Random Forest, SVM, etc.).
  - Ajustar hiperparámetros.
  - Realizar validación cruzada.

Este notebook sirve como base para explicar cómo evaluar un modelo de clasificación en un contexto de Ciencia de Datos.