# 5 - Modelado Predictivo

In [6]:
# importamos todas las librerias necesarias
import pandas as pd 
import numpy as np

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# Ensure plots are displayed inline in the notebook
from matplotlib_inline.backend_inline import set_matplotlib_formats
set_matplotlib_formats('png', 'pdf')


ValueError: Key backend: 'module://matplotlib_inline.backend_inline' is not a valid value for backend; supported values are ['gtk3agg', 'gtk3cairo', 'gtk4agg', 'gtk4cairo', 'macosx', 'nbagg', 'notebook', 'qtagg', 'qtcairo', 'qt5agg', 'qt5cairo', 'tkagg', 'tkcairo', 'webagg', 'wx', 'wxagg', 'wxcairo', 'agg', 'cairo', 'pdf', 'pgf', 'ps', 'svg', 'template']

In [7]:
# cargamos el dataset limpio
df = pd.read_csv('datos/4_dataset_sin_correlaciones_altas.csv')

## Modelado Predictivo

### Paso 1: División del Dataset
Antes de entrenar cualquier modelo, dividiremos el dataset en conjuntos de entrenamiento y prueba. Esto nos permitirá evaluar el rendimiento de los modelos en datos no vistos.

### Paso 2: Entrenamiento de Modelos Iniciales
Entrenaremos los modelos iniciales:

Regresión Logística.

Bosques Aleatorios.

SVM (Máquinas de Soporte Vectorial).

### Paso 3: Evaluación del Desempeño
Usaremos métricas como:

Accuracy (precisión general).

Recall (muy importante en problemas médicos, ya que queremos minimizar falsos negativos).

F1-Score (un balance entre Precision y Recall).

In [8]:
# Importar librerías para modelado
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Paso 1: Dividir el dataset en entrenamiento y prueba
# Separar las características (X) de la variable objetivo (y)
X = df.drop(columns="Diagnosis")
y = df["Diagnosis"]

# División en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Datos de entrenamiento: {X_train.shape}, Datos de prueba: {X_test.shape}")

# Paso 2: Entrenar los modelos iniciales
# Regresión Logística
log_reg = LogisticRegression(random_state=42, max_iter=1000)
log_reg.fit(X_train, y_train)

# Bosques Aleatorios
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

# SVM
svm = SVC(probability=True, random_state=42)
svm.fit(X_train, y_train)

# Paso 3: Evaluar los modelos
models = {
    "Regresión Logística": log_reg,
    "Bosques Aleatorios": rf,
    "SVM": svm
}

for name, model in models.items():
    # Predicciones en el conjunto de prueba
    y_pred = model.predict(X_test)
    print(f"\nRendimiento del modelo: {name}")
    print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")
    print("Reporte de Clasificación:\n", classification_report(y_test, y_pred))


Datos de entrenamiento: (455, 20), Datos de prueba: (114, 20)

Rendimiento del modelo: Regresión Logística
Accuracy: 0.96
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.96      0.97      0.97        71
           1       0.95      0.93      0.94        43

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114


Rendimiento del modelo: Bosques Aleatorios
Accuracy: 0.96
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.97      0.97      0.97        71
           1       0.95      0.95      0.95        43

    accuracy                           0.96       114
   macro avg       0.96      0.96      0.96       114
weighted avg       0.96      0.96      0.96       114


Rendimiento del modelo: SVM
Accuracy: 0.91
Reporte de Clasificación:
               precision    recall  f1-sc

### Análisis por Modelo

1. Regresión Logística:
Accuracy: 96%.

Precision y Recall (Clases 0 y 1): Altos y bien equilibrados:

Para la clase 0 (benigno): 96% precision, 97% recall.

Para la clase 1 (maligno): 95% precision, 93% recall.

F1-Score: También equilibrado con 0.97 para benignos y 0.94 para malignos.

Conclusión: La Regresión Logística tiene un rendimiento sólido y balanceado. Es un modelo interpretable, lo que puede ser útil en contextos médicos.

2. Bosques Aleatorios:
Accuracy: 96% (idéntico a la Regresión Logística).

Precision y Recall:

Clase 0 (benigno): 97% precision, 97% recall.

Clase 1 (maligno): 95% precision, 95% recall.

F1-Score: Equilibrado con 0.97 (benignos) y 0.95 (malignos).

Conclusión: Los Bosques Aleatorios también tienen un rendimiento excepcional. Además, este modelo ofrece interpretabilidad en términos de importancia de características, lo que puede ser útil para identificar los factores clave en el diagnóstico.

3. SVM (Máquinas de Soporte Vectorial):
Accuracy: 91% (inferior a los otros dos modelos).

Precision y Recall:

Clase 0 (benigno): 91% precision, 96% recall.

Clase 1 (maligno): 92% precision, 84% recall.

F1-Score: 0.93 para benignos y 0.88 para malignos.

Conclusión: Aunque la SVM es potente en términos de manejo de relaciones complejas, aquí tiene un menor rendimiento, especialmente en el recall para la clase maligno (84%). Esto es preocupante en el contexto médico, ya que queremos minimizar falsos negativos.

Resumen Comparativo
Modelo	Accuracy	Precision (Clase 1)	Recall (Clase 1)	F1-Score (Clase 1)
Regresión Logística	96%	95%	93%	94%
Bosques Aleatorios	96%	95%	95%	95%
SVM	91%	92%	84%	88%
Conclusión Inicial
Mejor Modelo: Bosques Aleatorios

¿Por qué? Aunque su accuracy es similar al de la Regresión Logística, tiene un recall más alto en la clase maligno (95% frente a 93%), lo cual es crucial en este contexto para evitar falsos negativos.

Modelo Secundario: Regresión Logística

¿Por qué? Ofrece métricas muy similares a las de Bosques Aleatorios, con un rendimiento sólido y excelente interpretabilidad.

Modelo con Menor Desempeño: SVM

¿Por qué? Su menor recall para la clase maligno (84%) lo hace menos confiable en un problema donde detectar tumores malignos es prioritario.