<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B03%5D%20-%20Modelos%20Supervisados%20Alternativos/Supervisados_Alternativos_Ejercicio_5_svm_breast_cancer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Supervisados Alternativos - Ejercicio 5: svm_breast_cancer.ipynb

Este notebook es **We do**: mezcla de celdas resueltas y `# TODO` guiados para que rellenes algunos pasos clave.

## Objetivos

- Cargar y explorar el dataset Breast Cancer.
- Preparar datos (escalado) y entrenar SVM lineal y SVM RBF.
- Evaluar con métricas: accuracy, matriz de confusión, ROC-AUC.
- Guiar al alumno para probar diferentes valores de C/gamma y reflexionar sobre trade-offs clínicos.

## Descripción del dataset

Dataset Breast Cancer (Wisconsin) provisto por `sklearn.datasets.load_breast_cancer()`.
Contiene 569 muestras y 30 variables numéricas. Target binario: 0 = malignant, 1 = benign.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score, roc_curve
np.random.seed(42)

### 1) Carga de datos (resuelta)

In [None]:
# Cargar dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name='target')
target_names = data.target_names
print('Dimensiones:', df.shape)
display(df.head())
print('\nDistribución objetivo:')
display(y.value_counts())

### 2) Exploración inicial (TODO)

Objetivos: revisar rangos, detectar posibles outliers y comprobar correlaciones relevantes.

In [None]:
# TODO: Muestra info, describe() y una heatmap de correlaciones con las top features correlacionadas con el target
# TODO

In [None]:
# Selección de numéricas (ejemplo)
vars_numericas = df.select_dtypes(include=[np.number]).columns
vars_numericas[:10]

### 3) Preprocesado: escalado (resuelto)

SVM es sensible a la escala; estandarizamos con `StandardScaler`.

In [None]:
scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(df[vars_numericas]), columns=vars_numericas)
display(X_scaled.describe().T)

### 4) División train/test (resuelto)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)
print('Train:', X_train.shape, 'Test:', X_test.shape)
display(y_train.value_counts(normalize=True).round(3))
display(y_test.value_counts(normalize=True).round(3))

### 5) SVM lineal

In [None]:
# Entrenamos SVM con kernel lineal
svm_lin = ...
svm_lin.fit(...)

y_pred_lin = ...
y_proba_lin = ...

print('Accuracy SVM linear:', ...)
print('\nClassification report (SVM linear):\n')
print(...)

cm_lin = confusion_matrix(...)
sns.heatmap(cm_lin, annot=True, fmt='d', cmap='Blues', xticklabels=..., yticklabels=...)

plt.title('Confusion matrix - SVM linear')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.show()

# ROC-AUC
auc_lin = roc_auc_score(...)
print('ROC-AUC (linear):', round(auc_lin,3))

### 6) SVM RBF

In [None]:
# Entrenamos SVM con kernel RBF (defaults gamma='scale')
svm_rbf = ...
svm_rbf.fit(...)

y_pred_rbf = ...
y_proba_rbf = ...

print('Accuracy SVM RBF:', ...)
print('\nClassification report (SVM RBF):\n')
print(...)

cm_rbf = confusion_matrix(...)
sns.heatmap(cm_rbf, annot=True, fmt='d', cmap='Blues', xticklabels=..., yticklabels=target_...)

plt.title('Confusion matrix - SVM RBF')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.show()

auc_rbf = roc_auc_score(...)
print('ROC-AUC (rbf):', round(auc_rbf,3))

### 7) Probar manualmente hiperparámetros (TODO)

Prueba manualmente varios valores de C (ej: [0.1, 1, 10]) y para RBF varios gamma (ej: [0.01, 0.1, 1]). Compara accuracy y AUC.

In [None]:
# TODO: Implementa bucles para probar combinaciones de C y gamma y guarda resultados en DataFrame
# TODO

### 8) Curva ROC y comparación (TODO)

Dibuja las curvas ROC de SVM linear y RBF usando las probabilidades calculadas arriba. Comenta qué modelo tiene mejor AUC y qué significa en este contexto clínico.

In [None]:
# Dibuja ROC para ambos modelos (usa fpr,tpr de roc_curve y auc ya calculados)
# Ejemplo:
# fpr_lin, tpr_lin, _ = roc_curve(y_test, y_proba_lin)
# fpr_rbf, tpr_rbf, _ = roc_curve(y_test, y_proba_rbf)
# plt.plot(fpr_lin, tpr_lin, label=f'linear AUC={auc_lin:.3f}')
# plt.plot(fpr_rbf, tpr_rbf, label=f'rbf AUC={auc_rbf:.3f}')
# plt.plot([0,1],[0,1],'k--')
# plt.xlabel('FPR')
# plt.ylabel('TPR')
# plt.legend()
# plt.show()


### 9) Interpretación y reflexiones (TODO)

Analiza las matrices de confusión: ¿qué modelo tiene menos falsos negativos? ¿Qué modelo sacrifica más falsos positivos? En problemas clínicos, ¿qué prefieres optimizar y por qué?

In [None]:
# TODO: Calcula precision/recall/f1 para la clase positiva (benign=1) y comenta
# from sklearn.metrics import precision_score, recall_score
# print('Recall positive (linear):', ...)
# TODO

### 10) Conclusión y siguientes pasos

- Has entrenado SVM lineal y RBF, visualizado matrices y calculado AUC.
- Guarda el notebook completado y añade en la última celda tus observaciones sobre qué modelo preferirías en un entorno clínico y por qué.