# Módulo 8: SVM

## Clasificación binaria: ¿maligno o benigno?

Para esta actividad, vamos a utilizar un dataset que se encuentra disponible entre los conjuntos de prueba de la librería scikit-learn: **Breast Cancer Dataset**.

Se trata de un dataset diseñado para realizar clasificación binaria. Contiene un total de 569 ejemplos, cada uno con 30 features, y 2 clases posibles: **maligno** o **benigno**.

El objetivo es, dada una nueva instancia del cual conocemos los features, podamos determinar a qué clase pertenece: **maligno** o **benigno**.

### <font color='red'>**Actividad 1:**</font>

**a)** Obtener el dataset de la librería Scikit-learn como un pandas Dataframe, almacenando los datos en una variable llamada *df_data* y los labels en otra variable llamada *df_labels*

**Ayuda:** 
El [método de Scikit-Learn](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html) para levantar el dataset requerido permite convertir la salida en un Dataframe de pandas con el parametro as_frame. Para realizar este ejercicio es necesario investigar en el sitio oficial de Scikit-Learn como se retornan los datos y los labels cuando este parametro está seteado en True.

In [None]:
from sklearn.datasets import load_breast_cancer

cancer_data = load_breast_cancer(as_frame=True)

df_data = cancer_data.data

df_labels = cancer_data.target

**b)** Imprimir los 10 primeros ejemplo

In [None]:
df_data.head(10)

**c)** Imprimir los 10 últimos ejemplos

In [None]:
df_data.tail(10)

**d)** Imprimir los nombres de las columnas (features) del dataset

In [None]:
print(df_data.columns.tolist())

**e)** Imprimir la cantidad de features que presenta el dataset

In [None]:
print(f"Cantidad de features: {len(df_data.columns)}")

{31}


**f)** Imprimir los últimos 10 labels

In [None]:
df_labels.tail(10)

**g)** Imprimir la cantidad de ejemplos (filas) de cada label

In [None]:
print(df_labels.value_counts().sort_index())

#### Observaciones:
El dataset presenta un total de 569 ejemplos, distribuidos de la siguiente manera:
- Clase 1: 357 ejemplos (≈ 62.7%)
- Clase 0: 212 ejemplos (≈ 37.3%)

Esto indica que el dataset está **moderadamente desbalanceado**, ya que hay una diferencia significativa entre ambas clases (aproximadamente 25 puntos porcentuales). Aunque no es un desbalance extremo, puede afectar el desempeño de los modelos de clasificación, especialmente si se utiliza una métrica como el **accuracy**, que puede dar una falsa impresión de buen rendimiento al favorecer la clase mayoritaria.

### Visualización de los datos

Ahora que exploramos la composición del dataset, incluyendo sus features y etiquetas, **vamos a analizar las relaciones entre algunos atributos seleccionados** de forma visual.

Dado que el conjunto de datos contiene **30 features**, resulta imposible representar visualmente las relaciones en un espacio de 30 dimensiones. Por eso, seleccionamos un subconjunto representativo de 5 features:

                'mean radius', 'mean texture', 'mean perimeter', 'mean area' y 'mean smoothness'

Para explorar cómo se relacionan entre sí y con las clases, utilizaremos un **pairplot**, que permite visualizar las relaciones **por pares** de variables mediante gráficos de dispersión y distribuciones univariadas.

Este análisis nos ayudará a identificar:
- Si existe **separabilidad entre clases** en función de estas variables.
- Si podría tener sentido aplicar un modelo como SVM, que busca encontrar un hiperplano que separe las clases en el espacio de características.

In [None]:
import seaborn as sns

df = df_data
df['label'] = df_labels
sns.pairplot(df, hue='label', vars=['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness'])

En la **diagonal principal del pairplot** se muestran las distribuciones univariadas de cada feature, separadas por clase. Estas curvas permiten observar cómo se distribuye cada variable individualmente en cada clase:
- Por ejemplo, en mean area o mean perimeter, se nota que la clase naranja (una de las clases) tiene valores generalmente más bajos que la clase azul, lo cual sugiere que estas variables podrían ser buenas para separar las clases.
- En cambio, en mean smoothness, ambas clases tienen distribuciones bastante solapadas, lo que indica que este feature tiene menor capacidad discriminativa por sí solo.

El resto de los gráficos muestran cómo se distribuyen los datos considerando únicamente **dos features a la vez**, ignorando los otros 28. Estos gráficos permiten observar si existe **separabilidad entre clases** en pares de variables.

En general, se observa que hay cierta **separación entre las clases** usando los features seleccionados, aunque no es perfecta. Esto sugiere que **aplicar un modelo como SVM podría ser apropiado**. En particular, podría ser útil utilizar un **kernel no lineal** para capturar mejor los límites entre clases en las zonas donde hay solapamiento.

## SVM no lineal con kernel sigmoideo

Ahora que analizamos los datos y sus features vamos a crear varios modelos SVM, entrenarlos con nuestros datos y observar su rendimiento.

Para ello, primero tenemos que dividir los datos en dataset de entrenamiento y dataset de testeo.

### <font color='red'>**Actividad 2:**</font>

**a)** Dividir los datos, reservando el **80 % para entrenamiento** y el **20 % para testeo**. Para ello, utilizar las variables df_data y df_labels creadas anteriormente. Almacenar los conjuntos resultantes en las siguientes variables:
- X_train, X_test: para los datos de entrada (features)
- y_train, y_test: para las etiquetas (labels)

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_data, df_labels, test_size=0.2, random_state=42, stratify=df_labels)

In [None]:
print('El tamaño de X_train es:', X_train.shape)
print('El tamaño de y_train es:', y_train.shape)
print()
print('El tamaño de X_test es:', X_test.shape)
print('El tamaño de y_test es:', y_test.shape)

**b)** Importar el módulo correspondiente de Scikit-Learn para la creación de un modelo **SVM para clasificación**, y crear una instancia del mismo. En este caso, se utilizará un modelo **no lineal con kernel sigmoideo** (sigmoid).

In [None]:
from sklearn.svm import SVC

svc_model = SVC(kernel='sigmoid', random_state=42)

**c)** **Ajustar el modelo** con la función .fit() a los datos de entrenamiento

In [None]:
svc_model.fit(X_train, y_train)

### Evaluación del modelo SVM no lineal con kernel sigmoideo
Ahora que tenemos el modelo SVM no lineal con kernel sigmoideo entrenado, vamos a realizar predicciones sobre el dataset de entrenamiento y observar el rendimiento del modelo, analizando la **matriz de confusión**.

In [None]:
from sklearn.metrics import confusion_matrix
import numpy as np
import pandas as pd

y_train_predict = svc_model.predict(X_train)

cm_train = np.array(confusion_matrix(y_train, y_train_predict, labels=[0,1]))

confusion_matrix_train = pd.DataFrame(cm_train, index=['Maligno (Real)', 'Benigno (Real)'], columns=['Maligno (Estimado)', 'Benigno (Estimado)'])

In [None]:
confusion_matrix_train

La matriz de confusión muestra que el modelo comete muchos errores al clasificar casos malignos del **dataset de entrenamiento**:
- Sólo 27 de los 167 casos malignos reales fueron clasificados correctamente, mientras que 140 fueron mal clasificados como benignos.
- En los casos benignos, el modelo acierta en 180 de los 288 casos, pero clasifica erróneamente 108 como malignos.

Veamos como lo hace en el **dataset de testeo**.

In [None]:
y_test_predict = svc_model.predict(X_test)

cm_test = np.array(confusion_matrix(y_test, y_test_predict, labels=[0,1]))

confusion_matrix_test = pd.DataFrame(cm_test, index=['Maligno (Real)', 'Benigno (Real)'], columns=['Maligno (Estimado)', 'Benigno (Estimado)'])


In [None]:
confusion_matrix_test

Esta matriz indica que el modelo tiene un **recall bajo para la clase maligna**, ya que **de 45 casos malignos reales, solo 8 fueron correctamente clasificados**, mientras que **37 fueron mal clasificados como benignos** (falsos negativos).

En el caso de la clase benigna, el modelo tiene un mejor desempeño, con **48 verdaderos positivos** sobre 69 casos reales.

Este resultado es **preocupante en contextos sensibles como el médico**, donde los falsos negativos pueden tener consecuencias graves. El modelo tiende a **subestimar la clase maligna**.

A continuación, analizaremos algunas métricas, empezando por el **accuracy**.

In [None]:
from sklearn.metrics import accuracy_score

print("Accuracy:",accuracy_score(y_test, y_test_predict))


Además, con Scikit-Learn podemos crear facilmente un **reporte de clasificación** para observar las distintas metricas.

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_test_predict))


Como podemos ver, el modelo tiene un **accuracy muy bajo (≈ 39 %)** y un **desempeño deficiente en ambas clases**. En particular, clasifica mal los casos **malignos** (clase 0), con una **precisión de 0.19** y un **recall de 0.29**. Esto indica que el modelo **no es adecuado en su forma actual** y necesita mejoras. Por lo tanto, vamos a probar con un **kernel distinto**; en este caso, utilizaremos un **kernel polinomial**.

## SVM no lineal con kernel polinomial
Vamos a entrenar un modelo **SVM no lineal** utilizando un **kernel polinomial**, con el objetivo de mejorar la capacidad del modelo para capturar relaciones más complejas entre los datos que no son linealmente separables.

### <font color='red'>**Actividad 3:**</font>

**a)** Crear un **modelo SVM no lineal con kernel polinomial** y ajustarlo a los datos de entrenamiento.

In [None]:
from sklearn.svm import SVC

svc_poly_model = SVC(kernel='poly', random_state=42)

svc_poly_model.fit(X_train, y_train)

### Evaluación del modelo SVM no lineal con kernel polinomial
Una vez creado el modelo y ajustado a los datos de entrenamiento vamos a analizar las predicciones.

### <font color='red'>**Actividad 4:**</font>

**a)** Evaluar el modelo en el **dataset de entrenamiento**, creando la **matriz de confusión**

In [None]:
y_train_predict_poly = svc_poly_model.predict(X_train)

cm_train_poly = np.array(confusion_matrix(y_train, y_train_predict_poly, labels=[0,1]))

confusion_matrix_train_poly = pd.DataFrame(cm_train_poly, index=['Maligno (Real)', 'Benigno (Real)'], columns=['Maligno (Estimado)', 'Benigno (Estimado)'])

In [None]:
confusion_matrix_train_poly

**b)** Evaluar el modelo en el **dataset de testeo**, creando la **matriz de confusión**


In [None]:
y_test_predict_poly = svc_poly_model.predict(X_test)

cm_test_poly = np.array(confusion_matrix(y_test, y_test_predict_poly, labels=[0,1]))

confusion_matrix_test_poly = pd.DataFrame(cm_test_poly, index=['Maligno (Real)', 'Benigno (Real)'],  columns=['Maligno (Estimado)', 'Benigno (Estimado)'])

In [None]:
confusion_matrix_test_poly

**c)** Imprimir el **Accuracy** para las predicciones en el **dataset de testeo**

In [None]:
accuracy_poly = accuracy_score(y_test, y_test_predict_poly)
print(f"Accuracy: {accuracy_poly:.4f}")

**d)** Imprimir el **reporte de clasificación en testeo**

In [None]:
print(classification_report(y_test, y_test_predict_poly))

Si todo salió bien, en este punto nos daremos cuenta que utilizar el kernel polinomial fue una mejor decisión y que ahora tenemos un Accuracy mayor que 90%.

Veamos que sucede si utilizamos un kernel lineal, es decir, SVM lineal.

## SVM Lineal

### <font color='red'>**Actividad 5:**</font>

**a)** Crear **un modelo SVM lineal** y ajustarlo a los datos de entrenamiento

In [None]:
svc_linear_model = SVC(kernel='linear', random_state=42)

svc_linear_model.fit(X_train, y_train)

### Evaluación del modelo SVM Lineal
Una vez creado el modelo y ajustado a los datos de entrenamiento vamos a analizar las predicciones.

### <font color='red'>**Actividad 6:**</font>

**a)** Evaluar el modelo en el **dataset de entrenamiento**, creando la **matriz de confusión**

In [None]:
y_train_predict_linear = svc_linear_model.predict(X_train)

cm_train_linear = np.array(confusion_matrix(y_train, y_train_predict_linear, labels=[0,1]))

confusion_matrix_train_linear = pd.DataFrame(cm_train_linear, index=['Maligno (Real)', 'Benigno (Real)'], columns=['Maligno (Estimado)', 'Benigno (Estimado)'])

In [None]:
confusion_matrix_train_linear

**b)** Evaluar el modelo en el **dataset de testeo**, creando la **matriz de confusión**

In [None]:
y_test_predict_linear = svc_linear_model.predict(X_test)

cm_test_linear = np.array(confusion_matrix(y_test, y_test_predict_linear, labels=[0,1]))

confusion_matrix_test_linear = pd.DataFrame(cm_test_linear, index=['Maligno (Real)', 'Benigno (Real)'], columns=['Maligno (Estimado)', 'Benigno (Estimado)'])

In [None]:
confusion_matrix_test_linear

**c)** Imprimir el **Accuracy** para las predicciones en el **dataset de testeo**

In [None]:
accuracy_linear = accuracy_score(y_test, y_test_predict_linear)
print(f"Accuracy: {accuracy_linear:.4f}")

**d)** Imprimir el reporte de clasificación en testeo

In [None]:
print(classification_report(y_test, y_test_predict_linear))

En este caso, deberiamos obtener un clasificador con un **Accuracy del 100% o muy cercano**. 

Naturalmente, esto no significa que hayamos creado un **modelo perfecto para la detección de cáncer**. En realidad, este dataset es un **conjunto de datos de ejemplo**, con una cantidad limitada de instancias, pensado principalmente para **fines educativos** y para aprender a utilizar distintos algoritmos de clasificación.

Para llevar un modelo de este tipo a **producción real**, sería necesario contar con un volumen de datos mucho mayor, representativo y de calidad, así como entrenar modelos más complejos y realizar una validación rigurosa.