# Actividad:SVM (Breast Cancer)



**Objetivo:** aplicar SVM a un conjunto de datos real (Breast Cancer Wisconsin) y comparar:
- **SVM lineal** vs **SVM con kernel RBF**
- Ver los efectos del **escalado**
- Evaluación con métricas y matrices de confusión
- Breast Cancer Wiscosin está incluido en sklearn. Puedes encontrarlo [aquí](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html)


**SVC** es la clase que:

- se instancia para crear el modelo (svm_lineal, svm_rbf),

- se entrena con fit,

- se usa para predecir con predict.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

## 1. Carga y estudio del conjunto de datos

El conjunto **Breast Cancer Wisconsin** es un dataset real de clasificación binaria. El objetivo es predecir si un tumor es **maligno** o **benigno** a partir de características numéricas.

En esta celda:
- cargaremos los datos,
- revisaremos dimensiones,
- comprobaremos la distribución de clases.

| Variable | Qué representa                         |
| -------- | -------------------------------------- |
| `data`   | Dataset completo (datos + metadatos)   |
| `X`      | Variables de entrada (características) |
| `y`      | Variable objetivo (clase)              |


In [None]:
data = load_breast_cancer()


{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]], shape=(569, 30)),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1,

### Vista rápida de algunas características

Mostramos las 5 primeras filas para ver el tipo de datos.

df es un DataFrame de pandas que ya contiene las características (X).

'target' es el nombre de la nueva columna que se va a crear.

y es el vector de etiquetas (la clase de cada muestra).
tras ejecutar la siguiente celda tendremos:   
columnas → características + target

filas → cada muestra con:

sus variables

su clase (0 o 1)

### Distribución de clases

En problemas de clasificación es importante verificar si hay **desbalanceo**.
El desbalanceo indica si hay equilibrio entre los datos que hay correspondientes a cada clase
Estudiando la gráfica comprobamos si hay un número parecido de casos en cada categoría

## 2. Preparación de datos: Train/Test y escalado

Dividimos en entrenamiento y prueba usando `stratify=y` para mantener la proporción de clases. Después, aplicaremos **StandardScaler** (media 0, desviación 1).=> estandarizamos (aunque coloquialmente podeos decir normalizamos)

## 3. Entrenamiento y evaluación de modelos SVM

Entrenaremos dos modelos:
- **SVM lineal** 
- **SVM RBF** (no lineal)

Evaluaremos con:
- accuracy -> exhaustividad
- matriz de confusión
- classification report -> Muestra varias métricas: Precision, Recall(De todos los casos reales de esa clase, ¿cuántos ha detectado el modelo?),
- F1-score


### 3.1 SVM con kernel lineal

Usamos **C=1** como valor base (es un buen inicio).

### 3.2 SVM con kernel RBF

Probaremos un primer modelo con valores razonables de C y gamma. Después, probaremos más combinaciones

### 3.3 Ajuste manual básico

Probamos algunas combinaciones de **C** y **gamma** y guardamos la mejor según **accuracy** en test. 

## 4. Resumen

Responde brevemente:
1. ¿Qué modelo ha rendido mejor, lineal o RBF?
2. ¿Cómo cambia el rendimiento al variar C y gamma?
3. ¿Por qué es importante el escalado en SVM?

> *Sugerencia:* apóyate en la matriz de confusión y en el classification report.