# Clasificación con Support Vector Machines (SVM)

---
**Autor:** Balbuena Palma José Ángel

**Fecha:** 25 Octubre 2025

## Objetivo

Este notebook implementa un análisis completo de clasificación utilizando Support Vector Machines (SVM) con diferentes kernels. El objetivo es:

- Explorar y visualizar un dataset de clasificación
- Entrenar modelos SVM con diferentes kernels (linear, poly, rbf, sigmoid)
- Optimizar hiperparámetros usando GridSearchCV
- Evaluar y comparar el rendimiento de los modelos
- Visualizar las regiones de decisión

---

## 1. Importación de Librerías

In [2]:
# Tratamiento de datos
import pandas as pd
import numpy as np

# Gráficos
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
from mlxtend.plotting import plot_decision_regions

# Preprocesado y modelado
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuración
plt.rcParams['image.cmap'] = "bwr"
plt.rcParams['savefig.bbox'] = "tight"
plt.rcParams['figure.figsize'] = (10, 6)
style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')

print("✓ Librerías importadas correctamente")

✓ Librerías importadas correctamente


## 2. Carga de Datos

Utilizaremos el dataset ESL.mixture que contiene datos de clasificación binaria con dos características (X1, X2).

In [None]:
# URL del dataset
url = ('https://raw.githubusercontent.com/JoaquinAmatRodrigo/'
       'Estadistica-machine-learning-python/master/data/ESL.mixture.csv')

# Cargar datos
data = pd.read_csv(url)

print(f"Datos cargados exitosamente. Forma: {data.shape}")
print(f"\nColumnas: {list(data.columns)}")
data.head()

## 3. Análisis Exploratorio de Datos (EDA)

In [None]:
# Información general
print("=" * 60)
print("INFORMACIÓN GENERAL DEL DATASET")
print("=" * 60)
print(f"\nForma: {data.shape}")
print(f"\nTipos de datos:")
print(data.dtypes)
print(f"\nValores faltantes:")
print(data.isnull().sum())

In [None]:
# Estadísticas descriptivas
data.describe()

In [None]:
# Distribución de clases
print("Distribución de clases:")
print(data['y'].value_counts())
print(f"\nProporción:")
print(data['y'].value_counts(normalize=True))

## 4. Visualización de Datos

In [None]:
# Preparar datos para visualización
X = data[['X1', 'X2']].values
y = data['y'].values

# Gráfico de dispersión
plt.figure(figsize=(10, 8))
colors = ['#e74c3c' if label == 0 else '#3498db' for label in y]
plt.scatter(X[:, 0], X[:, 1], c=colors, alpha=0.6, s=50, edgecolors='k', linewidth=0.5)

plt.xlabel('X1', fontsize=12)
plt.ylabel('X2', fontsize=12)
plt.title('Distribución de los datos por clase', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

# Leyenda
plt.scatter([], [], c='#e74c3c', alpha=0.6, s=50, label='Clase 0', edgecolors='k')
plt.scatter([], [], c='#3498db', alpha=0.6, s=50, label='Clase 1', edgecolors='k')
plt.legend(loc='best', fontsize=10)

plt.tight_layout()
plt.show()

## 5. División de Datos

Dividimos los datos en conjuntos de entrenamiento (80%) y prueba (20%).

In [None]:
# División estratificada
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} muestras")
print(f"\nDistribución de clases en entrenamiento:")
print(pd.Series(y_train).value_counts())
print(f"\nDistribución de clases en prueba:")
print(pd.Series(y_test).value_counts())

## 6. Entrenamiento de Modelos SVM con Diferentes Kernels

Entrenaremos modelos SVM con cuatro tipos de kernels:
- **Linear**: para problemas linealmente separables
- **Polynomial**: para relaciones polinómicas
- **RBF (Radial Basis Function)**: kernel más popular, funciona bien en la mayoría de casos
- **Sigmoid**: similar a redes neuronales

In [None]:
# Diccionario para almacenar resultados
models = {}
kernels = ['linear', 'poly', 'rbf', 'sigmoid']

print("=" * 60)
print("ENTRENAMIENTO DE MODELOS SVM")
print("=" * 60)

for kernel in kernels:
    print(f"\n{'='*60}")
    print(f"Kernel: {kernel.upper()}")
    print("="*60)
    
    # Crear y entrenar modelo
    model = SVC(kernel=kernel, random_state=42)
    model.fit(X_train, y_train)
    
    # Predicciones
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    
    # Métricas
    train_accuracy = accuracy_score(y_train, y_pred_train)
    test_accuracy = accuracy_score(y_test, y_pred_test)
    
    # Guardar resultados
    models[kernel] = {
        'model': model,
        'train_accuracy': train_accuracy,
        'test_accuracy': test_accuracy,
        'y_pred_test': y_pred_test
    }
    
    print(f"Precisión en entrenamiento: {train_accuracy:.4f}")
    print(f"Precisión en prueba: {test_accuracy:.4f}")
    print(f"Diferencia (overfitting): {train_accuracy - test_accuracy:.4f}")

print("\n✓ Todos los modelos entrenados correctamente")

## 7. Comparación de Modelos

In [None]:
# Crear DataFrame con resultados
results = []
for kernel, model_info in models.items():
    results.append({
        'Kernel': kernel,
        'Precisión Train': model_info['train_accuracy'],
        'Precisión Test': model_info['test_accuracy'],
        'Diferencia': model_info['train_accuracy'] - model_info['test_accuracy']
    })

df_results = pd.DataFrame(results)
df_results = df_results.sort_values('Precisión Test', ascending=False)

print("COMPARACIÓN DE MODELOS")
print("=" * 60)
df_results

In [None]:
# Gráfico comparativo
fig, ax = plt.subplots(figsize=(12, 6))

x = np.arange(len(df_results))
width = 0.35

bars1 = ax.bar(x - width/2, df_results['Precisión Train'], 
               width, label='Entrenamiento', alpha=0.8, color='#2ecc71')
bars2 = ax.bar(x + width/2, df_results['Precisión Test'], 
               width, label='Prueba', alpha=0.8, color='#3498db')

ax.set_xlabel('Kernel', fontsize=12)
ax.set_ylabel('Precisión', fontsize=12)
ax.set_title('Comparación de Precisión por Kernel', fontsize=14, fontweight='bold')
ax.set_xticks(x)
ax.set_xticklabels(df_results['Kernel'])
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3, axis='y')

# Añadir valores en las barras
for bars in [bars1, bars2]:
    for bar in bars:
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.3f}',
                ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

## 8. Optimización de Hiperparámetros

Utilizaremos GridSearchCV para optimizar los hiperparámetros del kernel RBF, que generalmente ofrece buen rendimiento.

In [None]:
# Definir grilla de parámetros para RBF
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1]
}

print("=" * 60)
print("OPTIMIZACIÓN DE HIPERPARÁMETROS - KERNEL RBF")
print("=" * 60)
print(f"\nParámetros a optimizar:")
for param, values in param_grid.items():
    print(f"  {param}: {values}")

# Modelo base
svm_rbf = SVC(kernel='rbf', random_state=42)

# GridSearchCV
grid_search = GridSearchCV(
    svm_rbf, 
    param_grid, 
    cv=5, 
    scoring='accuracy',
    n_jobs=-1,
    verbose=1
)

print("\nIniciando búsqueda...")
grid_search.fit(X_train, y_train)

In [None]:
# Resultados de la optimización
print("\n" + "=" * 60)
print("RESULTADOS DE LA OPTIMIZACIÓN")
print("=" * 60)

print(f"\nMejores parámetros:")
for param, value in grid_search.best_params_.items():
    print(f"  {param}: {value}")

print(f"\nMejor puntuación CV: {grid_search.best_score_:.4f}")

# Guardar mejor modelo
best_model = grid_search.best_estimator_

# Evaluar en conjunto de prueba
y_pred_best = best_model.predict(X_test)
test_accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"Precisión en conjunto de prueba: {test_accuracy_best:.4f}")

In [None]:
# Visualizar resultados de GridSearch
cv_results = pd.DataFrame(grid_search.cv_results_)
cv_results_pivot = cv_results.pivot_table(
    values='mean_test_score',
    index='param_C',
    columns='param_gamma'
)

plt.figure(figsize=(12, 8))
sns.heatmap(cv_results_pivot, annot=True, fmt='.4f', cmap='YlOrRd', 
            cbar_kws={'label': 'Precisión CV'})
plt.title('Precisión del modelo según hiperparámetros (C y gamma)', 
          fontsize=14, fontweight='bold')
plt.xlabel('Gamma', fontsize=12)
plt.ylabel('C', fontsize=12)
plt.tight_layout()
plt.show()

## 9. Evaluación del Modelo Optimizado

In [None]:
# Reporte de clasificación
print("=" * 60)
print("REPORTE DE CLASIFICACIÓN - MODELO OPTIMIZADO")
print("=" * 60)
print(f"\n{classification_report(y_test, y_pred_best)}")

In [None]:
# Matriz de confusión
cm = confusion_matrix(y_test, y_pred_best)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Clase 0', 'Clase 1'],
            yticklabels=['Clase 0', 'Clase 1'],
            cbar_kws={'label': 'Frecuencia'})
plt.title('Matriz de Confusión - Modelo Optimizado', fontsize=14, fontweight='bold')
plt.ylabel('Valor Real', fontsize=12)
plt.xlabel('Predicción', fontsize=12)
plt.tight_layout()
plt.show()

print(f"\nMatriz de confusión:")
print(cm)

## 10. Visualización de Regiones de Decisión

In [None]:
# Visualizar regiones de decisión para todos los kernels
fig, axes = plt.subplots(2, 2, figsize=(14, 12))
axes = axes.ravel()

for idx, (kernel, model_info) in enumerate(models.items()):
    ax = axes[idx]
    
    # Plotear regiones de decisión
    plot_decision_regions(X=X_test, y=y_test, 
                          clf=model_info['model'], 
                          legend=2, ax=ax)
    
    ax.set_xlabel('X1', fontsize=11)
    ax.set_ylabel('X2', fontsize=11)
    ax.set_title(f"Kernel: {kernel} | Precisión: {model_info['test_accuracy']:.4f}",
                fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Visualizar regiones de decisión del modelo optimizado
plt.figure(figsize=(12, 8))

plot_decision_regions(X=X_test, y=y_test, clf=best_model, legend=2)

plt.xlabel('X1', fontsize=12)
plt.ylabel('X2', fontsize=12)
plt.title(f'Regiones de Decisión - Modelo Optimizado (RBF)\n'
          f'C={grid_search.best_params_["C"]}, gamma={grid_search.best_params_["gamma"]} | '
          f'Precisión: {test_accuracy_best:.4f}',
          fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

## 11. Conclusiones

### Resumen de Resultados

En este análisis hemos implementado y comparado modelos SVM con diferentes kernels para un problema de clasificación binaria:

**Comparación de Kernels:**
- El kernel **RBF** generalmente ofrece el mejor rendimiento para este dataset
- El kernel **polynomial** puede presentar overfitting dependiendo del grado
- El kernel **linear** funciona bien cuando los datos son linealmente separables
- El kernel **sigmoid** puede ser útil en algunos casos específicos

**Optimización de Hiperparámetros:**
- Los parámetros C y gamma tienen un impacto significativo en el rendimiento del modelo RBF
- La validación cruzada ayuda a encontrar la mejor combinación de hiperparámetros
- Es importante balancear la precisión en entrenamiento y prueba para evitar overfitting

**Visualización:**
- Las regiones de decisión muestran cómo cada kernel separa las clases
- Los kernels no lineales pueden capturar fronteras de decisión más complejas

### Recomendaciones

1. Siempre probar múltiples kernels antes de seleccionar el mejor
2. Utilizar validación cruzada para optimizar hiperparámetros
3. Monitorear el overfitting comparando precisión en train y test
4. Considerar la escalabilidad del modelo según el tamaño del dataset
5. Evaluar múltiples métricas (precisión, recall, F1-score) según el problema

---