# M√°quinas de Vectores de Soporte (SVM)
## Presentaci√≥n - Encuentro 4

---

## 1. ¬øQu√© es SVM?

### Concepto Simple
Las **M√°quinas de Vectores de Soporte (SVM)** son algoritmos que encuentran la **mejor manera de separar** diferentes grupos de datos.

### Analog√≠a Visual
Imagine que tiene **perros** y **gatos** mezclados en un patio. El SVM encuentra la **l√≠nea m√°s amplia** entre ellos para separarlos claramente.

---

## 2. Los 4 Conceptos Fundamentales

### 2.1 Hiperplano
- **Qu√© es**: La l√≠nea (o plano) que separa las clases
- **Objetivo**: Buscar la l√≠nea que est√© lo m√°s lejos posible de ambos grupos
- **Visualizaci√≥n**:
  - 2D: una l√≠nea recta
  - 3D: un plano
  - nD: un hiperplano (generalizaci√≥n)

    <img src="clasificador-c.jpg" width="600">

    [Imagen extraida de Luis G. Serrano - Machine Learning]()

### 2.2 Vectores de Soporte
- **Qu√© son**: Los puntos de datos **m√°s cercanos** a la l√≠nea de separaci√≥n
- **Importancia**: Solo necesitas estos puntos para clasificar nuevos datos
- **Ventaja**: Muy eficiente en memoria

  **Ejemplo**: 1000 muestras $\to$ 50 vectores (puntos) de soporte

### 2.3 Margen
- **Qu√© es**: El espacio libre entre la l√≠nea de separaci√≥n y los puntos m√°s cercanos
- **Objetivo**: Maximizar este espacio para crear una separaci√≥n m√°s robusta
- **Tipos**:
  - **Margen duro**: No permite errores
  - **Margen suave**: Permite algunos errores (m√°s flexible)

    <img src="clasificador-a.jpg" width="600">

    [Imagen extraida de Luis G. Serrano - Machine Learning]()

### 2.4 Kernel
- **Qu√© es**: Una funci√≥n que permite separaciones **no lineales** (curvas)
- **Tipos principales**:
  - **Lineal**: Separaciones rectas (m√°s r√°pido)
  - **RBF**: Separaciones curvas complejas (m√°s flexible)
  - **Polinomial**: Separaciones con curvas polin√≥micas
- **Cu√°ndo usar**: RBF para casos generales

---

## 3. Par√°metros Principales

### Par√°metro C (Regularizaci√≥n)
| Valor             | Significado                            | Uso Recomendado               |
|-------------------|----------------------------------------|-------------------------------|
| C grande (>100)   | L√≠nea r√≠gida, pocos errores permitidos | Cuando quieres alta precisi√≥n |
| C peque√±o (<1)    | L√≠nea flexible, m√°s errores permitidos | Cuando los datos tienen ruido |
| **Valor inicial** | C=1                                    | Punto de partida est√°ndar     |

### Par√°metro gamma (Solo para kernel RBF)
| Valor                | Significado          | Uso Recomendado         |
|----------------------|----------------------|-------------------------|
| gamma grande (>1)    | Curvas muy complejas | Riesgo de sobreajuste   |
| gamma peque√±o (<0.1) | Curvas suaves        | Mejor generalizaci√≥n    |
| **Valor inicial**    | gamma=0.1            | Valor seguro y est√°ndar |

### Grid Search
- **Qu√© es**: Prueba autom√°ticamente diferentes combinaciones de par√°metros
- **Ventaja**: Encuentra la mejor combinaci√≥n autom√°ticamente
- **Resultado**: Te entrega el modelo ya optimizado

---

## 4. Flujo de Trabajo con SVM

### Paso a Paso

1. **Preparar datos**
   - **CR√çTICO**: Normalizar con StandardScaler
   - SVM es muy sensible a la escala de los datos

2. **Dividir datos**
   - 80% para entrenamiento
   - 20% para prueba

3. **Grid Search**
   - Prueba diferentes combinaciones autom√°ticamente
   - Ya entrena el modelo con los mejores par√°metros

4. **Evaluar y visualizar**
   - Ver las fronteras de decisi√≥n
   - Calcular m√©tricas de rendimiento

### Ejemplo: Comparaci√≥n de SVM con GridSearchCV

In [None]:
# SVM (lineal, RBF y polinomial), GridSearchCV, 5-Fold y PCA para visualizaci√≥n

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, ConfusionMatrixDisplay, classification_report
from sklearn.decomposition import PCA
import warnings
warnings.filterwarnings('ignore')

# 1. Generar datos sint√©ticos (puedes cambiar n_features > 2 para probar PCA)
X, y = make_blobs(n_samples=400, centers=2, n_features=5, cluster_std=4, random_state=42)

# 2. Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 3. Definir la grilla de hiperpar√°metros
param_grid = [
    {'kernel': ['linear'], 'C': [0.1, 1, 10]},
    {'kernel': ['rbf'], 'C': [0.1, 1, 10], 'gamma': ['scale', 0.1, 1]},
    {'kernel': ['poly'], 'C': [0.1, 1, 10], 'degree': [2, 3, 4], 'gamma': ['scale', 0.1, 1]}
]

# 4. Crear el modelo base y el GridSearchCV con validaci√≥n cruzada (5 folds)
svm = SVC()
grid = GridSearchCV(estimator=svm, param_grid=param_grid, cv=5, n_jobs=-1, verbose=1)
grid.fit(X_train, y_train)

# 5. Mostrar los mejores par√°metros
print("üß† Mejor combinaci√≥n encontrada por GridSearchCV:")
print(grid.best_params_)
print(f"Mejor puntuaci√≥n media de validaci√≥n: {grid.best_score_:.3f}")

# 6. Evaluar el mejor modelo
best_svm = grid.best_estimator_
y_pred = best_svm.predict(X_test)

acc = accuracy_score(y_test, y_pred)
print(f"\nüéØ Precisi√≥n en el conjunto de prueba: {acc:.3f}")
print("\nüìä Reporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred))

# 7. Matriz de confusi√≥n
ConfusionMatrixDisplay.from_estimator(best_svm, X_test, y_test, cmap='Blues')
plt.title("Matriz de confusi√≥n del mejor SVM")
plt.show()

# 8. Reducci√≥n a 2D con PCA (solo para visualizaci√≥n)
if X.shape[1] > 2:
    print(f"\nüìâ Aplicando PCA: reducci√≥n de {X.shape[1]} ‚Üí 2 dimensiones para visualizaci√≥n.")
    pca = PCA(n_components=2)
    X_vis = pca.fit_transform(X)
else:
    X_vis = X  # si ya tiene 2 dimensiones, no aplicamos PCA

# 9. Visualizaci√≥n de fronteras de decisi√≥n
# ‚ö†Ô∏è Usamos PCA solo para graficar, no para entrenar el modelo (por claridad)
# En escenarios reales, puedes aplicar PCA antes del entrenamiento si lo deseas.

plt.figure(figsize=(8,6))

# Crear una malla 2D
x_min, x_max = X_vis[:, 0].min() - 1, X_vis[:, 0].max() + 1
y_min, y_max = X_vis[:, 1].min() - 1, X_vis[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 300),
                     np.linspace(y_min, y_max, 300))

# Si los datos fueron reducidos con PCA, proyectamos la malla al espacio original para predecir
if X.shape[1] > 2:
    # Invertimos la proyecci√≥n para estimar el espacio original
    grid_points = np.c_[xx.ravel(), yy.ravel()]
    grid_points_original = pca.inverse_transform(grid_points)
    Z = best_svm.predict(grid_points_original)
else:
    Z = best_svm.predict(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

# Dibujar fronteras
plt.contourf(xx, yy, Z, alpha=0.3, cmap='Accent')
plt.scatter(X_vis[:, 0], X_vis[:, 1], c=y, cmap='Accent', edgecolors='k')
plt.title(f"Fronteras de decisi√≥n del mejor SVM ({grid.best_params_['kernel']})")
plt.xlabel("Componente 1 (PCA)" if X.shape[1] > 2 else "Caracter√≠stica 1")
plt.ylabel("Componente 2 (PCA)" if X.shape[1] > 2 else "Caracter√≠stica 2")
plt.show()


## 5. ¬øCu√°ndo Usar SVM?

### ‚úÖ Ventajas
- **Eficiente en memoria**: Solo almacena vectores de soporte
- **Bueno con alta dimensionalidad**: Funciona bien con muchas caracter√≠sticas
- **Flexible**: Diferentes kernels para diferentes tipos de separaci√≥n
- **Robusto**: Resiste datos at√≠picos

### ‚ö†Ô∏è Desventajas
- **Lento con datasets muy grandes** (>10,000 muestras)
- **Requiere normalizaci√≥n** (no opcional)
- **Par√°metros sensibles** (requieren ajuste)

### üéØ Cu√°ndo Usar
- Dataset peque√±o a mediano (<10,000 muestras)
- Necesitas separaciones no lineales
- Trabajas con alta dimensionalidad
- Necesitas un modelo robusto

---

## 6. M√©tricas de Evaluaci√≥n

### Matriz de Confusi√≥n

| Real \ Predicci√≥n | Positiva        | Negativa        |
|-------------------|-----------------|-----------------|
| **Positiva**      | **VP** o **TP** | FN              |
| **Negativa**      | FP              | **VN** o **TN** |

#### Ejemplo:

| Real \ Predicho | Perro       | Gato        | P√°jaro      |
|-----------------|-------------|-------------|-------------|
| **Perro**       | **70 (TP)** | 5 (FN)      | 2 (FN)      |
| **Gato**        | 10 (FP)     | **85 (TP)** | 5           |
| **P√°jaro**      | 0 (FP)      | 3           | **95 (TP)** |


### M√©tricas Principales

**F√≥rmulas b√°sicas:**
- **Accuracy**: (TP + TN) / Total
- **Precision**: TP / (TP + FP)  
- **Recall**: TP / (TP + FN)
- **F1-Score**: 2 √ó (Precision √ó Recall) / (Precision + Recall)

| M√©trica       | Interpretaci√≥n                                |
|---------------|-----------------------------------------------|
| **Accuracy**  | Porcentaje de clasificaciones correctas      |
| **Precision** | De los predichos positivos, ¬øcu√°ntos son realmente positivos? |
| **Recall**    | De los realmente positivos, ¬øcu√°ntos detectamos? |
| **F1-Score**  | Balancea precisi√≥n y recall (media arm√≥nica)  |

### ¬øQu√© M√©trica Usar?

| Escenario                    | M√©trica Principal | Raz√≥n                           |
|------------------------------|-------------------|---------------------------------|
| Clases balanceadas           | **Accuracy**      | Representa bien el rendimiento  |
| Clase minoritaria importante | **F1-Score**      | Balancea ambas m√©tricas         |
| Evitar falsas alarmas        | **Precision**     | Ej: spam vs no-spam             |
| Detectar todos los casos     | **Recall**        | Ej: detecci√≥n de fallas, c√°ncer |
| Clases desbalanceadas        | **Macro F1**      | No se sesga por mayor√≠a         |

---

## 7. Mejores Pr√°cticas

### ‚úÖ Hacer SIEMPRE
1. **Normalizar datos** (cr√≠tico)
2. Usar **Grid Search** para encontrar mejores par√°metros
3. **Validaci√≥n cruzada** para evaluar robustez
4. Comparar **train vs test accuracy** para detectar sobreajuste
5. Empezar con valores conservadores de C y gamma

### ‚ùå Errores Comunes
1. **No normalizar** datos de prueba correctamente
2. **Usar datos de prueba durante entrenamiento**
3. **Ignorar sobreajuste** (train accuracy alta, test baja)
4. **Valores extremos** de C y gamma sin validar
5. **No visualizar** las fronteras de decisi√≥n

### üéØ Interpretaci√≥n de Resultados
- **Pocos vectores de soporte**: Modelo simple y generalizable ‚úÖ
- **Muchos vectores de soporte**: Modelo complejo (posible sobreajuste) ‚ö†Ô∏è
- **Train accuracy alta, test baja**: Sobreajuste (reducir C o gamma)
- **Baja accuracy en ambos**: Bajo rendimiento (cambiar kernel o par√°metros)

---

## 8. El Camino de los Datos: Entrenamiento ‚Üí Predicci√≥n

  <img src="ml-svm-blocos_diagram_01.png" width="500">

---

## 9. Entrenamiento del modelo

  <img src="ml-svm-blocos_diagram_02.png" width="700">


## 10. Puntos Clave para Recordar

### üéØ Los 3 Conceptos Esenciales
1. **Hiperplano**: La l√≠nea que separa clases
2. **Vectores de Soporte**: Puntos clave que definen la separaci√≥n
3. **Margen**: Espacio que queremos maximizar

### üîß Los 2 Par√°metros Cr√≠ticos
1. **C**: Controla cu√°nto errores permitir (C grande = menos errores)
2. **gamma**: Controla complejidad de curvas (gamma peque√±o = m√°s simple)

### ‚úÖ El Flujo Clave
1. Normalizar ‚ö†Ô∏è (SIEMPRE)
2. Grid Search (optimizaci√≥n autom√°tica)
3. Visualizar (entender el modelo)
4. Evaluar (m√©tricas adecuadas)

---

## 11. Pr√≥ximos Pasos

### Para Practicar
1. ‚úÖ Ejecutar el notebook de pr√°ctica
2. ‚úÖ Probar diferentes kernels (lineal, RBF)
3. ‚úÖ Cambiar par√°metros C y gamma
4. ‚úÖ Aplicar a dataset real (ej: Iris)
5. ‚úÖ Experimentar con datos multiclase

### Para Profundizar
- Explorar SVM multiclase
- Implementar en casos industriales reales
- Comparar con otros algoritmos (Random Forest, Redes Neuronales)
- Estudiar teor√≠a matem√°tica de SVM

---

## 12. Recursos y Referencias

### Documentaci√≥n
- Grokking Machine Learning, Luis G. Serrano, 2021
- [Scikit-learn: SVM](https://scikit-learn.org/stable/modules/svm.html)
- [Grid Search Documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

### Para Aprender M√°s
- Libro: "Pattern Recognition and Machine Learning" - Christopher Bishop
- Curso: Machine Learning por Andrew Ng (Coursera)

---

## ¬øPreguntas?

*Tiempo restante para preguntas y discusi√≥n*

---

## Ap√©ndice: Comparaci√≥n R√°pida con Otros Algoritmos

| Algoritmo           | Interpretabilidad | Escalabilidad | Datos No Lineales | Velocidad |
|---------------------|-------------------|---------------|-------------------|-----------|
| **SVM**             | Media             | Baja          | Excelente         | Media     |
| Random Forest       | Alta              | Alta          | Buena             | Alta      |
| Redes Neuronales    | Baja              | Media         | Excelente         | Media     |
| Regresi√≥n Log√≠stica | Alta              | Alta          | Limitada          | Alta      |

