**Entrenamiento y evaluación de un SVM**

By Jean Carlo Alvarez

**Importar lIbrerias**

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

**pandas y numpy** para manejo de datos.

**train_test_split** para dividir los datos en entrenamiento y prueba

**StandardScaler** para escalar (normalizar) los datos

**SVC** para entrenar un Support Vector Classifier

**accuracy_score, classification_report, confusion_matrix** para medir el desempeño del modelo

In [2]:
# Cargar el dataset
df = pd.read_csv('dataset_svm.csv')

**pd.read_csv()** para leer nuestro archivo CSV

In [3]:
# Separar las características (X) de la etiqueta (y)
X = df[['x1', 'x2', 'x3', 'x4', 'x5']]
y = df['Clase']

**X** contendrá solamente las 5 columnas de características.

**y** será la columna “Clase”, que es la etiqueta a predecir.

In [4]:
# Dividir el dataset en entrenamiento y prueba (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**train_test_split** divide el dataset en dos partes: entrenamiento (80%) y prueba (20%)

**random_state=42** para reproducibilidad de resultados

**Nota reproducibilidad:** significa que otros investigadores o desarrolladores pueden obtener exactamente los mismos resultados que tú cuando ejecutan tu código. Es como una receta de cocina: si sigues los mismos pasos con los mismos ingredientes, obtendrás el mismo platillo.
En programación, esto es crucial porque muchos algoritmos usan números aleatorios. Al fijar una "semilla" (como random_state=42), garantizamos que esa "aleatoriedad" sea idéntica en cada ejecución

Esto ayuda a

- Verificar resultados

- Depurar código

- Comparar modelos justamente

- Documentar hallazgos de forma confiable

In [5]:
# Normalizar o escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**StandardScaler()** aplica estandarización (restar media y dividir por desviación estándar).

Ajustamos (fit) el escalador con los datos de entrenamiento y después transformamos tanto los de entrenamiento como los de prueba

SVM suele beneficiarse de características escaladas.

In [6]:
# Crear el modelo SVM
#    kernel='rbf' suele ser una buena elección general
model = SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)

**SVC()** crea un modelo de Support Vector Classifier

**kernel='rbf'** especifica el uso de la función “Radial Basis Function”

**C=1.0** es el parámetro de regularización

**gamma='scale'** ajusta automáticamente el parámetro gamma de acuerdo al número de características

Parametros explicados a detalle

**kernel:**

- 'rbf': Kernel gaussiano (predeterminado). Útil para datos no lineales.
- 'linear': Kernel lineal para datos linealmente separables.
- 'poly': Kernel polinomial para relaciones polinómicas.
- 'sigmoid': Kernel sigmoide, similar a una red neuronal.

**C (float > 0):**

- Valor alto: Menor margen, más ajuste a los datos de entrenamiento.
- Valor bajo: Mayor margen, más generalización.
- Default=1.0

**gamma:**

- 'scale': 1/(n_features * X.var()) (predeterminado)
  - Se ajusta según la varianza de los datos

  - Mejor opción general para la mayoría de casos

- 'auto': 1/n_features

 - Solo considera el número de características

 - Puede dar resultados subóptimos con datos muy dispersos


- float > 0: Valor manual

 - Valores altos (ej: 10, 100):

    - Considera solo puntos muy cercanos
    - Crea límites de decisión más complejos y curvados
    - Mayor riesgo de sobreajuste

 -  Valores bajos (ej: 0.0001, 0.001):

   - Considera puntos más lejanos
   - Crea límites de decisión más suaves
   - Mayor capacidad de generalización

  
 ** Regla práctica:**

Datos dispersos → gamma más bajo

Datos agrupados → gamma más alto

En duda → usar 'scale'


In [7]:
# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train_scaled, y_train)

Entrenamos el modelo con nuestros datos de entrenamiento escalados (X_train_scaled) y sus etiquetas (y_train)

In [8]:
# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test_scaled)

Calculamos las predicciones del modelo sobre los datos de prueba

In [9]:
# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print("Exactitud (accuracy):", accuracy)

Exactitud (accuracy): 0.65


**accuracy_score** mide la proporción de muestras correctamente clasificadas

In [10]:
# Mostrar más métricas de desempeño
print("\nMatriz de confusión:")
print(confusion_matrix(y_test, y_pred))


Matriz de confusión:
[[5 4]
 [3 8]]


**confusion_matrix** muestra cuántas muestras de cada clase fueron correctamente (o incorrectamente) clasificadas

In [11]:
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))


Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.62      0.56      0.59         9
           1       0.67      0.73      0.70        11

    accuracy                           0.65        20
   macro avg       0.65      0.64      0.64        20
weighted avg       0.65      0.65      0.65        20



**classification_report** da estadísticas como precisión (precision), exhaustividad (recall) y F1-score