Aplicación de Máquinas de Vectores de Soporte (SVM) para clasificación, utilizando el conjunto de datos Iris. El objetivo principal es optimizar los hiperparámetros del modelo SVM utilizando diferentes kernels (RBF y polinomial) y evaluar su rendimiento.

### 1. Classification with SVM:

In [8]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.datasets import load_iris
warnings.filterwarnings(action='ignore')                  # Turn off the warnings.
%matplotlib inline

#### 1.1. Read in data:

In [10]:
data = load_iris()

In [12]:
# Explanatory variables.
X = data['data']
columns = list(data['feature_names'])
print(columns)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [14]:
# Response variable.
Y = data['target']
labels = list(data['target_names'])
print(labels)

['setosa', 'versicolor', 'virginica']


In [18]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1234)

#### 1.2. SVM hyperparameter optimization (RBF kernel):

C     : Penalty parameter. <br>
gamma : kernel parameter ($\gamma$).

C and gamma are hyperparameters of the Support Vector Machine (SVM) classifier in Scikit-learn, specifically for kernels such as 'rbf', 'poly' and 'sigmoid'.

1. 'C' is the Regularization parameter. The strength of the regularization is inversely proportional to C. This hyperparameter helps to avoid overfitting by maintaining a trade-off between achieving a low training error and a low testing error. A smaller value of C creates a wider margin, but more margin violations (more data points will fall into the margin). A larger value of C creates a narrower margin because it doesn't want any violations, possibly leading to overfitting.

2. 'gamma' defines how far the influence of a single training example reaches, with low values meaning 'far' and high values meaning 'close'. In other words, with low gamma, points far away from plausible seperation line are considered in calculation for the seperation line.

These hyperparameters can be fine-tuned to achieve the most accurate and generalized model possible. 

In [20]:
C_grid = 0.02*np.arange(1,20)
print(C_grid)
gamma_grid = 0.02*np.arange(1,50)
parameters = {'C': C_grid, 'gamma' : gamma_grid}

# Q: Optimize the previous parameters (Grid Search CV with SVC as estimator (kernel = rbf"), 
# parameters, cv = 10 and n_jobs = -1 for using all the CPU cores)
gridCV = GridSearchCV(nSVC(kernel="rbf"), param_grid=parameters, cv=10, n_jobs=-1)
gridCV.fit(X_train, Y_train)
best_C = gridCV.best_params_['C']
best_gamma = gridCV.best_params_['gamma']

[0.02 0.04 0.06 0.08 0.1  0.12 0.14 0.16 0.18 0.2  0.22 0.24 0.26 0.28
 0.3  0.32 0.34 0.36 0.38]


In [21]:
print("SVM best C : " + str(best_C))
print("SVM best gamma : " + str(best_gamma))

SVM best C : 0.2
SVM best gamma : 0.78


In [24]:
# Q: Instantiate, test and predict with the best C and gamma.
# Optimización de hiperparámetros para el kernel RBF:
SVM_best = SVC(kernel="rbf", C=best_C, gamma=best_gamma)
SVM_best.fit(X_train, Y_train)
Y_pred = SVM_best.predict(X_test)
print( "SVM best accuracy : " + str(np.round(metrics.accuracy_score(Y_test,Y_pred),3)))

SVM best accuracy : 0.978


#### 1.3. SVM hyperparameter optimization (Polynomial kernel):

In [26]:
C_grid = 0.0001*np.arange(1,30)
gamma_grid = 0.01*np.arange(1,30)
parameters = {'C': C_grid, 'gamma' : gamma_grid}


# Q: Optimize the previous parameters (Grid Search CV with SVC as estimator (kernel = poly"), 
# parameters, cv = 10 and n_jobs = -1 for using all the CPU cores)
# Optimización de hiperparámetros para el kernel polinomial:
gridCV = GridSearchCV(SVC(kernel="poly"), param_grid=parameters, cv=10, n_jobs=-1)
gridCV.fit(X_train, Y_train)
best_C = gridCV.best_params_['C']
best_gamma = gridCV.best_params_['gamma']

In [28]:
print("SVM best C : " + str(best_C))
print("SVM best gamma : " + str(best_gamma))

SVM best C : 0.0007
SVM best gamma : 0.27


In [30]:
# Q: Instantiate, test and predict with the best C and gamma.
SVM_best = SVC(kernel="poly", C=best_C, gamma=best_gamma)
SVM_best.fit(X_train, Y_train)
Y_pred = SVM_best.predict(X_test)
print( "SVM best accuracy : " + str(np.round(metrics.accuracy_score(Y_test,Y_pred),3)))

SVM best accuracy : 0.956


Kernel RBF (Radial Basis Function):
SVM best accuracy : 0.978
Este resultado indica que el modelo SVM con kernel RBF, después de la optimización de hiperparámetros, logró una precisión del 97.8% en el conjunto de prueba. Esto significa que el modelo clasificó correctamente el 97.8% de las muestras del conjunto de prueba.
Kernel Polinomial:
SVM best accuracy : 0.956
Este resultado muestra que el modelo SVM con kernel polinomial, tras la optimización de hiperparámetros, alcanzó una precisión del 95.6% en el conjunto de prueba.

Conclusiones:

Ambos modelos tienen un rendimiento excelente, con precisiones superiores al 95%. Esto sugiere que el conjunto de datos Iris es bastante separable y que SVM es un método apropiado para este problema de clasificación.
El kernel RBF superó ligeramente al kernel polinomial en este caso específico (97.8% vs 95.6%). Esto es bastante común, ya que el kernel RBF suele ser más versátil y eficaz en una amplia gama de problemas.
La diferencia de rendimiento entre los dos kernels es relativamente pequeña (2.2 puntos porcentuales). Esto sugiere que ambos kernels son capaces de capturar bien la estructura de los datos.
El alto rendimiento de ambos modelos indica que probablemente no hay mucho sobreajuste, ya que las precisiones son muy altas en el conjunto de prueba.
Dado que el conjunto de datos Iris tiene solo 150 muestras, es posible que la diferencia observada entre los dos kernels no sea estadísticamente significativa. Se necesitaría un análisis más detallado (por ejemplo, validación cruzada repetida) para confirmar si la diferencia es consistente.
El proceso de optimización de hiperparámetros fue efectivo para ambos kernels, permitiendo obtener modelos con alto rendimiento.

En resumen, ambos modelos SVM (con kernel RBF y polinomial) son muy eficaces para clasificar el conjunto de datos Iris, con el kernel RBF mostrando un ligero mejor rendimiento en este caso particular. La elección entre uno u otro en una aplicación práctica podría depender de factores adicionales como la velocidad de entrenamiento y predicción, la interpretabilidad del modelo, o el rendimiento en validación cruzada.