## Coding Exercise #0311

### 1. Classification with SVM:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.datasets import load_iris
warnings.filterwarnings(action='ignore')                  # Turn off the warnings.
%matplotlib inline

#### 1.1. Read in data:

In [2]:
# Load data.
data = load_iris()

In [3]:
# Explanatory variables.
X = data['data']
columns = list(data['feature_names'])
print(columns)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [4]:
# Response variable.
Y = data['target']
labels = list(data['target_names'])
print(labels)

['setosa', 'versicolor', 'virginica']


In [5]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1234)

#### 1.2. SVM hyperparameter optimization (RBF kernel):

C     : Penalty parameter. <br>
gamma : kernel parameter ($\gamma$).

In [6]:
'''
Definición de rangos de valores para los hiperparámetros "C" y "gamma"
- C controla la penalización de errores en el modelo SVM. Un valor alto da más 
  importancia a la clasificación correcta de cada muestra, mientras que un valor 
  bajo permite más errores para evitar sobreajuste.

- Gamma define la influencia de un único punto de datos en el kernel RBF. Un valor 
  bajo significa una influencia amplia, mientras que un valor alto concentra la 
  influencia cerca de los datos.
'''
C_grid = 0.02 * np.arange(1, 20)  # Genera un arreglo de valores para el parámetro "C", desde 0.02 hasta 0.38 (con pasos de 0.02).
gamma_grid = 0.02 * np.arange(1, 50)  # Genera un arreglo de valores para el parámetro "gamma", desde 0.02 hasta 0.98 (con pasos de 0.02).

# Creación de un diccionario con los hiperparámetros a explorar
parameters = {'C': C_grid, 'gamma': gamma_grid}

# Configuración del GridSearchCV
# Se utiliza un modelo de SVM con kernel radial basis function (rbf).
# La búsqueda en cuadrícula (GridSearchCV) probará todas las combinaciones posibles de los valores de "C" y "gamma" especificados en el diccionario.
# "cv=10" indica que se usará validación cruzada con 10 particiones.
# "n_jobs=-1" permite usar todos los núcleos disponibles de la CPU para acelerar la búsqueda.
gridCV = GridSearchCV(SVC(kernel='rbf'), parameters, cv=10, n_jobs=-1)

# Ajuste del modelo a los datos de entrenamiento
# Esto realizará la búsqueda de los mejores valores de "C" y "gamma" basándose en el rendimiento de validación cruzada.
gridCV.fit(X_train, Y_train)

# Obtención de los mejores valores de hiperparámetros
best_C = gridCV.best_params_['C']  # El valor óptimo del parámetro "C".
best_gamma = gridCV.best_params_['gamma']  # El valor óptimo del parámetro "gamma".


In [7]:
print("SVM best C : " + str(best_C))
print("SVM best gamma : " + str(best_gamma))

SVM best C : 0.2
SVM best gamma : 0.78


In [8]:
SVM_best = SVC(kernel='rbf', C=best_C,gamma=best_gamma)
SVM_best.fit(X_train, Y_train)
Y_pred = SVM_best.predict(X_test)
print( "SVM best accuracy : " + str(np.round(metrics.accuracy_score(Y_test,Y_pred),3)))

SVM best accuracy : 0.978


#### 1.3. SVM hyperparameter optimization (Polynomial kernel):

In [9]:
C_grid = 0.0001*np.arange(1,30)
gamma_grid = 0.01*np.arange(1,30)
parameters = {'C': C_grid, 'gamma' : gamma_grid}
gridCV = GridSearchCV(SVC(kernel='poly'), parameters, cv=10, n_jobs=-1)              # "n_jobs = -1" means "use all the CPU cores".
gridCV.fit(X_train, Y_train)
best_C = gridCV.best_params_['C']
best_gamma = gridCV.best_params_['gamma']

In [10]:
print("SVM best C : " + str(best_C))
print("SVM best gamma : " + str(best_gamma))

SVM best C : 0.0007
SVM best gamma : 0.27


In [11]:
SVM_best = SVC(kernel='poly', C=best_C,gamma=best_gamma)
SVM_best.fit(X_train, Y_train);
Y_pred = SVM_best.predict(X_test)
print( "SVM best accuracy : " + str(np.round(metrics.accuracy_score(Y_test,Y_pred),3)))

SVM best accuracy : 0.956
