In [None]:
# Grid Search

In [1]:
# Cómo importar las librerías
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
# Importar el data set
dataset = pd.read_csv('Social_Network_Ads.csv')

X = dataset.iloc[:, [2,3]].values
y = dataset.iloc[:, 4].values

In [3]:
# Sabemos que al dataset le habia ido mejor con técnicas no lineales en vez de las lineales
# También sabemos que el Kernel SVM es uno de los modelos con más hiperparámetros

In [4]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [5]:
# Escalado de variables
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [6]:
# Ajustar el clasificador en el conjunto de enrtenamiento
from sklearn.svm import SVC
classifier = SVC(kernel = "rbf", random_state = 0)
classifier.fit(X_train, y_train)

In [7]:
# Predicción de los resultados con el Conjunto de Testing
y_pred  = classifier.predict(X_test)

In [8]:
# Elaborar una matriz de confusión
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

In [9]:
# NUEVO: Dividir los datos de train con k-Fold Validation (normalmente se usa kfold=10, para obtener 10 precisiones)
from sklearn.model_selection import cross_val_score # cvs me devuelve la precisión de cada iteración (luego las promediamos)
accuracies = cross_val_score(estimator= classifier, X=X_train, y=y_train, cv=10)
# Con n_jobs podemos trabajar con grandes muestras de datos, para trabajar en diferentes CPUs con los datos
accuracies # vemos las predicciones de los 10 procesos de entrenamiento diferenciado (tomando su media me da una idea del rendimiento del modelo)
print(accuracies.mean()) # Rendimiento global del modelo (mejor que train/test) [SESGO BAJO]
print(accuracies.std()) # Desviación estándar entre cada iteración (varía en promedio la eficiencia en un +- 6%, que no es tan alta) [VARIANZA BAJA]

0.9033333333333333
0.06574360974438671


In [19]:
# Aplicar la mejora de Grid Search para optimizar el modelo y sus parámetros
from sklearn.model_selection import GridSearchCV # cross-validation
parameters = [{ 'C': [1,10,100,1000], 'kernel':['linear']}, # ponemos un diccionario con los parámetros del modelo que buscamos optimizar y un número de valores sobre los que queremos que lo evalúe y nos diga el óptimo
             {'C': [1,10,100,1000,], 'kernel':['rbf'], 'gamma': [0.5,0.1,0.01,0.001,0.0001]} # separamos la configuración de cada kernel con sus correspondientes parámetros secundarios           
             ]
grid_search = GridSearchCV(estimator = classifier, # estimator: modelo de aprerndizaje q queremos buscar parámetros óptimos
                          param_grid = parameters, # param_grid: rango de parámetros a buscar el óptimo
                          scoring = 'accuracy', # métrica sobre la cual basará la búsqueda
                          cv = 10, # cv: usa validación cruzada para darme un resultado más válido del rendimiento del modelo. 10 folds usa 
                          n_jobs = -1) # n_jobs: poniéndole -1 le indicamos que tome todos los cores de nuestro pc para realizar la búsqueda, menos el del sist operativo (para grandes bases de datos) 
grid_search = grid_search.fit(X_train,y_train) # entrenamos el modelo según los parámetros óptimos conseguidos por GridSearch
best_accuracy = grid_search.best_score_
print(best_accuracy) # la precisión de la mejor combinación posible
best_parameters = grid_search.best_params_
print(best_parameters) # los hiperparámetros que me consiguieron el mejor resultado (como vemos que el kernel no es lineal podemos inferir que la relación entre variables no lo es tampoco)
# Luego podemos modificar la busqueda, para que sea más cercana a los parámetros que incialmente consideró como óptimos

0.9066666666666666
{'C': 1000, 'gamma': 0.1, 'kernel': 'rbf'}


In [None]:
# Representación gráfica de los resultados del algoritmo en el Conjunto de Entrenamiento¶
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM Kernel (Conjunto de Entrenamiento)')
plt.xlabel('Edad')
plt.ylabel('Sueldo Estimado')
plt.legend()
plt.show()

In [None]:
# Representación gráfica de los resultados del algoritmo en el Conjunto de Testing
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Clasificador (Conjunto de Test)')
plt.xlabel('Edad')
plt.ylabel('Sueldo Estimado')
plt.legend()
plt.show()