# Ejercicio 2

El objetivo de este ejercicio es que el alumno utilice métodos ensemble y SVC para realizar clasificación en un dataset sintético. Además, el estudiante deberá encontrar los hyper-parámetros utilizando Grid y Randomized Search.

## Ejercicio 2.1

Ejecute y analice el siguiente código en términos de la estructura del dataset generado

In [1]:
from sklearn.datasets import make_moons, make_classification
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier
import xgboost as xgb
from sklearn.svm import SVC
from sklearn.manifold import TSNE
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns
sns.set()
import time

In [2]:
def mostrar_dataset(x, y):
    fig, ax = plt.subplots(1, 1, figsize=(12, 5))
    
    reduccion = TSNE(n_components=2, init='pca')
    x_new = reduccion.fit_transform(x)
    tmp_df = pd.DataFrame(np.column_stack([x_new, y]))
    tmp_df.columns = ["x1", "x2", "Y"]
    
    sns.scatterplot(x="x1", y="x2", hue="Y", data=tmp_df, ax=ax)

In [28]:
# se generan el dataset
X, y = make_classification(n_samples=1000, n_features=20, n_informative=18, n_redundant=1, n_classes=2, 
                           n_clusters_per_class=2, flip_y=0.05, random_state=1, class_sep=1)

In [None]:
mostrar_dataset(X[:1000], y[:1000])

In [None]:
df = pd.DataFrame(np.column_stack([X, y]))
df.columns = ["var_"+str(i+1) for i in range(20)] + ["clase"]

# genera la matriz de correlaciones entre atributos
cor_mat= df[:].corr()
mask = np.array(cor_mat)
mask[np.tril_indices_from(mask)] = False
fig=plt.gcf()
fig.set_size_inches(30,12)
sns.heatmap(data=cor_mat,mask=mask,square=True,annot=True,cbar=True)

In [None]:
corr_y = abs(cor_mat["clase"])
highest_corr = corr_y[corr_y > 0.3]
highest_corr.sort_values(ascending=True)

En base a los resultados mostrados:

- ¿Que características tiene el dataset generado?
- ¿Que conjunto de variables podrían generar buenos resultados si son usadas para clasificación?
- ¿Que variables proporcionan "poca" información para el problema?

## Ejercicio 2.2

Ejecute el siguiente código donde se crean y prueban diferentes modelos de predicción. Para cada, seleccione manualmente valores para los hyper-parámetros y compare los resutlados de `accuracy` y `tiempo de entrenamiento`. 

Nota: No pase mucho tiempo tuneando manualmente los parámetros; el proceso de tuneado automático se realizará en el siguiente ejercicio

In [30]:
#Se divide el dataset en datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [31]:
# Arbol de decisión
clf = DecisionTreeClassifier()

# tiempo de entrenamiento
start_time = time.time()
clf.fit(X_train, y_train)
training_time = time.time() - start_time

y_pred = clf.predict(X_test)

print("Decision Tree")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

Decision Tree
Accuracy = 0.7700
Tiempo de entrenamiento: 0.013 segundos


In [32]:
# Random Forest
clf = RandomForestClassifier(n_estimators=100)

start_time = time.time()
clf.fit(X_train, y_train)
training_time = time.time() - start_time

y_pred = clf.predict(X_test)

print("Random Forest")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

Random Forest
Accuracy = 0.8600
Tiempo de entrenamiento: 0.293 segundos


In [33]:
# AdaBoost
clf = AdaBoostClassifier(n_estimators=50)

start_time = time.time()
clf.fit(X_train, y_train)
training_time = time.time() - start_time

y_pred = clf.predict(X_test)
print("AdaBoost")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

AdaBoost
Accuracy = 0.7700
Tiempo de entrenamiento: 0.158 segundos


In [34]:
# Gradient Boost
clf = GradientBoostingClassifier(n_estimators=100)

start_time = time.time()
clf.fit(X_train, y_train)
training_time = time.time() - start_time

y_pred = clf.predict(X_test)
print("Gradient Boost")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

Gradient Boost
Accuracy = 0.8250
Tiempo de entrenamiento: 0.448 segundos


In [35]:
# XGBoost
xg_reg = xgb.XGBClassifier(learning_rate=0.5, max_depth=5, n_estimators=300)

start_time = time.time()
xg_reg.fit(X_train,y_train)
training_time = time.time() - start_time

y_pred = xg_reg.predict(X_test)
print("XGBoost")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

XGBoost
Accuracy = 0.8750
Tiempo de entrenamiento: 0.295 segundos


In [36]:
# SVC
clf = SVC(C=100, gamma=0.01)

start_time = time.time()
clf.fit(X_train, y_train)
training_time = time.time() - start_time

y_pred = clf.predict(X_test)
print("SVC")
print("Accuracy = {:.4f}".format(accuracy_score(y_test, y_pred)))
print("Tiempo de entrenamiento: {:.3f} segundos".format(training_time))

SVC
Accuracy = 0.8950
Tiempo de entrenamiento: 0.030 segundos


## Ejercicio 2.3

Modifique la función `make_classification` para que esta vez genere 30000 ejemplos y repetir el ejercicio 2.2 (puede usar los mismos hyper-parámetros que seleccionó inicialmente).

¿Hubo variaciones en el accuracy y tiempo de ejecución? <br>
¿De haber variaciones, por que?

## Ejercicio 2.4

Vuelva a modificar la función `make_classification` para que genere 1000 ejemplos de entrenamiento. Encuentre los hyper-parámetros para los modelos antes utilizados mediante procesos de `GridSearchCV` o `RandomizedSearchCV`. La diferencia entre ambos métodos es que el primero hace una búsqueda exahustiva de los parámetros, mientras el segundo selecciona un número de configuraciones determinadas.

Al final, genere un gráfico con los accuracies actualizados de los modelos. ¿Cambiaron los valores de los modelos?

In [37]:
# Por ejemplo, el proceso para SVC es como sigue:

clf_svc = SVC()

parameters = {                       
    "C": [1e2, 1e3, 1e4, 1e5, 1e6, 1e7],                                                      
    "gamma": np.logspace(-2, 2, 5)                   
}

# clf_svc = RandomizedSearchCV(clf_svc, param_distributions=parameters, scoring="accuracy", cv=5, n_jobs=-1, n_iter=15)
clf_svc = GridSearchCV(clf_svc, param_grid=parameters, scoring="accuracy", cv=5, n_jobs=-1)
model_svc = clf_svc.fit(X_train, y_train)

print("Best score : ", model_svc.best_score_)
print("Best Parameters : ", model_svc.best_params_)
print("Accuracy Score : ", accuracy_score(model_svc.predict(X_test), y_test))

Best score :  0.8949999999999999
Best Parameters :  {'C': 100.0, 'gamma': 0.01}
Accuracy Score :  0.895


Realice un proceso parecido para el resto de modelos. 

Nota: si el número de combinaciones de hyper-parámetros es muy alta, se recomienda utilizar `RandomizedSearchCV`

## Ejercicio 2.5

Use PCA para transformar el dataset a uno con menos dimensiones. Trace la curva de varianza explicada y entrene un modelo (escoja el que le parezca más adecuado) y calcule el `accuracy` obtenido. ¿Es buena idea para este problema utilizar PCA?