# Ejercicio 3

El objetivo de este ejercicio es que el estudiante aplique modelos ensemble y SVC a un dataset real. Además, que el estudiante pueda analizar las características del dataset y las salidas de los modelos.

## Ejercicio 3.1

Ejecute el siguiente código y analice la estructura del dataset. Fíjese en la cantidad de datos de entrenamiento existentes, número de atributos, valores máximos, mínimos, correlaciones entre variables, dispersión, etc.

In [1]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
from matplotlib import style
import seaborn as sns
sns.set()

style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.manifold import TSNE
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [2]:
HOW_SCALE = "minmax"  # standard|minmax  como re-escalar los atributos

In [None]:
df = pd.read_csv("vehicle.csv")
df.head()

In [None]:
df.describe()

In [None]:
df.columns

In [None]:
sns.countplot(data=df, x='Class')
df['Class'].value_counts()

In [None]:
df.Class = df.Class.astype('category').cat.codes

# genera la matriz de correlaciones entre atributos
cor_mat= df[:].corr()
mask = np.array(cor_mat)
mask[np.tril_indices_from(mask)] = False
fig=plt.gcf()
fig.set_size_inches(30,12)
sns.heatmap(data=cor_mat,mask=mask,square=True,annot=True,cbar=True)

In [8]:
# creando las variables `X` y `y`
X = df.drop("Class", axis=1).to_numpy()
y = df["Class"].to_numpy()

In [9]:
if HOW_SCALE == "standard":
    scaler=StandardScaler()
    X = scaler.fit_transform(X)
elif HOW_SCALE == "minmax":
    scaler = MinMaxScaler()
    X = scaler.fit_transform(X)

In [10]:
def mostrar_dataset(x, y):
    fig, ax = plt.subplots(1, 1, figsize=(12, 5))
    
    reduccion = TSNE(n_components=2, init='pca')
    x_new = reduccion.fit_transform(X)
    tmp_df = pd.DataFrame(np.column_stack([x_new, y]))
    tmp_df.columns = ["x1", "x2", "Y"]
    
    sns.scatterplot(x="x1", y="x2", hue="Y", data=tmp_df, ax=ax)    

In [None]:
mostrar_dataset(X, y)

In [12]:
x_train,x_test,y_train,y_test=train_test_split(X, y, test_size=0.20, random_state=1)

¿Hay alguna característica importante en el dataset que se deba mencionar?

## Ejercicio 3.2

Ingrese manualmente hyper-parámetros para los siguientes modelos. Además, en los modelos RF y XGBoost, fíjese en el gráfico donde se muestran la importancia de las variables para esos modelos.

Genere un gráfico comparando los valores de `accuracy` para los modelos

In [None]:
clf_dt = DecisionTreeClassifier()
clf_dt.fit(x_train, y_train)
pred = clf_dt.predict(x_test)
print("Decision Tree: {:.3f}".format(accuracy_score(pred,y_test)))

In [None]:
clf_rf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=5)
clf_rf.fit(x_train, y_train)
pred = clf_rf.predict(x_test)
print("Random Forest: {:.3f}".format(accuracy_score(pred,y_test)))

In [None]:
# importancia de variables para RandomForest
tmp = {
    "variables": df.drop("Class", axis=1).columns,
    "importancia": clf_rf.feature_importances_
}

pd.DataFrame(tmp, index=tmp["variables"]).plot(kind="barh")

In [None]:
clf = AdaBoostClassifier(n_estimators=50, learning_rate=0.1)
clf.fit(x_train, y_train)
pred = clf.predict(x_test)
print("AdaBoost: {:.3f}".format(accuracy_score(pred, y_test)))

In [None]:
clf_gb = GradientBoostingClassifier(n_estimators=100, random_state=5, max_depth=5, learning_rate=0.1)
clf_gb.fit(x_train, y_train)
pred = clf_gb.predict(x_test)
print("Gradient Boost: {:.3f}".format(accuracy_score(pred,y_test)))

In [None]:
clf_xgb = xgb.XGBClassifier(learning_rate=0.1, max_depth=3, n_estimators=500)
clf_xgb.fit(x_train, y_train)
pred = clf_xgb.predict(x_test)
print("XG Boost: {:.3f}".format(accuracy_score(pred,y_test)))

In [None]:
# importancia de variables para el modelo XBoost
tmp = {
    "variables": df.drop("Class", axis=1).columns,
    "importancia": clf_xgb.feature_importances_
}

pd.DataFrame(tmp, index=tmp["variables"]).plot(kind="barh")

In [None]:
clf_svc = SVC(C=1, gamma=0.1)
clf_svc.fit(x_train, y_train)
pred = clf_svc.predict(x_test)
print("SVC: {:.3f}".format(accuracy_score(pred,y_test)))

## Ejercicio 3.3

Seleccione los 2 modelos con mejores prestaciones para este problema e intente mejorar su `accuracy`

Nota: Realice un tuneado de hyper-parámetros. Además, pruebe si el re-escalamiento estandar ayuda a algún modelo. 

## Ejercicio 3.4

Considerando el análisis de correlaciones entre variables en el dataset y la importancia de variables para los modelos de XGBoost y Random Forest, ¿Que se podría hacer para mejorar el `accuracy` para este dataset?

## Ejercicio 3.5

Linear Discriminant Analysis (LDA) es una técnica para transformación de datos, cuyo objetivo es maximizar la separación entre 2 clases creando distribuciones gausianas. La documentación de este método se encuentra en https://scikit-learn.org/0.16/modules/generated/sklearn.lda.LDA.html

Para este ejercicio, probar LDA para reducir dimensiones del dataset y entrenar 2 modelos: SVC y XGBoost. ¿Que `accuracy` logra encontrar ahora y a cuantas dimensiones se redujo el problema?