## Machine Learning Example - StratifiedKFold y KFold with Decision Tree Classifier

- Name: Germán Hilgert
- LinkedIn: https://www.linkedin.com/in/german-hilgert/
- Date: 23/10/22

In [None]:
#Importamos las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df_car = pd.read_csv("data/car.data", sep = ",", header=None)
df_car.head()

In [None]:
#Dimension del dataset
print(df_car.shape)

In [None]:
#Tipo de dato para cada columna
df_car.dtypes

In [None]:
#Información del dataset
df_car.info()

In [None]:
#Renombramos las columnas para lograr una mayor interpretacion
df_car.rename(columns={0:'x0', 1:'x1',2:'x2',3:'x3',4:'x4',5:'x5',6:'y'}, inplace=True)

In [None]:
#Verificamos el cambio realizado
df_car.columns

In [None]:
#Separacion en X e y
y = df_car['y'].to_numpy()

for n in df_car.columns:
    if str(df_car[n].dtype) == 'object' or str(df_car[n].dtype) == 'category':
        df_car[n] = df_car[n].astype('category').cat.codes
X = df_car.drop(['y'], axis=1).to_numpy()
df_car.head()

Iniciaremos aplicando el método de **StratifiedKFold** para posteriormente comparar los resultados obtenidos con **KFold**. 

In [None]:
#StratifiedKFold - Train y Test
from sklearn.model_selection import StratifiedKFold

skf_car = StratifiedKFold(n_splits=5, random_state=0, shuffle=True)
train, test = list(skf_car.split(X, y))[0]
X_train, X_test = X[train], X[test]
y_train, y_test = y[train], y[test]

In [None]:
list(skf_car.split(X, y))

In [None]:
%%time
#Entrenar arbol y encontrar el mejor alpha con GridSearchCV y StratifiedKFold

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

model = DecisionTreeClassifier()

params = list(np.arange(0.0, 1., step=0.05))
cv = StratifiedKFold(n_splits=5, random_state=0, shuffle=True)

tunner_car = GridSearchCV(estimator=model, param_grid={'ccp_alpha':params}, cv=cv)
tunner_car = tunner_car.fit(X_train, y_train)

In [None]:
%%time
print('Train score StratifiedKFold: ' + str(tunner_car.score(X_train, y_train)))
print('Test score StratifiedKFold: ' + str(tunner_car.score(X_test, y_test)))

In [None]:
#KFold
from sklearn.model_selection import KFold
KFold_car = KFold(n_splits=5, random_state=0, shuffle=True)
train_2, test_2 = list(KFold_car.split(X))[0]
X_train_2, X_test_2 = X[train_2], X[test_2]
y_train_2, y_test_2 = y[train_2], y[test_2]

In [None]:
%%time
#Entrenar arbol y encontrar el mejor alpha con GridSearchCV y KFold

model_2 = DecisionTreeClassifier()

params_2 = list(np.arange(0.0, 1., step=0.05))
cv_2 = KFold(n_splits=5, random_state=0, shuffle=True)

tunner_car2 = GridSearchCV(estimator=model_2, param_grid={'ccp_alpha':params_2}, cv=cv_2)
_=tunner_car2.fit(X_train_2, y_train_2)

In [None]:
%%time
#Metricas
print('Train score KFold: ' + str(tunner_car2.score(X_train_2, y_train_2)))
print('Test score KFold: ' + str(tunner_car2.score(X_test_2, y_test_2)))

**Conclusiones e Interpretaciones del dataset: car.data**

Si comenzamos nuestro análisis sobre el método de StratifiedKFold, se observan los siguientes valores para las métricas obtenidas:

* Train score StratifiedKFold: 1.0
* Test score StratifiedKFold: 0.9826589595375722

Claramente, podemos identificar que nuestro modelo se está "sobreajustando", razón inicial que podría deberse al pequeño tamaño del dataset 1728 registros respectivamente.

Ahora bien, analizando el método de KFold, los resultados de Train y Test se detallan a continuación: 

* Train score KFold: 1.0
* Test score KFold: 0.9682080924855492

Para este caso en particular para las métricas obtenidas, no se observan grandes mejoras al implementar este tipo de método de CrossValidation, dado que el algoritmo aun persiste sobreajustado y el Test Score se ve reducido muy levemente. 

# Actividad alumnos

**Consignas**:
    
Se deberá replicar el ejemplo anterior realizado, sobre el dataset propuesto para el método de StratifiedKFold y KFold.
El algoritmo a entrenar será un DecisionTreeClassifier. Finalmente se solicita elaborar una pequeña conclusión e interpretación de las aplicaciones realizadas.

Aclaración: La variable de interes es "target".

In [None]:
#Importamos el segundo data set
df_aug = pd.read_csv("data/aug_train.csv", sep = ",")
df_aug

In [None]:
#Dimension del dataset
print(df_aug.shape)

In [None]:
#Tipo de dato para cada columna
df_aug.dtypes

In [None]:
#Información del dataset
df_aug.info()

In [None]:
#Separacin en X e y
y = df_aug['target'].to_numpy()

for n in df_aug.columns:
    if str(df_aug[n].dtype) == 'object' or str(df_aug[n].dtype) == 'category':
        df_aug[n] = df_aug[n].astype('category').cat.codes
X = df_aug.drop(['target'], axis=1).to_numpy()
df_aug.head()

In [None]:
#Dividir Train y Test para CV - StratifiedKFold
from sklearn.model_selection import StratifiedKFold
skf_aug = StratifiedKFold(n_splits=5, random_state=0, shuffle=True)
train, test = list(skf_aug.split(X, y))[0]
X_train, X_test = X[train], X[test]
y_train, y_test = y[train], y[test]

In [None]:
%%time
#Entrenar arbol y encontrar el mejor alpha con GridSearchCV y StratifiedKFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

model = DecisionTreeClassifier()
params = list(np.arange(0.0, 1., step=0.05))
cv = StratifiedKFold(n_splits=5, random_state=0, shuffle=True)
tunner_aug = GridSearchCV(estimator=model, param_grid={'ccp_alpha':params}, cv=cv)
tunner_aug = tunner_aug.fit(X_train, y_train)

In [None]:
%%time
print('Train score StratifiedKFold: ' + str(tunner_aug.score(X_train, y_train)))
print('Test score StratifiedKFold: ' + str(tunner_aug.score(X_test, y_test)))

In [None]:
%%time
#KFold
from sklearn.model_selection import KFold
KFold_aug= KFold(n_splits=5, random_state=0, shuffle=True)
train_2, test_2 = list(KFold_aug.split(X))[0]
X_train_2, X_test_2 = X[train_2], X[test_2]
y_train_2, y_test_2 = y[train_2], y[test_2]

In [None]:
%%time
#Entrenar arbol y encontrar el mejor alpha con GridSearchCV y KFold

model = DecisionTreeClassifier()
params = list(np.arange(0.0, 1., step=0.05))
cv = KFold(n_splits=5, random_state=0, shuffle=True)
tunner_aug2 = GridSearchCV(estimator=model, param_grid={'ccp_alpha':params}, cv=cv)
tunner_aug2 = tunner_aug2.fit(X_train_2, y_train_2)

In [None]:
#Metricas
print('Train score KFold: ' + str(tunner_aug2.score(X_train_2, y_train_2)))
print('Test score KFold: ' + str(tunner_aug2.score(X_test_2, y_test_2)))

**Conclusionees e Interpretaciones del dataset: aug_train**

Para este análisis en particular, si comenzamos observando los valores obtenidos para Train y Test con el método de StratifiedKFold ambos son muy similares entre sí, aspecto que es destacable para nuestro modelo. A continuación, se mencionan las métricas obtenidas: 

* Train score StratifiedKFold: 0.7830484144590891
* Test score StratifiedKFold: 0.7794885177453027

Ahora bien, en la aplicación del método de KFold, los resultados alcanzados nuevamente son similares en Train y Test, particularmente los valores rondan cerca de 0.78. 

Finalmente, se detallan las métricas obtenidas para KFold en Train y Test.

* Train score KFold: 0.7818086911131411
* Test score KFold: 0.784446764091858