In [189]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [190]:
df_fashion = pd.read_csv('fashion-mnist.csv')

In [30]:
from sklearn.model_selection import train_test_split

X = df_fashion.drop('label', axis=1)
y = df_fashion['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Veamos que resultado tenemos con los parametros que tiene el modelo por defecto.

In [31]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

In [32]:
from sklearn.metrics import accuracy_score

y_pred = clf.predict(X_test)
accuracy_score(y_pred, y_test)

0.7949166666666667

Ahora vamos a buscar mejorar este rendimiento a traves de una mejor seleccion de los hiperparametros.

In [21]:
from sklearn.model_selection import GridSearchCV

hyper_params = {'criterion' : ['gini', 'entropy'], 
               'max_depth' : [6,10,14,18]}

clf_grid = GridSearchCV(clf, hyper_params, cv=3)

search = clf_grid.fit(X, y)
search.best_params_
search.best_score_

KeyboardInterrupt: 

In [33]:
alturas = [6,10,14,18,22]
resultados = []
for depth in alturas:
    clf = DecisionTreeClassifier(max_depth=depth, criterion='entropy')
    clf.fit(X_train, y_train)

    y_pred = clf.predict(X_test)
    resultados.append(accuracy_score(y_pred, y_test))

In [34]:
resultados

[0.7625, 0.8185, 0.8176666666666667, 0.8116666666666666, 0.8135]

In [61]:
alturas = [6,10,14,18,22]
resultados = []
for depth in alturas:
    clf = DecisionTreeClassifier(max_depth=depth, criterion='gini')
    clf.fit(X_train, y_train)

    y_pred = clf.predict(X_test)
    resultados.append(accuracy_score(y_pred, y_test))

In [62]:
resultados

[0.7385,
 0.8129166666666666,
 0.8184166666666667,
 0.8093333333333333,
 0.8019166666666667]

Vemos que los mejores resultados fueron: 
    - Entropia y altura 10.
    - Gini y altura 14.
    - Entropia y altura 14
Vamos a evaluar a estos modelos con cross-validation para elegir el mejor.

Entropia y altura 10

In [132]:
from sklearn.model_selection import KFold

skf = KFold(n_splits=5, shuffle=True)
folds = skf.split(X_train, y_train)

In [133]:
folds = list(folds)

In [179]:
resultados1 = []
for train_index, test_index in folds:
    clf = DecisionTreeClassifier(max_depth=10, criterion='entropy')
    
    xtrain = X_train.iloc[train_index]
    ytrain = y_train.iloc[train_index]
    xtest = X_train.iloc[test_index]
    ytest = y_train.iloc[test_index]
    
    clf.fit(xtrain,ytrain)
    y_pred = clf.predict(xtest)
    resultados1.append(accuracy_score(y_pred, ytest))

In [180]:
print('Promedio con 5 folds y modelo de altura 10 con entropia como criterio',sum(resultados1)/len(resultados1))

Promedio con 5 folds y modelo de altura 10 con entropia como criterio 0.806625


Gini y altura 14

In [175]:
resultados = []
for train_index, test_index in folds:
    clf = DecisionTreeClassifier(max_depth=14, criterion='gini')
    
    xtrain = X_train.iloc[train_index]
    ytrain = y_train.iloc[train_index]
    xtest = X_train.iloc[test_index]
    ytest = y_train.iloc[test_index]
    
    clf.fit(xtrain,ytrain)
    y_pred = clf.predict(xtest)
    resultados.append(accuracy_score(y_pred, ytest))

In [181]:
print('Promedio con 5 folds y modelo de altura 14 con gini como criterio',sum(resultados)/len(resultados))

Promedio con 5 folds y modelo de altura 14 con gini como criterio 0.8064375


Entropia y altura 14

In [182]:
resultados2 = []
for train_index, test_index in folds:
    clf = DecisionTreeClassifier(max_depth=14, criterion='entropy')
    
    xtrain = X_train.iloc[train_index]
    ytrain = y_train.iloc[train_index]
    xtest = X_train.iloc[test_index]
    ytest = y_train.iloc[test_index]
    
    clf.fit(xtrain,ytrain)
    y_pred = clf.predict(xtest)
    resultados2.append(accuracy_score(y_pred, ytest))

In [184]:
print('Promedio con 5 folds y modelo de altura 14 con entropia como criterio',sum(resultados2)/len(resultados2))

Promedio con 5 folds y modelo de altura 14 con entropia como criterio 0.8055625


Entrenamos con el conjunto de test cada uno de los modelos

In [191]:
clf = DecisionTreeClassifier(max_depth=10, criterion='entropy')
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print('Accuracy con entropia y altura 10',accuracy_score(y_pred,y_test))

Accuracy con entropia y altura 10 0.8188333333333333


In [187]:
clf = DecisionTreeClassifier(max_depth=14, criterion='entropy')
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print('Accuracy con entropia y altura 14',accuracy_score(y_pred,y_test))

Accuracy con entropia y altura 14 0.81875


In [188]:
clf = DecisionTreeClassifier(max_depth=14, criterion='gini')
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)
print('Accuracy con gini y altura 14',accuracy_score(y_pred,y_test))

Accuracy con gini y altura 14 0.8188333333333333
