### Exercise 7
Entrenamiento y ajuste fino de un árbol de decisión con el dataset moon.

- Se genera dataset moon con 10000 muestras y 0.4 de ruido

In [2]:
from sklearn.datasets import make_moons

In [3]:
X, y = make_moons(n_samples=10000, noise=0.4, random_state=42)

- Se divide el dataset en train y test

In [4]:
from sklearn.model_selection import train_test_split

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

- Se realiza búsqueda de rejilla (grid search) con validación cruzada para encontrar buenos hiperparámetros para un clasificador de árbol de decisión

In [10]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

In [11]:
### Hiperparámetros
# max_depth -> Profundidad del árbol
# min_samples_split -> Mínimo número de instancias que debe de tener el nodo
#                      para dividirlo
# min_samples_leaf -> Mínimo número de instancias en cada hoja
# min_weight_fraction_leaf -> Mismo objetivo que el anterior pero en %
# max_features -> Número máximo de características a buscar en cada nodo
# max_leaf_nodes -> Número máximo de nodos hoja

params = {'max_leaf_nodes': list(range(2, 100)), 'min_samples_split': [2, 3, 4]}
grid_search_cv = GridSearchCV(DecisionTreeClassifier(random_state=42), params, verbose=1, cv=3)

grid_search_cv.fit(X_train, y_train)

Fitting 3 folds for each of 294 candidates, totalling 882 fits


GridSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=42),
             param_grid={'max_leaf_nodes': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                            13, 14, 15, 16, 17, 18, 19, 20, 21,
                                            22, 23, 24, 25, 26, 27, 28, 29, 30,
                                            31, ...],
                         'min_samples_split': [2, 3, 4]},
             verbose=1)

In [12]:
grid_search_cv.best_estimator_

DecisionTreeClassifier(max_leaf_nodes=17, random_state=42)

In [13]:
grid_search_cv.best_params_

{'max_leaf_nodes': 17, 'min_samples_split': 2}

- Se entrena el clasificador con el conjunto de entrenamiento completo usando los hiperparámetros obtenidos del grid_search y se mide el rendimiento del modelo en el conjunto de test

In [18]:
# Por defecto, el grid search entrena el mejor modelo con el conjunto de entrenamiento completo y con la
# mejor combinación de hiperparámetros encontrados (desactivar con refit=False).

# rendimiento con el conjunto de entrenamiento completo
grid_search_cv.best_score_

0.8555001986342105

In [19]:
from sklearn.metrics import accuracy_score

In [20]:
y_pred = grid_search_cv.predict(X_test)
accuracy_score(y_test, y_pred)

0.8695