## Práctica 2 - sesión 1

El objetivo de esta práctica el empleo de árboles de decisión en diferentes tareas de clasificación. Desde tareás muy sencillas como iris, hasta más complejas como digits y olivetti faces.


### Arboles de decisión con Iris data-set

Empecemos con Iris y exploremos algunos parámetros del clasificador basado en árboles de decisión. Algunos de los parámetros más importnates son:

* max_depth
* min_samples_split

Aquí descritos : [DecisionTrees](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)



In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)


dt = DecisionTreeClassifier(max_depth=3, min_samples_split=2, random_state=23)

acc=dt.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%}')

Precisión: 93.3%


**Ejercicio**: Realiza una búsqueda de los mejores parámetros empleando GridSearch

In [3]:
## Solución
from sklearn.model_selection import GridSearchCV

G = {"max_depth": [2,4,6,8,10], "min_samples_split": [2,3,4,5]}

GS = GridSearchCV(DecisionTreeClassifier(random_state=23), G, scoring='accuracy', refit=True, cv=5)

acc = GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Precisión: 96.7% con {'max_depth': 2, 'min_samples_split': 2}


**Ejercicio**: Aplica árboles de decisión a el dataset digits. Prueba a realizar alguna expansión polinómica de las características y PCA. Emplea GridSearch para estimar los mejores parámetros.

In [4]:
## Solución

from sklearn.decomposition import PCA
from sklearn.datasets import load_digits
from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import PolynomialFeatures

X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

poly=PolynomialFeatures()
pca=PCA()
dt=DecisionTreeClassifier(random_state=23)

pipe=Pipeline(steps=[("poly", poly), ("pca", pca), ("dt", dt)])

G = {"pca__n_components": [32, 64], "poly__degree": [2],
     "dt__max_depth": [8,16,32,64], "dt__min_samples_split": [2, 4, 6]}

# activo el verbose para ver lo que tarda cada fit
GS = GridSearchCV(pipe, G, scoring='accuracy', refit=True, cv=5, verbose=10)
acc = GS.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%} con {GS.best_params_}')

Fitting 5 folds for each of 24 candidates, totalling 120 fits
[CV 1/5; 1/24] START dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2
[CV 1/5; 1/24] END dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2;, score=0.788 total time=   0.9s
[CV 2/5; 1/24] START dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2
[CV 2/5; 1/24] END dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2;, score=0.806 total time=   0.6s
[CV 3/5; 1/24] START dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2
[CV 3/5; 1/24] END dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2;, score=0.808 total time=   0.6s
[CV 4/5; 1/24] START dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2
[CV 4/5; 1/24] END dt__max_depth=8, dt__min_samples_split=2, pca__n_components=32, poly__degree=2;, score=0.847 total time=   0.6s
[CV 5/5; 1/24]

**Ejercicio**: Aplica árboles de decisión a el dataset olivetti faces. Prueba a realizar alguna expansión polinómica de las características y PCA. Emplea GridSearch para estimar los mejores parámetros.

In [None]:
%%timeit -n1 -r1

## Solución
from sklearn.datasets import fetch_olivetti_faces

X, y = fetch_olivetti_faces(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

poly=PolynomialFeatures()
pca=PCA()
dt=DecisionTreeClassifier(random_state=23)

pipe=Pipeline(steps=[("pca", pca), ("poly", poly), ("dt", dt)])

G = {"pca__n_components": [32,64], "poly__degree": [1,2],
     "dt__max_depth": [32,64,96,128], "dt__min_samples_split": [2, 4, 6]}

# activo el verbose para ver lo que tarda cada fit
GS = GridSearchCV(pipe, G, scoring='accuracy', refit=True, cv=5, verbose=10)
acc = GS.fit(X_train, y_train).score(X_test, y_test)

print(f'Precisión: {acc:.1%} con {GS.best_params_}')