<a href="https://colab.research.google.com/github/JaimeRosique/ComputerScience/blob/main/DecisionTrees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Práctica 2 - sesión 1

El objetivo de esta práctica el empleo de árboles de decisión en diferentes tareas de clasificación. Desde tareás muy sencillas como iris, hasta más complejas como digits y olivetti faces.


### Arboles de decisión con Iris data-set

Empecemos con Iris y exploremos algunos parámetros del clasificador basado en árboles de decisión. Algunos de los parámetros más importnates son:

* max_depth
* min_samples_split

Aquí descritos : [DecisionTrees](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)



In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)


dt = DecisionTreeClassifier(max_depth=3, min_samples_split=2, random_state=23)

acc=dt.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%}')

Precisión: 93.3%


**Ejercicio**: Realiza una búsqueda de los mejores parámetros empleando GridSearch

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier

# Carga el conjunto de datos
X, y = load_iris(return_X_y=True)
# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=23)

# Crea el clasificador de árbol de decisión
dt = DecisionTreeClassifier(random_state=23)

# Define el diccionario de parámetros que deseas explorar
param_grid = {
    'max_depth': [3, 5, 7,20],
    'min_samples_split': [2, 5, 10,20]
}

GS = GridSearchCV(estimator=dt, param_grid=param_grid, scoring='accuracy', refit=True, cv=5)

acc=GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con Mejores parametros:{GS.best_params_}')

Precisión: 93.3% con Mejores parametros:{'max_depth': 3, 'min_samples_split': 2}


**Ejercicio**: Aplica árboles de decisión a el dataset digits. Prueba a realizar alguna expansión polinómica de las características y PCA. Emplea GridSearch para estimar los mejores parámetros.

In [None]:
import warnings; warnings.filterwarnings('ignore');
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# Carga el conjunto de datos
X, y = load_digits(return_X_y=True)
# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, stratify=y, random_state=23)

# Crea el clasificador de árbol de decisión
dt = DecisionTreeClassifier(random_state=23)
#Crea expansión polinómica
poly = PolynomialFeatures()
#Crea PCA
pca = PCA()

pipe = Pipeline(steps=[("pca", pca),("dt",dt)])

# Define el diccionario de parámetros que deseas explorar
G = {"pca__n_components": [10,16,32, 64],
     "dt__max_depth": [3, 5, 7,20],
     "dt__min_samples_split": [2, 5, 10]}

GS = GridSearchCV(estimator=pipe, param_grid=G, scoring='accuracy', refit=True, cv=5)

acc=GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con Mejores parametros:{GS.best_params_}')

Precisión: 87.8% con Mejores parametros:{'dt__max_depth': 20, 'dt__min_samples_split': 2, 'pca__n_components': 10}


**Ejercicio**: Aplica árboles de decisión a el dataset olivetti faces. Prueba a realizar alguna expansión polinómica de las características y PCA. Emplea GridSearch para estimar los mejores parámetros.

In [None]:
import warnings; warnings.filterwarnings('ignore');
from sklearn.datasets import fetch_olivetti_faces
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# Carga el conjunto de datos
X, y = fetch_olivetti_faces(return_X_y=True)
# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, stratify=y, random_state=23)

# Crea el clasificador de árbol de decisión
dt = DecisionTreeClassifier(random_state=23)
#Crea expansión polinómica
poly = PolynomialFeatures()
#Crea PCA
pca = PCA()

pipe = Pipeline(steps=[("pca", pca), ("poly", poly),("dt",dt)])

# Define el diccionario de parámetros que deseas explorar
G = {"pca__n_components": [10,16,28,32, 64],
     "poly__degree":[2,4,8,10],
     "dt__max_depth": [3, 5, 7,20,50],
     "dt__min_samples_split": [2, 5, 10]}

GS = GridSearchCV(estimator=pipe, param_grid=G, scoring='accuracy', refit=True, cv=5)

acc=GS.fit(X_train, y_train).score(X_test, y_test)
print(f'Precisión: {acc:.1%} con Mejores parametros:{GS.best_params_}')

downloading Olivetti faces from https://ndownloader.figshare.com/files/5976027 to /root/scikit_learn_data
