Para poder visualizar los árboles de decisión que entrenaremos necesitamos instalar una librearía específica

In [None]:
conda install python-graphviz

## Árbol de decisión

Los árboles de decisión son modelos de Machine Learning que se pueden utilizar para **Clasificación** o para **Regresión**. En esta Notebook realizaremos un ejemplo de clasificación, y modificaremos hiperpárametros para ajustar los modelos.

Realizaremos los pasos de todo Proyecto de Ciencia de Datos

1. Definición del Problema
2. Búsqueda de datos 
3. Exploración y Limpieza de Datos
4. Dividir los datos en **X** (variables predictoras) e **y** (variable a predecir). Dividir los datos en entrenamiento y testo con el méodo *train_test_split*
5. Entrenamiento del modelo
6. Testeo del Modelo 

##### Definición del problema

**¿Cuál será la especie de pinguino en base a determinadas características?**

##### Búsqueda de datos

El dataset que se utilizará es sobre Pinguinos donde se las variables predictoras son distintas características de los pinguinos y la variable a predecir es la *especie ("species")*. Fue extraído de [Kaggle](https://www.kaggle.com/datasets/resulcaliskan/penguins)

Este dataset es una variación del extraído de https://www.openml.org/d/42585


In [None]:
#importamos las librerías que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
data = pd.read_csv("penguins.csv")

##### Exploración y limpieza del dataset

In [None]:
data.head(3)

In [None]:
data.info()

# Vemos no hay datos nulos y hay 2 variables categóricas

In [None]:
# Convertimos en dummies las variables categóricas (no la variable a predecir)
# Comenzamos con la variable sexo

dummies_sex = pd.get_dummies(data=data["sex"], drop_first=True, prefix = "sex_")
data = data.join(dummies_sex)

In [None]:
# Convertimos la variable island

dummies_island = pd.get_dummies(data=data["island"], drop_first=True, prefix = "island_")
data = data.join(dummies_island)

In [None]:
# Eliminamos las variables que reemplazamos por las dummies

data.drop(columns= ["sex", "island"], inplace=True)
data.head(3)

In [None]:
# Vemos la distribución de la variable target

data["species"].value_counts()

In [None]:
sns.countplot(data["species"])

#### Entrenamiento del modelo

Vamos a entrenar un modelo de Árbol de decisión para predecir la especie de Pinguino. En primer lugar dividermos los datos en **X** e **y** y en entrenamiento y testo.

Instanciaremos el modelo de Árbol de decisión con los hiperparámentros por default.

In [None]:
# Generamos X e y 

X = data.drop(columns = "species")   #variables predictora
y = data["species"]   #variable a predecir

In [None]:
# Dividimos datos en train y test
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=138)  #por default 25% de test


In [None]:
# Importamos el modelo que utilizaremos

from sklearn.tree import DecisionTreeClassifier


In [None]:
#Instanciamos el modelo que utilizaremosn en este caso con los hiperparámetros por default

arbol = DecisionTreeClassifier()

In [None]:
# Entrenamos el modelo 

arbol.fit(X_train, y_train)

##### Visualización del Árbol generado por el modelo

In [None]:
from sklearn import tree
class_names = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
plt.figure(figsize = (15,15))
tree.plot_tree(arbol, feature_names=data.columns[:-1],filled=True,rounded=True, class_names=class_names)


##### Evaluación de datos de train

En este caso, además de utilizar las métricas para evaluar los datos de testo, también utilizaremos las métricas para evaluar cómo el modelo fue entrenado, es decir, si utilizamos el método *predict* con los *X de entrenamiento* y comparamos con los *y de entrenamiento*. 

Esto no sirve para saber la performance del modelo ya que fue entrenado con los mismo datos, pero sirve para analizar cómo fue entrenado el modelo y, en el caso de los árboles de decisión, la exactitud con la que los datos se organizan.

In [None]:
from sklearn.metrics import accuracy_score

y_pred_train = arbol.predict(X_train)
exactitud_train_arbol = accuracy_score(y_train, y_pred_train)
exactitud_train_arbol

Podemos observar que el resultado de evaluar los datos de entrenamiento es perfecta

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo *predict* para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matrix de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
# Probamos nuestro modelo con los datos de test

y_pred_arbol = arbol.predict(X_test)


In [None]:
# Matriz de confusión:comparando resultado original (y_test) con predicción del modelo (y_pred_arbol_completo)
from sklearn.metrics import confusion_matrix

matriz_arbol = confusion_matrix(y_test, y_pred_arbol)
sns.heatmap(matriz_arbol, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
# Métrica accuracy

exactitud_arbol = accuracy_score(y_test, y_pred_arbol)
exactitud_arbol

In [None]:
print("La exactitud del modelo árbol de decisión es", round(exactitud_arbol,2))

#### Hiperparámetro distintos

Al igual que el resto de los modelos vistos, también podemos entrenar modelos con distintos hiperparámetros para ver los resultados de los distintos modelos. Se puede ver en la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=tree#sklearn.tree.DecisionTreeClassifier).

En el caso puntual de los algoritmos de árbol de decisión, estos tienen una tendencia al sobreajuste (overfitting), que lo veremos en profundidad la clase que viene. 
Para evitar eso es posible ajustar los distintos hiperpárametros para reducir la complejidad de los árboles, se utiliza un mecanismo denominado "poda", reduciendo el tamaño del árbol a través de limitar la profundidad máxima, limitar el número de muestraS requeridas por cada hoja o limitando el número mínimo de muestras para particionar. 

Algunos de los hiperparámetros que se pueden ajustar en el modelo de Scikit-Lear son:.

- **max_depth:** profundidad máxima del árbol. Solemos determinar una profundidad máxima para evitar que el modelo sobreajuste.  
- **min_samples_split:** número mínimo de muestras que un nodo debe contener para considerar la división. El valor predeterminado es dos. Podemos usar este parámetro para regularizar el árbol.
- **min_samples_leaf:** número mínimo de muestras necesarias para ser considerado un nodo hoja. El valor predeterminado se establece en uno. Este parámetro se utiliza como una forma alternativa de limitar el crecimiento del árbol.  
- **max_features:** número de características a considerar al buscar la mejor división. Si no se establece este valor, el árbol de decisión considerará todas las variables independientes disponibles para hacer la mejor división.

En este caso vamos a entrenar y evaluar dos modelos modificando el hiperparámetro: "max_depth" y observando la diferencia a través de las visualizaciones

In [None]:
# Instanciamos el modelo que utilizaremos con el hiperparámetro max_depth=4

arbol_depth4 = DecisionTreeClassifier(max_depth=4)

In [None]:
# Entrenamos el modelo 

arbol_depth4.fit(X_train, y_train)

In [None]:
# Visualizamos el modelo entrenado

class_names = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
plt.figure(figsize = (10,10))
tree.plot_tree(arbol_depth4, feature_names=data.columns[:-1],filled=True,rounded=True, class_names=class_names)


##### Evaluación de datos de train

Podemos utilizar una métrica de evaluación para ver la performance del modelo con los datos de entrenamiento

In [None]:
y_pred_train_depth4 = arbol_depth4.predict(X_train)
exactitud_train_depth4 = accuracy_score(y_train, y_pred_train_depth4)
exactitud_train_depth4

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo predict para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matrix de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
# Probar nuestro modelo con los datos de test

y_pred_depth4 = arbol_depth4.predict(X_test)
y_pred_depth4

In [None]:
# Matriz de confusión:comparando resultado original (y_test) con predicción del modelo (y_pred_depth4)
matriz_depth4 = confusion_matrix(y_test, y_pred_depth4)
sns.heatmap(matriz_depth4, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
exactitud_depth4 = accuracy_score(y_test, y_pred_depth4)
exactitud_depth4

In [None]:
print("La exactitud del modelo con los hiperparámetros por default es", round(exactitud_arbol,2))
print("La exactitud del modelo hiperparámetro profundidad máxima de 4 es", round(exactitud_depth4,2))

#### Entrenamos nuestro modelo con otro hiperparámetro

In [None]:
# Instanciamos el modelo que utilizaremos con el hiperparámetro max_depth=2

arbol_depth2 = DecisionTreeClassifier(max_depth=2)

In [None]:
# Entrenamos el modelo 

arbol_depth2.fit(X_train, y_train)

In [None]:
# Visualizamos el modelo entrenado
class_names = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
plt.figure(figsize = (10,10))
tree.plot_tree(arbol_depth2, feature_names=data.columns[:-1],filled=True,rounded=True, class_names=class_names)


##### Evaluación de datos de train

Podemos utilizar una métrica de evaluación para ver la performance del modelo con los datos de entrenamiento

In [None]:
y_pred_train_depth2 = arbol_depth2.predict(X_train)
exactitud_train_depth2 = accuracy_score(y_train, y_pred_train_depth2)
exactitud_train_depth2

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo predict para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matrix de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
# Probar nuestro modelo con los datos de test

y_pred_depth2 = arbol_depth2.predict(X_test)


In [None]:
# Matriz de confusión:comparando resultado original (y_test) con predicción del modelo (y_pred_depth2)
matriz_depth2 = confusion_matrix(y_test, y_pred_depth2)
sns.heatmap(matriz_depth2, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
# Métrica accuracy

exactitud_depth2 = accuracy_score(y_test, y_pred_depth2)
exactitud_depth2

In [None]:
# Comparamos todos los modelos

print("La exactitud del modelo con los hiperparámetros por default es", round(exactitud_arbol,2))
print("La exactitud del modelo con hiperparámetro profundidad máxima de 4 es", round(exactitud_depth4,2))
print("La exactitud del modelo con hiperparámetro profundidad máxima de 2 es", round(exactitud_depth2,2))
