# Aprendizaje supervisado - Árboles de decisión
Los árboles de decisión, como todo algoritmo de aprendizaje automático supervisado, tienen como función la de predecir la variable respuesta en función de las covariables. Observe que estas covariables son el equivalente de las variables predictoras o variables independientes en las regresiones lineales o logísticas.

### Concepto de árboles de decisión
El aprendizaje por intermedio de árboles es, quizás, una de las técnicas más utilizadas para el aprendizaje inductivo, presenta una gran robustez ante datos con ruido (atípicos). Por lo general, las covariables y las variable respuesta son de tipo categórico pero se pueden presentar árboles con datos numéricos. El árbol se construyen basados en una serie de condiciones que pueden posteriormente mapearse a reglas de clasificación.

Cuando se tiene una instancia nueva para clasificar, esta instancia se compara con las diferentes ramas y condiciones, que van del nodo raíz a las ramas, generadas en el árbol para poder lograr su clasificación.

<p align="center">
<img src="arbold.jpg" width="600">
</p>

La figura anterior muestra un árbol de decisión muy simple con una covariable numérica (IMC) y otra categórica dicotómica (Antecedentes obesidad Si/No), y una clase con dos valores: "Llevar una vida sana" y "Hacer ejercicio. El nodo raíz es aque que determina el algoritmo que tiene mayor ganancia de información.

### Tipos de árboles
Dependiendo del tipo de variable de respuesta o etiqueta, los árboles pueden ser de dos tipos:

* **Árboles de regresión:** son aquellos donde la variable respuesta y es cuantitativa.
* **Árboles de clasificación:** son aquellos donde la variable respuesta y es cualitativa.

#### Árboles de regresión
![Arbol de regresión](ilustracion_arb_regresion.png)

Los árboles de regresión desarrollan varias particiones para las covariables comparando estas con puntos de corte que permiten dividir las instancias en hiper-rectángulos que agrupan en cada uno las predicciones $\hat{y}$.

Para desarrollar un árbol de regresión se deben seguir los siguientes pasos generales:

1. Encontrar la covariable que permita predecir mejor la variable respuesta.
2. Encontrar el mejor punto de corte $c$ para esta predicción.
3. Repetir hasta tener todas las instancias clasificadas o que se alcance un criterio de parada que por lo general es minimizar la función de costos $\sum_{i=1}^m(y_{i}-\hat{y_{i}})^2$

## Carga del conjunto de datos

In [None]:
# Importar modulos necesarios para el tratamiendo de datos e imágenes
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Leer el dataset
url = 'https://raw.githubusercontent.com/JASDataCTG/Diplomado-ML/main/Modulo%203/Datasets/Movie_regressiones.csv'
df = pd.read_csv(url, header = 0)

In [None]:
df.head()

In [None]:
df.info()

### Imputación de valores faltantes

In [None]:
# Imputar los valores faltantes por la media de los valores presentes
df['Tiempo realizacion'].mean()

In [None]:
# Imputar los valores sin crear un nuevo objeto (inplace = True)
df['Tiempo realizacion'].fillna(value = df['Tiempo realizacion'].mean(), inplace = True)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.describe()

### Creación de variables dummy

In [None]:
# Revisar los valores únicos en al serie conformada por la columna Genero
list(dict.fromkeys(df['Genero']))

In [None]:
# Crear las variables dummy eliminando una de ellas y eliminando igualmente la columna que las origina
df = pd.get_dummies(df, columns = ['Disponibilidad en 3D', 'Genero'], drop_first = True)

In [None]:
df.head()

### División de la variable predicha y el vector de características

In [None]:
# Asignar a X el array de atributos a excepción del atributo Coleccion
X = df.loc[:, df.columns!= 'Coleccion']

In [None]:
X.head()

In [None]:
X.shape

In [None]:
y = df['Coleccion']
type(y)

In [None]:
y.head()

In [None]:
y.shape

### Creación del conjunto de entrenamiento y validación

In [None]:
# Importar los modulos necesarios para dividir el dataset
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
X_train.head()

In [None]:
X_train.shape

In [None]:
X_test.shape

### Entrenamiento del árbol de regresión

In [None]:
# Importar el modulo dedicado al entrenamiento de árboles
from sklearn import tree

In [None]:
arbolreg = tree.DecisionTreeRegressor(max_depth = 5)

In [None]:
arbolreg.fit(X_train, y_train)

### Predicción en el conjunto de entrenamiento y validación

In [None]:
# Desarrollar las predicciones en los conjuntos de entrenamiento y validación
y_train_pred = arbolreg.predict(X_train)
y_test_pred = arbolreg.predict(X_test)

In [None]:
y_test_pred

### Métricas del modelo

In [None]:
from sklearn.metrics import r2_score, mean_squared_error

In [None]:
# Desviación estándar de la varianza inexplicada
mean_squared_error(y_test, y_test_pred)

In [None]:
# Proporción de la varianza total explicada por el modelo
r2_score(y_train, y_train_pred)

In [None]:
r2_score(y_test, y_test_pred)

### Gráficar árbol de regresión

In [None]:
datos_graf = tree.export_graphviz(arbolreg, out_file = None, feature_names = X_train.columns, filled = True)

In [None]:
from IPython.display import Image

In [None]:
# Importar modulo que genera la estructura del árbol y graficarlo de acuerdo a los datos
import pydotplus

In [None]:
# Graficar el árbol con graphviz que es un software dedicado a los grafos estructurados
graph = pydotplus.graph_from_dot_data(datos_graf)
Image(graph.create_png())
#graph.write_png('arboloriginal.png') # Si se desea guardar el árbol

In [None]:
# Se verifica que value del nodo raíz sea igual a la media de todos los valores del atributo Coleccion
y_train.mean()

### Controlando el crecimiento del árbol

#### Por el máximo nivel de crecimiento del árbol

In [None]:
arbolreg1 = tree.DecisionTreeRegressor(max_depth = 3)
arbolreg1.fit(X_train, y_train)
datos_graf = tree.export_graphviz(arbolreg1, out_file = None, feature_names = X_train.columns, filled = True)
graph1 = pydotplus.graph_from_dot_data(datos_graf)
Image(graph1.create_png())

#### Por el número mínimo de observaciones

In [None]:
arbolreg2 = tree.DecisionTreeRegressor(min_samples_split = 50)
arbolreg2.fit(X_train, y_train)
datos_graf = tree.export_graphviz(arbolreg2, out_file = None, feature_names = X_train.columns, filled = True)
graph2 = pydotplus.graph_from_dot_data(datos_graf)
Image(graph2.create_png())

In [None]:
arbolreg3 = tree.DecisionTreeRegressor(min_samples_leaf = 25)
arbolreg3.fit(X_train, y_train)
datos_graf = tree.export_graphviz(arbolreg3, out_file = None, feature_names = X_train.columns, filled = True)
graph3 = pydotplus.graph_from_dot_data(datos_graf)
Image(graph3.create_png())