<a href="https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_01_Arboles/01_B_%C3%81rboles_Decisi%C3%B3n_Regresi%C3%B3n_sin_resolver.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 INTRO: Árboles de Decisión
Explicación de cómo construír árboles de decisión.

Notebook por [Javier Blanco Cordero](https://www.linkedin.com/in/javier-blanco-cordero-71373656/).

### Enlaces de interés
*   [Slides de presentación](https://docs.google.com/presentation/d/16tnAAaiT6mrelG8zRg26crXAChWmzjOG2NyA0oyh4X0/edit?usp=sharing)
*   [Enlace a este notebook resuelto en Colab](https://colab.research.google.com/github/JotaBlanco/TheValley/blob/main/Arboles/Clase_01_Arboles/01_B_%C3%81rboles_Decisi%C3%B3n_Regresi%C3%B3n.ipynb)




## 0101 Qué es un árbol de decisión?
Un tipo de algoritmo de aprendizaje supervisado que se basa en realizar particiones a partir de distintos niveles de las variables disponibles.

## 0102 Import
Importamos todas las librerías necesarias para este análisis ([¿No sabes lo que es una librería de Python?](https://www.quora.com/What-is-a-Python-library-and-what-can-I-use-it-for)): pandas, numpy, seaborn, matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 0103 Carga el dataset de notas de estudiantes
Para probar a hacer árboles de decisión de Regresión utilizaremos un dataset sobre las notas de ciertos estudiantes portugueses de dos instituos en función de ciertas características socio-demográficas. El dataset original se puede encontrr en Kaggle ([aquí](https://www.kaggle.com/dipam7/student-grade-prediction)). 

Podéis encontrar una versión lista para usar con árboles de decisión en en mi github: 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Notas_Estudiantes_Limpio.csv'. 

Importa este dataset en un dataframe llamado **df**.

In [None]:
# Url archivo raw
url = 'https://raw.githubusercontent.com/JotaBlanco/TheValley/main/Data/Notas_Estudiantes_Limpio.csv'

# Importa csv
df = pd.read_csv(url)

# Visualización primeras filas
df.head()

# 02 EDA
Realizaremos un pequeño análisis exploratorio visual para familiarizarnos con el dataset. 

Recuerda que puedes encontrar mis clases sobre análisis exploratorio [aquí](https://github.com/JotaBlanco/TheValley/tree/main/EDA/).

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
# Visualización coeficientes Pearson
plt.figure(figsize=(12,10))
sns.heatmap(np.round(df.corr(),2), 
            vmin=-1, vmax=1, 
            annot=True, cmap="coolwarm")
plt.show()

# 03 Construcción árbol de decisión con scikit learn
Utilizando la librería [scikit learn](https://scikit-learn.org/stable/), la libería básica de referencia para machine learning, construíremos un árbol de decisión de regresión.

In [None]:
# Siguiendo el ejemplo de las diapositivas, entrenaremos un modelo
# utilizando sólo las variables 'Nivel Edu Madre', 'Tiempo Estudio', 'Ausencias'
cols = ['Nivel Edu Madre', 'Tiempo Estudio', 'Ausencias']
X = df[cols]
y = df['Nota']

## 0301 Importamos las librerías

In [None]:
# Nos importamos las funciones de árboles de scikit learn
from sklearn import tree

## 0302 Inicializamos el árbol
Definiendo las características que tendrá.

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

In [None]:
# Inicializamos un árbol. Por ahora está vacío. 
# Solo definimos cómo queremos que sea en cuanto a su estructura y condiciones de entrenamiento
arbol = tree.DecisionTreeRegressor(max_depth=3)
arbol

## 0303 Entrenamos el modelo
Una vez inicializado y definido el árbol, el método .[fit()](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.fit) realiza el proceso de particionado recursivo que hemos hecho nosotros antes a mano.

In [None]:
# Entrenamos el árbol inicializado a partir de los datos que le pasemos con .fit()
arbol = arbol.fit(X = X, y = y)
arbol

##0304 Visualizamos el modelo
Una vez entrenado el modelo, podemos visualizarlo.

In [None]:
# Con el método export_text
print(tree.export_text(arbol,
                       feature_names=list(X.columns)))

In [None]:
# O con la librería graphviz
import graphviz 

# Export_graphviz
dot_data = tree.export_graphviz(arbol, 
                                out_file=None, 
                                feature_names=list(X.columns)) 
graph = graphviz.Source(dot_data) 
graph

## 0305 Realizamos una predicción
Una vez el modelo está entrenado (definido) podemos pasarle datos para obtener las prediciones correspondientes de la variable objetivo. 

Para esto utilizamos el método .[predict()](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier.predict).

In [None]:
# Predicción
prediccion = arbol.predict(X)

In [None]:
# Cómo de buena es la predicción?
from sklearn.metrics import mean_squared_error
mean_squared_error(y, prediccion, squared=False)

# 05 EJERCICIO
Entrena un árbol de regresión con todas las variables predictoras disponibles para predecir la variable 'Nota'.

Prueba con profundidades de 3, 5, 20 y compara la calidad de cada predicción con la del árbol de las celdas anteriores.

Visualiza los distintos árboles y reflexiona sobre cómo ha conseguido mejorar la capacidad predictiva a medida que aumenta la profundidad de la arquitectura. 