# Módulo 1: Análisis de datos en el ecosistema Python

### Sesión (8)

**24/10/2022**

# Decision Tree Regression

## Árboles de regresión

* Los árboles de regresión son el subtipo de árboles de predicción que se aplica cuando **la variable objetivo es continua**.

* En términos generales, en el entrenamiento de un árbol de regresión, las observaciones se van distribuyendo por **bifurcaciones (nodos)** generando la estructura del árbol hasta alcanzar un nodo terminal.  
 
* Cuando se quiere predecir una nueva observación, **se recorre el árbol** acorde al valor de sus predictores hasta alcanzar uno de los nodos terminales. 

* La **predicción del árbol es la media de la variable respuesta** de las observaciones de entrenamiento que están en ese mismo nodo terminal.

El algoritmo de ***Decision Tree regressor*** realiza estos dos pasos generando particiones del espacio de solución hasta que se alcance el criterio de parada:  

* Dado un conjunto de variables, encontrar la variable que permita predecir mejor la variable objetivo (target):  **criterio de corte**    
* Encontrar el valor por donde cortar sobre esa variable que permita predecir mejor la variable de respuesta (target):  **punto de corte**

![image.png](attachment:image.png)

Volvemos a generar un modelo para predecir los precios de viviendas en Boston:

In [None]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

In [None]:
# Importamos los datos de la misma librería de scikit-learn
from sklearn.datasets import load_boston
boston = load_boston()

# Convertir los datos en pandas dataframe
dataframe_x = pd.DataFrame(boston.data, columns = boston.feature_names)

# La variable dependiente es el target y la llamammos dataframe_y
dataframe_y = pd.DataFrame(boston.target, columns = ['target'])

# Combinamos ambos para obtener un dataframe con todas las variables explicativas y la variable objetivo
df_boston = dataframe_x.join(dataframe_y)

df_boston

Características del conjunto de datos:
 
    -Número de muestras: 506
 
    -Número de atributos: 13 predictivo numérico / categórico
 
    -Median value (atributo 14) suele ser el objetivo.
    
Información de atributos (en orden):

        - CRIM tasa de delincuencia per cápita por ciudad
        - Proporción ZN de terreno residencial dividido en zonas para lotes de más de 25,000 pies cuadrados.
        - Proporción INDUS de acres comerciales no minoristas por ciudad 
        - Variable ficticia CHAS Charles River (= 1 si el tramo limita con el río; 0 en caso contrario)
        - Concentración de óxidos nítricos NOX (partes por 10 millones)
        - RM número medio de habitaciones por vivienda
        - Proporción de EDAD de las unidades ocupadas por el propietario construidas antes de 1940
        - Distancias ponderadas DIS a cinco centros de empleo de Boston
        - Índice RAD de accesibilidad a carreteras radiales
        - IMPUESTO Tasa de impuesto a la propiedad de valor total por \$ 10,000\
        - PTRATIO Ratio maestro-alumno por municipio
        - B 1000 (Bk - 0.63) ^ 2 donde Bk es la proporción de negros por ciudad
        - LSTAT % menor estatus de la población
        - MEDV Valor medio de las viviendas ocupadas por el propietario en \$ 1000\

In [None]:
# La información principal del dataset
df_boston.info()

Definimos los datos del modelo con todas las variables de entrada **menos la variable éticamente incorrecta**


In [None]:
X_multiple = df_boston.drop(['target', 'B'], axis='columns')
y_multiple = df_boston['target']

A pesar de que es una práctica común y recomendada, esta vez no modificamos la *[estructura de datos](https://scikit-learn.org/stable/glossary.html#term-array-like)* antes de pasarlo al modelo.

In [None]:
X_multiple

In [None]:
y_multiple

In [None]:
# Dividir el dataset en Training y Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_multiple, y_multiple, test_size=0.2, random_state=222)

#### Aplicar el modelo de regresión no-lineal con “Árboles de Decisión”

In [None]:
from sklearn.tree import DecisionTreeRegressor


arbol = DecisionTreeRegressor(max_depth=3, random_state=100)

In [None]:
# Ajustamos el algoritmo al conjunto de datos de entrenamiento

arbol.fit(X_train, y_train)

In [None]:
# lanzamos las predicciones (para el conjunto de test que son los datos no vistos por el algoritmo en la fase de modelización)

y_pred = arbol.predict(X_test) 

#### Evaluación del modelo a través de sus métricas

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(y_test, y_pred))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(y_test, y_pred)*100)
print('Mean Squared Error:', mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(y_test, y_pred)))
print('R^2 coefficient of determination:', r2_score(y_test, y_pred))

Veamos cuál fue la precisión alcanzada por nuestro árbol tanto en la etapa de entrenamiento como en la fase de test, para ello usamos el **``score``**:

In [None]:
# Score:  Goodness to fit o R^2 que representa la calidad de las predicciones
print("R^2 de entrenamiento:", arbol.score(X_train,y_train))
print("R^2 de prueba (test):", arbol.score(X_test,y_test))

Vamos a obtener más información acerca del árbol de decisión del modelo usando las siguientes funciones:

In [None]:
print("La profundidad del árbol:", arbol.get_depth())
print("El número de hojas del árbol:", arbol.get_n_leaves())

In [None]:
# Parámetros indicados en la definicón del árbol
arbol.get_params()

Para visualizar el proceso de los árboles de regresión podemos utilizar lo siguente:

In [None]:
from sklearn import tree
arbol_texto = tree.export_text(arbol)
print(arbol_texto)

In [None]:
# Los features son las variables que se nombran en cada column
X_train.columns

In [None]:
# Consultar la estructura visual del árbol
tree.plot_tree(arbol)
plt.show()

In [None]:
# Sacamos una visualización sencilla de los valores del primer feature
X_train['RM'].reset_index()['RM'].plot()

In [None]:
# Genrar una foto del árbol y guardar en la carpeta de trabajo la imagen

fig = plt.figure(figsize=(25,20), dpi=300)
_ = tree.plot_tree(arbol, feature_names=X_train.columns.values, filled=True)

fig.savefig("decistion_tree_plot.png")

#### Ahora nos fijamos en los valores estimados y predichos para entender bien la salida de un árbol de decisión:

In [None]:
# Sacar los valores estimados (salida del modelo para el conjunto de training)
y_estimated = arbol.predict(X_train)
y_estimated

In [None]:
# Veamos qué variedad tienen los datos ajustados 
pd.Series(y_estimated).value_counts()

In [None]:
# Consultamos la variedad de los datos predichos
pd.Series(y_pred).value_counts() 

Básicamente el número de los nodos terminales o las hojas del árbol (**leaf nodes**) determinan cuantos valores únicos tendría la salida del modelo.

In [None]:
# visualizamos las predicciones
plt.scatter(y_test, y_pred, color = 'red')
plt.plot(y_test, y_test, color = 'blue')
plt.title('y_test vs predicted')
plt.xlabel('y_test')
plt.ylabel('predicted')
plt.show()

Como se puede observar, a la hora de generar el árbol podemos indicar una serie de hiperparámetros para el elgoritmo de *Decision Tree Regressor**. El hiperpárametro que más afecta a este tipo de modelos es la profundidad máxima del árbol (**max_depth**)

In [None]:
# Creamos otro modelo cambiando el hiperparámetro
arbol = DecisionTreeRegressor(max_depth=4, random_state=100)

# Entrenamos el nuevo modelo
arbol.fit(X_train, y_train)

y_predict = arbol.predict(X_test) 

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(y_test, y_predict))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(y_test, y_predict)*100)
print('Mean Squared Error:', mean_squared_error(y_test, y_predict))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(y_test, y_predict)))
print('R^2 coefficient of determination:', r2_score(y_test, y_predict))

Se ve que se consigue esta vez un mejor modelo con más calidad incluso respecto al árbol inicial. Sin embargo debemos tener mucho cuidado con aumentar la profundidad del árbol que indica **una mayor complejidad** del modelo:  
- Los modelos más complejos conllevan un coste: **Más grande, más recursos y menos interpretable**.  

- Los modelos más complejos suelen sufrir de overfitting:  **Más sobre ajustado y menos genérico**.  

Por ello vamos a analizar el rendimiento del modelo frente a la complejidad del árbol por ser más profundo:

### Curva de complejidad del modelo (**Model Complexity Curve**)

In [None]:
# Consideramos un rango para asignar el hiperparámetro 
hiper_param = np.arange(2,20)  
    
# Generamos previamente los vectores necesarios para ir calculando y guardando el rendimiento de los árboles
train_r2 = np.zeros(hiper_param.size) 
test_r2 = np.zeros(hiper_param.size) 

for i in range(hiper_param.size):
    # Generamos un árbol para cada hiperparámetro, lo entrenamos y calculamos el R_cuadrado sobre datos de train y de test 
    mod_arbol = DecisionTreeRegressor(max_depth=hiper_param[i], random_state=100)
    mod_arbol.fit(X_train, y_train)
    train_r2[i] = r2_score(y_train, mod_arbol.predict(X_train)) 
    test_r2[i] = r2_score(y_test, mod_arbol.predict(X_test))    

# Graficamos el R_cuadrado de training versus de test
plt.plot(hiper_param, test_r2, linewidth=3, label='Test R^2')
plt.plot(hiper_param, train_r2, linewidth=3, label='Train R^2')
plt.xticks(hiper_param)
plt.xlabel('Complejidad (max_depth)')
plt.ylabel('R2')
plt.legend(loc = 'lower right')
plt.show()

In [None]:
df_hip = pd.DataFrame(hiper_param, columns=['hiper_param'])
df_hip['R_2'] = test_r2
df_hip

Se puede apreciar que apartir de ***max_depth=4*** no se mejora tanto la capidad predictiva del modelo para el conjunto de pueba (test), a pesar de que la calidad máxima se consigue teniendo la profundidad máxima como ***max_depth=8***

Para asegurarnos y tener una visión del grado de posible sobre ajusto que puede tener el modelo, podemos analizar su rendimiento frente al tamaño de los datos utilizados en entrenamiento.   

Los modelos que muestran **mucho sesgo (bias) entre la capacidad predictiva del modelo en el conjunto de entrenamiento y el rendimiento del modelo en el conjunto de test**, suelen sufrir más de **overfitting**.

### Curva de aprendizaje (**Learning Curve**)

Definimos una función que toma el valor del hiperparámetro como su entrada y dibuja la evolución del rendimiento del modelo para el conjunto de training y de test: 

In [None]:
def curva_aprendizaje(profundidad: int):
    """Función para sacar la gráfica de Learning Curve a partir de la profundidad del árbol"""

    # Generar la estructura del árbol
    hiper_parametro = int(profundidad)   
    modelo_arbol = DecisionTreeRegressor(max_depth=hiper_parametro, random_state=100)
    
    # Crear un listado de los tamaños de subconjuntos de datos de entrenamiento
    num_samples = np.linspace(2,X_train.shape[0]).astype(int)

    # Generamos previamente los vectores necesarios para ir calculando y guardando el rendimiento de los árboles
    train_R2 = np.zeros(num_samples.size) 
    test_R2 = np.zeros(num_samples.size)

    for i in range(num_samples.size):
        # Generamos un árbol para cada subconjunto de datos de entrenamiento y lo ajustamos  
        modelo_arbol.fit(X_train[:num_samples[i]], y_train[:num_samples[i]])

        # Calculamos el R_cuadrado sobre datos de train y de test
        train_R2[i] = r2_score(y_train[:num_samples[i]], modelo_arbol.predict(X_train[:num_samples[i]])) 
        test_R2[i] = r2_score(y_test, modelo_arbol.predict(X_test))

    # Graficamos el R_cuadrado de training versus de test
    plt.plot(num_samples, test_R2, label = 'Test R^2')
    plt.plot(num_samples, train_R2, label = 'Train R^2')
    plt.title('Curva de aprendizaje (Learning Curve) para la profundidad = %s' % hiper_parametro)
    plt.xlabel('Tamaño de entrenamiento (Training size)')
    plt.ylabel('R2')
    plt.legend(loc = 'lower right')
    plt.show()    


Primero graficamos la curva de aprendizaje para la profundidad con el rendimiento más alto (***max_depth=8***)

In [None]:
curva_aprendizaje(profundidad=8)

Después, graficamos la curva de aprendizaje para la profundidad mínima con un rendimiento aceptable (***max_depth=4***)

In [None]:
curva_aprendizaje(profundidad=4)

Se puede observar claramente que esta vez **se convergen las dos lineas** de modo que el rendimiento del modelo sería muy similar tanto en training como en test y por lo tanto habrá **menos riesgo de Overfitting**.

### Grid Search

La técnica de ***GridSearchCV*** genera candidatos a partir de un conjunto de valores mediante un diccionario declarado como ***param_grid*** con los valores de los hiperparámetros a evaluar. Después, los valora usando diferentes subconjuntos de datos a partir de datos de entrenamiento y los criterios indicados.
 


![image.png](attachment:image.png)

Aquí realizamos la búsqueda con un rango amplio de profundidades para el árbol que vamos a ajustar, haciendo un *10-fold cross-validation* de los datos de entrenamiento:

In [None]:
from sklearn.model_selection import KFold
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV

# Definimos la menra de trozear dataset de train para crear los subconjuntos que se utilizan en la validación cruzada (Cross-Validation)
folds = KFold(n_splits=10, shuffle=True, random_state=111) 

# Declaramos el tipo de regresor (modelo) y los rangos de hiperparámetros a considerar en la búsqueda
modelo = DecisionTreeRegressor(random_state=100)
parametros = {"max_depth":list(range(2,20))} 

# Establecer el R_cuadrado como la función de "scoring" a la hora de puntuar los modelos
scoreFun = make_scorer(r2_score)   

# Definir el Grid Search y realizar la búsqueda con los datos de entrenamiento
modelo_grid = GridSearchCV(estimator=modelo,
                          param_grid=parametros,
                          scoring=scoreFun,
                          cv=folds)  
modelo_grid.fit(X_train, y_train)

In [None]:
# Consultar el modelo óptimo
modelo_grid.best_estimator_

In [None]:
# Calcular las predicciones del modelo óptimo
modelo_grid.best_estimator_.predict(X_test)

In [None]:
# Calcular las predicciones directamente de la salida de GridSearchCV
modelo_grid.predict(X_test)

Se puede apreciar que la función *GridSearchCV* realiza la búsqueda, crea y proporciona el modelo óptimo que se haya conseguido.  
Volvemos a consultar la calidad de este modelo:

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Generar las predicciones
predichos_grid = modelo_grid.predict(X_test)

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(y_test, predichos_grid))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(y_test, predichos_grid)*100)
print('Mean Squared Error:', mean_squared_error(y_test, predichos_grid))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(y_test, predichos_grid)))
print('R^2 coefficient of determination:', r2_score(y_test, predichos_grid))

In [None]:
# Podemos consultar la profundidad que ha llegado efectivamente a tener el árbol
best_depth = modelo_grid.best_estimator_.get_depth()
best_depth

In [None]:
# Dibujamos el Learning Curve con esta profundidad
curva_aprendizaje(profundidad=best_depth)

Se observa que este modelo tiene un rendimiento ligeramente superior respecto al modelo con (*max_depth=4*) y posiblemente menos riesgo de overfitting respecto al modelo con mayor rendimiento (*max_depth=8*) 

---

### Dataset de **Advertising**

Este dataset consiste en un conjunto de datos sobre el gasto publicitario de diversos productos en campañas de marketing realizados por diferentes medios:  
 - **TV**: gastos en las cadenas de televisión.
 - **Radio**: gastos en las emisoras de la radio.
 - **Newspaper**: gastos en los periódicos.

La variable **Sales** contiene las ventas conseguidas según el gasto invertido en la publicidad por diferentes plataformas.  



 Vamos a realizar un estudio por si somos capeces de predecir esta variable en función de los gastos publicitarios. Primero procedemos a la carga de los datos:

In [None]:
df_adv = pd.read_csv("Advertising.csv")
df_adv

In [None]:
# Sacamos la información interesante relacionado con el datast
df_adv.info()

Como se pueden ver existen varias columnas con valores nulos (*missing values*) que los debemos de quitar del DataFrame.

In [None]:
# Consultar si hay valores perdidos
df_adv.isna().sum()

In [None]:
# Identificar los registros con valores perdidos
df_adv.drop(df_adv.dropna().index)

In [None]:
# Quitar los registros que contienen algún valor nulo y reestablecer los índices
df_adv = df_adv.dropna()
df_adv = df_adv.reset_index(drop=True)

In [None]:
# Consultar las estadísticas de los datos de la tabla
df_adv.describe()

In [None]:
# Definir las variables de entrada y la variable objetivo
X = df_adv.drop('Sales', axis='columns')
y = df_adv['Sales']

In [None]:
# Consultar los predictores del modelo a desarrollar
X

In [None]:
# Consultar la variable objetivo
y

In [None]:
# Dividir el dataset en Training y Test set
from sklearn.model_selection import train_test_split
X_train_adv, X_test_adv, y_train_adv, y_test_adv = train_test_split(X, y, test_size=0.2, random_state=99)

In [None]:
# Generar un modelo inicial y calcular las predicciones
from sklearn.tree import DecisionTreeRegressor


arbol_adv = DecisionTreeRegressor(max_depth=3, random_state=44)

arbol_adv.fit(X_train_adv, y_train_adv)

y_pred_adv = arbol_adv.predict(X_test_adv) 

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

# Métricas para evaluar la calidad del modelo
print('Mean Absolute Error:', mean_absolute_error(y_test_adv, y_pred_adv))
print('Mean Absolute Percentage Error:', mean_absolute_percentage_error(y_test_adv, y_pred_adv)*100)
print('Mean Squared Error:', mean_squared_error(y_test_adv, y_pred_adv))
print('Root Mean Squared Error:', np.sqrt(mean_squared_error(y_test_adv, y_pred_adv)))
print('R^2 coefficient of determination:', r2_score(y_test_adv, y_pred_adv))

In [None]:
# visualizamos las predicciones
plt.scatter(y_test_adv, y_pred_adv, color = 'red')
plt.plot(y_test_adv, y_test_adv, color = 'blue')
plt.title('y_test vs. predicted')
plt.xlabel('y_test')
plt.ylabel('predicted')
plt.show()

---

### **`Ejercicio 8`**

**`8.1`** Saca la gráfica de *Model Complexity Curve* que dibuja la evolución de R_cuadrado de training versus del test para el rango de profundidades entre `2` y `30` **inclusive**.  

**`8.2`** Define una función que coja la profundidad máxima para un árbol y dibuje el *Learning Curve* que visualiza la evolución del rendimiento del modelo tanto en training como en test, en función del tamaño de subconjuntos de datos de entrenamiento que se aumentan **de 5 en 5** hasta considerar todos los datos de training. Después aplíca la función declarada con la *`profundidad=2`*. 

**`8.3`** Para el rango de profundidades entre `2` y `30` **inclusive**:
- **`8.3.1`** Realiza una búsqueda del valor de hiperparámetro y el modelo óptimo usando la técnica de *Grid Search*.
- **`8.3.2`** Visualiza los resultados del mejor modelo conseguido con la gráfica de *"Valores reales vs. predichos"* para el conjunto de test.
- **`8.3.3`** Calcula diferentes métricas para evaluar tu modelo y analiza su rendimiendo en comparación con modelos anteriores.
    - MAE
    - MAPE
    - MSE
    - RMSE
    - $R^2$    
      
- **`8.3.4`** Saca la gráfica de el *Learning Curve* para el modelo óptimo, usando la función definida en el paso `8.2` y explica si este modelo tiene preferencia o no, para ser elegido en práctica como predictor de la venta de productos anunciados comparando con el modelo inicial. Si tienes otra recomendación indica el modelo que en crees que sería la mejor opción explicando tu opinión al respecto.   

---

In [None]:
## Solución
# Ejercicio 8.1


In [None]:
## Solución
# Ejercicio 8.2


In [None]:
## Solución
# Ejercicio 8.3.1


In [None]:
## Solución
# Ejercicio 8.3.2


In [None]:
## Solución
# Ejercicio 8.3.3


In [None]:
## Solución
# Ejercicio 8.3.4
