## Introducción al Machine Learning 
### Regresión Multi-Variable con Arboles de Regresión

En este ejemplo se muestra como construir un modelo para estimar el precio
de una vivienda en función de características de la vivienda y del barrio.
Utilizamos el dataset *Boston* que viene de ejemplo en sklearn y como algoritmo se utiliza un árbol de regresión

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

El paquete *datasets* trae cojuntos de prueba y utilidades para descargar o generar datasets de entrenamiento 

In [None]:
from sklearn.datasets import load_boston

In [None]:
boston_data = load_boston()

In [None]:
boston_data.keys()

In [None]:
print(boston_data['DESCR'])

In [None]:
pd.DataFrame(boston_data['data'], columns=boston_data['feature_names'])

Utilizamos las características y la variable objetivo directamente del diccionario disponible en la variable boston_data. Entrenameros un **arbol de regresión**.

In [None]:
features = boston_data['data']
target = boston_data['target']

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import r2_score, mean_squared_error

In [None]:
x_train, x_test, y_train, y_test = train_test_split(features, 
                                                    target, 
                                                    test_size=0.3,
                                                    random_state=7)

In [None]:
regtree = DecisionTreeRegressor()
regtree = regtree.fit(x_train, y_train)

Calculamos las predicciones del conjunto de test y sobre el propio conjunto de train para comparar

In [None]:
y_pred = regtree.predict(x_test)
y_pred_train = regtree.predict(x_train)

Nos interesa representar las predicciones vs los valores reales. Las mejores estimaciones estarán más cerca de la diagonal

In [None]:
fig, ax = plt.subplots(figsize=(6,6))
plt.scatter(y_test, y_pred)
plt.xlabel("Precio Real")
plt.ylabel("Precio Estimado")

Calculamos la métrica $R^2$ en ambos casos

In [None]:
r2_score(y_test, y_pred) 

In [None]:
r2_score(y_train, y_pred_train)

___

#### Interpretar el Arbol de Regresión
Al igual que los árboles de decisión podemos representar los árboles de regresión para interpretar los caminos que se toman para tomar la desición final en los nodos hoja

Para mantener la sencillez haremos un árbol con profundidad limitada

In [None]:
regtree = DecisionTreeRegressor(max_depth=4)
regtree = regtree.fit(x_train, y_train)

Guardamos además la imagen como fichero, para facilitar su lectura  

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
_ = plot_tree(regtree, feature_names=boston_data['feature_names'])
plt.savefig('regresion_tree.pdf', format='pdf')

___

### Ejercicio Propuesto
Hacer una gráfica que muestre como evoluciona el raíz del error cuadrático medio,
tanto en train como en test, según cambiamos la profundidad máxima del árbol.
Los pasos a seguir son:
1. Hacer un bulce para entrenar el árbol según la iteración ej. de 1 a 8
2. Calcular y almacenar el RSME correspondiente con ayuda de la función *mean_squared_error*
3. Dibujar la gráfica con los errores almacenados