## Decision Tree
Es un modelo de decisiones y todas sus posibles soluciones. Está compuesto por condiciones (nodos de decisión - intermedios-) y resultados (nodos hoja).<br>
Aplicado a la regresión, este algoritmo adapta la predicción a un modelo de árbol para producir una salida continua significativa, lo que quiere decir que el resultado no es discreto (no está representado por un conjunto discreto y conocido de valores).


In [9]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.utils.random import check_random_state
from sklearn.tree import DecisionTreeRegressor 
from sklearn.model_selection import cross_val_score

### Ejemplo Decision Tree
Se aplicará DT para predecir la distancia entre un par de puntos (x,y) y (x1,y1), uno de ellos constante.$$ d = \sqrt{(x1-x)^2 + (y1 - y)^2} $$

### Generar el conjunto de datos
Para generar el conjunto de datos se calculará la distancia entre un conjunto de 5000 puntos (x,y) aleatorios, así, el modelo de regresión se ajustará a una proporción del 80% del conjunto y el 20% restante estará destinado a la predicción.

In [3]:
def calcular_distancia(X,Y,XF,YF):
    return np.round(np.sqrt(np.power(XF-X,2)+np.power(YF-Y,2)),2)

XF = 5
YF = 12.5

rng = check_random_state(0)

X = np.round(rng.uniform(1, 11, 10000).reshape(5000, 2),2)
XFs=[[XF] for i in range(5000)]
YFs=[[YF] for i in range(5000)]
X=np.append(X, XFs, axis=1)
X=np.append(X, YFs, axis=1)
Y = calcular_distancia(X[:, 0],X[:, 1],XF,YF)
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

### Crear y ajustar el modelo


In [4]:
regressor = DecisionTreeRegressor(random_state = 0) 
regressor.fit(x_train, y_train)

DecisionTreeRegressor(random_state=0)

### Métricas
Se utilizará la validación cruzada para garantizar que los resultados de entrenamiento son independientes de los obtenidos en las pruebas. Luego el RMSE se aplicará al conjunto predicho para medir el error entre lo obsetvado y la predicción.

In [15]:
test_pred = regressor.predict(x_test)
score_train = cross_val_score(regressor, x_train, y_train, cv=10)
score_test = cross_val_score(regressor, x_test, y_test, cv=10)
print("Validación cruzada para el entrenamiento (10 particiones): ")
print(score_train)
print("Validación cruzada para las pruebas: (10 particiones): ")
print(score_test)
rmse = np.sqrt(mean_squared_error(y_test,test_pred))
print("RMSE = ",rmse)

Validación cruzada para el entrenamiento (10 particiones): 
[0.99874906 0.99894635 0.99910764 0.99874538 0.99887599 0.99883063
 0.99881525 0.99873618 0.99916105 0.99892625]
Validación cruzada para las pruebas: (10 particiones): 
[0.99622568 0.99646486 0.99639403 0.996946   0.99640832 0.99566325
 0.9958722  0.99450652 0.99695227 0.99281043]
RMSE =  0.08645750401208675
