### Los arboles de regresion

A diferencia de los arboles de clasificación, la variable objetivo es una variable continua.

Al ir partiendo los datos en subconjuntos manejables y vamos haciendo particiones hasta el punto de obtener una interaccion que apenas sea no lineal o que no haya una relacion entre las observaciones de la particion, habria un momento en que nos quedariamos con un solo elemento en cada nodo o con observaciones mas o menos homogeneas, a esto se le llama una particion recursiva.

una vez lleguemos a un nodo terminal, el modelo retornará como prediccion el promedio de todas los observaciones que caen en dicho nodo.

#### Procedimiento
1. Empezamos con un nodo con todas las observaciones, calculamos la media y la varianza de la variable objetivo.
2. Calculamos la reducción de la varianza para todos los posibles candidatos a variable del siguiente nodo, eligiendo la que da maxima reduccion de la misma en el nodo.
3. Para cada nodo hoja comprobamos si:
* la reducción maxima de la varianza es menor que un valor fijo
* el numero de observaciones en dicho nodo es menor que un valor fijo.

In [17]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeRegressor

In [3]:
data = pd.read_csv("../datasets/boston/Boston.csv")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   crim     506 non-null    float64
 1   zn       506 non-null    float64
 2   indus    506 non-null    float64
 3   chas     506 non-null    int64  
 4   nox      506 non-null    float64
 5   rm       506 non-null    float64
 6   age      506 non-null    float64
 7   dis      506 non-null    float64
 8   rad      506 non-null    int64  
 9   tax      506 non-null    int64  
 10  ptratio  506 non-null    float64
 11  black    506 non-null    float64
 12  lstat    506 non-null    float64
 13  medv     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB


In [4]:
colnames = data.columns.to_list()
predictors = colnames[:13]
target = colnames[13]

In [5]:
regtree = DecisionTreeRegressor(min_samples_split=30, min_samples_leaf=10,random_state=42)

In [6]:
X = data[predictors]
y = data[target]
regtree.fit(X,y)
preds= regtree.predict(X)
data["preds"] = preds

In [7]:
data[["preds","medv"]]

Unnamed: 0,preds,medv
0,22.840000,24.0
1,22.840000,21.6
2,35.247826,34.7
3,35.247826,33.4
4,35.247826,36.2
...,...,...
501,22.840000,22.4
502,20.624138,20.6
503,28.978261,23.9
504,31.170000,22.0


In [8]:
import graphviz
from graphviz import Source

ModuleNotFoundError: No module named 'graphviz'

In [10]:
from sklearn.model_selection import cross_val_score, KFold

In [19]:
cv = KFold(n_splits=10,shuffle=True,random_state=42)
scores = cross_val_score(regtree,X,y,scoring="neg_mean_squared_error",cv=cv)
score = np.mean(scores)
print(score)

-20.360768811894822


In [22]:
list(zip(predictors,regtree.feature_importances_))

[('crim', 0.034212032306401664),
 ('zn', 0.0),
 ('indus', 0.0011605887788362535),
 ('chas', 0.0),
 ('nox', 0.01856163073811281),
 ('rm', 0.6308568014336987),
 ('age', 0.01725115143448252),
 ('dis', 0.0013745115995799774),
 ('rad', 0.0),
 ('tax', 0.002369830529879818),
 ('ptratio', 0.009333247332534616),
 ('black', 0.0),
 ('lstat', 0.2848802058464736)]