# Árboles de clasificación y regresión

Árboles de clasificación -> Datos categóricos

Árboles de regresión -> Datos numéricos.

### Arboles de clasificación
La idea principal detrás de los aŕboles de clasificación es seleccionar la variable que sea más explicativa a la hora de partir todos los casos de los que disponemos en dos grupos y generar dos ramas.
Por ejemplo.
- Queremos estudiar la relación entre un grpo de variables y el hecho de que un vuelo se retrase o no.
- El árbol de clasificación va a buscar entre todas las variables y seleccionar la partición basada en una sola variable que explique mejor los retrasos en los vuelos.
- Al estudiar la relación entre un grupo de variables y seleccionar la partición basada en una sola variable que explique mejor los retrasos en los vuelos.
    - Es decir, aquella que deje una mayor proporción de vuelos con retraso en una rama y vuelos sin retraso en la otra.
    
    
Una de las principales ventajas de este modelo es que permite una lectura muy sencilla del proceso de clasificación, ya que los pasos que sigue el modelo son muy humanos.
-  Ya que toma decisiones secuenciales para grupos de datos, creando particiones cada vez más pequeñas y precisas.

### Árbol de regresión
Los modelos de regresión, que siguen exactamente el mismo procedimiento pero en vez de buscar la mayor proporción de una categoría en cada rama buscan un valor que divida entre dos grupos, minimizando el "mean squared error" dentro de cada rama. Así, por ejemplo, si queremos predecir los minutos de retraso de un vuelo en vez de si el vuelo se va a retrasar o no, el modelo separaría entre los vuelos que salen antes de las seis de la tarde, con una media de 10 minutos de retraso, y los que salen después, con una media de 30 minutos.

In [2]:
from sklearn import tree
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score

df = pd.read_csv(r"/home/flavioisay/MEGAsync/Python para data science y big data esencial/base_datos_2008.csv")
df = df.dropna(subset=['ArrDelay'])
df = df.sample(frac=1)
# Se parte en dos DataFrames
dftest = df.tail(500000) #  Último medio millón de casos
df = df.head(500000) # Primer medio millón de casos

In [3]:
# Ajustar árbol de clasificación
clf = tree.DecisionTreeClassifier()

X = df[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]
X_test = dftest[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]
Y = df['ArrDelay'] > 10
Y_test = dftest['ArrDelay'] > 10

# Entrenar el objeto clf con el método fit (variable regresora, variable respuesta)
clf = clf.fit(X,Y)
Y_pred = clf.predict(X)
Y_pred_test = clf.predict(X_test)

# max_depth , min_samples_split / min_samples_leaf , max_features
# max_depth, es la profundidad máxima que le permitimos a nuestro modelo llegar, por ejemplo, como máximo 1000 ramas para abajo
# min_samples_split, mínimo número de casos que aceptamos en cada una de las particiones, por ejemplo, si no queremos que haya particiones con menos de 10 casos, se puede forzar aquí
# max_features, forzar el modelo a no usar todas las variables que le metemos, es posible decirle que como mucho, queremos que aparezcan, 10 si tenemos 20, o un porcentaje

In [4]:
np.mean(Y == Y_pred) # Está clasificando correctamente los datos
# El modelo sobreajusta los datos
# Es decir, crea un árbol que predice perfectamente cada una de las observaciones que tenemos
# Esto se trata de evitar, por eso se crearon los dos dataframes del inicio.
# X_test y Y_test, son los datos guardados para evaluar cómo funciona el modelo
# A lo anterior se le llama validación externa

0.999996

In [6]:
np.mean(Y_test == Y_pred_test) # Funciona pero no predice también como anteriormente


0.89363

In [7]:
### Para una respuesta numérica
clf = tree.DecisionTreeRegressor()

Y = df['ArrDelay'] # Respuesta numérica, minitos que se han retrasado los vuelos

Y_test = dftest['ArrDelay']

# Entrenar modelo, las variables regresoras son las mismas que la anterior
clf = clf.fit(X,Y)
# Crear unas predicciones para los datos internos
Y_pred = clf.predict(X)
# Prediccions para los datos externos
Y_pred_test = clf.predict(X_test)

# Métrica de comparación, r2, que es el porcentaje de varianza explicada por el modelo
print('R cuadrado: ', r2_score(Y, Y_pred))
print('R cuadrado test: ', r2_score(Y_test,Y_pred_test))

R cuadrado:  0.9999988837404525
R cuadrado test:  0.8962973805842132
