# Random forest
- Es un conjunto de cientos o miles de árboles.
- Selecciona de manera aleatoria observaciones de nuestra base de datos, dejando deliberadamente fuera otras. 
- Selecciona aleatoriamente las variables

Crea nuevos árboles de regresión o clasificación con datos diferentes en cada caso

### Virtudes del Random forest
- Evita sobreajustar los resultados del modelo.
- Asigna un peso variable a las distintas observaciones.
- Asigna un peso aleatorio a las distintas variables.

### Resultados finales del modelo
- Media de los resultados obtenidos en variables numéricas.
- Categoría mayoritaria en las respuestas categóricas.

In [2]:
from sklearn import tree
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

df = pd.read_csv(r'./base_datos_2008.csv') # Importar base de datos
df = df.dropna(subset = ['ArrDelay'])      # Eliminar casos faltantes
df = df.sample(frac = 1)                   # Mezclar base de datos
dftest = df.tail(500000)                   # Partir un DataFrame para el test
df = df.head(500000)                       # y un DataFrame para el training

In [3]:
clf = tree.DecisionTreeClassifier()  # Ajustar un árbol de clasificación

# Seleccionar las variables que funcionarán como regresoras del modelo, son todas cuantitativas
X = df[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]

# Seleccionar las mismas para el training que para el test
X_test = dftest[['Distance','AirTime','DepTime','TaxiIn','TaxiOut','DepDelay']]

# Crear una variable el respuesta, si el veulo se ha retrasado más de 10 minutos o no
Y = df['ArrDelay'] > 10
Y_test = dftest['ArrDelay'] > 10

# Entrenar el modelo
clf = clf.fit(X,Y)
Y_pred_test = clf.predict(X_test)

In [4]:
np.mean(Y_test == Y_pred_test) # Este número se compara con el generado por el random forest

0.89363

In [5]:
# Se indica que se generen 100 árboles con n_estimators
# A veces no es tan bueno generar muchos árboles, si esto sucede es perder el tiempo
# con n_jobs = -1 se indica que use todos los núcleos disponibles de la computadora
clf = RandomForestClassifier(n_estimators = 100, n_jobs = -1)

# Entrenar el objeto con nuestro conjunto training
clf.fit(X,Y)

# Hacer las predicciones para nuestro conjunto test
Y_pred_test = clf.predict(X_test)

# RandomForest nos permite clasificar la importancia de cada una de las variables que hemos usado

clf.feature_importances_ # Este parámetro es muy útil a la hora de predecir una cierta categoría
# Se pueden modificar unos parámetros para random forest classifier
# n_estimators / max_features / bootstrap / n_jobs
# max_features sirve para fijar un número máximo de variables que queremos que entren en el modelo
# bootstrap es un método que permite realizar un mustreo con reemplazo de nuestros datos, esta genera muestras aleatorias en nuestras filas y va a ajustar los árboles con ellas, se selecciona con "bootstrap = True"




# El output nos indica en porcentaje qué variable es la más relevante en la media de todos los árboles
# Se observa que la última con un 56% es la más importante
# Por lo tanto, la variable más explicativa es la variable de salida
# Está muy correlacionada con el retraso de llegada

array([0.09108723, 0.08104752, 0.08197134, 0.04982811, 0.13322565,
       0.56284014])

In [6]:
# Mostrar qué tan bien predice este modelo
np.mean(Y_test == Y_pred_test) 
# Incrementa en un 3% el potencial predictivo que tenía un árbol de clasificación
# Cuanto más alto sea el potencial predictivo de un modelo más difícil será incrementarlo

0.92355

In [None]:
# Función necesaria si la variable respuesta fuera numérica, se justa de igual forma que la anterior
# RandomForestRegressor()
# Se necesita buscar otro tipo de métrica como el r2