# Desafío - Random Forest
- Para realizar este desafío debes haber estudiado previamente todo el material disponibilizado correspondiente a la unidad.
- Una vez terminado el desafío, comprime la carpeta que contiene el desarrollo de los requerimientos solicitados y sube el .zip en el LMS.
- Desarrollo desafío:
    - El desafío se debe desarrollar de manera Individual.
    - Para la realización del desafío necesitarás apoyarte del archivo Apoyo Desafío - Random Forest.

## Requerimientos
- Para esta sesión trabajaremos con una base de datos sobre los precios de inmuebles en la ciudad de Ames, Iowa. La base se compone de 2930 registros y contiene un gran número de atributos.
- Nuestro objetivo es generar un modelo que prediga de forma adecuada los precios de inmuebles, medidos con la variable Sale_Price.
- A diferencia de otras sesiones donde implementamos el preprocesamiento a mano, **ahora haremos uso de los archivos serializados en la sesión pasada**.

### Ejercicio 1: Preparación del ambiente de trabajo
- Importe las librerías clásicas a utilizar.
- Para este ejercicio Random Forest de Regresión.
- De manera adicional importe las funciones y clases necesarias para generar un desempeño de métricas en problemas de regresión.
- Elimine la columna `Unnamed: 0` cuando cargue los datos.

In [1]:
# Utiliza esta celda para importar los módulos y cargar el dataframe original
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import pickle

from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
import warnings
warnings.simplefilter('ignore')
plt.style.use('ggplot')


In [2]:
df = pd.read_csv('ames_housing.csv').drop(columns='Unnamed: 0')

### Ejercicio 2: Importación de archivos serializados
- Importe su modelo entrenado y sus conjuntos de entrenamiento y validación serializados la sesión pasada y evalúe el desempeño del modelo de su compañero con el suyo ¿Cuál es mejor? Si no puede ejecutar el modelo, comente cuáles pueden ser los causantes.
- No es necesario que realice diagnósticos gráficos sobre el modelo, sólo reporte sus métricas.
- Para importar un archivo serializado, puede ocupar la siguiente línea de código:
```python
import pickle
read_model = pickle.load(open("ignacio-soto-act07.sav","rb"))
```

In [3]:
# Utiliza esta celda para cargar tus datos serializados (archivos csv generados de las muestras en el desafío anterior)
r_model_jg = pickle.load(open("archivos/jorge_guerrero.sav","rb"))

X_train_pd = pd.read_csv("archivos/X_train.csv")
X_test_pd = pd.read_csv("archivos/X_test.csv")
y_train_pd = pd.read_csv("archivos/y_train.csv")
y_test_pd = pd.read_csv("archivos/y_test.csv")

In [4]:
#X_test_dm = pd.concat([X_test_pd,y_test_pd], axis=1)

In [5]:
# Utiliza esta celda para cargar el modelo serializado de un compañero
r_model_dm= pickle.load(open("archivos/model_dms.sav","rb"))

In [6]:
# Utiliza esta celda para realizar predicciones en tus datos con el modelo de tu compañero
y_hat_jg = r_model_jg.predict(X_test_pd)

# Utiliza esta celda para explorar las métricas de las predicciones
print(f"Modelo de Jorge Guerrero - Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test_pd, y_hat_jg))}")
print(f"Modelo de Jorge Guerrero - Median Absolute Error: {median_absolute_error(y_test_pd, y_hat_jg)}")
print(f"Modelo de Jorge Guerrero - R2 Score: {r2_score(y_test_pd, y_hat_jg)}")

Modelo de Jorge Guerrero - Root Mean Squared Error: 41343.56664199182
Modelo de Jorge Guerrero - Median Absolute Error: 14488.666666666657
Modelo de Jorge Guerrero - R2 Score: 0.6992529328422019


In [7]:
# Utiliza esta celda para realizar predicciones en tus datos con el modelo de tu compañero
y_hat_dm = r_model_dm.predict(X_test_pd)

# Utiliza esta celda para explorar las métricas de las predicciones
print(f"Modelo de Daniel Mardones - Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test_pd, y_hat_dm))}")
print(f"Modelo de Daniel Mardones - Median Absolute Error: {median_absolute_error(y_test_pd, y_hat_dm)}")
print(f"Modelo de Daniel Mardones - R2 Score: {r2_score(y_test_pd, y_hat_dm)}")

Modelo de Daniel Mardones - Root Mean Squared Error: 44885.8235070632
Modelo de Daniel Mardones - Median Absolute Error: 20232.710280373838
Modelo de Daniel Mardones - R2 Score: 0.6455100589515765


**Comentarios**

Al ejecutar el modelo de Daniel, puedo observar que presenta metricas mas debiles en relacion al R2 Score (.64 vs .69) y con mayor MAE (20232 vs 14448 = Dif 6.000 aprox). Puedo concluir que mi modelo presenta mejores metricas que el modelo de Daniel.

### Ejercicio 3: Evaluación Random Forest
- En base a los conjuntos de entrenamiento serializados, genere un modelo utilizando `sklearn.ensemble.RandomForest` sin modificar hiper parámetros, sólo declarando la semilla pseudoaleatoria.
- Reporte su desempeño y compárelo con su modelo de la sesión pasada, así como con el de su compañero.

In [8]:
# Utiliza esta celda para entrenar el Random Forest y generar predicciones (usa las muestras divididas cargadas)
random_forest = RandomForestRegressor(random_state = 11238).fit(X_train_pd, y_train_pd)

In [9]:
# Utiliza esta celda para reportar las métricas
y_hat_randomforest = random_forest.predict(X_test_pd)

print(f"Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test_pd, y_hat_randomforest))}")
print(f"Median Absolute Error: {median_absolute_error(y_test_pd, y_hat_randomforest)}")
print(f"R2 Score: {r2_score(y_test_pd, y_hat_randomforest)}")

Root Mean Squared Error: 31868.29388214922
Median Absolute Error: 12218.959999999992
R2 Score: 0.8213088070371369


**Comentarios**

En modelo con random_forest presenta un desempeño muy superior en relación, a los modelos de la sesión, tanto el de Daniel como el mio. El R2 Score mejora en casi 12 puntos y disminuye de forma considerables el R-MSE y MAE.

### Ejercicio 4: Reporte las métricas de desempeño
- Para afinar el comportamiento de nuestro modelo, evalúe su desempeño los siguientes hiper parámetros:
    - `max_features`: `None`, `log2`, `sqrt`.
    - `n_estimators`: Evaluar entre 20 y 1000 en pasos de 50.
- Guarde la tasa de error en la exactitud medida con OOB.
- Grafique el comportamiento.

**Tip**: Revisar código utilizado en la sesión

In [10]:
# Utiliza esta celda para generar los arreglos vacíos
tmp_oob_none, tmp_oob_sqrt,tmp_oob_log2 = [], [], []
n_estimators = range(20, 1000, 50)

In [11]:
# Utiliza esta celda para generar el loop de entrenamiento con oob score
for i in n_estimators:
    
    # Implementamos una variante con todos los atributos
    rf_none = RandomForestRegressor(n_estimators = i, max_features = None, oob_score = True, 
                            n_jobs = -1, random_state = 11238).fit(X_train_pd, y_train_pd)
    # Implementamos una variante donde los atributos se escogen con sqrt
    rf_sqrt = RandomForestRegressor(n_estimators= i, max_features = "sqrt", warm_start = True, 
            n_jobs = -1, oob_score = True, random_state = 11238).fit(X_train_pd, y_train_pd)
    # Implementamos una variante donde los atributos se escogen con log
    rf_log = RandomForestRegressor(n_estimators = i, max_features = "log2", warm_start = True, 
            n_jobs = -1, oob_score = True, random_state=11238).fit(X_train_pd, y_train_pd)

    # Estimamos el error en OOB
    tmp_oob_none.append(1 - rf_none.oob_score_)
    tmp_oob_sqrt.append(1 - rf_sqrt.oob_score_)
    tmp_oob_log2.append(1 - rf_log.oob_score_)

In [None]:
# Utiliza esta celda para graficar los resultados
plt.figure(figsize = (12, 4))
fig, axs = plt.subplots(1, 3, sharex = True, sharey = True)
axs[0].plot(tmp_oob_log2, '.-', label = 'OOB error rate')
axs[0].set_title('Log2')
axs[1].plot(tmp_oob_sqrt,'.-', label = 'OOB error rate')
axs[1].set_title('Squared Root')
axs[2].plot(tmp_oob_none, '.-', label = 'OOB error rate')
axs[2].set_title('None')
plt.tight_layout()
plt.legend()

**Comentarios**

### Ejercicio 5: Refactoriza el modelo
- En base a la mejor combinación de hiper parámetros, reentrene el modelo y comente su desempeño.

In [13]:
# Utiliza esta celda para entrenar el nuevo modelo y generar predicciones
mejor_modelo_params = RandomForestRegressor(n_estimators = 20, max_features = "log2", 
                                            n_jobs=-1, oob_score = True, random_state = 11238).fit(X_train_pd, y_train_pd)

In [14]:
# Utiliza esta celda para mostrar las métricas

y_hat_model_refact = mejor_modelo_params.predict(X_test_pd)

print(f"Root Mean Squared Error: {np.sqrt(mean_squared_error(y_test_pd, y_hat_model_refact))}")
print(f"Median Absolute Error: {median_absolute_error(y_test_pd, y_hat_model_refact)}")
print(f"R2 Score: {r2_score(y_test_pd, y_hat_model_refact)}")

Root Mean Squared Error: 31515.66719453401
Median Absolute Error: 13040.0
R2 Score: 0.8252414097560818


**Comentarios**

El modelo mejora levemente su desempeño en el R2 Score, pasando de un 0.8213 a un 0.8252. Por el lado de R-MSE, tambien presenta una leve mejora con relacion al modelo sin modificación de hiper parametros: 31515 vs 31868. Donde empeora levemente es en el MAE: 13040 del modelo mejorado, versus, 12218 del modelo sin modificación de hiper parametros.