<img src='logo.png' style='display: block;height: 61px;float: left;padding: .75rem 1.25rem;'>

# Desafío - Random Forest
* Para realizar este desafío debes haber revisado la lectura y videos correspondiente a la unidad.
* Crea una carpeta de trabajo y guarda todos los archivos correspondientes (notebook y csv).
* Una vez terminado el desafío, comprime la carpeta y sube el `.zip` a la seccióncorrespondiente.

## Descripción

* Para esta sesión trabajaremos con una base de datos sobre los precios de inmuebles en la ciudad de Ames, Iowa. La base se compone de 2930 registros y contiene un gran número de atributos.
* Nuestro objetivo es generar un modelo que prediga de forma adecuada los precios de inmuebles, medidos con la variable `Sale_Price`.
* A diferencia de otras sesiones donde implementábamos el preprocesamiento a mano, ahora haremos uso de los archivos serializados en la sesión pasada.

## Ejercicio 1: Preparación del ambiente de trabajo

* Importe las librerías clásicas a utilizar.
* Para este ejercicio Random Forest de Regresión
* De manera adicional importe las funciones y clases necesarias para generar un desempeño de métricas en problemas de regresión.
* Elimine la columna `'Unnamed: 0'` cuando cargue los datos.

> Se utilizan librerías bases para el tratamiento de datos y algunos aspectos básicos de cálculo y gráficos.

In [1]:
# Se importa libreria para el manejo de bases de datos
import pandas as pd
# Se importa libreria para el manejo de operaciones de cálculo
import numpy as np
# Se importa libreria para el manejo de gráficos
import matplotlib.pyplot as plt
# Se importa libreria para manejo de funciones estadisticas y probabilidades
import seaborn as sns
# Librería para visualizar patrones de datos perdidos
import missingno as msngo
# Se importa libreria para el menejo de warning
import warnings

> Definimos algunos aspectos de ambiente y valores por defecto de visualización.

In [2]:
# Por defecto, matplotlib crea una figura en una ventana separada.
# podemos hacer que las figuras aparezcan en línea dentro del notebook; lo hacemos ejecutando:
%matplotlib inline
# Se ignoran los warning para evitar suciedad en la ejecución
warnings.filterwarnings(action='ignore')
# Se define el estilo de gráficos a usar
plt.style.use('seaborn-pastel')
# Se define el tamaño de los paños de los gráficos por defecto
plt.rcParams['figure.figsize'] = (14, 8)
# Dado que vamos a supervisar datos no limitaremos la cantidad de columnas a mostrar en el despliegue del dataframe
pd.options.display.max_columns = None

> Se utiliza <strong>librería propia</strong> que continen funciones auxiliares, necesarias para el desarrollo de desafíos.

In [3]:
# Se importa libreria con funciones auxiliares
import ancilliary_funcs as afx

> Se utilizan librerías <strong>sklearn</strong> para el modelo, el tratamiento de escala de valores de los atributos y seleccion de set de datos:

In [8]:
# Método para escalar datos
from sklearn.preprocessing import StandardScaler
# Método para la selección de datos entre entrenamiento, test y CV
from sklearn.model_selection import train_test_split, GridSearchCV
# Método para reportar las métricas de modelos de clasificación
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score
# Método para generar un modelo de regresión con arboles de decisión
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

## Ejercicio 2: Importación de archivos serializados

* Importe su modelo entrenado y sus conjuntos de entrenamiento y validación serializados la sesión pasada y evalúe el desempeño del modelo de su compañero con el suyo ¿Cuál es mejor? Si no puede ejecutar el modelo, comente cuáles pueden ser los causantes.
* No es necesario que realice diagnósticos gráficos sobre el modelo, sólo reporte sus métricas. 
* Para importar un archivo serializado, puede ocupar la siguiente línea de código:

In [18]:
import pickle

In [32]:
# Cargo mi modelo de la sesión anterior
file_in_my = open('pablo-rocco-actividad07.sav', 'rb')
model_tree_my, X_train_my, X_test_my, y_train_my, y_test_my = pickle.load(file_in_my)

In [33]:
# Cargo el modelo de Paulina Ramírez
file_in_pr = open('paulina-ramirez-actividad07.sav', 'rb')
model_tree_pr, X_train_pr, X_test_pr, y_train_pr, y_test_pr = pickle.load(file_in_pr)


#### Mi Modelo:

In [36]:
yhat_my = model_tree_my.predict(X_test_my)
afx.report_scores_regressor(y_test_my, yhat_my)

Error Cuadrático Medio:
1254786559.697

Error Medio Absoluto:
15497.8824

R cuadrado:
0.81


#### Modelo de Paulina Ramírez:

In [37]:
yhat_pr = model_tree_pr.predict(X_test_pr)
afx.report_scores_regressor(y_test_pr, yhat_pr)

Error Cuadrático Medio:
1153615865.1325

Error Medio Absoluto:
15640.3208

R cuadrado:
0.81


> Podemos observar que tanto el modelo de Paulina como el mio andan empatados en relación al $R^2$, no obstante Paulina obtuvo un ECM más bajo que el mio con los respectivos datos de prueba. Por otro lado el EMA de Paulina resulta ser más alto que el mío. Podemos decir que ambos modelos quedan empatados y felicitaciones a Paulina!.

## Ejercicio 3: Evaluación Random Forest

* En base a los conjuntos de entrenamiento serializados, genere un modelo utilizando `sklearn.ensemble.RandomForest` sin modificar hiperparámetros, sólo declarando la semilla pseudoaleatoria.
* Reporte su desempeño y compárelo con su modelo de la sesión pasada, así como con el de su compañero.

In [43]:
model_rf_my = RandomForestRegressor(random_state=14173).fit(X_train_my, y_train_my)

In [44]:
yhat_rf_my = model_rf_my.predict(X_test_my)

In [45]:
afx.report_scores_regressor(y_test_my, yhat_rf_my)

Error Cuadrático Medio:
980161496.6709

Error Medio Absoluto:
13030.0

R cuadrado:
0.85


> Podemos observar que todas las metricas son favorables en este nuevo modelo `model_rf_my`, por sobre los dos modelos de la sesión pasada (el de Paulina y el mio)

> Dado que los atributos relevantes de Paulina no son los mismos que los mios, vamos a revisar como se comporta ese conjunto de atributos con Random Forest.

In [59]:
model_rf_pr = RandomForestRegressor(random_state=14173).fit(X_train_pr, y_train_pr)

In [60]:
yhat_rf_pr = model_rf_pr.predict(X_test_pr)

In [61]:
afx.report_scores_regressor(y_test_pr, yhat_rf_pr)

Error Cuadrático Medio:
877526570.5964

Error Medio Absoluto:
13160.0

R cuadrado:
0.86


> Mis __Felicitaciones a Paulina__, los primeros resultados de la sesión anterior resultaron ser mejores que los mios y esto generó un mejor modelo con el agoritmo de Random Forest. Tanto ECM y $R^2$ son mejores en el nuevo modelo con los atributos relevantes obtenidos por Paulina. 

## Ejercicio 4: Reporte las métricas de desempeño

* Para afinar el comportamiento de nuestro modelo, evalúe su desempeño los siguientes hiperparámetros:
  * `max_features`: None, log2, sqrt.
  * `n_estimators`: Evaluar entre 20 y 1000 en pasos de 50. 
* Guarde la tasa de error en la exactitud medida con OOB.
* Grafique el comportamiento.