### Desafío - Random Forest
- Para realizar este desafío debes haber estudiado previamente todo el material
  disponibilizado correspondiente a la unidad.
- Una vez terminado el desafío, comprime la carpeta que contiene el desarrollo de los
  requerimientos solicitados y sube el .zip en el LMS.
- Desarrollo desafío:
  - El desafío se debe desarrollar de manera Individual.
  - Para la realización del desafío necesitarás apoyarte del archivo Apoyo Desafío Random Forest.

#### Requerimientos
- Para esta sesión trabajaremos con una base de datos sobre los precios de
  inmuebles en la ciudad de Ames, Iowa. La base se compone de 2930 registros y
  contiene un gran número de atributos.
- Nuestro objetivo es generar un modelo que prediga de forma adecuada los precios
  de inmuebles, medidos con la variable Sale_Price.
- A diferencia de otras sesiones donde implementamos el preprocesamiento a mano,
  ahora haremos uso de los archivos serializados en la sesión pasada.

#### Ejercicio 1: Preparación del ambiente de trabajo
- Importe las librerías clásicas a utilizar.
- Para este ejercicio Random Forest de Regresión.
- De manera adicional importe las funciones y clases necesarias para generar un
  desempeño de métricas en problemas de regresión.
- Elimine la columna 'Unnamed: 0' cuando cargue los datos.

In [2]:
%matplotlib inline
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import pickle

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score

import warnings
warnings.filterwarnings('ignore')

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 6)

In [4]:
df = pd.read_csv('Datasets/ames_housing.csv').drop('Unnamed: 0', axis=1)
df.sample(5, random_state = 15820)

Unnamed: 0,MS_SubClass,MS_Zoning,Lot_Frontage,Lot_Area,Street,Alley,Lot_Shape,Land_Contour,Utilities,Lot_Config,...,Fence,Misc_Feature,Misc_Val,Mo_Sold,Year_Sold,Sale_Type,Sale_Condition,Sale_Price,Longitude,Latitude
2675,One_and_Half_Story_Finished_All_Ages,Residential_Medium_Density,52,6240,Pave,No_Alley_Access,Regular,Lvl,AllPub,Inside,...,Minimum_Privacy,Shed,400,9,2006,WD,Normal,114500,-93.623642,42.032299
649,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,75,9533,Pave,No_Alley_Access,Regular,Lvl,AllPub,Inside,...,Minimum_Privacy,,0,8,2009,ConLD,Normal,102900,-93.618607,42.034686
784,One_Story_1945_and_Older,Residential_Low_Density,0,12342,Pave,No_Alley_Access,Slightly_Irregular,Lvl,AllPub,Inside,...,No_Fence,,0,3,2009,WD,Normal,82500,-93.672157,42.024028
2448,Two_Story_1946_and_Newer,Residential_Low_Density,93,12090,Pave,No_Alley_Access,Regular,Lvl,AllPub,Corner,...,No_Fence,,0,7,2006,WD,Abnorml,258000,-93.650059,42.053466
229,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,0,20062,Pave,No_Alley_Access,Slightly_Irregular,Low,AllPub,Inside,...,No_Fence,,0,4,2010,WD,Normal,270000,-93.670114,42.03009


In [6]:
df.shape

(2930, 81)

#### Ejercicio 2: Importación de archivos serializados
- Importe su modelo entrenado y sus conjuntos de entrenamiento y validación
  serializados la sesión pasada y evalúe el desempeño del modelo de su compañero
  con el suyo ¿Cuál es mejor? Si no puede ejecutar el modelo, comente cuáles pueden
  ser los causantes.
- No es necesario que realice diagnósticos gráficos sobre el modelo, sólo reporte sus
  métricas.
- Para importar un archivo seria

In [9]:
import pickle
pickle_model = pickle.load(open("archivos/daniel-mardones-actividad07.sav","rb"))

#### Ejercicio 3: Evaluación Random Forest
- En base a los conjuntos de entrenamiento serializados, genere un modelo utilizando
  sklearn.ensemble.RandomForest sin modificar hiper parámetros, sólo declarando
  la semilla pseudoaleatoria.
- Reporte su desempeño y compárelo con su modelo de la sesión pasada, así como
  con el de su compañero.

#### Ejercicio 4: Reporte las métricas de desempeño
- Para afinar el comportamiento de nuestro modelo, evalúe su desempeño los
  siguientes hiper parámetros:
  - max_features: None, log2, sqrt.
  - n_estimators: Evaluar entre 20 y 1000 en pasos de 50.
- Guarde la tasa de error en la exactitud medida con OOB.
- Grafique el comportamiento.

#### Ejercicio 5: Refactoriza el modelo
- En base a la mejor combinación de hiper parámetros, reentrene el modelo y comente
  su desempeño.