## Desafío S4 - Random Forest

* Nuestro objetivo es generar un modelo que prediga de forma adecuada los precios
de inmuebles, medidos con la **variableSale_Price**

### Ejercicio 1: Preparación del ambiente de trabajo

#### Importe las librerías clásicas a utilizar.

In [3]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 6)

from sklearn.model_selection import train_test_split, GridSearchCV
# from sklearn.ensemble import BaggingRegressor
# Para este ejercicio Random Forest de Regresión.
from sklearn.ensemble import RandomForestClassifier

#De manera adicional importe las funciones y clases necesarias para generar un
#desempeño de métricas en problemas de regresión.
from sklearn.metrics import mean_squared_error, median_absolute_error, r2_score
from sklearn.metrics import accuracy_score, roc_auc_score, classification_report

* Elimine la columna'Unnamed: 0' cuando cargue los datos.

In [4]:
df = pd.read_csv('ames_housing.csv').drop(columns='Unnamed: 0')
df

Unnamed: 0,MS_SubClass,MS_Zoning,Lot_Frontage,Lot_Area,Street,Alley,Lot_Shape,Land_Contour,Utilities,Lot_Config,...,Fence,Misc_Feature,Misc_Val,Mo_Sold,Year_Sold,Sale_Type,Sale_Condition,Sale_Price,Longitude,Latitude
0,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,141,31770,Pave,No_Alley_Access,Slightly_Irregular,Lvl,AllPub,Corner,...,No_Fence,,0,5,2010,WD,Normal,215000,-93.619754,42.054035
1,One_Story_1946_and_Newer_All_Styles,Residential_High_Density,80,11622,Pave,No_Alley_Access,Regular,Lvl,AllPub,Inside,...,Minimum_Privacy,,0,6,2010,WD,Normal,105000,-93.619756,42.053014
2,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,81,14267,Pave,No_Alley_Access,Slightly_Irregular,Lvl,AllPub,Corner,...,No_Fence,Gar2,12500,6,2010,WD,Normal,172000,-93.619387,42.052659
3,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,93,11160,Pave,No_Alley_Access,Regular,Lvl,AllPub,Corner,...,No_Fence,,0,4,2010,WD,Normal,244000,-93.617320,42.051245
4,Two_Story_1946_and_Newer,Residential_Low_Density,74,13830,Pave,No_Alley_Access,Slightly_Irregular,Lvl,AllPub,Inside,...,Minimum_Privacy,,0,3,2010,WD,Normal,189900,-93.638933,42.060899
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,Split_or_Multilevel,Residential_Low_Density,37,7937,Pave,No_Alley_Access,Slightly_Irregular,Lvl,AllPub,CulDSac,...,Good_Privacy,,0,3,2006,WD,Normal,142500,-93.604776,41.988964
2926,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,0,8885,Pave,No_Alley_Access,Slightly_Irregular,Low,AllPub,Inside,...,Minimum_Privacy,,0,6,2006,WD,Normal,131000,-93.602680,41.988314
2927,Split_Foyer,Residential_Low_Density,62,10441,Pave,No_Alley_Access,Regular,Lvl,AllPub,Inside,...,Minimum_Privacy,Shed,700,7,2006,WD,Normal,132000,-93.606847,41.986510
2928,One_Story_1946_and_Newer_All_Styles,Residential_Low_Density,77,10010,Pave,No_Alley_Access,Regular,Lvl,AllPub,Inside,...,No_Fence,,0,4,2006,WD,Normal,170000,-93.600190,41.990921


### Ejercicio 2: Importación de archivos serializados

* Importe su modelo entrenado y sus conjuntos de entrenamiento y validación
serializados la sesión pasada y evalúe el desempeño del modelo de su compañero
con el suyo ¿Cuál es mejor? Si no puede ejecutar el modelo, comente cuáles pueden
ser los causantes.

Modelo propio

In [5]:
def cargar_modelo(id_matrices_tr_ts, id_model):
    matriz = pd.read_pickle(f'{id_matrices_tr_ts}.sav')
    X_train, X_test, y_train, y_test = matriz[0], matriz[1], matriz[2], matriz[3]
    modelo = pd.read_pickle(f'{id_model}.sav')
    return X_train, X_test, y_train, y_test, modelo

In [6]:
X_train_dl, X_test_dl, y_train_dl, y_test_dl, modelo_dl =cargar_modelo('matrices_train_test', 'diego_lizana_actividad07')

In [7]:
def metricas(X_test, y_test, model):
    print("Test MSE:", mean_squared_error(y_test, model.predict(X_test)).round(5))
    print("Test MAE:", median_absolute_error(y_test, model.predict(X_test)).round(5))
    print("Test R2:", r2_score(y_test, model.predict(X_test)).round(5))

In [8]:
metricas(X_test_dl, y_test_dl, modelo_dl)

Test MSE: 1276694856.60852
Test MAE: 15094.44
Test R2: 0.80861


Modelo Marco Cordero

### Ejercicio 3: Evaluación Random Forest

##### En base a los conjuntos de entrenamiento serializados, genere un modelo utilizando sklearn.ensemble.RandomForest sin modificar hiper parámetros, sólo declarando la semilla pseudoaleatoria.

In [9]:
rf_houses = RandomForestClassifier(random_state=1991).fit(X_train_dl, y_train_dl)

##### En base a los conjuntos de entrenamiento serializados, genere un modelo utilizando sklearn.ensemble.RandomForest sin modificar hiper parámetros, sólo declarando la semilla pseudoaleatoria.

In [10]:
metricas(X_test_dl, y_test_dl, rf_houses)

Test MSE: 1374094496.10134
Test MAE: 16600.0
Test R2: 0.79401


* El valor de r2 baja, por ende las variables explican un poco menos el comportamiento del vec obj, de la mano el MSE aumenta.
* El lado positivo es que MAE tiene la menor brecha con respecto a la media.

###  Ejercicio 4: Reporte las métricas de desempeño

##### Para afinar el comportamiento de nuestro modelo, evalúe su desempeño los siguientes hiper parámetros:

In [11]:
(1000-20)/50

19.6

In [12]:
n_estimators= np.linspace(20, 1000, 20).astype(int)

In [13]:
rf_house_none = RandomForestClassifier(n_estimators=400,max_features=None,
                                        oob_score=True, random_state=1991,
                                        n_jobs=-1).fit(X_train_dl, y_train_dl)

In [14]:
rf_house_none.oob_score_

0.012226184411614875

In [None]:
accuracy_score(y_test_dl, rf_house_none.predict(X_test_dl))

In [None]:
asd

In [None]:
tmp_oob_none, tmp_oob_sqrt,tmp_oob_log2 = [], [], []
tmp_test_acc_none, tmp_test_acc_sqrt, tmp_test_acc_log = [], [], []
for i in n_estimators:
    rf_house_none = RandomForestClassifier(n_estimators=i,max_features=None,
                                            oob_score=True, random_state=1991,
                                            n_jobs=-1).fit(X_train_dl, y_train_dl)
    tmp_oob_none.append(1 - rf_house_none.oob_score_)

    tmp_test_acc_none.append(1 - accuracy_score(y_test_dl, rf_house_none.predict(X_test_dl)))


In [None]:
rf_house_none = RandomForestClassifier(n_estimators=i,max_features=None,
                                        oob_score=True, random_state=1991,
                                          n_jobs=-1).fit(X_train_dl, y_train_dl)
rf_house_sqrt = RandomForestClassifier(n_estimators= i, max_features="sqrt",
                                        warm_start=True, oob_score=True,
                                        random_state=1991, n_jobs=-1).fit(X_train_dl, y_train_dl)
rf_house_log = RandomForestClassifier(n_estimators= i, max_features="log2",
                                        warm_start=True, oob_score=True,
                                          random_state=1991, n_jobs=-1).fit(X_train_dl, y_train_dl)