# Practica 5: Regresión Parte 3


Vamos a probar dos modelos avanzados de regresion: Redes Neuronales y Bosques Aleatorios. Para esto usaremos los datos housing. Estos datos incluyen información sobre precio de la vivienda un determinado distrito de California y algunas estadísticas resumidas sobre ellas basadas en los datos del censo de 1990. Hay que tener en cuenta que los datos no están depurados, por lo que se requieren algunos pasos de preprocesamiento. Las caracteristicas incluidas son:

* longitude
* latitude
* housing_median_age
* total_rooms
* total_bedrooms
* population
* households
* median_income
* median_house_value
* ocean_proximity

## Lectura de datos y pre-procesamiento



In [None]:
#Importar librerias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
#Leer archivo housing.csv
df = pd.read_csv('housing.csv')

In [None]:
#Revisión de los datos
#Cabecera
df.head()

In [None]:
#Información
df.info()

In [None]:
#Eliminar muestras con valores perdidos
df.dropna(axis=0, inplace=True)
df.info()

In [None]:
#Conversión de variables categoricas
df = pd.get_dummies(df, columns=['ocean_proximity'])
df.info()

##  División de los datos para entrenamiento

Nuestra variable objetivo es el valor de la vivienda ('median_house_value').

In [None]:
#Separamos entradas (X) y salidas (y)
y = df['median_house_value'].values
X = df.drop('median_house_value', axis=1).values
print(X.shape, y.shape)

In [None]:
# Dividimos los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

Vamos a normalizar los datos. Para ello utilizaremos el metodo min_max_scaler

In [None]:
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
X_train = min_max_scaler.fit_transform(X_train)
X_test = min_max_scaler.transform(X_test)


---
##Random Forest para Regresión




In [None]:
# Importacion de librerias
from sklearn.ensemble import RandomForestRegressor

In [None]:
#Instancia del regresor
##
RF = RandomForestRegressor(n_estimators=50,min_samples_leaf=5)

In [None]:
#Entrenamos
##
RF.fit(X_train,y_train)

In [None]:
#Predecimos
##
y_pred_rf = RF.predict(X_test)

In [None]:
plt.scatter(y_test,y_pred_rf)
plt.xlabel('Y Test')
plt.ylabel('Predicted Y')

In [None]:
# calcule estas metricas
from sklearn import metrics

print('MAE:', metrics.mean_absolute_error(y_test, y_pred_rf))
print('MSE:', metrics.mean_squared_error(y_test, y_pred_rf))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred_rf)))
print('R2_score:', metrics.r2_score(y_test, y_pred_rf))

Podemos mejorar aun el modelo?

In [None]:
#Uso de GridSearch
##
#Uso de GridSearch
from sklearn.model_selection import GridSearchCV
param_grid = {'n_estimators': [50, 100, 150],
              'max_depth': [5, 10]}
RFModel = GridSearchCV(RandomForestRegressor(), param_grid)
RFModel.fit(X_train,y_train)

In [None]:
#Parametros seleccionados
RFModel.best_params_

In [None]:
#Predecimos
##
y_pred_rf_b = RFModel.best_estimator_.predict(X_test)

In [None]:
#Metricas de desempeño
print('MAE:', metrics.mean_absolute_error(y_test, y_pred_rf_b))
print('MSE:', metrics.mean_squared_error(y_test, y_pred_rf_b))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred_rf_b)))
print('R2_score:', metrics.r2_score(y_test, y_pred_rf_b))
