# **Previsão de preços de casas usando um Regressor MLP**

- A tarefa é treinar um algoritmo de ML do tipo regressor (no caso, uma RNA) para prever os preços de casas a partir das características das casa.
- Para esse exemplo usaremos o dataset *California Housing*. https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

# **1. Carregando as bibliotecas necessárias**

In [1]:
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# **2. Carregando o dataset**

In [2]:
housing = fetch_california_housing()

# **3. Exibindo a descrição do dataset**

In [3]:
print(housing.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

:Number of Instances: 20640

:Number of Attributes: 8 numeric, predictive attributes and the target

:Attribute Information:
    - MedInc        median income in block group
    - HouseAge      median house age in block group
    - AveRooms      average number of rooms per household
    - AveBedrms     average number of bedrooms per household
    - Population    block group population
    - AveOccup      average number of household members
    - Latitude      block group latitude
    - Longitude     block group longitude

:Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived from the 1990 U.S. census, using one row per ce

# **4. Exibindo o formato do dataset (estrutura/shape)**

In [4]:
print(housing.data.shape)

(20640, 8)


# **5. Exibindo os dados/valores das features do dataset**

In [5]:
print(housing.data)

[[   8.3252       41.            6.98412698 ...    2.55555556
    37.88       -122.23      ]
 [   8.3014       21.            6.23813708 ...    2.10984183
    37.86       -122.22      ]
 [   7.2574       52.            8.28813559 ...    2.80225989
    37.85       -122.24      ]
 ...
 [   1.7          17.            5.20554273 ...    2.3256351
    39.43       -121.22      ]
 [   1.8672       18.            5.32951289 ...    2.12320917
    39.43       -121.32      ]
 [   2.3886       16.            5.25471698 ...    2.61698113
    39.37       -121.24      ]]


# **6. Exibindo os valores do target do dataset**

In [6]:
print(housing.target)

[4.526 3.585 3.521 ... 0.923 0.847 0.894]


# **7. Criando os conjuntos de treinamento, de teste e de validação (X_train, X_test, y_train, y_test, X_valid, y_valid)**

In [7]:
X_train_full, X_test, y_train_full, y_test = train_test_split(housing.data, housing.target, random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, y_train_full, random_state=42)

# **8. Criando a rede neural MLP regressora com 3 camadas ocultas de 50 neurônios**
- O valor default de função de ativação é 'relu' e do algoritmo de treinamento é 'adam'.
- Caso se queira outros, é preciso especificar.

In [8]:
mlp_reg = MLPRegressor(hidden_layer_sizes=[50, 50, 50], random_state=42)

# **9. Normalizando os dados (padronizar os dados de entrada da rede para que estejam todos na mesma escala/faixa)**

- Usaremos o método StandardScaller para a normalização.

In [9]:
pipeline = make_pipeline(StandardScaler(), mlp_reg)

# **10. Treinando a rede neural regressora (mlp_reg) com os dados de treino**

In [10]:
pipeline.fit(X_train, y_train)

# **11. Verificando o desempenho da rede neural na previsão**
- calculando as predições da rede com os dados de validação e colocando na variável y_pred

In [11]:
y_pred = pipeline.predict(X_valid)

# **12. Calculando o erro de previsão da rede com a medida RMSE (Raiz do Erro Médio Quadrático)**

In [12]:
#rmse = mean_squared_error(y_valid, y_pred, squared=False)

rmse = mean_squared_error(y_valid, y_pred)**0.5

# **13. Exibindo o erro de previsão da rede MLP regressora para esse dataset**

In [13]:
print(rmse)

0.5053326657968684
