

---

---
## Previsão de preços de habitação na Califórnia (problema de regressão)

Este notebook implementa uma rede neural para estimar (prever) preços de casas  na Califórnia.

Trata-se de um problema de regressão.

## Conjunto de dados

Fonte: https://www.kaggle.com/camnugent/california-housing-prices?select=housing.csv

A variável de destino (target) é o valor médio da casa (median_house_value) para os distritos da Califórnia.

Este conjunto de dados foi derivado do censo dos EUA de 1990.

- Número de Instâncias: 20640

- Número de Atributos: 8 atributos numéricos preditivos e o target

- Informações dos Atributos:
  - Longitude da quadra da casa (longitude)
  - Latitude da quadra da casa (latitude)
  - Idade média das casas na quadra (housing_median_age)
  - Total de salas na quadra (total_rooms)
  - Total de quartos na quadra (total_bedrooms)
  - População da quadra (population)
  - Número de famílias (households)
  - Renda média das famílias na quadra em dezenas de milhares de dólares (median_income)
  
- Informação do da variável de destino (median_house_value): 
   - cada valor corresponde ao valor médio da casa em unidades de 100.000 dólares

Obs: desconsidera-se o atributo categórico ocean_proximity

## Leitura e preparação dos dados

Leitura do arquivo 'housing.csv' utilizando os pandas.

In [None]:
import pandas as pd

# Clone do repositório de dados do GitHub
!git clone https://github.com/malegopc/AM2PUCPOC
# Leitura dos dados do arquivo .csv como dataframe 
housing = pd.read_csv("/content/AM2PUCPOC/Datasets/California_housing/housing.csv")
# Mostra as 5 primeiras e 5 últimas linhas
housing

## Análise prévia dos dados

Imprime o número de dados non-null (não ausentes) e o tipo de cada atributo.

Observe que a variável total_bedrooms possui dados null (ausentes).

In [None]:
# Mostra o número de dados non-null (não ausentes) e o tipo de cada atributo
print('Informações sobre os dados:\n')
housing.info()
# Soma o número de dados null (ausentes)
print('\n\nSoma de dados null (vazios):\n')
housing.isnull().sum()

## Eliminação de instâncias com dados ausentes e eliminação de dados desnecessários


In [None]:
# Interpolação dos dados ausentes
housing.dropna(inplace=True)
# Elimina o atributo 'ocean_proximity'
housing = housing.drop('ocean_proximity', axis=1)
housing
#housing.columns

## Salva os dados pré-processados em um arquivo .csv

In [None]:
housing.to_csv('housing_out.csv')

## Análise (estatística) descritiva dos dados

Análise descritiva dos dados (resumo).

In [None]:
housing.describe()

## Mostra um histograma dos valores das casas

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,4))
sns.histplot(housing['median_house_value'], kde = True)

## Mostra ("plota") a localização geográfica das casas

[matplotlib.axes.Axes.scatter](https://matplotlib.org/api/_as_gen/matplotlib.axes.Axes.scatter.html#matplotlib.axes.Axes.scatter)

In [None]:
housing.plot(kind="scatter", x="longitude", y="latitude",
    s=housing['population']/100, label="population",
    c="median_house_value", cmap=plt.get_cmap("jet"),
    colorbar=True, alpha=0.4, figsize=(10,7),)
plt.legend()
plt.show()

## Calcula a correlação entre pares de atributos (colunas)

In [None]:
#Calcule a correlação entre pares de colunas
housing.corr()

In [None]:
# Mostra um mapa de calor dessas correlações
plt.figure(figsize=(10,8))
sns.heatmap(housing.corr(), annot=True)

# Separa atributos e variável de destino

Separa atributos (em X) e variável de destino (em y).

Divide por 100.000 dólares o valor das casas apenas para facilitar a visualização dos resultados.

In [None]:
# Separa os atributos da variável de destino (median_house_value)
X = housing.drop('median_house_value',axis=1).values
y = housing['median_house_value'].values/100000 # divide por 100.000 dólares o valor das casas
print(X.shape)
print(y.shape)

## Divide o conjunto de dados em treino e teste

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=42)

## Normaliza (padroniza) os dados

Transforma os atributos redimensionando para o intervalo [0,1]

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train= scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#from sklearn.preprocessing import StandardScaler
#scaler = StandardScaler()
#X_train = scaler.fit_transform(X_train)
#X_test = scaler.transform(X_test)

## Criar o modelo de rede neural

## Compilar a rede neural

## Treinar a rede neural

In [None]:
mse_test = model.evaluate(X_test, y_test)

## Análise da função *loss* (erro/perda)
Vamos observar o comportamento da função *loss* para os dados de treino e de validação.

In [None]:
import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'], '')
plt.xlabel("Epocas")
plt.ylabel('Loss')
plt.title('Função de erro/loss')
plt.legend(['loss', 'val_loss'])
plt.show()

## Análise da métrica de desempenho (acurácia)
Vamos observar o desempenho (acurácia) da rede para os dados de treino e de validação.

In [None]:
plt.plot(history.history['mean_squared_error'])
plt.plot(history.history['val_mean_squared_error'], '')
plt.xlabel("Épocas")
plt.ylabel('mean_squared_error')
plt.title('Erro quadrático médio')
plt.legend(['erro_quadrático_médio', 'val_erro_quadrático_médio'])
plt.show()

## Fazendo predições

In [None]:
import numpy as np

predictions = model.predict(X_train)
# 5 primeiros casos do conjunto teste
for i in range(5):
  print('%s => %f (esperado %f)' % (np.round(X_train[i],2).tolist(), predictions[i], y_train[i]))

## Mostra histograma das predições feitas pela rede neural

In [None]:
X_scaled = scaler.transform(X)
predictions2 = model.predict(X_scaled)
plt.figure(figsize=(10,4))
sns.histplot(predictions2*100000, kde = True)

## Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

reglin = LinearRegression()
reglin.fit(X_train,y_train)

## Aplica o modelo de regressão linear no conjunto teste

In [None]:
y_reglin = reglin.predict(X_test)

## Calcula o erro quadrático médio

In [None]:
print(metrics.mean_squared_error(y_reglin,y_test))

## Fazendo predições

In [None]:
predictions_reg = reglin.predict(X_test)
# 5 primeiros casos do conjunto teste
for i in range(5):
  print('%s => %f (esperado %f)' % (np.round(X_test[i],2).tolist(), predictions_reg[i], y_test[i]))

## Mostra histograma das predições da Regressão Linear

In [None]:
predictions_reg2 = reglin.predict(X_scaled)
plt.figure(figsize=(10,4))
sns.histplot(predictions_reg2*100000, kde = True)