# Dataset: California Housing Prices

O desafio consiste em predizer o preço da habitação a partir de informações do senso de California de 1990.

As colunas do dataset são as seguintes:
- **longitude**: Longitude geográfica.
- **latitude**: Latitude geográfica.
- **housing_median_age**: Idade média das habitações na região, medida em anos.
- **total_rooms**: Número total de cômodos em todas as unidades habitacionais da área analisada.
- **total_bedrooms**: Número total de quartos em todas as unidades habitacionais da área analisada.
- **population**: População total residente na área geográfica correspondente ao imóvel.
- **households**: Número total de domicílios na região, representando unidades familiares ou habitacionais.
- **median_income**: Renda mediana dos moradores da região, expressa em múltiplos de 1.000 dólares.
- **median_house_value**: Valor mediano das residências na área, representado em dólares.
- **ocean_proximity**: Proximidade da localização em relação ao oceano, categorizada por rótulos como "Perto da Baía" (Near Bay), "Perto do Oceano" (Near Ocean), "Interior" (Inland), entre outros.

O candidato deve apresentar um modelo que faça a predição do preço da habitação (o candidato é livre para entregar mais de um modelo).

Esse arquivo é um template para desenvolver o modelo, sinta-se a vontade para modificá-lo como preferir.

In [None]:
import pandas as pd
import numpy as np
import torch
from sklearn.preprocessing import StandardScaler
from pathlib import Path
import random

# Para reprodutibilidade use uma seed específica para gerar números aleatórios
Abaixo algumas formas de definir a seed aleatória de alguns frameworks populares, caso não vá usar algum sinta-se a vontade para excluir

In [None]:
random_seed = 42
np.random.seed(random_seed)
random.seed(random_seed)
torch.manual_seed(random_seed)
tf.random.set_seed(random_seed)

In [None]:
data = pd.read_csv('housing.csv')

# Análise e visualização dos dados
Espaço reservado para uma análise mais a fundo dos dados e para apresentação de alguns plots caso o candidato julgue necessário

In [None]:
pass

# Pré-processamento

In [None]:
def data_preprocessing(data):
    data["total_bedrooms"] = data["total_bedrooms"].fillna(data["total_bedrooms"].mean())
    data = pd.get_dummies(data, columns=["ocean_proximity"], drop_first=True)
    scaler = StandardScaler()
    data = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)
    return data
    
data = data_preprocessing(data)
data

# Separar os dados em treino, validação e teste

In [None]:
from sklearn.model_selection import train_test_split
X = data.drop(columns="median_house_value")
y = data["median_house_value"]
X_train, X_other, y_train, y_other = train_test_split(X, y, test_size=.2)
X_val, X_test, y_valg, y_test = train_test_split(X, y, test_size=.5)

# Exemplo de estrutura para utilização com o PyTorch
não é obrigatória a utilização do PyTorch. Implementação do modelo pode ser feita com qualquer biblioteca/framework de sua escolha.

In [None]:
import torch.nn as nn
import torch.nn.functional as F

class Modelo(nn.Module):
    def __init__(self):
        super().__init__()
        pass
    
    def forward(self, x):
        pass