# Dataset:  California Housing Prices

## Case baseado no dataset do Kaggle

Esse desafio é baseado em um dataset aberto do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2018, de onde é possível estimar o preço de um imóvel pertencente a uma dada região na Califórnia. 

O dataset original foi extraído do repositório StatLib, que não está mais disponível. Os dados que o compôem foram retirados do Censo realizado na Califórnia em 1990 e modificado para servir como base de treinamento.


Link para o dataset no Kaggle: [https://www.kaggle.com/harrywang/housing/data](https://www.kaggle.com/harrywang/housing/data)


## Descrição dos Dados Originais:

### Tamanho do Dataset:

* `20.640` data points

### Variável dependente:

* `median_house_value`:  (float) variável dependente com o valor da mediana do preço de imóvel na região

### Features: 

* `longitude`/`latitude`: (floats) posição global da região
* `housing_median_age`: (float) mediana da idade (em anos) das casas da região
* `total_rooms`: (float) total de aposentos da região
* `total_bedrooms`: (float) total de quartos da região
* `population`: (float) população total da região
* `households`: (float) quantidade total de imóveis da região
* `median_income`: (float) mediana do salário (por hora) de uma pessoa na região
* `ocean_proximity`: (string) categorias relativas à distância do oceano

É interessante ressaltar que `207` valores foram retirados aleatoriamnete da feature `total_bedrooms` por motivos acadêmicos.


## Modificação dos dados para o Desafio:

Para tornar o desafio mais fácil de avaliar, a massa de dados original foi dividida em duas massas, uma para treino e outra para teste, ambas contendo `10.320` elementos.

Também foram removidos aleatoriamente ainda mais valores da massa de dados e em mais features. Isso torna o processo de Feature Engineering mais instrutivo, pois aproxima-se da realidade do trabalho de um Data Scientist.

___

# Imports

## Magic Functions do Jupyter

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
%matplotlib inline

## Imports de Libs Externas (padrão)

In [3]:
import numpy as np
import os
import pandas as pd

## Imports de Libs Locais

In [4]:
from dataset import load_california_housing_prices

# Carregando os dados

In [5]:
dataset = load_california_housing_prices()

In [6]:
dataset

{'test': {'x':            longitude  latitude  housing_median_age  total_rooms  \
  region_id                                                         
  0            -122.23     37.88                41.0        880.0   
  3            -122.25     37.85                52.0       1274.0   
  5            -122.25     37.85                52.0        919.0   
  6            -122.25     37.84                52.0       2535.0   
  7            -122.25     37.84                52.0       3104.0   
  8            -122.26     37.84                42.0       2555.0   
  14           -122.26     37.85                52.0       2643.0   
  15           -122.26     37.85                50.0       1120.0   
  17           -122.27     37.85                52.0       1228.0   
  19           -122.27     37.84                52.0       1503.0   
  20           -122.27     37.85                40.0        751.0   
  23           -122.27     37.84                52.0       1688.0   
  27           -122.2

In [7]:
print(f"shape: {dataset['train']['x'].shape}")
dataset["train"]["x"].head()

shape: (10320, 9)


Unnamed: 0_level_0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
region_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,NEAR BAY
10,-122.26,37.85,52.0,2202.0,434.0,910.0,402.0,3.2031,NEAR BAY


In [8]:
print(f"shape: {dataset['train']['y'].shape}")
dataset['train']['y'].head()

shape: (10320, 1)


Unnamed: 0_level_0,median_house_value
region_id,Unnamed: 1_level_1
1,358500.0
2,352100.0
4,342200.0
9,261100.0
10,281500.0


In [9]:
print(f"shape: {dataset['test']['x'].shape}")
dataset['test']['x'].head()

shape: (10320, 9)


Unnamed: 0_level_0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
region_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,NEAR BAY


In [10]:
print(f"shape: {dataset['test']['y'].shape}")
dataset['test']['y'].head()

shape: (10320, 1)


Unnamed: 0_level_0,median_house_value
region_id,Unnamed: 1_level_1
0,452600.0
3,341300.0
5,269700.0
6,299200.0
7,241400.0
