# Desafio 1:  Feature Engineering Básica

## Objetivos:

O objetivo desse desafio é analisar os dados do case e estruturar uma Feature Engineering básica apenas com os dados existentes, sem transformar ou combinar features ou mesmo adicionar informações externas. 

Ao final do desafio, será treinado um modelo de regressão linear com as features obtidas. Esse modelo será testado contra uma massa de teste, separada previamente.


## Sobre o Case

### Case baseado no dataset do Kaggle: "California Housing Prices"

Esse desafio é baseado em um dataset aberto do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2018, de onde é possível estimar o preço de um imóvel pertencente a uma dada região na Califórnia. 

O dataset original foi extraído do repositório StatLib, que não está mais disponível. Os dados que o compôem foram retirados do Censo realizado na Califórnia em 1990 e modificado para servir como base de treinamento.


Link para o dataset no Kaggle: [https://www.kaggle.com/harrywang/housing/data](https://www.kaggle.com/harrywang/housing/data)


### Descrição dos Dados Originais:

#### Tamanho do Dataset:

* `20.640` data points

#### Variável dependente:

* `median_house_value`:  (float) variável dependente com o valor da mediana do preço de imóvel na região

#### Features: 

* `longitude`/`latitude`: (floats) posição global da região
* `housing_median_age`: (float) mediana da idade (em anos) das casas da região
* `total_rooms`: (float) total de aposentos da região
* `total_bedrooms`: (float) total de quartos da região
* `population`: (float) população total da região
* `households`: (float) quantidade total de imóveis da região
* `median_income`: (float) mediana do salário anual de uma pessoa na região
* `ocean_proximity`: (string) categorias relativas à distância do oceano

É interessante ressaltar que `207` valores foram retirados aleatoriamnete da feature `total_bedrooms` por motivos acadêmicos.


### Modificação dos dados para o Desafio:

Para tornar o desafio mais fácil de avaliar, a massa de dados original foi dividida em duas massas, uma para treino e outra para teste, ambas contendo `10.320` elementos.

Também foram removidos aleatoriamente ainda mais valores da massa de dados e em mais features. Isso torna o processo de Feature Engineering mais instrutivo, pois aproxima-se da realidade do trabalho de um Data Scientist.

___

# Imports

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
import numpy as np
import os
import pandas as pd

# Dataset:

## Carregando os dados

In [54]:
dataset = pd.read_csv("data/california_housing_train.csv", index_col=0)
x_train = dataset.drop(["median_house_value"], axis=1)
y_train = dataset[["median_house_value"]]

In [55]:
print(f"shape: {x_train.shape}")
x_train.head()

shape: (10320, 9)


Unnamed: 0_level_0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
region_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,NEAR BAY
10,-122.26,37.85,52.0,2202.0,434.0,910.0,402.0,3.2031,NEAR BAY


In [56]:
print(f"shape: {y_train.shape}")
y_train.head()

shape: (10320, 1)


Unnamed: 0_level_0,median_house_value
region_id,Unnamed: 1_level_1
1,358500.0
2,352100.0
4,342200.0
9,261100.0
10,281500.0


In [59]:
dataset = pd.read_csv("data/california_housing_test.csv", index_col=0)
x_test = dataset.drop(["median_house_value"], axis=1)
y_test = dataset[["median_house_value"]]

In [60]:
print(f"shape: {x_test.shape}")
x_test.head()

shape: (10320, 9)


Unnamed: 0_level_0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
region_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,NEAR BAY


In [61]:
print(f"shape: {y_test.shape}")
y_test.head()

shape: (10320, 1)


Unnamed: 0_level_0,median_house_value
region_id,Unnamed: 1_level_1
0,452600.0
3,341300.0
5,269700.0
6,299200.0
7,241400.0


# Problemas

## A) Features Numéricas


###  Detecção e Tratamento de Outliers

* Verificar a distribuição e tipos válidos de dados
* Detectar Outliers
* Definir tratamento / descarte

###  Detecção e Tratamento de Nulos

* Verificar quantidade de Nulos em cada feature
* Entender que Nulos podem aparecer também nos dados de teste, portanto apenas descartar o dado não resolve
* Entender que medida (média ou mediana) deve ser imputada em cada feature

###  Avaliação de Correlações
* Comparar a correlação de cada feature com todas as features e com a variável dependente
* Plotar features Vs variável dependente e entender a relação entre elas

## B) Feature Categórica

### Distribuição das Categorias

* Verificar quantidade de dados em cada categoria
* Definir o tratamento de dados pouco representativos:
    * considerar uma categoria válida
    * agregar em uma categoria 'outros'

###  Detecção e Tratamento de Nulos

* Verificar quantidade de Nulos na feature categórica
* Entender que imputar a moda pode inserir erros e que existem dois caminhos a seguir:
    * Usar a relação com lat/lon para descobrir a classe correta
    * Modelar 'Nulo' como uma classe

###  Transformação em Dummy Features
* Transformar labels em dados categóricos consumíveis pelo modelo
* Entender porque uma das classes deve permanecer como 'Base' para não haver uma feature linearmente dependente 

###  Relação com a Variável Dependente
* Fazer o teste de independência Qui-Quadrado (p-values) 
* Plotar features Vs variável dependente e entender a relação entre elas

## C) Treinamento e Avaliação de um Modelo Linear

###  Pipeline de Pré-Processamento
* Construir a Pipelinede Pré-Processamento contendo todas as transformações consideradas para a FE
* Incluir Z-Score como etapa final de transformação, dada a natureza do modelo linear
* Entender porque e como um pipeline deve ser aplicável à massa de testes

###  Treinar o modelo
* Escolher o melhor modelo de acordo com as descobertas
* Plotar features Vs variável dependente e entender a relação entre elas