In [1]:
import urllib
import os
import zipfile

import numpy as np

# Visão Geral

Agora que você tem alguma experiência com Python e os fundamentos de aprendizado de máquina, você vai aplicar os conceitos visto nas aulas teóricas para propor um modelo preditivo para predição do preço de imovéis.


## Objetivo


Nessa parte do ***hands on*** você deve propor um modelo preditivo para predição do preço de imovéis. Você deve ser capaz de formular o problema de aprendizado de máquina que está querendo resolver, fazer a seleção e avaliação dos modelos. Por fim, introduzir a plataforma de competição Kaggle.

### Habilidades

Queremos que você aumente suas habilidades de:

- Criação de um Pipeline de Aprendizado de Máquina
- Feature engineering: proponha novos atributos a partir dos já existentes, e teste se os mesmo ajudaram na predição
- Uso de técnicas avançadas: use métodos além da Regressão Linear e Árvores de Decisão
- Seleção de Atributos: escolha atributos mais relevantes para seu modelo [(Exemplos)](http://scikit-learn.org/stable/modules/feature_selection.html)


## Origem dos Dados

Esse conjunto de dados foi extraído de uma competição do [Kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques). Nós iremos utilizar o ***Leaderboard*** dessa competição para avaliar nosso modelo.


# Conjunto de Dados

O conjunto de dados contém 79 variáveis descrevendo (quase) todas as caracteríticas de um imóvel residencial de Ames, Iowa nos EUA.

Os dados são dividos em conjunto de treino e teste, contendo respectivamente 1461 e 1460 imóveis. O conjunto de teste não contém rótulos, e vamos utilizá-lo exclusivamente para teste e os resultados serão submetidos ao Kaggle (vamos explicar mais adiante como fazê-lo).

# Desafio


Agora você deverá utilizar os conhecimentos adquiridos nas aulas teóricas e construir todo o *pipeline* de aprendizado de máquina para gerar um modelo preditivo capaz de predizer qual o valor de venda de um imóvel dado suas caracteríticas. Lembre-se do fluxo visto na última aula:

![fluxo_ml](imgs/fluxo_ml.png)

## Formule o problema

Qual o problema você de aprendizado de máquina você está tentando resolver? (Escreva no próximo bloco qual é)

escreva seu problema...


## Faça uma análise de seus dados

Tente compreender seus dados antes de entregá-los ao algoritmo de aprendizado de máquina. Isso é uma boa prática em Ciência de Dados e Aprendizado de Máquinas.

In [2]:
data_dir = 'data/house-prices'
# cria a pasta acima se ela não existir
if not os.path.exists(data_dir):
    os.makedirs(data_dir)

datafiles = [
    ("https://kaggle2.blob.core.windows.net/competitions-data/kaggle/5407/train.csv?sv=2015-12-11&sr=b&sig=1QtVxQY0sl6HBa0bg2gciLLy3vDsdSemew5Cl9lQJQA%3D&se=2017-06-11T17%3A15%3A32Z&sp=r",
     'train.csv'),
    ("https://kaggle2.blob.core.windows.net/competitions-data/kaggle/5407/test.csv?sv=2015-12-11&sr=b&sig=%2FqyDs5PhZu6j9nwlPj7j7biGt6RPGeJJI5Ul3W9HJxI%3D&se=2017-06-11T17%3A21%3A27Z&sp=r",
     'test.csv'),
    ("https://kaggle2.blob.core.windows.net/competitions-data/kaggle/5407/data_description.txt?sv=2015-12-11&sr=b&sig=3gOw%2B9PL4lv5OYDQ%2BFaKjtuYtObQkcKuw0L249iCMtc%3D&se=2017-06-15T17%3A15%3A04Z&sp=r", 
     'descripion.txt')
]

# baixa se arquivo não existe
for info in datafiles:
    url, file = info
    file_path = "%s/%s" % (data_dir, file)
    if not os.path.isfile(file_path):
        print(url)
        urllib.request.urlretrieve (url, file_path)

#### Pandas

[Pandas](http://pandas.pydata.org/) é uma biblioteca de código aberto, que provê estruturas de alta performance e fácil de utilizar, e ferramentas de análise de dados para linguagem de programação Python.

In [3]:
import pandas as pd

# carregue os dados ...
df_train = pd.read_csv(data_dir + '/train.csv')
df_test = pd.read_csv(data_dir + '/test.csv')

# verifique como os dados estão ...
df_train.describe()

# faça as análises que achar pertinentes

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


## Prepare os Dados

Como estão seus dados? Estão aptos para serem entregues ao algoritmo de aprendizado?

In [4]:
# criei um pipeline de transformação se necessário
# Dica, dados categoricos devem ser transformados em númericos para funcionar com scikit
# Para isso, é utilizado o OneHotEncoder

## Seleção e Treino do Modelo

Utilize alguma das técnicas de seleção de modelos que vimos na aula de **Seleção e Avaliação de Modelos** para encontrar os melhores atributos e parâmetros para seu modelo. A partir de suas análises tente ter algum *insight* sobre atributos que seriam mais discrinimativos e que não temos de antemão, proponha novos atributos e os teste (itere entre preparação e seleção de modelos).

### Métrica de Avaliação

É muito importante definir uma métrica para nós avaliarmos os modelos e escolher o melhor dentre eles. Nessa competição será utilizado uma extensão da métrica Erro Quadrático Médio, em inglês *Mean Squared Error (MSE)*, chamada *Root Mean Squared Logarithmic Error (RMSLE)*. 

A RMSLE é deifnida como:

$\epsilon = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(\log(\hat{y}_i) - \log(y_i))^2}$

onde:

- $\epsilon$ é o valor do erro (score)
- $n$ é o total de exemplos no conjunto de dados testado
- $\hat{y}_i$ é a predição do modelo
- $y_i$ é o valor do real do imóvel (rótulo)
- $\log(x)$ é a função logarítmica de $x$

A RMSLE penaliza mais estimativas erradas para menos do que para mais. 

Infelizmente, não há tal métrica disponível no scikit-learn. Peço que você a implemente antes de fazer o procedimento de seleção de modelos, pois vai necessitar dela.

In [5]:
def RMSLE(y_true, y_pred):
    """ Root Mean Squared Logarithmic Error 
    Parâmetros
    ----------
    y_true : 1d array
        Rótulos.
    y_pred : 1d array
        Predições, retornadas pelo modelo.
    """
    # TODO: seu código
    pass

Agora que você implementou sua métrica, você deve utilizá-la para avaliar e selecionar o melhor modelo.
Utilize o conhecimento que você aprendeu na aula de Seleçãoe e Validação de modelos (ex. machine_learning/aula_03/selecao_validacao.ipynb)

In [6]:
# TODO: selecionar o modelo

## Avaliação do Modelo

Após selecionar um modelo safisfatório, você vai avaliá-lo utilizando o conjunto de teste. Para isso, você vai ter de submeter ao site do Kaggle no seguinte [link](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/submit).


Você deve criar um arquivo csv***, com duas colunas (Id e SalePrice), onde o Id é o identificador do exemplo de teste (encontra-se no arquivo test.csv) e SalePrice é o valor predito pelo modelo.

****DICA:*** *Utilize o pandas para isso.*

### Submissão no Kaggle

Primeiramente, você terá de se cadastrar no Kaggle para poder fazer a submissão. Por favor, cadastra-se no Kaggle.

Após você se cadastrar, você terá acesso a página de submissão da competição: [link](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/submit). Ao clicar no link anterior, você verá a seguinte página.

![kaggle](imgs/kaggle_submissao.png)

Note que você pode apenas fazer 10 submissões diárias, portanto, submita apenas quando tiver encontrado um modelo legal com seus experimentos. Para submeter você pode arrastar e soltar o arquivo na área pontilhada, ou então, clicar em **Upload Submission File** e selecionar o arquivo no seu computador. Após fazer o upload de suas predições você deve clicar no botão **Make Submission** no inferior da página.

![kaggle](imgs/upload.png)

Após enviar ter sua submissão enviada e processada com sucesso, você será direcionado à página do **Leaderboard** e sua classificação e score serão exibidos.

![sub](imgs/submissao_concluida.png)

In [7]:
# TODO: predição no teste e gerar arquivo para submissão