## Imports

In [None]:
!pip install nbresult matplotlib==3.5.3 matplotlib-inline==0.1.6 numpy==1.23.4 pandas seaborn==0.11.2 scipy xgboost scikit-learn


In [None]:
# Carregue os imports
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from scipy import stats
from tempfile import mkdtemp
from shutil import rmtree

from xgboost import XGBRegressor

from sklearn import set_config
set_config(display = 'diagram')

# Sklearn preprocessing
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.ensemble import AdaBoostRegressor, VotingRegressor, GradientBoostingRegressor, StackingRegressor, RandomForestRegressor
from sklearn.feature_selection import SelectPercentile, mutual_info_regression, VarianceThreshold, SelectFromModel
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.linear_model import Ridge, LinearRegression
from sklearn.metrics import make_scorer, mean_squared_error, mean_squared_log_error
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder, OrdinalEncoder
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor


üèÜ Desafio em Lote do Kaggle
============================

**Bem-vindo √† sua primeira competi√ß√£o no Kaggle!**

Seu objetivo √© **submeter uma resposta (online)** para a competi√ß√£o aberta [Pre√ßos de Casas - T√©cnicas Avan√ßadas de Regress√£o](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data) üè†

Voc√™ ser√° semi-orientado para um **modelo de base**, e somente ap√≥s criar esse modelo de base voc√™ estar√° livre para aprimor√°-lo e refin√°-lo. Abordaremos o problema usando **pipelines** (a melhor pr√°tica)!

Algumas palavras sobre o Kaggle:

* O Kaggle classificar√° sua submiss√£o entre todos os participantes!
* Todos s√£o removidos do ranking p√∫blico ap√≥s 2 meses
* Voc√™ pode fazer at√© 10 submiss√µes por dia

üßπ Hoje √© o dia perfeito para praticar manter seu longo caderno **organizado** üßπ

* Colapse todos os t√≠tulos a partir da paleta de comandos (`Cmd + Shift + P`)
* Mantenha-se "idempotente" (`Restart & Run All` nunca deve falhar)
* Nomeie e delete vari√°veis com cuidado

Configura√ß√£o do Kaggle
----------------------

üëâ Crie uma conta no Kaggle se quiser participar da competi√ß√£o

üëâ Junte-se ao [Desafio de Pre√ßos de Casas](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data)

Carregando Dados
----------------

Nas instru√ß√µes do desafio, voc√™ j√° deveria ter executado os passos para baixar tudo o que precisa do Kaggle para a pasta atual do seu notebook:

* `train.csv` √© o seu conjunto de treinamento `(1460, 81)` contendo `X` e `y`
* `test.csv` √© o seu conjunto de teste `(1459, 80)` sem o alvo associado `y` üòà
* `sample_submission.csv` descreve o formato necess√°rio para submeter sua resposta

Seu objetivo √© prever o `y_pred` que falta no seu conjunto de teste e submet√™-lo para descobrir seu `test_score` e classifica√ß√£o

‚ùì Carregue o conjunto de dados de treinamento em um DataFrame chamado `data`, e crie seu `X` e `y`. Inspecione seus formatos.

**Dica:** se voc√™ verificar o arquivo CSV, notar√° uma coluna chamada `Id`. Ao ler o arquivo CSV em um DF, certifique-se de definir `index_col="Id"` para que voc√™ n√£o tenha duas colunas de ID üòâ

In [None]:
# Vamos fazer o load dos dados na vari√°vel 'data'
data = pd.read_csv('data/houses_train_raw.csv', index_col='Id')
data


In [None]:
# Vamos fazer o drop da coluna SalePrice

X = data.drop(columns=['SalePrice'])
y = data.SalePrice

X.shape, y.shape


# üê£ 1. BASELINE

1.1 Vis√£o inicial das caracter√≠sticas
-------------------------------------

80 caracter√≠sticas s√£o demais para lidar individualmente para um primeiro pipeline de base! Vamos trat√°-las baseando-nos somente em seu `dtype`:

‚ùì Quantas caracter√≠sticas num√©ricas versus caracter√≠sticas categ√≥ricas temos?

In [None]:
X.dtypes.value_counts()


‚ùì Crie uma S√©rie chamada `feat_categorical_nunique` contendo o n√∫mero de **valores √∫nicos** para cada caracter√≠stica categ√≥rica no nosso conjunto de treinamento. Quantas categorias √∫nicas existem no total?

In [None]:
feat_categorical_nunique = X.select_dtypes(include='object').nunique()


In [None]:
feat_categorical_nunique.sum()


ü§î Se f√¥ssemos para o `OneHotEncode`, em todas as caracter√≠sticas categ√≥ricas, nossa matriz de caracter√≠sticas `X_preproc` se tornaria bastante grande e esparsa, com quase 300 caracter√≠sticas (altamente correlacionadas) para apenas 1400 observa√ß√µes. Idealmente, dever√≠amos visar alimentar nosso modelo com um m√°ximo de ~50 caracter√≠sticas (üìö leia esta [regra pr√°tica](https://datascience.stackexchange.com/a/11480/98300))

Conhecemos 2 principais estrat√©gias para reduzir o n√∫mero de caracter√≠sticas categ√≥ricas ap√≥s o pr√©-processamento:

1. **[Remover](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection)** caracter√≠sticas que trazem pouca explica√ß√£o para nosso modelo; isso pode exigir an√°lise estat√≠stica da import√¢ncia das caracter√≠sticas
2. **[Codificar ordinalmente](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html)** (em vez de usar one-hot encode) caracter√≠sticas categ√≥ricas em inteiros; isso, no entanto, cria uma no√ß√£o de "ordem" (1 > 2 > 3 > ...) que pode ser prejudicial se n√£o for manuseada corretamente!

‚ùì Plote o histograma do n√∫mero de valores √∫nicos por caracter√≠stica categ√≥rica. Voc√™ v√™ alguns quick wins?

In [None]:
feat_categorical_nunique.hist();


üí° Como ponto de partida, que tal simplesmente remover todas as caracter√≠sticas que t√™m 7 valores √∫nicos ou mais e aplicar a codifica√ß√£o one-hot no restante? Vamos manter a codifica√ß√£o ordinal e a sele√ß√£o de caracter√≠sticas estat√≠sticas para a pr√≥xima itera√ß√£o do nosso pipeline.

‚ùì Armazene os nomes das caracter√≠sticas a serem codificadas em one-hot em uma lista chamada feat_categorical_small abaixo. Quantas caracter√≠sticas ser√£o codificadas em one-hot?

In [None]:
# categorical features para one-hot-encode
feat_categorical_small = list(feat_categorical_nunique[feat_categorical_nunique < 7].index)


In [None]:
# Quantidade de catgorias
len(feat_categorical_small)


üß™ Teste o c√≥digo!

In [None]:
from nbresult import ChallengeResult

result = ChallengeResult(
    'features_overview',
    n=len(feat_categorical_small)
)

result.write()
result.check()


## 1.2 Baseline Pipe

### a) Pr√©-processamento

‚ùì Vamos codificar a linha de base do pr√©-processamento conforme descrito abaixo. Salve-a como `preproc_baseline`.

Para caracter√≠sticas categ√≥ricas:

* Impute simples com os valores mais frequentes
* Codifica√ß√£o One-Hot para caracter√≠sticas que t√™m menos de 7 valores √∫nicos inicialmente
* Remova todas as outras caracter√≠sticas

Quanto √†s caracter√≠sticas num√©ricas:

* Impute simples com estrat√©gia `m√©dia`
* Escala Min-Max

<details> <summary>‚ÑπÔ∏è Clique aqui para uma dica profissional</summary>

Se estiver confiante, voc√™ pode tentar a sintaxe mais curta do Sklearn, como `make_pipeline` ou `make_column_transformer`, em vez da sintaxe mais longa de `Pipeline` ou `ColumnTransformer`; tamb√©m √© √∫til se voc√™ quiser evitar dar nomes manualmente a cada etapa.

</details>

In [None]:
preproc_numerical_baseline = make_pipeline(
    SimpleImputer(),
    MinMaxScaler()
)

preproc_categorical_baseline = make_pipeline(
    SimpleImputer(strategy="most_frequent"),
    OneHotEncoder(handle_unknown="ignore")
)

preproc_baseline = make_column_transformer(
    (preproc_numerical_baseline, make_column_selector(dtype_include=["int64", "float64"])),
    (preproc_categorical_baseline, feat_categorical_small),
    remainder="drop"
)

preproc_baseline


‚ùì Observe a **forma** do seu DataFrame ap√≥s o pr√©-processamento e salve-a como `shape_preproc_baseline`.

In [None]:
shape_preproc_baseline = preproc_baseline.fit_transform(X).shape
shape_preproc_baseline


üß™ Test your code below

In [None]:
from nbresult import ChallengeResult

result = ChallengeResult(
    'preproc_baseline',
    shape=shape_preproc_baseline
)

result.write()
print(result.check())


### b) Add Estimator

‚ùì Adicione um modelo simples de √Årvore de Decis√£o ao seu preproc_baseline e armazene-o na vari√°vel pipe_baseline.

In [None]:
pipe_baseline = make_pipeline(preproc_baseline, DecisionTreeRegressor())
pipe_baseline


### c) Cross-Valida√ß√£o

‚ùì Leia as [regras de avalia√ß√£o do concurso Kaggle](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview/evaluation). Qual m√©trica de desempenho voc√™ precisa? Ela est√° prontamente dispon√≠vel no Sklearn?

Infelizmente, n√£o est√°! Precisaremos criar nosso objeto personalizado `sklearn.metrics.scorer` para passar para qualquer valida√ß√£o cruzada ou pesquisa em grade. O processo √© descrito abaixo:

1. Crie um scorer chamado `rmsle` usando [`make_scorer`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html) que pode ser passado como valor para o `kwarg` `scoring` da seguinte maneira:
    
    ```python
    cross_val_score(pipe_baseline, X, y, cv=5, scoring=rmsle)
    ```
    
2. Crie sua contraparte negativa, `rmsle_neg`, que √© melhor quando _maximizada_; isso ser√° √∫til mais tarde, j√° que o `GridSearchCV` sempre tenta _maximizar_ uma pontua√ß√£o üòâ
    
    ```python
    GridSearchCV(pipe_baseline, param_grid=..., cv=5, scoring=rmsle_neg)
    ```

RMSLE formula

$$\text{RMSLE}(y, \hat{y}) = \sqrt{\frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} - 1} (\log_e (1 + y_i) - \log_e (1 + \hat{y}_i) )^2.}$$

In [None]:
# OPTION 1: recode it all manually
def root_mean_squared_log_error(y_true, y_pred):
    t = np.array(y_true)
    p = np.array(y_pred)

    log_error = np.log(1+t) - np.log(1+p)

    return ((log_error**2).mean())**0.5

# This is our metric to minimize
rmsle = make_scorer(root_mean_squared_log_error)

# This is our score to maximize
rmsle_neg = make_scorer(lambda y_true, y_pred: -1 * root_mean_squared_log_error(y_true, y_pred))


In [None]:
# OPTION 2 - re-use Sklearn's "mean_squared_log_error"

# This is our metric to minimize
rmsle = make_scorer(lambda y_true, y_pred: mean_squared_log_error(y_true, y_pred)**0.5)

# This is our score to maximize
rmsle_neg = make_scorer(lambda y_true, y_pred: -1 * mean_squared_log_error(y_true, y_pred)**0.5)

# Equivalent formulation
rmsle_neg = make_scorer(
    lambda y_true, y_pred: mean_squared_log_error(y_true, y_pred)**0.5,
    greater_is_better=False
)


‚ùì Realize a valida√ß√£o cruzada de 5 folds no seu pipe_baseline usando essa m√©trica para obter uma primeira vis√£o do desempenho b√°sico.

Armazene a pontua√ß√£o m√©dia como score_baseline.

In [None]:
score_baseline = cross_val_score(pipe_baseline, X, y, cv=5, scoring=rmsle).mean()
score_baseline


### d) Predict Baseline

‚ùì Fa√ßa previs√µes (y_pred_baseline) no conjunto de dados Kaggle test.csv que voc√™ armazenou na pasta data.

In [None]:
X_test = pd.read_csv("data/houses_test_raw.csv")
X_test_ids = X_test['Id'] # Keep ids
X_test = X_test.drop(columns=['Id'])

# Predict y_pred_baseline
pipe_baseline.fit(X,y)
y_pred_baseline = pipe_baseline.predict(X_test)
y_pred_baseline


‚ùì Por fim, armazene o seu arquivo CSV pronto para envio como submission_baseline.csv na pasta data. Leia cuidadosamente e compreenda o formato necess√°rio do Kaggle e teste abaixo (voc√™ n√£o precisa enviar esta linha de base para o Kaggle por enquanto).

In [None]:
results = pd.concat([X_test_ids, pd.Series(y_pred_baseline, name="SalePrice")], axis=1)
results.head(1)


In [None]:
# Exporte os resultados
results.to_csv("data/submission_baseline.csv", header=True, index=False)


üß™ Test your code

In [None]:
from nbresult import ChallengeResult

tmp = pd.read_csv("data/submission_baseline.csv")

result = ChallengeResult(
    'submission_baseline',
    score_baseline = score_baseline,
    submission_shape = tmp.shape,
    submission_columns = list(tmp.columns),
    submission_dtypes = str(list(tmp.dtypes)),
)

result.write()
print(result.check())


üèãÔ∏è‚Äç‚ôÄÔ∏è 2. ITERA√á√ïES
===================

üéâ üéâ Parab√©ns por ter completamente constru√≠do um modelo b√°sico! Agora, voc√™ ver√° o qu√£o mais f√°cil √© iterar e melhorar o desempenho üöÄ

Agora, seu objetivo √© melhorar suas previs√µes e envi√°-las para o Kaggle **pelo menos 30 minutos antes do Resumo ‚è≥**

Temos algumas sugest√µes de melhorias abaixo: **escolha suas batalhas** e melhore **incrementalmente** seu pipeline conforme achar adequado!

**Estimadores**

* Conjuntos baseados em √°rvores (um must-try hoje); provavelmente os mais adequados para problemas com muitas caracter√≠sticas categ√≥ricas
* Stacking!
* XGBoost!

**Pr√©-processamento** (quando seu primeiro modelo de conjunto estiver funcionando)

* **Codifica√ß√£o Ordinal** de caracter√≠sticas categ√≥ricas com uma no√ß√£o oculta de ordem em seus valores (por exemplo, "ruim", "m√©dio", "bom")
* **Sele√ß√£o Estat√≠stica de Caracter√≠sticas** para remover caracter√≠sticas in√∫teis (evita overfitting e reduz o tempo de treinamento)
* Prever `log(SalePrice)` em vez disso?
* ü§∑

2.1 Itera√ß√£o de Pr√©-processamento ‚ô≤
-----------------------------------

**‚ö†Ô∏è Volte aqui apenas depois de ter iterado nos seus estimadores na se√ß√£o 2.2 ‚ö†Ô∏è**

‚è© Me colapse se eu n√£o estiver sendo usado!

### a) Ordinal Encoding (~1h)

‚ùì Olhe para a seguinte caracter√≠stica. N√£o poderia ser codificada de maneira inteligente numericamente?

```perl
ExterQual: Avalia a qualidade do material no exterior
		
       Ex	Excelente
       Gd	Bom
       TA	M√©dia/T√≠pica
       Fa	Ruim
       Po	P√©ssimo
```

üí° Felizmente, o `OrdinalEncoder` e seu argumento `categories` nos permite fazer exatamente isso! Confira abaixo e certifique-se de entender como isso funciona üëá

In [None]:
# Define uma ordem espec√≠fica para as caracter√≠sticas
# Observa√ß√£o: se voc√™ alterar esta ordem, ela mudar√° a sa√≠da para .transform()
feature_A_sorted_values = ['bad', 'average', 'good']
feature_B_sorted_values = ['dirty', 'clean', 'new']

encoder = OrdinalEncoder(
    categories=[
        feature_A_sorted_values,
        feature_B_sorted_values
    ],
    handle_unknown="use_encoded_value",
    unknown_value=-1
)

# Just some random training data
XX = [
    ['good', 'dirty'],
    ['bad', 'new'],
    ['average', 'clean'],
]

encoder.fit(XX)

encoder.transform([
        ['bad', "dirty"],
        ["average", "clean"],
        ['good', 'new'],
        ['bad', 'oops never seen this label before']
])


‚ùì **Sua vez**: divida seu pr√©-processador categ√≥rico em

* `preproc_ordinal` para codificar de forma ordinal **algumas caracter√≠sticas** (de sua escolha)
* `preproc_nominal` para codificar one-hot as outras

<details> <summary>Dicas</summary>

* Voc√™ n√£o conseguir√° evitar a codifica√ß√£o direta dos nomes e valores ordenados das caracter√≠sticas! Seja organizado!
* √â uma boa pr√°tica ordenar suas caracter√≠sticas em ordem alfab√©tica para evitar surpresas desagrad√°veis.

</details>

In [None]:
feat_ordinal_dict = {
    # Considers "missing" as "neutral"
    "BsmtCond": ['missing', 'Po', 'Fa', 'TA', 'Gd'],
    "BsmtExposure": ['missing', 'No', 'Mn', 'Av', 'Gd'],
    "BsmtFinType1": ['missing', 'Unf', 'LwQ', 'Rec', 'BLQ', 'ALQ', 'GLQ'],
    "BsmtFinType2": ['missing', 'Unf', 'LwQ', 'Rec', 'BLQ', 'ALQ', 'GLQ'],
    "BsmtQual": ['missing', 'Fa', 'TA', 'Gd', 'Ex'],
    "Electrical": ['missing', 'Mix', 'FuseP', 'FuseF', 'FuseA', 'SBrkr'],
    "ExterCond": ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
    "ExterQual": ['missing', 'Fa', 'TA', 'Gd', 'Ex'],
    "Fence": ['missing', 'MnWw', 'GdWo', 'MnPrv', 'GdPrv'],
    "FireplaceQu": ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
    "Functional": ['missing', 'Sev', 'Maj2', 'Maj1', 'Mod', 'Min2', 'Min1', 'Typ'],
    "GarageCond": ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
    "GarageFinish": ['missing', 'Unf', 'RFn', 'Fin'],
    "GarageQual": ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
    "HeatingQC": ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
    "KitchenQual": ['missing', 'Fa', 'TA', 'Gd', 'Ex'],
    "LandContour": ['missing', 'Low', 'Bnk', 'HLS', 'Lvl'],
    "LandSlope": ['missing', 'Sev', 'Mod', 'Gtl'],
    "LotShape": ['missing', 'IR3', 'IR2', 'IR1', 'Reg'],
    "PavedDrive": ['missing', 'N', 'P', 'Y'],
    "PoolQC": ['missing', 'Fa', 'Gd', 'Ex']
}

feat_ordinal = sorted(feat_ordinal_dict.keys()) # sort alphabetically
feat_ordinal_values_sorted = [feat_ordinal_dict[i] for i in feat_ordinal]

encoder_ordinal = OrdinalEncoder(
    categories=feat_ordinal_values_sorted,
    dtype= np.int64,
    handle_unknown="use_encoded_value",
    unknown_value=-1 # Considers unknown values as worse than "missing"
)

preproc_ordinal = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    encoder_ordinal,
    MinMaxScaler()
)

preproc_ordinal


In [None]:
# Define caracter√≠sticas num√©ricas de uma vez por todas.

feat_numerical = sorted(X.select_dtypes(include=["int64", "float64"]).columns)

preproc_numerical = make_pipeline(
    KNNImputer(),
    MinMaxScaler()
)


In [None]:
# Define caracter√≠sticas nominais para codificar one-hot como as restantes (n√£o num√©ricas, n√£o ordinais)
feat_nominal = sorted(list(set(X.columns) - set(feat_numerical) - set(feat_ordinal)))

preproc_nominal = make_pipeline(
    SimpleImputer(strategy="most_frequent"),
    OneHotEncoder(handle_unknown="ignore")
)


In [None]:
preproc = make_column_transformer(
    (preproc_numerical, feat_numerical),
    (preproc_ordinal, feat_ordinal),
    (preproc_nominal, feat_nominal),
    remainder="drop"
)

preproc


In [None]:
pd.DataFrame(preproc.fit_transform(X,y)).head()


### b) Sele√ß√£o Estat√≠stica de Caracter√≠sticas (~30min)

Nosso objetivo √© remover as caracter√≠sticas menos interessantes para limitar o overfitting e reduzir o tempo de treinamento.

üî• Vamos fazer uso dos transformadores de [sele√ß√£o de caracter√≠sticas](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection) do Sklearn diretamente no seu pipeline!

‚ùóÔ∏è Recomendamos que voc√™ tente **apenas a Op√ß√£o 1 hoje**, para come√ßar. As Op√ß√µes 2 e 3 ser√£o corrigidas no Resumo!

#### Op√ß√£o 1 (Recomendada) - <font color=green>Sele√ß√£o de Caracter√≠sticas Univariada</font>

_com base na informa√ß√£o m√∫tua com o alvo `y`_

* Sinta-se √† vontade para adicionar um filtro `SelectPercentile` ao final do seu pipeline `preproc`.
* Isso filtrar√° caracter√≠sticas que, individualmente, explicam menos o seu alvo!
* O teste estat√≠stico que recomendamos passar para o `SelectPercentile` √© o `mutual_info_regression`

<details> <summary markdown='span'>ü§î O que √© informa√ß√£o m√∫tua? Clique aqui!</summary>

* [Informa√ß√£o M√∫tua](https://en.wikipedia.org/wiki/Mutual_information) √© uma dist√¢ncia **estat√≠stica** entre duas distribui√ß√µes de probabilidade.
* A correla√ß√£o √© uma dist√¢ncia **linear** entre duas vari√°veis aleat√≥rias.
* A Informa√ß√£o M√∫tua √© mais geral e mede a redu√ß√£o de incerteza em Y ap√≥s observar X.
* Por outro lado, se voc√™ j√° sabe que est√° lidando com vari√°veis suaves (como vari√°veis num√©ricas cont√≠nuas), √†s vezes a correla√ß√£o pode fornecer mais informa√ß√µes sobre elas, por exemplo, se a rela√ß√£o entre elas for mon√≥tona.

Veja [esta anima√ß√£o](https://twitter.com/ari_seff/status/1409296508634152964)

</details>

In [None]:
preproc_transformer = make_column_transformer(
    (preproc_numerical, make_column_selector(dtype_include=["int64", "float64"])),
    (preproc_ordinal, feat_ordinal),
    (preproc_nominal, feat_nominal),
    remainder="drop"
)

preproc_selector = SelectPercentile(
    mutual_info_regression,
    percentile=25, # keep only 25% of all features
)

preproc = make_pipeline(
    preproc_transformer,
    preproc_selector
)

preproc


In [None]:
preproc.fit_transform(X, y).shape


#### Op√ß√£o 2 - <font color=green>Sele√ß√£o de Caracter√≠sticas Multivariada</font>

_com base em sua rela√ß√£o combinada com o alvo `y`_

ü§î Queremos remover caracter√≠sticas que n√£o ajudam a prever nosso alvo mesmo quando combinadas com todas as outras.

1Ô∏è‚É£ Para fazer isso, lembre-se de que podemos usar a m√©trica [`permutation_importance`](https://scikit-learn.org/stable/modules/permutation_importance.html) em combina√ß√£o com um estimador! Ele treina um pipeline por caracter√≠stica para estimar qual caracter√≠stica faz nosso escore de desempenho _diminuir_ mais quando ela √© embaralhada aleatoriamente. Essas seriam nossas caracter√≠sticas mais importantes, que n√£o queremos remover.

A melhor parte √© que o `scikit-learn` permite que voc√™ integre essa metodologia diretamente no seu pipeline `preproc` gra√ßas ao transformador [`SequentialFeatureSelector`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html); isso remover√° recursivamente as caracter√≠sticas menos importantes de acordo com o `cross_val_score`.

Quando voc√™ tem muitas caracter√≠sticas, no entanto, esse processo pode levar muito tempo para treinar.

2Ô∏è‚É£ Alternativamente, uma maneira mais r√°pida seria fazer uso de modelos que j√° produzem alguma medida de `feature_importance` ao serem ajustados. Por exemplo, √°rvores com `feature_importance_` baseado em Gini, ou regress√µes Lasso com `coef_` L1. O `scikit-learn` j√° possui o transformador [`SelectFromModel`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html) para fazer exatamente isso.

In [None]:
preproc_transformer_multi = make_column_transformer(
    (preproc_numerical, make_column_selector(dtype_include=["int64", "float64"])),
    (preproc_ordinal, feat_ordinal),
    (preproc_nominal, feat_nominal),
    remainder="drop"
)

preproc_selector_multi = SelectFromModel(
    RandomForestRegressor(),
    threshold = "median", # drop all multivariate features lower than the median correlation
)

preproc_multi = make_pipeline(
    preproc_transformer_multi,
    preproc_selector_multi
)

preproc_multi


#### Op√ß√£o 3 - Sele√ß√£o <font color=green>N√£o Supervisionada</font>?

_filtre baseado apenas nas propriedades de `X`_

‚ùì Uma vit√≥ria r√°pida √© remover caracter√≠sticas com a menor vari√¢ncia. Pense sobre isso: uma caracter√≠stica que s√≥ tem um valor √© in√∫til (e tem uma vari√¢ncia de 0).

Sinta-se √† vontade para adicionar um [`VarianceThreshold`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html) ao final do seu pipeline!

In [None]:
def number_feature_remaining(cutoff=0):
    preproc_transformer = make_column_transformer(
        (preproc_numerical, feat_numerical),
        (preproc_ordinal, feat_ordinal),
        (preproc_nominal, feat_nominal),
        remainder="drop"
    )

    preproc_selector = VarianceThreshold(cutoff)

    preproc = make_pipeline(
        preproc_transformer,
        preproc_selector
    )

    return preproc.fit_transform(X).shape[1]


In [None]:
cutoff_values = np.arange(0, 0.2, 0.01)

plt.plot(cutoff_values, [number_feature_remaining(t) for t in cutoff_values], marker='x')

plt.xlabel("chosen feature variance cutoff values")
plt.title("Number of Feature Remaining");


‚òùÔ∏è Poder√≠amos decidir colocar um limite de 0.025 nas caracter√≠sticas categ√≥ricas para reduzir o n√∫mero delas pela metade ou mais.

‚ùì Al√©m disso, podemos verificar a correla√ß√£o entre nossas **caracter√≠sticas num√©ricas** apenas

* Use a [correla√ß√£o de Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient) combinada com um mapa de calor para verificar visualmente se alguma caracter√≠stica **num√©rica** se correlaciona quase que inteiramente com outras
* Use o `VIF` de `statsmodels` para verificar quais caracter√≠sticas t√™m a maior multicolinearidade

In [None]:
corr_num = X[feat_numerical].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_num, cmap='coolwarm',vmin=-1, vmax=1);


In [None]:
# Verifique quais colunas remover com base na alta correla√ß√£o
num_corr_threshold = 0.95

corr_num = X[feat_numerical].corr()
corr_num_upper_triangle = corr_num.where(np.triu(np.ones(corr_num.shape), k=1).astype(np.bool)).abs()

num_col_to_drop = [column for column in corr_num_upper_triangle.columns if any(corr_num_upper_triangle[column] > num_corr_threshold)]
num_col_to_drop


‚ùì Para **caracter√≠sticas ordinais**, podemos usar a [correla√ß√£o de postos de Spearman](https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient) para verificar se algumas caracter√≠sticas **codificadas ordinalmente** s√£o quase inteiramente "ordenadas" de maneira semelhante √†s outras. Sinta-se √† vontade para plotar um mapa de calor novamente.

In [None]:
X_ordinally_encoded = pd.DataFrame(preproc_ordinal.fit_transform(X[feat_ordinal]))

sns.heatmap(X_ordinally_encoded.corr(method='spearman'), cmap='coolwarm', vmin=-1, vmax=1);


‚ùì Agora, sinta-se √† vontade para criar um "filtro" em seu pipeline que remove qualquer caracter√≠stica al√©m de um determinado limite de correla√ß√£o (Spearman + Pearson); voc√™ precisar√° de uma classe de transformador personalizada.

In [None]:
class CustomFeatureSelector(BaseEstimator, TransformerMixin):
    def __init__(self, num_corr_threshold=0.95):
        self.num_corr_threshold = num_corr_threshold

    def fit(self, X, y=None):
        feat_numerical = sorted(X.select_dtypes(include=["int64", "float64"]).columns)

        corr_num = X[feat_numerical].corr()
        upper = corr_num.where(np.triu(np.ones(corr_num.shape), k=1).astype(np.bool)).abs()

        self.num_col_to_drop = [column for column in upper.columns if any(upper[column] > self.num_corr_threshold)]
        self.num_col = X[feat_numerical].columns

        return self

    def transform(self, X, y=None):
        df = pd.DataFrame(X, columns=self.num_col)

        return df.drop(columns=self.num_col_to_drop)

# Test it here
CustomFeatureSelector(num_corr_threshold=0.2).fit_transform(X[feat_numerical]).head(2)


### ü•∑ Solu√ß√£o Apenas: Outras Transforma√ß√µes?

### c) Tratar Caracter√≠sticas C√≠clicas

‚ùì Temos algumas caracter√≠sticas relacionadas ao tempo, por que n√£o transform√°-las em caracter√≠sticas c√≠clicas?

In [None]:
# Tratar Caracter√≠sticas C√≠clicas
months_in_a_year = 12

X['sin_MoSold'] = np.sin(2 * np.pi * (X.MoSold - 1) / months_in_a_year)
X['cos_MoSold'] = np.cos(2 * np.pi * (X.MoSold - 1) / months_in_a_year)

X.drop(columns=['MoSold'], inplace=True)

X.head()


### d) Engenharia do Alvo (~15min)

‚ùì Nos foi pedido para minimizar o RMS**L**E. Que tal transformarmos nosso alvo para prever diretamente seu `log`?

* Confira o histograma do alvo `y`
* Vari√°veis normalmente distribu√≠das devem ser mais f√°ceis de prever com modelos lineares ou param√©tricos
* Crie `y_log` e suas novas m√©tricas de desempenho
* N√£o se esque√ßa de tomar a exponencial de suas previs√µes no final!

In [None]:
y_log = np.log(y)

plt.figure(figsize=(17, 5))

# Subplot para o histograma original
plt.subplot(1, 2, 1)
plt.hist(y, bins=30, color='blue', edgecolor='black')
plt.title('Histograma de SalePrice')
plt.xlabel('SalePrice')
plt.ylabel('Frequ√™ncia')

# Subplot para o histograma dos dados transformados
plt.subplot(1, 2, 2)
plt.hist(y_log, bins=30, color='green', edgecolor='black')
plt.title('Histograma do log(SalePrice)')
plt.xlabel('log(SalePrice)')
plt.ylabel('Frequ√™ncia')

plt.show()


In [None]:
# Crie seu novo marcador para minimizar
rmse = make_scorer(lambda y_true, y_pred: mean_squared_error(y_true, y_pred)**0.5)

# Crie seu novo artilheiro para maximizar
rmse_neg = make_scorer(lambda y_true, y_pred: -1 * mean_squared_error(y_true, y_pred)**0.5)


### 2.2 Model Iteration ‚ôª

#### a) Vers√£o Final do Pipeline de Pr√©-processamento

‚ùì Aconselhamos que voc√™ comece com uma defini√ß√£o nova abaixo para que voc√™ possa atualiz√°-la rapidamente conforme necess√°rio e, em seguida, experimentar muitos tipos de modelos para encontrar o melhor poss√≠vel (voc√™ pode tentar GridSearch ou ir modelo por modelo)

In [None]:
encoder_ordinal = OrdinalEncoder(
    categories=feat_ordinal_values_sorted,
    dtype= np.int64,
    handle_unknown="use_encoded_value",
    unknown_value=-1 # Considers unknown values as worse than "missing"
)

preproc_ordinal = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    encoder_ordinal,
    MinMaxScaler()
)

preproc_numerical = make_pipeline(
    KNNImputer(),
    MinMaxScaler()
)

preproc_transformer = make_column_transformer(
    (preproc_numerical, make_column_selector(dtype_include=["int64", "float64"])),
    (preproc_ordinal, feat_ordinal),
    (preproc_nominal, feat_nominal),
    remainder="drop"
)

preproc_selector = SelectPercentile(
    mutual_info_regression,
    percentile=50, # keep only xx% of all features )
)
preproc = make_pipeline(
    preproc_transformer,
    preproc_selector
)

preproc


In [None]:
# Check shape
preproc_fitted = preproc.fit(X,y)
preproc_fitted_log = preproc.fit(X,y_log)

preproc_fitted_log.transform(X).shape


In [None]:
# SOLUCAO
allow_grid_searching = True # Use True para ativar o GridSearch nas c√©lulas do notebook abaixo

# Armazenar em cache a etapa de pr√©-processamento do pipeline
cachedir = mkdtemp()


#### b) Modelos Lineares (Lasso, Ridge, ElasticNet, SGDRegressor, etc.)

In [None]:
# Ridge com normal target
model = Ridge()

pipe_ridge = make_pipeline(preproc, model, memory=cachedir)

cross_val_score(pipe_ridge, X, y, cv=5, scoring=rmsle).mean()


In [None]:
# Ridge com log-target (much better)
model = Ridge()

pipe_ridge = make_pipeline(preproc, model, memory=cachedir)

cross_val_score(pipe_ridge, X, y_log, cv=5, scoring=rmse).mean()


In [None]:
# GridSearch the Ridge regularization
if allow_grid_searching:
    param_grid =  {'ridge__alpha': np.linspace(0.5, 2, num=20)}

    search_ridge = GridSearchCV(
        pipe_ridge,
        param_grid=param_grid,
        cv=5,
        n_jobs=-1,
        verbose=2,
        scoring=rmse_neg
    )

    search_ridge.fit(X, y_log);

    print('\n----------------------------------------\n')
    print(f'Best params üëâ {search_ridge.best_params_}')
    print(f'Best score üëâ {search_ridge.best_score_}')


#### c) KNN

In [None]:
model = KNeighborsRegressor()

pipe_knn = make_pipeline(preproc, model)


In [None]:
scores = cross_val_score(pipe_knn, X, y_log, cv=5, scoring=rmse)
scores.mean()


In [None]:
# GridSearch the KNN
if allow_grid_searching:
    param_grid =  {'kneighborsregressor__n_neighbors': [3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30]}

    search_knn = GridSearchCV(
        pipe_knn,
        param_grid=param_grid,
        cv=3,
        n_jobs=-1,
        verbose=2,
        scoring=rmse_neg
    )

    search_knn.fit(X, y_log);

    print('\n----------------------------------------\n')
    print(f'Best params üëâ {search_knn.best_params_}')
    print(f'Best score üëâ {search_knn.best_score_}')


#### d) SVM

In [None]:
model = SVR(kernel='linear')

pipe_svm = make_pipeline(preproc, model, memory=cachedir)

cross_val_score(pipe_svm, X, y_log, cv=5, scoring=rmse).mean()


In [None]:
model = SVR(kernel='rbf', C = 10)

pipe_svm_rbf = make_pipeline(preproc, model, memory=cachedir)

cross_val_score(pipe_svm_rbf, X, y_log, cv=5, scoring=rmse).mean()


In [None]:
# GridSearch
if allow_grid_searching:
    param_grid =  {
        'svr__C': [0.5, 0.7, 1, 2, 5, 10],
        'svr__epsilon': [0.01, 0.05, 0.1, 0.2, 0.5],
        #'svr__coef0': [0.0, 0.1, 0.5,1],
    }

    search_svm_rbf = GridSearchCV(
        pipe_svm_rbf,
        param_grid=param_grid,
        cv=5,
        n_jobs=-1,
        verbose=2,
        scoring=rmse_neg
    )

    search_svm_rbf.fit(X, y_log);

    svm_rbf_best = search_svm_rbf.best_estimator_

    print('\n----------------------------------------\n')
    print(f'Best params üëâ {search_svm_rbf.best_params_}')
    print(f'Best score üëâ {search_svm_rbf.best_score_}')


#### e) √Årvores

In [None]:
model = DecisionTreeRegressor(max_depth=50, min_samples_leaf=20)

pipe = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe, X, y_log, cv=5, scoring=rmse)

print(score.std())
print(score.mean())


#### f) Floresta Aleat√≥ria

In [None]:
model = RandomForestRegressor(max_depth=50,min_samples_leaf=20)

pipe = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe, X, y_log, cv=5, scoring=rmse)

print(score.std())
print(score.mean())


#### g) Boosted Trees

In [None]:
model = AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=None))

pipe = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe, X, y_log, cv=5, scoring=rmse)

print(score.std())
print(score.mean())


In [None]:
model = GradientBoostingRegressor(n_estimators=100, verbose=0)

pipe_gb = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe_gb, X, y_log, cv=5, scoring=rmse)

print(score.std())
print(score.mean())


In [None]:
if allow_grid_searching:
     grid = {
          'gradientboostingregressor__n_estimators': stats.randint(50,300),
          # 'gradientboostingregressor__learning_rate': stats.uniform(0.05, 0.3),
          # 'gradientboostingregressor__loss': ['lad', 'huber', 'quantile'],
          # 'gradientboostingregressor__max_depth': stats.randint(3, 5),
          # 'gradientboostingregressor__min_samples_split': stats.randint(2, 10),
          # 'gradientboostingregressor__subsample': [0.95, 1], # 1 default
          'gradientboostingregressor__max_features': stats.randint(0.9, len(X.columns)) # default None, i.e = n_features
     }

     search_gb = RandomizedSearchCV(pipe_gb, grid, scoring=rmse_neg, n_iter=8, cv=5, n_jobs=1, verbose=2)

     # Fit data to GridSearch
     search_gb.fit(X, y_log);

     print('\n----------------------------------------\n')
     print(f'Best params üëâ {search_gb.best_params_}')
     print(f'Best score üëâ {search_gb.best_score_}')

     # Plot results of GridSearch
     df_cv_results_ = pd.DataFrame(search_gb.cv_results_)

     sns.scatterplot(x="param_gradientboostingregressor__n_estimators", y='mean_test_score', data=df_cv_results_)
     sns.scatterplot(x="param_gradientboostingregressor__max_features", y='mean_test_score', data=df_cv_results_)


#### h) Stacking

In [None]:
gboost = GradientBoostingRegressor(n_estimators=100)
ridge = Ridge()
svm = SVR(C=1, epsilon=0.05)
adaboost = AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=None))


model = VotingRegressor(
    estimators = [("gboost", gboost), ("adaboost", adaboost), ("ridge", ridge), ("svm_rbf", svm)],
    weights = [1, 1, 1, 1], # to equally weight the models
    n_jobs=-1
)

pipe_ensemble = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe_ensemble, X, y_log, cv=5, scoring=rmse, n_jobs=-1)

print(score.std())
print(score.mean())


In [None]:
gboost = GradientBoostingRegressor(n_estimators=100)
ridge = Ridge()
svm = SVR(C=1, epsilon=0.05)
adaboost = AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=None))

model = StackingRegressor(
    estimators=[("gboost", gboost), ("adaboost", adaboost), ("ridge", ridge), ("svm_rbf", svm)],
    final_estimator=LinearRegression(),
    cv=5,
    n_jobs=-1
)

pipe_stacking = make_pipeline(preproc, model, memory=cachedir)

score = cross_val_score(pipe_stacking, X, y_log, cv=5, scoring=rmse, n_jobs=-1)

print(score.std())
print(score.mean())


#### i) XGBoost

In [None]:
# Cria um teste de avalia√ß√£o apenas para fins de parada antecipada (XGBOOST e Deep Learning)
X_train, X_eval, y_train_log, y_eval_log = train_test_split(X, y_log, random_state=42)


In [None]:
# Instanciar modelo
model_xgb = XGBRegressor(max_depth=10, n_estimators=300, learning_rate=0.1)


In [None]:
# Op√ß√£o 1: Integrar XGB ao pipeline do Sklearn
# Permite GridSearchCV seus melhores hiperpar√¢metros
pipe_xgb = make_pipeline(preproc, model_xgb)

cross_val_score(pipe_xgb, X, y_log, cv=5, scoring=rmse, n_jobs=-1).mean()


In [None]:
# Op√ß√£o 2: Use a biblioteca XGBoost para ajust√°-la
# Permite que voc√™ use um crit√©rio `early_stopping` com uma fenda Train/Val
X_train_preproc = preproc.fit_transform(X_train, y_train_log)
X_eval_preproc = preproc.transform(X_eval)

model_xgb.fit(
    X_train_preproc,
    y_train_log,
    verbose=False,
    eval_set=[(X_train_preproc, y_train_log), (X_eval_preproc, y_eval_log)],
    eval_metric=["rmse"],
    early_stopping_rounds=10
)

# Retrieve performance metrics
results = model_xgb.evals_result()
epochs = len(results['validation_0']["rmse"])
x_axis = range(0, epochs)

# Plot RMSLE loss
fig, ax = plt.subplots()

ax.plot(x_axis, results['validation_0']['rmse'], label='Train')
ax.plot(x_axis, results['validation_1']['rmse'], label='Val')
ax.legend(); plt.ylabel('RMSE (of log)'); plt.title('XGBoost Log Loss')

print("Best Validation Score", min(results['validation_1']['rmse']))


# üèÖ APRESENTA√á√ÉO FINAL

Descubra sua pontua√ß√£o real no teste enviando para o Kaggle!

In [None]:
X_test = pd.read_csv("data/houses_test_raw.csv")

X_test_ids = X_test['Id'] # Keep ids
X_test = X_test.drop(columns=['Id'])


In [None]:
# Adicionando colunas ao X_test de acordo com o que fizemos no X
X_test['sin_MoSold'] = np.sin(2 * np.pi * (X_test.MoSold - 1) / months_in_a_year)
X_test['cos_MoSold'] = np.cos(2 * np.pi * (X_test.MoSold - 1) / months_in_a_year)

X_test.drop(columns=['MoSold'], inplace=True)


In [None]:
pipe_stacking.fit(X, y_log)

predictions_log = pipe_stacking.predict(X_test)
predictions = np.exp(predictions_log)


In [None]:
results = pd.concat([X_test_ids, pd.Series(predictions, name="SalePrice")], axis=1)
results


In [None]:
# Exporte os resultados
results.to_csv("data/submission_final.csv", header=True, index=False)


## Agora vamos para a nossa ponderada!

1. Descreva aqui as diferen√ßas de treinamento que voc√™ encontrou entre os treinamentos de Ensemble. Passe por todos os m√©todos. 
2. Descreva as modifica√ß√µes que voc√™ porp√¥s.

Abra uma nova c√©lula para a resposta.