<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introdução" data-toc-modified-id="Introdução-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introdução</a></span></li><li><span><a href="#Lendo-os-Dados" data-toc-modified-id="Lendo-os-Dados-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Lendo os Dados</a></span></li><li><span><a href="#Explorando-os-Dados" data-toc-modified-id="Explorando-os-Dados-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Explorando os Dados</a></span><ul class="toc-item"><li><span><a href="#Pré-Análise" data-toc-modified-id="Pré-Análise-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Pré-Análise</a></span></li><li><span><a href="#Dados-Nulos" data-toc-modified-id="Dados-Nulos-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Dados Nulos</a></span><ul class="toc-item"><li><span><a href="#Atributos-Categóricos" data-toc-modified-id="Atributos-Categóricos-3.2.1"><span class="toc-item-num">3.2.1&nbsp;&nbsp;</span>Atributos Categóricos</a></span><ul class="toc-item"><li><span><a href="#Filtrando-Atributos" data-toc-modified-id="Filtrando-Atributos-3.2.1.1"><span class="toc-item-num">3.2.1.1&nbsp;&nbsp;</span>Filtrando Atributos</a></span></li><li><span><a href="#Preenchendo-Dados-Nulos" data-toc-modified-id="Preenchendo-Dados-Nulos-3.2.1.2"><span class="toc-item-num">3.2.1.2&nbsp;&nbsp;</span>Preenchendo Dados Nulos</a></span></li></ul></li><li><span><a href="#Atributos-Numéricos" data-toc-modified-id="Atributos-Numéricos-3.2.2"><span class="toc-item-num">3.2.2&nbsp;&nbsp;</span>Atributos Numéricos</a></span></li></ul></li></ul></li></ul></div>

Este notebook tem como objetivo alocar o desenvolvimento prático e teórico da competição do [Kaggle](https://www.kaggle.com/) de nível iniciante: [Housing Prices - Advanced Regression Techniques](https://www.kaggle.com/c/house-prices-advanced-regression-techniques). Baseado no excelente kernel [Comprehensive data exploration with Python](https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python), de [Pedro Marcelino](https://www.kaggle.com/pmarcelino) em fevereiro de 2017, a intenção desta primeira abordagem é analisar o conjunto de dados fornecido e averiguar as relações e os insights retirados através de análises estatísticas.

Adicionalmente, outros kernels postados no próprio Kaggle serão utilizados como base para solução das dúvidas que surgirem durante o desenvolvimento deste projeto. De cara, é possível citar o kernel [Handling Missing Values](https://www.kaggle.com/dansbecker/handling-missing-values) do instrutor do Kaggle DanB e também o excelente kernel [Regularized Linear Models](https://www.kaggle.com/apapiu/regularized-linear-models) de Alexandro Papiu. Mãos à obra!

## Introdução

Para facilitar o acompanhamento do projeto, o desenvolvimento será dividido em:

* **1. Entendimento do problema:** Veremos a seguir que o conjunto de dados traz consigo 80 variáveis divididas entre dados numéricos e categóricos, cada qual descrevendo um atributo específico da moradia (tendo como target, o preço de venda _'SalesPrice'_). Pedro Marcelino, em seu kernel, propôs uma metodologia interessante para o entendimento do problema: para entender melhor os atributos, nada mais eficiente de que uma análise filosófica caso a caso, verificando as descrições das features, categorizando-as de acordo com funcionalidades presentes no problema de negócio e, por fim, pontuando uma análise subjetiva sobre a importância de cada uma das features para predição do target de preço. Este pacote de análises poderia ser realizado no Excel, por exemplo. 

* **2. Estudo Univariável:** Após esse mergulho no conjunto de dados proporcionado, a ideia é analisar separadamente nossa variável target _SalesPrice_, retirando insights relacionados às conclusões obtidas no passo **1** e verificando se realmente fazem sentido.

* **3. Estudo Multivariável:** Objetivando o completo entendimento dos dados, será realizado uma análise contemplando todas as variáveis (dependente e independentes), averiguando correlações e dados estatísticos.

* **4. Suposições:** Iremos verificar numericamente se as conclusões obtidas fazem sentido para o problema de negócio proposto.

## Lendo os Dados

In [1]:
# Importando bibliotecas
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# Lendo dados
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# Verificando dimensões
print(f'Dimensões dos dados de treino: {train.shape}')
print(f'Dimensões dos dados de teste: {test.shape}')

Dimensões dos dados de treino: (1460, 81)
Dimensões dos dados de teste: (1459, 80)


In [2]:
# Verificando cabeçalho
train.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [3]:
# Verificando colunas
train.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

Pela análise do cabeçalho do conjunto de dados com o método `head()` já foi possível ter uma noção sobre dados nulos, dados categóricos, dados numéricos e qualquer outra intuição inicial obtida com essa observação. Futuramente, iremos avaliar com mais calma cada um desses subconjuntos mencionados, mas antes, é preciso expor as análises individuais propostas para cada um dos atributos contidos no conjunto.

## Explorando os Dados

### Pré-Análise

Vejamos o procedimento adotado e alguns dos insights retirados.

**(A)** Dicionário de Dados
<img src='images\prep01_dicionario.png'>

**(B)** Validações
<img src='images\prep02_validacoes.png'>

**(C)** Tabelas
<img src='images\prep03_tabelas.png'>

**(D)** Painel de Análise
<img src='images\prep04_painel.png'>

In [4]:
# Lendo csv com dados sobre os atributos levantados nessa pré-análise
pre_analise = pd.read_csv('pre_analise_utf.txt', sep=';', index_col='nome_variavel')
pre_analise.head()

Unnamed: 0_level_0,descricao,tipo,segmento,expect
nome_variavel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MSSubClass,Identifica o tipo de moradia da residência,Categórico,Building (Construção),Média
MSZoning,Classifica o imóvel por zona,Categórico,Location (Localização),Alta
LotFrontage,Dimensão do perímetro frontal da casa,Numérico,Space (Espaço),Alta
LotArea,Área do loteamento,Numérico,Space (Espaço),Alta
Street,Característica da rua que dá acesso a moradia,Categórico,Building (Construção),Média


Tendo estes dados em mãos, as análises futuras se tornam extremamente mais fáceis, visto que, neste momento, é possível ter como referência um local de consulta que, mesmo apresentando certo viés subjetivo, contempla observações sobre o problema do ponto de vista do cliente/usuário do modelo. Um dos pontos principais dessa análise está relacionado a categorização de features com possível _Alta_ importância pro algoritmo (foram designadas 20 no total) e precisamos saber se isso realmente faz sentido.

### Dados Nulos

Dando início às análises via código, vamos estudar um pouco sobre os atributos nulos contidos neste conjunto de dados.

In [5]:
# Quantidade de dados nulos
train_total_null = train.isnull().sum().sum()
train_qtd_attr_null = train.isnull().any().sum()
test_total_null = test.isnull().sum().sum()
test_qtd_attr_null = test.isnull().any().sum()

# Comunicando
print(f'Atributos com dados nulos (treino): {train_qtd_attr_null}')
print(f'Total de entradas nulas (treino): {train_total_null}')
print(f'\nAtributos com dados nulos (teste): {test_qtd_attr_null}')
print(f'Total de entradas nulas (teste): {test_total_null}')

Atributos com dados nulos (treino): 19
Total de entradas nulas (treino): 6965

Atributos com dados nulos (teste): 33
Total de entradas nulas (teste): 7000


Com relação a quantidade, temos praticamente o mesmo número de entradas nulas para treino e para teste. Quanto ao total de atirbutos com entradas nulas, o conjunto de teste apresenta um número significativamente maior. Vejamos detalhes sobre tais atributos.

In [6]:
# Analisando atributos nulos nos dados de treino
null_attr_train = [attr for attr, null in train.isnull().any().items() if null]
print(null_attr_train, end=',')
print(f'\n\nQuantidade: {len(null_attr_train)}')

['LotFrontage', 'Alley', 'MasVnrType', 'MasVnrArea', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2', 'Electrical', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageQual', 'GarageCond', 'PoolQC', 'Fence', 'MiscFeature'],

Quantidade: 19


In [7]:
# Analisando atributos nulos nos dados de teste
null_attr_test = [attr for attr, null in test.isnull().any().items() if null]
print(null_attr_test, end=',')
print(f'\n\nQuantidade: {len(null_attr_test)}')

['MSZoning', 'LotFrontage', 'Alley', 'Utilities', 'Exterior1st', 'Exterior2nd', 'MasVnrType', 'MasVnrArea', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1', 'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath', 'KitchenQual', 'Functional', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond', 'PoolQC', 'Fence', 'MiscFeature', 'SaleType'],

Quantidade: 33


In [8]:
# Detalhes da pré-análise sobre dados nulos
qtd_null_train = [qtd for qtd in train.isnull().sum().values if qtd > 0]
analise_null = pre_analise.loc[null_attr_train, :]
analise_null['qtd_null'] = qtd_null_train
analise_null.sort_values(by='qtd_null', ascending=False)

Unnamed: 0_level_0,descricao,tipo,segmento,expect,qtd_null
nome_variavel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
PoolQC,Qualidade da piscina,Categórico,Building (Construção),Média,1453
MiscFeature,Algumas features não inclusas nas demais categ...,Categórico,Building (Construção),Baixa,1406
Alley,Característica da viela que dá acesso a moradia,Categórico,Building (Construção),Baixa,1369
Fence,Qualidade do cercado presente na moradia,Categórico,Building (Construção),Baixa,1179
FireplaceQu,Qualidade das lareiras,Categórico,Building (Construção),Baixa,690
LotFrontage,Dimensão do perímetro frontal da casa,Numérico,Space (Espaço),Alta,259
GarageType,Tipo de garagem da moradia,Categórico,Space (Espaço),Alta,81
GarageYrBlt,Ano de construção da garagem,Numérico,Building (Construção),Baixa,81
GarageFinish,Acabamento interno da garagem,Categórico,Building (Construção),Baixa,81
GarageQual,Qualidade da garagem,Categórico,Building (Construção),Baixa,81


**Diagnóstico:**

Temos quantidades diferentes de entradas nulas nos dois conjuntos de dados disponíveis (treino e teste). A pré-análise irá auxiliar na decisão sobre o tratamento destes dados nulos de acordo com características como _quantidade_, _expectativa (influência)_ e _tipo primitivo_.

Neste momento, antes de avaliar as possíveis decisões com maior profundidade, vamos analisar um ponto importante: os atributos _Categóricos_.

#### Atributos Categóricos

In [9]:
# Indexando atributos categóricos
cat_train_attribs = [attr for attr, dtype in train.dtypes.items() if dtype == 'object']
cat_test_attribs = [attr for attr, dtype in test.dtypes.items() if dtype == 'object']

# Verificando
cat_train_attribs == cat_test_attribs

True

Vamos somar o total de quantidade de entradas dos dois conjuntos

In [10]:
len(train[cat_train_attribs[0]].value_counts())

5

In [11]:
# Aplicando somatório
total_train_cat_entries = 0
for attr in cat_train_attribs:
    total_train_cat_entries += len(train[attr].value_counts())
    
print(f'Total de entradas categóricas nos dados de treino: {total_train_cat_entries}')

Total de entradas categóricas nos dados de treino: 252


In [12]:
# Aplicando somatório
total_test_cat_entries = 0
for attr in cat_test_attribs:
    total_test_cat_entries += len(test[attr].value_counts())
    
print(f'Total de entradas categóricas nos dados de treino: {total_test_cat_entries}')

Total de entradas categóricas nos dados de treino: 234


Eis um grande problema! Pensando já nas tratativas dos atributos categóricos para o treinamento do modelo, a aplicação da classe `One Hot Encoder` do scikit-learn transforma uma feature categórica em `n` novas features de acordo com a quantidade `n` de entradas. Vejamos essa quantidade `n` por atributo.

In [13]:
# Criando análise com dados de treino e teste
cat_entries_info = pd.DataFrame({})
cat_train_list = []
train_null = []
cat_test_list = []
test_null = []
for attr in cat_train_attribs:
    cat_train_list.append(len(train[attr].value_counts()))
    cat_test_list.append(len(test[attr].value_counts()))
    train_null.append(train[attr].isnull().sum())
    test_null.append(test[attr].isnull().sum())

# Adicionando dados e configurando dataframe
cat_entries_info['qtd_train_entries'] = cat_train_list
cat_entries_info['qtd_null_train'] = train_null
cat_entries_info['qtd_test_entries'] = cat_test_list
cat_entries_info['qtd_null_test'] = test_null
cat_entries_info['diff'] = cat_entries_info['qtd_train_entries'] - \
cat_entries_info['qtd_test_entries']
cat_entries_info.index = cat_train_attribs

# Verificando
cat_entries_info.head()

Unnamed: 0,qtd_train_entries,qtd_null_train,qtd_test_entries,qtd_null_test,diff
MSZoning,5,0,5,4,0
Street,2,0,2,0,0
Alley,2,1369,2,1352,0
LotShape,4,0,4,0,0
LandContour,4,0,4,0,0


In [14]:
# Adicionando influência da pré análise
expect_cat = pre_analise.loc[cat_entries_info.index, ['expect']].values
cat_entries_info['expect'] = expect_cat

# Visualizando
cat_entries_info.sort_values(by='qtd_null_train', ascending=False, inplace=True)
cat_entries_info

Unnamed: 0,qtd_train_entries,qtd_null_train,qtd_test_entries,qtd_null_test,diff,expect
PoolQC,3,1453,2,1456,1,Média
MiscFeature,4,1406,3,1408,1,Baixa
Alley,2,1369,2,1352,0,Baixa
Fence,4,1179,4,1169,0,Baixa
FireplaceQu,5,690,5,730,0,Baixa
GarageType,6,81,6,76,0,Alta
GarageCond,5,81,5,78,0,Baixa
GarageQual,5,81,4,78,1,Baixa
GarageFinish,3,81,3,78,0,Baixa
BsmtFinType2,6,38,6,42,0,Baixa


Temos alguns problemas:

* Atributos com grandes quantidades de dados nulos;
* Atributos com diferenças na quantidade de entradas entre os conjuntos de treino e teste (diff > 0);

**Solução 1:** Deletar todos os atributos categóricos que não tenham _alta_ influência no target e com diferença de entradas entre os dados de treino e teste, evitando problemas com o _one hot encoder_. O preenchimento dos dados nulos dos atributos restantes (se existirem) será dado pelas entradas mais comuns.;

**Solução 2:** Deletar atributos categóricos com presença de dados nulos em uma quantidade acima de um threshold a ser determinado, independente da influência no target. O preenchimento dos dados nulos seria dado pela entrada mais comum;

Seguindo a primeira solução, ficaríamos apenas com os atributos _ExterQual_, _ExterCond_, _MSZoning_, _KitchenQual_, _CentralAir_, _HeatingQC_ e _GarageType_.

##### Filtrando Atributos

In [44]:
# Atributos categóricos mantidos
keep_cat_df = cat_entries_info.query('expect == "Alta" & diff == 0')
drop_cat_df = cat_entries_info.query('expect != "Alta"')
keep_cat_df

Unnamed: 0,qtd_train_entries,qtd_null_train,qtd_test_entries,qtd_null_test,diff,expect
GarageType,6,81,6,76,0,Alta
KitchenQual,4,0,4,1,0,Alta
CentralAir,2,0,2,0,0,Alta
HeatingQC,5,0,5,0,0,Alta
MSZoning,5,0,5,4,0,Alta
Foundation,6,0,6,0,0,Alta
ExterQual,4,0,4,0,0,Alta
ExterCond,5,0,5,0,0,Alta


**Solução 1.1:** Preencher os dados nulos com as entradas mais comuns.

**Solução 1.2:** Deletar instâncias com dados nulos.

In [47]:
# Filtrando colunas
drop_cat = drop_cat_df.index
train_cat_attr_filtered = train.drop(drop_cat, axis=1)

# Levantando atributos categóricos
definitive_cat_attr = [attr for attr, dtype in train_cat_attr_filtered.dtypes.items() if dtype == 'object']

# Verificando dimensões
print(f'Dataset original: {train.shape}')
print(f'Dataset filtrado: {train_cat_attr_filtered.shape}')
print(f'Total de atributos categóricos excluídos: {len(drop_cat)}')

print(f'Valores batem? {len(drop_cat) == train.shape[1] - train_cat_attr_filtered.shape[1]}')

Dataset original: (1460, 81)
Dataset filtrado: (1460, 48)
Total de atributos categóricos excluídos: 33
Valores batem? True


In [48]:
# Criando função para selecionar atributos numéricos e categóricos (facilitando implementação)
def filter_attribs(X, cat=True):
    """
    seleciona os atributos de acordo com seu tipo primitivo e retorna uma lista como resultado
    """
    if cat:
        attribs = [attr for attr, dtype in X.dtypes.items() if dtype == 'object']
    else:
        attribs = [attr for attr, dtype in X.dtypes.items() if dtype != 'object']
    
    return attribs

In [49]:
# Testando função
new_cat_attribs = filter_attribs(train_cat_attr_filtered)

# Verificando se batem
print(f'Colunas categóricas (sem função): {len(definitive_cat_attr)}')
print(f'Colunas categóricas (após função): {len(new_cat_attribs)}')
print(f'Números batem? {len(definitive_cat_attr) == len(new_cat_attribs)}')

Colunas categóricas (sem função): 10
Colunas categóricas (após função): 10
Números batem? True


##### Preenchendo Dados Nulos

Como informado anteriormente, o preenchimento dos dados nulos será dado pelas entradas mais comuns dentro dos atributos categóricos.

In [50]:
# Filtrando atributos que possuem dados nulos
X = train_cat_attr_filtered.copy()
X_cat = X.loc[:, definitive_cat_attr]
X_cat.isnull().any()[X_cat.isnull().any().values].index

Index(['GarageType'], dtype='object')

De fato, depois da filtragem dos atributos categóricos, temos apenas `GarageType` contendo dados nulos. Vamos analisa-lo melhor.

In [52]:
# Vamos analisar se é viável manter GarageType dados a quantidade de nulos
X['GarageType'].value_counts()

Attchd     870
Detchd     387
BuiltIn     88
Basment     19
CarPort      9
2Types       6
Name: GarageType, dtype: int64

In [53]:
# Retornando a entrada mais comum
most_common = X['GarageType'].value_counts().index[0]
most_common

'Attchd'

In [63]:
# Preenchendo
X['GarageType'] = X[['GarageType']].fillna(value=most_common)

In [64]:
# Verificando se ainda existem dados nulos
X_cat = X.loc[:, definitive_cat_attr]
X_cat.isnull().any()[X_cat.isnull().any().values].index

Index([], dtype='object')

In [112]:
# Criando classe para ser implementada futuramente em um pipeline
from sklearn.base import BaseEstimator, TransformerMixin

class fillCategoricalNullValues(BaseEstimator, TransformerMixin):
    
    def fit(self, X, y=None):
        return self
    
    def transform(self, X, y=None):
        # Retornando colunas com dados nulos
        null_cat_attr = list(X.isnull().any()[X.isnull().any().values].index)
        
        # Retornando entradas mais comuns de cada um deles
        fill_data = {}
        for attr in null_cat_attr:
            most_common = X[attr].value_counts().index[0]
            fill_data[attr] = most_common
        
        # Preenchendo dados nulos
        new_X = X.fillna(value=fill_data)
            
        return new_X

In [113]:
# Testando
filler = fillCategoricalNullValues()
X_cat = train_cat_attr_filtered.loc[:, definitive_cat_attr]
X_filled = filler.transform(X_cat)

# Verificando
X_filled['GarageType'].isnull().any()

False

In [114]:
# Analisando como foi feito o preenchimento
X_cat['GarageType'].value_counts()

Attchd     870
Detchd     387
BuiltIn     88
Basment     19
CarPort      9
2Types       6
Name: GarageType, dtype: int64

In [120]:
# Quantidade que deveria ser preenchida na entrada "Attchd"
garage_null = X_cat["GarageType"].isnull().sum()
garage_most_common = X_cat["GarageType"].value_counts().values[0]
print(f'Quantidade de nulos em GarageType: {garage_null}')
print(f'Quantidade inicial da entrada mais comum: {garage_most_common}')
print(f'Quantidade esperada final no atributo mais comum: {garage_most_common + garage_null}')

Quantidade de nulos em GarageType: 81
Quantidade inicial da entrada mais comum: 870
Quantidade esperada final no atributo mais comum: 951


In [121]:
# Tirando prova
X_filled['GarageType'].value_counts()

Attchd     951
Detchd     387
BuiltIn     88
Basment     19
CarPort      9
2Types       6
Name: GarageType, dtype: int64

Perfeito! Definimos nosso pipeline para filtrar e tratar dados nulos em atributos categóricos. Vejamos agora os procedimentos que serão realizados para os atributos numéricos.

#### Atributos Numéricos

In [124]:
# Filtrando atributos numéricos com a nova função criada
num_attribs = filter_attribs(train, cat=False)
cat_attribs = filter_attribs(train)
print(f'Quantidade de atributos numéricos (original): {len(num_attribs)}')
print(f'Quantidade de atributos categóricos (original): {len(cat_attribs)}')
print(f'Total sem alterações já realizadas: {train.shape[1]}')

Quantidade de atributos numéricos (original): 38
Quantidade de atributos categóricos (original): 43
Total sem alterações já realizadas: 81


In [125]:
# Verificando alguns
num_attribs[:5]

['Id', 'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual']

Com os atributos numéricos devidamente indexados, vamos agora visualizar a correlação com o target `SalesPrice`. Para isso, vamos avaliar o índice de correlação por código e compará-lo a nossa análise inicial.

In [132]:
# Indexando dataframe
target = train['SalePrice']
train.drop(['SalePrice'], axis=1, inplace=True)
X_num = train.loc[:, num_attribs]

TODO: 
    
    Verificar correlações e plotagens com targe SalePrice.
    Utilizar kernels abaixo como inspiração:
    
https://www.kaggle.com/dejavu23/house-prices-eda-to-ml-beginner

https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python