**Inicialização**

In [None]:
# Importa as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
from category_encoders.target_encoder import TargetEncoder
from sklearn.model_selection import train_test_split

In [None]:
# removendo máximo numero de colunas e linhas em display
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
# importa os dados, em portugues
casas_em_ames = pd.read_csv("../outputs/Casas em Ames.csv")
casas_em_ames.head()

**Tratamento de data faltantes**

In [None]:
# removendo variaveis não descritivas Índice e Identificação da Propriedade
casas_em_ames = casas_em_ames.iloc[:,2:]
print("Formato do dataset: ",casas_em_ames.shape)
casas_em_ames.head()

# calcula a porcentagem de data faltantes do dataset
[n, m] = casas_em_ames.shape
dataset_NaN_percent = casas_em_ames.isna().sum().sum()/(n*m)
print("Percentual de data faltantes no dataset inteiro: ", 100*dataset_NaN_percent)

# calcula a percentagem de data faltantes dos atributos e filtra para as mais impuras que o dataset
NaN_percent_per_column = casas_em_ames.isna().sum()/n
NaN_percent_per_column = NaN_percent_per_column[NaN_percent_per_column > 0.0].sort_values(ascending=False)
print("\nPercentual de data faltantes por atributo: ")
print(100*NaN_percent_per_column)

In [None]:
# Esse dataset possui muitos data faltantes, contudo, os data não estão faltando aleatoriamento e podem ser atribuido significado. Como por exemplo
# os atributos a seguir, que são categoricos e podem ser interpretados como "Nenhum", 
# esses data tem tendencia de ocorrer juntos, onde em instancais onde um dado sobre a garagem está faltando, todos os data de garagem estão faltando 

casas_em_ames['Beco'] = casas_em_ames['Beco'].fillna('Nenhum')
casas_em_ames['Tipo de Revestimento de Alvenaria'] = casas_em_ames['Tipo de Revestimento de Alvenaria'].fillna('Nenhum')
casas_em_ames['Qualidade do Porão'] = casas_em_ames['Qualidade do Porão'].fillna('Nenhum')
casas_em_ames['Condição do Porão'] = casas_em_ames['Condição do Porão'].fillna('Nenhum')
casas_em_ames['Exposição do Porão'] = casas_em_ames['Exposição do Porão'].fillna('Nenhum')
casas_em_ames['Tipo de Acabamento do Porão 1'] = casas_em_ames['Tipo de Acabamento do Porão 1'].fillna('Nenhum')
casas_em_ames['Tipo de Acabamento do Porão 2'] = casas_em_ames['Tipo de Acabamento do Porão 2'].fillna('Nenhum')
casas_em_ames['Elétrica'] = casas_em_ames['Elétrica'].fillna('Nenhum')
casas_em_ames['Tipo de Garagem'] = casas_em_ames['Tipo de Garagem'].fillna('Nenhum')
casas_em_ames['Acabamento da Garagem'] = casas_em_ames['Acabamento da Garagem'].fillna('Nenhum')
casas_em_ames['Qualidade da Garagem'] = casas_em_ames['Qualidade da Garagem'].fillna('Nenhum')
casas_em_ames['Condição da Garagem'] = casas_em_ames['Condição da Garagem'].fillna('Nenhum')
casas_em_ames['Qualidade da Piscina'] = casas_em_ames['Qualidade da Piscina'].fillna('Nenhum')
casas_em_ames['Qualidade da Lareira'] = casas_em_ames['Qualidade da Lareira'].fillna('Nenhum')
casas_em_ames['Cerca'] = casas_em_ames['Cerca'].fillna('Nenhum')
casas_em_ames['Características Diversas'] = casas_em_ames['Características Diversas'].fillna('Nenhum')

# Já os data numerico a seguir podem ser interpretados como "0", e geralmente occorem juntos a um dado categorico "Nenhum" 
# como por exemplo em uma casa que não há porão, a area do porão pdoe ser interpretada como 0

casas_em_ames['Frente do Lote'] = casas_em_ames['Frente do Lote'].fillna(0)
casas_em_ames['Área de Revestimento de Alvenaria'] = casas_em_ames['Área de Revestimento de Alvenaria'].fillna(0)
casas_em_ames['Área de Acabamento do Porão 1'] = casas_em_ames['Área de Acabamento do Porão 1'].fillna(0)
casas_em_ames['Área de Acabamento do Porão 2'] = casas_em_ames['Área de Acabamento do Porão 2'].fillna(0)
casas_em_ames['Área Não Acabada do Porão'] = casas_em_ames['Área Não Acabada do Porão'].fillna(0)
casas_em_ames['Área Total do Porão'] = casas_em_ames['Área Total do Porão'].fillna(0)
casas_em_ames['Banheiros Completos no Porão'] = casas_em_ames['Banheiros Completos no Porão'].fillna(0)
casas_em_ames['Banheiros Meio no Porão'] = casas_em_ames['Banheiros Meio no Porão'].fillna(0)
casas_em_ames['Carros na Garagem'] = casas_em_ames['Carros na Garagem'].fillna(0)
casas_em_ames['Área da Garagem'] = casas_em_ames['Área da Garagem'].fillna(0)


# A unica excessão é o ano de contrução da garagem, um dado numerico, mas que melhor seria servido sendo interpretado como não há
# a solução para esse dilema foi, quando não há garagem, o ano de construção da garagem será o ano de construção da casa.
casas_em_ames['Ano de Construção da Garagem'] = casas_em_ames['Ano de Construção da Garagem'].fillna(casas_em_ames["Ano de Construção"])

casas_em_ames.head()

**Target Encoding**

É uma técnica de pré-processamento em que categorias de uma variável categórica são substituídas pela média do target (variável dependente) associada a cada categoria.

In [None]:
# aplicando o target Encoder de uma biblioteca já pronta.
target_encoder = TargetEncoder()
X_uncoded = casas_em_ames.iloc[:,0:-1]
y = casas_em_ames.iloc[:,-1]
X = target_encoder.fit_transform(X_uncoded, y)
X.head()

**Padronização dos dados**

In [None]:
# Padronização Z-score
for col in X.columns:
    X[col] = (X[col] - X[col].mean()) / X[col].std()
X.head()

**Remoção de outliers**

In [None]:
# Faz um grande histograma com baldes de tamanho 1, contendo a frequencia relativa de cada atributo
# Esse histograma ira fornecer informações sobre como estão distribuidos os dados

cols = 7
rows = np.ceil(len(X.columns) / cols).astype(int)

fig, axs = plt.subplots(rows, cols, figsize=(82.7, 116.9))
axs = axs.flatten()

for i, col in enumerate(X.columns):
    x = range(int(X[col].min()-1), int(X[col].max()) + 2)
    axs[i].set_yscale('log')
    axs[i].hist(X[col], bins=x, edgecolor='black')
    axs[i].set_xlabel(col, fontsize=50)
    axs[i].set_ylabel('Frequência', fontsize=30)
    axs[i].set_xticks(x)
    axs[i].tick_params(axis='both', which='major', labelsize=25)
    axs[i].grid(True)

plt.subplots_adjust(left=0.02, right=0.98, top=0.98, bottom=0.02, wspace=0.2, hspace=0.3)

plt.savefig(f'../outputs/histograma.svg')
plt.show()

In [None]:
# Faz a limpeza dos outliers, removendo do dataset todos as amostras que tem valores maiores do que 7 em alguma atributo
# também limpa as colunas que perderam toda a diversidade

threshold = 7
not_outliers = ~(np.abs(X) > threshold).any(axis = 1)
X_clean = X[not_outliers]
y_clean = y[not_outliers]
X_clean = X_clean.loc[:, X_clean.nunique() > 1]
print(f"{len(X)-len(X_clean)} outliers removidos: {X[~not_outliers].index.values}")
print(f"{len(X.columns)-len(X_clean.columns)} atributos removidos: {set(X.columns)-set(X_clean.columns)}")

**Seleção de Atributos**

O metodo de seleçao de atributos escolhido foi o seleção baseada em correlação, onde o dataset é ordenado de acordo com qual atributo tem maior correlação com o alvo, e apenas os N valores mais significates serão selecionados para dado treinamento.

In [None]:
clean_data = pd.concat([X_clean, y_clean], axis = 1)
corr_matrix = clean_data.corr(method = "pearson")
corr_target = corr_matrix['Preço de Venda'].abs().sort_values(ascending=False)

print("Correlação das variaveis selecionadas com o alvo: ")
print(pd.Series(corr_target, corr_target.index))

**Separação dos dados de treino e teste**

In [None]:
# reorganiza os dados, com o target sendo o primeiro atributo, seguido dos outros atributos em ordem de qual correlacionado 
# ele está com o target, em seguida as linhas são ordenadas na ordem de maior preço para menor preço
sorted_data = clean_data[corr_target.index].sort_values('Preço de Venda', ignore_index = True)
sorted_data.head()

In [None]:
# realizando separação de treino e teste, na proporção 80%/20%, com dados sendo embralhados
X_sorted = sorted_data.iloc[:,1:]
y_sorted = sorted_data.iloc[:,0]
X_train, X_test, y_train, y_test = train_test_split(X_sorted, y_sorted, test_size=0.20, random_state=1, shuffle = True)

In [None]:
# salvando dados de treino
X_train.to_csv('../outputs/X_train.csv', index = False)
X_train.head()

In [None]:
# salvando dados de teste
X_test.to_csv('../outputs/X_test.csv', index = False)
X_test.head()

In [None]:
# salvando alvos de treino
y_train.to_csv('../outputs/y_train.csv', index = False)
y_train.head()

In [None]:
# salvando alvos de teste
y_test.to_csv('../outputs/y_test.csv', index = False)
y_test.head()