In [1]:
# Manipulação de Dados
import pandas as pd
import numpy as np

# Carregando Dados do PostgreSQL
from sqlalchemy import create_engine

# Visualização de Dados
import matplotlib.pyplot as plt
import seaborn as sns

# Matemática e Estatística
from math import sqrt
from scipy.stats import skew
from scipy import stats

# Pré Processamento de Dados
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler

# Avisos
import warnings
warnings.filterwarnings('ignore')

#### Carregando Dados

In [2]:
conexao = create_engine('postgresql://postgres:123456@localhost/king_county')
df = pd.read_sql_query('SELECT * FROM df_king', conexao)

#### Renomeando Colunas

In [3]:
colunas = ['id', 'data', 'preco', 'quartos', 'banheiros', 'm2_interior', 'm2_espaco_completo', 'numero_andares',
           'vista_orla', 'qualidade_vista', 'qualidade_imovel', 'qualidade_design', 'm2_interior_acima_solo',
           'm2_interior_abaixo_solo', 'ano_construcao', 'ano_ultima_renovacao', 'zipcode', 'lat', 'long',
           'm2_interior_15_vizinhos', 'm2_espaco_completo_15_vizinhos']

df.columns = colunas

#### Formatando colunas de ano

In [4]:
variaveis = ['ano_construcao', 'ano_ultima_renovacao']

for var in variaveis:
    df[var] = df[var].astype(int)

#### Removendo observações com mais de 8 quartos

In [5]:
df = df[df['quartos'] < 9]

#### Criando coluna de tamanho do imovel

In [6]:
df['tamanho_imovel_completo'] = round((df['preco'] / df['m2_espaco_completo']), 2)

#### Transformando coluna ano de construção

In [7]:
df['ano_construcao'] = np.where(df['ano_construcao'] <= 1925, 1,
                               np.where((df['ano_construcao'] > 1925) & (df['ano_construcao'] <= 1950), 2,
                                       np.where((df['ano_construcao'] > 1950) & (df['ano_construcao'] <= 1975), 3, 4)))

df = pd.get_dummies(df, columns = ['ano_construcao'])

#### Transformando coluna ano de reforma

In [8]:
df['ano_ultima_renovacao'] = np.where(df['ano_ultima_renovacao'] == 0, 0,
                                     np.where((df['ano_ultima_renovacao'] > 0) & (df['ano_ultima_renovacao'] <= 1970), 1,
                                     np.where((df['ano_ultima_renovacao'] > 1970) & (df['ano_ultima_renovacao'] <= 2000), 2, 3)))

df = pd.get_dummies(df, columns = ['ano_ultima_renovacao'])

#### Obtendo coluna com dia da semana

In [9]:
# Formatando a coluna data
df['data'] = pd.to_datetime(df['data'], format = '%Y-%m-%d')

# Obtendo o dia da semana
df['dia_da_semana'] = df['data'].dt.day_name()

#### Obtendo dummies das seguintes colunas:

Qualidade do imovel, Qualidade da vista e Dia da semana.

In [10]:
df = pd.get_dummies(df, columns = ['qualidade_imovel', 'qualidade_vista', 'dia_da_semana'])

#### Retirando colunas que não serão utilizadas

In [11]:
df = df.drop(columns = ['id', 'data', 'm2_interior_acima_solo', 'm2_interior_abaixo_solo',
                       'zipcode', 'lat', 'long', 'm2_espaco_completo_15_vizinhos'])

#### Separando em treino e teste

In [12]:
X = df.iloc[:, 1:]
y = df.iloc[:, 0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 8)

print(f'O tamanho dos dados de treino é: {len(X_train)}!')
print(f'O tamanho dos dados de teste é: {len(X_test)}!')

O tamanho dos dados de treino é: 15121!
O tamanho dos dados de teste é: 6481!


#### Aplicando normalização dos dados com Robust Scaler

In [13]:
# Selecionando colunas
colunas_norm = ['quartos', 'banheiros', 'm2_interior', 'm2_espaco_completo',
                'numero_andares', 'vista_orla', 'qualidade_design', 'm2_interior_15_vizinhos', 'tamanho_imovel_completo']

# Treinando o scaler
scaler = RobustScaler().fit(X_train[colunas_norm])

# Aplicando nos dados de treino e teste
X_train[colunas_norm] = scaler.transform(X_train[colunas_norm])
X_test[colunas_norm] = scaler.transform(X_test[colunas_norm])

#### Salvando dados em disco para a etapa de Machine Learning

In [14]:
# Treino
X_train.to_csv('X_treino.csv', index = False)
y_train.to_csv('y_treino.csv', index = False)

# Teste
X_test.to_csv('X_teste.csv', index = False)
y_test.to_csv('y_teste.csv', index = False)