In [23]:
import findspark

import pandas as pd
from sqlalchemy import create_engine

from pyspark.sql import SparkSession
from pyspark.sql.functions import round as PYRound
from pyspark.sql.functions import udf, col, expr, when, date_format, count
from pyspark.sql.types import IntegerType

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, RobustScaler
from pyspark.ml.linalg import Vectors, VectorUDT
from pyspark.ml.regression import LinearRegression, RandomForestRegressor, GBTRegressor
from pyspark.ml.evaluation import RegressionEvaluator, Evaluator
from pyspark.ml.functions import vector_to_array

import warnings
warnings.filterwarnings('ignore')

In [2]:
from Modulos.FUNCAO_Obtendo_Dummies import obtendo_dummies
from Modulos.FUNCAO_Aplicando_Robust_Scaler import aplicando_robust_scaler
from Modulos.FUNCAO_Inserindo_Assembler import vetor_assembler
from Modulos.FUNCAO_Avaliador_Modelos import avaliador_modelos

https://sparkbyexamples.com/

#### Iniciando sessão spark

In [3]:
findspark.init()
spark = SparkSession.builder.master('local').config('spark.driver.memory', '10g').appName('Projeto').getOrCreate()

#### Carregando dados do PostgreSQL

In [4]:
conexao = create_engine('postgresql://postgres:123456@localhost/king_county')
df_pandas = pd.read_sql_query('SELECT * FROM df_king', conexao)

#### Criando um Spark DataFrame

In [5]:
# Transformando dataframe pandas em dataframe pyspark
df_spark = spark.createDataFrame(df_pandas)

# Avaliando os tipos de cada DataFrame
print(type(df_pandas))
print(type(df_spark))

<class 'pandas.core.frame.DataFrame'>
<class 'pyspark.sql.dataframe.DataFrame'>


#### Renomeando colunas

In [6]:
novas_colunas =  ['id', 'data', 'preco', 'quartos', 'banheiros', 'm2_interior', 'm2_espaco_completo', 'numero_andares',
                 'vista_orla', 'qualidade_vista', 'qualidade_imovel', 'qualidade_design', 'm2_interior_acima_solo',
                 'm2_interior_abaixo_solo', 'ano_construcao', 'ano_ultima_renovacao', 'zipcode', 'lat', 'long',
                 'm2_interior_15_vizinhos', 'm2_espaco_completo_15_vizinhos']

df_spark = df_spark.toDF(*novas_colunas)

#### Formatando colunas de ano

In [7]:
# Alterando o tipo dos dados das colunas
df_spark = df_spark.withColumn('ano_construcao', col('ano_construcao').cast('Integer')) \
                               .withColumn('ano_ultima_renovacao', col('ano_ultima_renovacao').cast('Integer'))

# Olhando o Schema após as alterações
df_spark.printSchema()

root
 |-- id: string (nullable = true)
 |-- data: date (nullable = true)
 |-- preco: double (nullable = true)
 |-- quartos: double (nullable = true)
 |-- banheiros: double (nullable = true)
 |-- m2_interior: double (nullable = true)
 |-- m2_espaco_completo: double (nullable = true)
 |-- numero_andares: double (nullable = true)
 |-- vista_orla: double (nullable = true)
 |-- qualidade_vista: double (nullable = true)
 |-- qualidade_imovel: double (nullable = true)
 |-- qualidade_design: double (nullable = true)
 |-- m2_interior_acima_solo: double (nullable = true)
 |-- m2_interior_abaixo_solo: double (nullable = true)
 |-- ano_construcao: integer (nullable = true)
 |-- ano_ultima_renovacao: integer (nullable = true)
 |-- zipcode: double (nullable = true)
 |-- lat: double (nullable = true)
 |-- long: double (nullable = true)
 |-- m2_interior_15_vizinhos: double (nullable = true)
 |-- m2_espaco_completo_15_vizinhos: double (nullable = true)



#### Removendo observações com mais de 8 quartos

In [8]:
# Verificando quantidade de linhas e colunas antes do filtro de observações
print('Antes da realizar a filtragem!')
print(f'A quantidade de linhas no DataFrame é de: {df_spark.count()}')
print(f'A quantidade de colunas no DataFrame é de: {len(df_spark.columns)}')

# Aplicando o filtro de observações
df_spark = df_spark.where(df_spark.quartos < 9)
print('-' * 50)

# Verificando quantidade de linhas e colunas após o filtro de observações
print('Após realizar a filtragem!')
print(f'A quantidade de linhas no DataFrame é de: {df_spark.count()}')
print(f'A quantidade de colunas no DataFrame é de: {len(df_spark.columns)}')

Antes da realizar a filtragem!
A quantidade de linhas no DataFrame é de: 21613
A quantidade de colunas no DataFrame é de: 21
--------------------------------------------------
Após realizar a filtragem!
A quantidade de linhas no DataFrame é de: 21602
A quantidade de colunas no DataFrame é de: 21


#### Criando a coluna de tamanho do imóvel

In [9]:
# Criando coluna
df_spark = df_spark.withColumn('tamanho_imovel_completo', PYRound(expr('preco / m2_espaco_completo'), 2))

# Visualizando o resultado
df_spark.select('tamanho_imovel_completo').show(4)

+-----------------------+
|tamanho_imovel_completo|
+-----------------------+
|                  39.27|
|                  74.29|
|                   18.0|
|                  120.8|
+-----------------------+
only showing top 4 rows



#### Transformando a coluna ano de construção

In [10]:
# Aplicando as transformações na coluna
df_spark = df_spark.withColumn('ano_construcao', when(col('ano_construcao') <= 1925, 1)
                               .when((col('ano_construcao') > 1925) & (col('ano_construcao') <= 1950), 2)
                               .when((col('ano_construcao') > 1950) & (col('ano_construcao') <= 1975), 3)
                               .otherwise(4))

# Observando as alterações na coluna
df_spark.select('ano_construcao').show(4)

+--------------+
|ano_construcao|
+--------------+
|             3|
|             3|
|             2|
|             3|
+--------------+
only showing top 4 rows



In [11]:
# Aplicando a função para obter as dumimes da coluna ano_construcao
df_spark = obtendo_dummies(df_spark, 'ano_construcao')

# Verificando o resultado
df_spark.columns[-10:]

['zipcode',
 'lat',
 'long',
 'm2_interior_15_vizinhos',
 'm2_espaco_completo_15_vizinhos',
 'tamanho_imovel_completo',
 'ano_construcao_1',
 'ano_construcao_2',
 'ano_construcao_3',
 'ano_construcao_4']

#### Transformando coluna ano da última reforma

In [12]:
# Aplicando as alterações na coluna ano_ultima_renovacao
df_spark = df_spark.withColumn('ano_ultima_renovacao', when(col('ano_ultima_renovacao') <= 0, 0)
                               .when((col('ano_ultima_renovacao') > 0) & (col('ano_ultima_renovacao') <= 1970), 1)
                               .when((col('ano_ultima_renovacao') > 1970) & (col('ano_ultima_renovacao') <= 2000), 2)
                               .otherwise(3))

# Verificando as alterações
df_spark.select('ano_ultima_renovacao').show(4)

+--------------------+
|ano_ultima_renovacao|
+--------------------+
|                   0|
|                   2|
|                   0|
|                   0|
+--------------------+
only showing top 4 rows



In [13]:
# Aplicando a função para obter as dumimes da coluna ano_construcao
df_spark = obtendo_dummies(df_spark, 'ano_ultima_renovacao')

# Verificando o resultado
df_spark.columns[-10:]

['m2_espaco_completo_15_vizinhos',
 'tamanho_imovel_completo',
 'ano_construcao_1',
 'ano_construcao_2',
 'ano_construcao_3',
 'ano_construcao_4',
 'ano_ultima_renovacao_0',
 'ano_ultima_renovacao_1',
 'ano_ultima_renovacao_2',
 'ano_ultima_renovacao_3']

#### Obtendo coluna com dia da semana

In [14]:
# Verificando o formato da coluna a disposição
df_spark.select('data').show(2)

# Aplicando alterações
df_spark = df_spark.withColumn('dia_da_semana', date_format(col('data'), 'EEEE'))
print('-' * 50)

# Verificando o resultado
print('Resultado após as transformações!')
df_spark.select(['data', 'dia_da_semana']).show(6)

+----------+
|      data|
+----------+
|2014-10-13|
|2014-12-09|
+----------+
only showing top 2 rows

--------------------------------------------------
Resultado após as transformações!
+----------+-------------+
|      data|dia_da_semana|
+----------+-------------+
|2014-10-13|       Monday|
|2014-12-09|      Tuesday|
|2015-02-25|    Wednesday|
|2014-12-09|      Tuesday|
|2015-02-18|    Wednesday|
|2014-05-12|       Monday|
+----------+-------------+
only showing top 6 rows



#### Obtendo dummies das seguintes colunas

In [15]:
# Selecionando as colunas que queremos obter as dummies
colunas = ['qualidade_imovel', 'qualidade_vista', 'dia_da_semana']

# Aplicando a função
for item in colunas:
    df_spark = obtendo_dummies(df_spark, item)
    
# Verificando o resultado    
df_spark.columns[-20:]    

['ano_ultima_renovacao_1',
 'ano_ultima_renovacao_2',
 'ano_ultima_renovacao_3',
 'qualidade_imovel_1_0',
 'qualidade_imovel_2_0',
 'qualidade_imovel_3_0',
 'qualidade_imovel_4_0',
 'qualidade_imovel_5_0',
 'qualidade_vista_0_0',
 'qualidade_vista_1_0',
 'qualidade_vista_2_0',
 'qualidade_vista_3_0',
 'qualidade_vista_4_0',
 'dia_da_semana_Friday',
 'dia_da_semana_Monday',
 'dia_da_semana_Saturday',
 'dia_da_semana_Sunday',
 'dia_da_semana_Thursday',
 'dia_da_semana_Tuesday',
 'dia_da_semana_Wednesday']

#### Removendo colunas que não serão utilizadas na etapa de ML

In [16]:
df_spark = df_spark.drop('id', 'data', 'm2_interior_acima_solo', 'm2_interior_abaixo_solo',
                       'zipcode', 'lat', 'long', 'm2_espaco_completo_15_vizinhos')

#### Separando em treino e teste

In [17]:
train_df, test_df = df_spark.randomSplit([0.7, 0.3], seed = 8)

#### Verificando o tamanho dos dados de treino e teste

In [18]:
print(f'O tamanho dos dados de treino é: {train_df.count()}!')
print(f'O tamanho dos dados de teste é: {test_df.count()}!')

O tamanho dos dados de treino é: 15106!
O tamanho dos dados de teste é: 6496!


#### Aplicando normalização dos dados com RobustScaler

In [19]:
# Selecionando as colunas que serão normalizadas com RobustScaler
colunas_norm = ['quartos', 'banheiros', 'm2_interior', 'm2_espaco_completo',
                'numero_andares', 'vista_orla', 'qualidade_design', 'm2_interior_15_vizinhos', 'tamanho_imovel_completo']

# Aplicando a função nos dados de treino e teste
train_df = aplicando_robust_scaler(train_df, colunas_norm)
test_df = aplicando_robust_scaler(test_df, colunas_norm)

## Machine Learning

#### Transformando as colunas e o vetor assembler em um só vetor

In [20]:
# Transformando as colunas em um vetor assembler para treinar os modelos
train_df = vetor_assembler(train_df)
test_df = vetor_assembler(test_df)

#### Regressão Linear

In [21]:
%%time
# Instanciando o objeto do algoritmo
lr = LinearRegression(fitIntercept = True, featuresCol = 'features', labelCol = 'preco')

# Treinando o modelo regressão linear
avaliador_modelos(lr, train_df, test_df, 'Regressão Linear')

Wall time: 11.1 s


Unnamed: 0,Algoritmo,RMSE,R2
0,Regressão Linear,211951.3545,0.6972


#### Random Forest

In [22]:
%%time
# Instanciando o objeto do algoritmo
rf = RandomForestRegressor(featuresCol = 'features', labelCol = 'preco',
                           maxDepth = 19, numTrees = 500, impurity = 'variance', seed = 8)

# Treinando o modelo floresta aleatória
avaliador_modelos(rf, train_df, test_df, 'Random Forest')

Wall time: 12min 20s


Unnamed: 0,Algoritmo,RMSE,R2
0,Random Forest,127390.4056,0.8906


#### XGBoost

In [33]:
%%time
# Instanciando o objeto do algoritmo
gbt = GBTRegressor(featuresCol = 'features', labelCol = 'preco',
                   maxDepth = 3,
                   stepSize = 0.1, # learning_rate
                   maxIter = 200) # n_estimators

# Treinando o modelo floresta aleatória
avaliador_modelos(gbt, train_df, test_df, 'XGBoost Regressor')

Wall time: 44.2 s


Unnamed: 0,Algoritmo,RMSE,R2
0,XGBoost Regressor,80214.4646,0.9566
