In [43]:
import findspark

import pandas as pd
from sqlalchemy import create_engine

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, expr, round, when, date_format

import warnings
warnings.filterwarnings('ignore')

https://sparkbyexamples.com/

In [2]:
findspark.init()
spark = SparkSession.builder.master('local').appName('Projeto').getOrCreate()

#### Carregando dados do PostgreSQL

In [3]:
conexao = create_engine('postgresql://postgres:123456@localhost/king_county')
df_pandas = pd.read_sql_query('SELECT * FROM df_king', conexao)

#### Criando um Spark DataFrame

In [4]:
df_spark = spark.createDataFrame(df_pandas)

#### Avaliando os tipos de cada DataFrame

In [5]:
print(type(df_pandas))
print(type(df_spark))

<class 'pandas.core.frame.DataFrame'>
<class 'pyspark.sql.dataframe.DataFrame'>


#### Renomeando colunas

In [6]:
novas_colunas =  ['id', 'data', 'preco', 'quartos', 'banheiros', 'm2_interior', 'm2_espaco_completo', 'numero_andares',
                 'vista_orla', 'qualidade_vista', 'qualidade_imovel', 'qualidade_design', 'm2_interior_acima_solo',
                 'm2_interior_abaixo_solo', 'ano_construcao', 'ano_ultima_renovacao', 'zipcode', 'lat', 'long',
                 'm2_interior_15_vizinhos', 'm2_espaco_completo_15_vizinhos']

df_spark = df_spark.toDF(*novas_colunas)

#### Formatando colunas de ano

In [7]:
df_spark = df_spark.withColumn('ano_construcao', col('ano_construcao').cast('Integer')) \
                               .withColumn('ano_ultima_renovacao', col('ano_ultima_renovacao').cast('Integer'))

In [8]:
df_spark.printSchema()

root
 |-- id: string (nullable = true)
 |-- data: date (nullable = true)
 |-- preco: double (nullable = true)
 |-- quartos: double (nullable = true)
 |-- banheiros: double (nullable = true)
 |-- m2_interior: double (nullable = true)
 |-- m2_espaco_completo: double (nullable = true)
 |-- numero_andares: double (nullable = true)
 |-- vista_orla: double (nullable = true)
 |-- qualidade_vista: double (nullable = true)
 |-- qualidade_imovel: double (nullable = true)
 |-- qualidade_design: double (nullable = true)
 |-- m2_interior_acima_solo: double (nullable = true)
 |-- m2_interior_abaixo_solo: double (nullable = true)
 |-- ano_construcao: integer (nullable = true)
 |-- ano_ultima_renovacao: integer (nullable = true)
 |-- zipcode: double (nullable = true)
 |-- lat: double (nullable = true)
 |-- long: double (nullable = true)
 |-- m2_interior_15_vizinhos: double (nullable = true)
 |-- m2_espaco_completo_15_vizinhos: double (nullable = true)



#### Removendo observações com mais de 8 quartos

In [9]:
print('Antes da realizar a filtragem!')
print(f'A quantidade de linhas no DataFrame é de: {df_spark.count()}')
print(f'A quantidade de colunas no DataFrame é de: {len(df_spark.columns)}')

Antes da realizar a filtragem!
A quantidade de linhas no DataFrame é de: 21613
A quantidade de colunas no DataFrame é de: 21


In [10]:
df_spark = df_spark.where(df_spark.quartos < 9)

In [11]:
print('Após realizar a filtragem!')
print(f'A quantidade de linhas no DataFrame é de: {df_spark.count()}')
print(f'A quantidade de colunas no DataFrame é de: {len(df_spark.columns)}')

Após realizar a filtragem!
A quantidade de linhas no DataFrame é de: 21602
A quantidade de colunas no DataFrame é de: 21


#### Criando a coluna de tamanho do imóvel

In [23]:
df_spark = df_spark.withColumn('tamanho_imovel_completo', round(expr('preco / m2_espaco_completo'), 2))

In [24]:
df_spark.select('tamanho_imovel_completo').show(4)

+-----------------------+
|tamanho_imovel_completo|
+-----------------------+
|                  39.27|
|                  74.29|
|                   18.0|
|                  120.8|
+-----------------------+
only showing top 4 rows



#### Transformando a coluna ano de construção

In [30]:
df_spark = df_spark.withColumn('ano_construcao', when(col('ano_construcao') <= 1925, 1)
                               .when((col('ano_construcao') > 1925) & (col('ano_construcao') <= 1950), 2)
                               .when((col('ano_construcao') > 1950) & (col('ano_construcao') <= 1975), 3)
                               .otherwise(4))

In [31]:
df_spark.select('ano_construcao').show(4)

+--------------+
|ano_construcao|
+--------------+
|             3|
|             3|
|             2|
|             3|
+--------------+
only showing top 4 rows



#### Transformando coluna ano da última reforma

In [32]:
df_spark = df_spark.withColumn('ano_ultima_renovacao', when(col('ano_ultima_renovacao') <= 0, 0)
                               .when((col('ano_ultima_renovacao') > 0) & (col('ano_ultima_renovacao') <= 1970), 1)
                               .when((col('ano_ultima_renovacao') > 1970) & (col('ano_ultima_renovacao') <= 2000), 2)
                               .otherwise(3))

In [33]:
df_spark.select('ano_ultima_renovacao').show(4)

+--------------------+
|ano_ultima_renovacao|
+--------------------+
|                   0|
|                   2|
|                   0|
|                   0|
+--------------------+
only showing top 4 rows



#### Obtendo coluna com dia da semana

In [35]:
df_spark.select('data').show(2)

+----------+
|      data|
+----------+
|2014-10-13|
|2014-12-09|
+----------+
only showing top 2 rows



In [46]:
df_spark = df_spark.withColumn('dia_da_semana', date_format(col('data'), 'EEEE'))

In [47]:
df_spark.select(['data', 'dia_da_semana']).show(6)

+----------+-------------+
|      data|dia_da_semana|
+----------+-------------+
|2014-10-13|       Monday|
|2014-12-09|      Tuesday|
|2015-02-25|    Wednesday|
|2014-12-09|      Tuesday|
|2015-02-18|    Wednesday|
|2014-05-12|       Monday|
+----------+-------------+
only showing top 6 rows



#### Obtendo dummies das seguintes colunas