# Carregamento, tratamento e Análise dos dados presentes na camada Silver

### Procedimentos

Para que nossa camada <b>Silver</b> seja construida e carregada corratamente, precisamos primeiramente realizar alguns passos, sendo eles:

- Configurar uma ferramenta para acessar um banco de dados (PySpark);
- Configurar o acesso ao banco de dados (Postgress);
- Carregar os dados brutos;
- Formatar e higienizar os nossos dados;
- Inserir o dados lapidados nas tabelas com os formatos corretos;

### Configurar uma ferramenta para acessar um banco de dados (PySpark)

Primeira coisa a se fazer é configurar a ferramente que será utilizada para conectar ao banco de dados e interagir com o mesmo, sendo ela o PySpark. Para configurar o PySpark primeiramente temos que importar sua biblioteca e carregar nossas variaveis de ambiente para que ela possa acessar nosso banco de dados.

In [1]:
from pyspark.sql import SparkSession, DataFrame
from pyspark.sql.functions import col, when, lit, trim, regexp_replace, ltrim, rtrim
from pyspark.sql.types import StructType, StructField, StringType, DoubleType, IntegerType, DateType

import glob
import warnings
import os

BASE_URL = "jdbc:postgresql://"
HOST = "imoveis.dos.sonhos.db"
PORT = "5432"
USER = "usrImoveisDosSonhos"
PASSWORD = "S3nh@F0rte"
DATABASE = "ImoveisDosSonhosDB"

JDBC_URL = f'{BASE_URL}{HOST}:{PORT}/{DATABASE}'
TABELA = "silver.imovelcaixa"
PROPRIEDADES = { "user": USER, "password": PASSWORD, "driver": "org.postgresql.Driver" }


warnings.filterwarnings('ignore')

spark = SparkSession.builder \
    .appName("ImovelDosSonhosETL") \
    .config("spark.jars.packages", "org.postgresql:postgresql:42.5.0") \
    .config("spark.sql.debug.maxToStringFields", 1000) \
    .config("spark.ui.showConsoleProgress", "false") \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")
print("SparkSession iniciada com o driver PostgreSQL.")

print("Bibliotecas importadas e Variáveis configuradas")

SparkSession iniciada com o driver PostgreSQL.
Bibliotecas importadas e Variáveis configuradas


### Configurar o acesso ao banco de dados (Postgress)
Bibliotecas importadas e variáveis de ambiente declaradas, agora precisamos conectar ao banco de dados. Para isso utilizaremos o seguinte codigo.

In [2]:
df_banco = spark.read.jdbc(
    url=JDBC_URL,
    table=TABELA,
    properties=PROPRIEDADES
)

print(df_banco.first())

None


##  Carregar os dados brutos

Configurado o ambiente e a ferramente, precisamos buscar os dados brutos que estão guardados no diretorio dados_brutos. Procuramos por arquivos csv para carregar no spark e assim higienizar os dados. Ao final peço ao spark para que imprima na tela a quantidade de linhas e colunas carregadas.

In [3]:
caminho_arquivos = "../DataLayer/raw/dados_brutos"

if not os.path.exists(caminho_arquivos):
    print(f"Erro ao carregar arquivos de dados brutos.")


schema_personalizado = StructType([
    StructField("numeroimovel", StringType(), False), 
    StructField("uf", StringType(), True), 
    StructField("cidade", StringType(), True),
    StructField("bairro", StringType(), True),
    StructField("endereco", StringType(), True), 
    StructField("preco", StringType(), True), 
    StructField("valoravaliacao", StringType(), True),
    StructField("desconto", DoubleType(), True),
    StructField("descricao", StringType(), True),
    StructField("modalidadedevenda", StringType(), True),
    StructField("linkdeacesso", StringType(), True),
])

arquivos = spark.read.csv(
    caminho_arquivos, 
    header=True,       
    schema=schema_personalizado,  
    sep=";",
    encoding="UTF-8"
)

print(f"Total de linhas lidas: {arquivos.count()}")
print(f"Total de colunas lidas: {len(arquivos.columns)}")

Total de linhas lidas: 882
Total de colunas lidas: 11


In [4]:
colunas = arquivos.columns
condicao_nulos = lit(False)

for coluna in colunas:
    condicao_nulos = condicao_nulos | (
        col(coluna).isNull() | 
        (trim(coluna) == "")
    )

linhas_com_problema_df = arquivos.filter(condicao_nulos)
array_linhas_com_problema = linhas_com_problema_df.collect()

print(f"\nTotal de linhas com pelo menos um valor nulo/vazio: {len(array_linhas_com_problema)}")
print("\n--- Array de Linhas com Colunas Vazias/Nulas ---")

for linha in array_linhas_com_problema:
    print(linha)

print("-------------------------------------------------")


Total de linhas com pelo menos um valor nulo/vazio: 1

--- Array de Linhas com Colunas Vazias/Nulas ---
Row(numeroimovel=' 8155601977650 ', uf='DF ', cidade='BRASILIA ', bairro='  ', endereco='QR 406, N. SN, Apto 301, LT 01 CONJ 9-A VG 17 ', preco='274.000,00', valoravaliacao='274.000,00', desconto=0.0, descricao='Apartamento, 0.00 de �rea total, 59.23 de �rea privativa, 0.00 de �rea do terreno, 1 vaga(s) de garagem.', modalidadedevenda='Leil�o SFI - Edital �nico', linkdeacesso='https://venda-imoveis.caixa.gov.br/sistema/detalhe-imovel.asp?hdnimovel=8155601977650')
-------------------------------------------------


### Formatar e higienizar os nossos dados

Descobrimos na analise da base não tem colunas em branco ou vazias mas para nos resguardar, carregamos esses dados e procuramos por essas colunas mal formatadas.

In [5]:
colunas_string = []
colunas_double = []

for campo in arquivos.schema:
    nome_coluna = campo.name
    tipo_coluna = campo.dataType
    
    if isinstance(tipo_coluna, StringType):
        colunas_string.append(nome_coluna)
        
    elif isinstance(tipo_coluna, DoubleType):
        colunas_double.append(nome_coluna)

df_tratado = arquivos
VALOR_DEFAULT_STRING = 'NÃO INFORMADO'

def definirFormatacaoString(dt: DataFrame, coluna: str):
    dt = dt.withColumn(coluna, rtrim(col(coluna)))
    dt = dt.withColumn(coluna, ltrim(col(coluna)))
    return dt

for coluna in colunas_string:
    df_tratado = df_tratado.withColumn(
        coluna,
        when(
            trim(col(coluna)) == "", 
            VALOR_DEFAULT_STRING
        ).otherwise(col(coluna))
    )
    df_tratado = definirFormatacaoString(df_tratado, coluna)

arquivo_tratado = df_tratado.fillna(VALOR_DEFAULT_STRING, subset=colunas_string)


VALOR_DEFAULT_DOUBLE = 0
arquivo_tratado = df_tratado.fillna(VALOR_DEFAULT_DOUBLE, subset=colunas_double)

print("\nTratamento de nulos/vazios concluído.")


Tratamento de nulos/vazios concluído.


In [6]:
colunas = arquivo_tratado.columns
condicao_nulos = lit(False)

for coluna in colunas:
    condicao_nulos = condicao_nulos | (
        col(coluna).isNull() | 
        (trim(coluna) == "")
    )

linhas_com_problema_df = arquivo_tratado.filter(condicao_nulos)
array_linhas_com_problema = linhas_com_problema_df.collect()

print(f"\nTotal de linhas com pelo menos um valor nulo/vazio: {len(array_linhas_com_problema)}")
print("\n--- Array de Linhas com Colunas Vazias/Nulas ---")

for linha in array_linhas_com_problema:
    print(linha)

print("-------------------------------------------------")


Total de linhas com pelo menos um valor nulo/vazio: 0

--- Array de Linhas com Colunas Vazias/Nulas ---
-------------------------------------------------


### Tratamento dos Decimais

Ainda existem ajustes a se fazer, para os decimais é necessário a formatação correta. No arquivo encontramos dois casos, o desconto que vem no formato 00.00 que é adequado para inserção no banco de dados e as colunas "preco" e "valor_avaliacao" que apresentam o formato 000.000,00 que não é permitido, pois geraria um valor que não condiz com a realidade. Podemos verificar abaixo.

In [7]:
def definirFormatacaoDouble(dt: DataFrame, coluna: str):
    dt = dt.withColumn(coluna, trim(col(coluna)))
    dt = dt.withColumn(coluna, regexp_replace(col(coluna), "\\.", ""))
    dt = dt.withColumn(coluna, regexp_replace(col(coluna), ",", "."))
    dt = dt.withColumn(coluna, col(coluna).cast("double"))
    return dt

print(arquivo_tratado.first())
colunas_decimal = ["preco", "valoravaliacao"]
for coluna in colunas_decimal:
    arquivo_tratado = definirFormatacaoDouble(arquivo_tratado, coluna)



Row(numeroimovel='10137653', uf='DF', cidade='BRASILIA', bairro='SETOR BANCARIO SUL', endereco='SBS QUADRA 1 BL K LOJA, N. 04', preco='343.802,07', valoravaliacao='700.000,00', desconto=50.89, descricao='Loja, 0.00 de �rea total, 79.15 de �rea privativa, 0.00 de �rea do terreno.', modalidadedevenda='Licita��o Aberta', linkdeacesso='https://venda-imoveis.caixa.gov.br/sistema/detalhe-imovel.asp?hdnimovel=10137653')


Após formatar as colunas, podemos ver que o schema continua o mesmo mas os valores estão formatados corretamente.

In [8]:
arquivo_tratado.printSchema()
print(arquivo_tratado.first())

root
 |-- numeroimovel: string (nullable = true)
 |-- uf: string (nullable = true)
 |-- cidade: string (nullable = true)
 |-- bairro: string (nullable = true)
 |-- endereco: string (nullable = true)
 |-- preco: double (nullable = true)
 |-- valoravaliacao: double (nullable = true)
 |-- desconto: double (nullable = false)
 |-- descricao: string (nullable = true)
 |-- modalidadedevenda: string (nullable = true)
 |-- linkdeacesso: string (nullable = true)

Row(numeroimovel='10137653', uf='DF', cidade='BRASILIA', bairro='SETOR BANCARIO SUL', endereco='SBS QUADRA 1 BL K LOJA, N. 04', preco=343802.07, valoravaliacao=700000.0, desconto=50.89, descricao='Loja, 0.00 de �rea total, 79.15 de �rea privativa, 0.00 de �rea do terreno.', modalidadedevenda='Licita��o Aberta', linkdeacesso='https://venda-imoveis.caixa.gov.br/sistema/detalhe-imovel.asp?hdnimovel=10137653')


### Tratando duplicidade
Tambem é necessário tratar duplicidade, por isso vamos remover todos os registros duplicados antes de inserir.


In [9]:
IDENTIFICADOR = "numeroimovel"
df_unicos = arquivo_tratado.dropDuplicates([IDENTIFICADOR])

In [10]:
### Atualizando registros já existentes

In [11]:
df_banco_alias = df_banco.alias("banco")
df_unicos_alias = df_unicos.alias("unicos")

df_atualizar = df_banco_alias.join(
    df_unicos_alias,
    on=col(f"banco.{IDENTIFICADOR}") == col(f"unicos.{IDENTIFICADOR}"),
    how="right"
)

colunas_selecao = [col(f"unicos.{c}").alias(c) for c in df_unicos.columns]

df_atualizar = df_atualizar.select(*colunas_selecao)

print(f"✅ INNER JOIN concluído.")
print(f"DataFrame 'df_atualizar' (registros comuns) possui: {df_atualizar.count()} linhas.")
df_atualizar.show(5)

✅ INNER JOIN concluído.
DataFrame 'df_atualizar' (registros comuns) possui: 807 linhas.
+------------+---+--------+--------------------+--------------------+---------+--------------+--------+--------------------+--------------------+--------------------+
|numeroimovel| uf|  cidade|              bairro|            endereco|    preco|valoravaliacao|desconto|           descricao|   modalidadedevenda|        linkdeacesso|
+------------+---+--------+--------------------+--------------------+---------+--------------+--------+--------------------+--------------------+--------------------+
|    10137653| DF|BRASILIA|  SETOR BANCARIO SUL|SBS QUADRA 1 BL K...|343802.07|      700000.0|   50.89|Loja, 0.00 de �re...|    Licita��o Aberta|https://venda-imo...|
|    10137654| DF|BRASILIA|  SETOR BANCARIO SUL|SBS QUADRA 1 BL K...| 233231.3|      463000.0|   49.63|Loja, 0.00 de �re...|    Licita��o Aberta|https://venda-imo...|
|    10137656| DF|BRASILIA|  SETOR BANCARIO SUL|SBS QUADRA 1 BL K...| 146084.

### Popular tabela 

In [12]:
try:
   
    df_unicos.write.jdbc(
        url=JDBC_URL,
        table=TABELA,
        mode="overwrite",
        properties=PROPRIEDADES
    )
    print(f"✅ Sucesso! {df_unicos.count()} linhas inseridas na tabela '{TABELA}'.")

except Exception as e:
    print(f"❌ Erro ao inserir dados via JDBC: {e}")

✅ Sucesso! 807 linhas inseridas na tabela 'silver.imovelcaixa'.
