# Carregamento, tratamento e Análise dos dados presentes na camada Silver

### Procedimentos

Para que nossa camada <b>Silver</b> seja construida e carregada corratamente, precisamos primeiramente realizar alguns passos, sendo eles:

- Configurar uma ferramenta para acessar um banco de dados (PySpark);
- Configurar o acesso ao banco de dados (Postgress);
- Criar um banco de dados para armazenar nossas tabelas da camada Silver;
- Executar nosso script ddl.sql para gerar nossas tabelas;
- Carregar os dados brutos;
- Formatar e higienizar os nossos dados;
- Inserir o dados lapidados nas tabelas nos formatos corretos;
- Verificar possíveis falhas e escapadas de dados;

### Configurar uma ferramenta para acessar um banco de dados (PySpark)

Primeira coisa a se fazer é configurar a ferramente que será utilizada para conectar ao banco de dados e interagir com o mesmo, sendo ela o PySpark. Para configurar o PySpark primeiramente temos que importar sua biblioteca e carregar nossas variaveis de ambiente para que ela possa acessar nosso banco de dados.

In [34]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, lit, trim
from pyspark.sql.types import StructType, StructField, StringType, DoubleType, IntegerType, DateType

import glob
import warnings
import os

BASE_URL = "jdbc:postgresql://localhost"
HOST = "imoveis.dos.sonhos.db"
PORT = "5435"
USER = "usrImoveisDosSonhos"
PASSWORD = "S3nh@F0rte"
DATABASE = "ImoveisDosSonhosDB"

print("Bibliotecas importadas e Variáveis configuradas")

Bibliotecas importadas e Variáveis configuradas


### Configurar o acesso ao banco de dados (Postgress)
Bibliotecas importadas e variáveis de ambiente declaradas, agora precisamos conectar ao banco de dados. Para isso utilizaremos o seguinte codigo.

In [35]:
warnings.filterwarnings('ignore')

spark = SparkSession.builder \
    .appName("ImovelDosSonhosETL") \
    .config("spark.jars.packages", "org.postgresql:postgresql:42.5.0") \
    .config("spark.sql.debug.maxToStringFields", 1000) \
    .config("spark.ui.showConsoleProgress", "false") \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")
print("SparkSession iniciada com o driver PostgreSQL.")

SparkSession iniciada com o driver PostgreSQL.


##  Carregar os dados brutos

Configurado o ambiente e a ferramente, precisamos buscar os dados brutos que estão guardados no diretorio dados_brutos. Procuramos por arquivos csv para carregar no spark e assim higienizar os dados. Ao final peço ao spark para que imprima na tela a quantidade de linhas e colunas carregadas.

In [48]:
caminho_arquivos = "../raw/dados_brutos"


schema_personalizado = StructType([
    StructField("Nº do Imóvel", StringType(), True), 
    StructField("UF", StringType(), True), 
    StructField("Cidade", StringType(), True),
    StructField("Bairro", StringType(), True),
    StructField("Endereço", StringType(), True), 
    StructField("Preço", DoubleType(), True), 
    StructField("Valor de avaliação", DoubleType(), True), 
    StructField("Desconto", DoubleType(), True),
    StructField("Descrição", StringType(), True),
    StructField("Modalidade de venda", StringType(), True),
    StructField("Link de acesso", StringType(), True)
])

if not os.path.exists(caminho_arquivos):
    print(f"Erro ao carregar arquivos de dados brutos.")
    
arquivos = spark.read.csv(
    caminho_arquivos, 
    header=True,       
    schema=schema_personalizado,  
    sep=";",
    encoding="latin1"
)

print(f"Total de linhas lidas: {arquivos.count()}")
print(f"Total de colunas lidas: {len(arquivos.columns)}")

Total de linhas lidas: 126
Total de colunas lidas: 11


### Formatar e higienizar os nossos dados

Descobrimos na analise da base não tem colunas em branco ou vazias mas para nos resguardar, carregamos esses dados e procuramos por essas colunas mal formatadas.

In [51]:
colunas = arquivos.columns
condicao_nulos = lit(False)

for coluna in colunas:
    condicao_nulos = condicao_nulos | (
        col(coluna).isNull() | 
        (trim(coluna) == "")
    )


linhas_com_problema = arquivos.filter(condicao_nulos)
array_linhas_com_problema = linhas_com_problema.collect()

# --- 4. Resultado Final ---

print(f"\nTotal de linhas com dados nulo/vazio: {len(array_linhas_com_problema)}")
print("\n--- Array de Linhas com Colunas Vazias/Nulas ---")


display(array_linhas_com_problema)


Total de linhas com dados nulo/vazio: 1

--- Array de Linhas com Colunas Vazias/Nulas ---


[Row(Nº do Imóvel=8155601977650.0, UF='DF ', Cidade='BRASILIA ', Bairro='  ', Endereço='QR 406, N. SN, Apto 301, LT 01 CONJ 9-A VG 17 ', Preço='274.000,00', Valor de avaliação='274.000,00', Desconto=0.0, Descrição='Apartamento, 0.00 de ï¿½rea total, 59.23 de ï¿½rea privativa, 0.00 de ï¿½rea do terreno, 1 vaga(s) de garagem.', Modalidade de venda='Leilï¿½o SFI - Edital ï¿½nico', Link de acesso='https://venda-imoveis.caixa.gov.br/sistema/detalhe-imovel.asp?hdnimovel=8155601977650')]