## 1. Configuração do Ambiente e Conexão

In [1]:
import pandas as pd
import numpy as np
import re
import unicodedata
from pathlib import Path
from sqlalchemy import create_engine, text

## 2. Funções de Limpeza e Padronização

In [2]:
def remove_special_chars(value):
    if pd.isna(value):
        return value
    value = unicodedata.normalize('NFKD', str(value))
    value = value.encode('ASCII', 'ignore').decode('ASCII')
    value = re.sub(r'[^a-zA-Z0-9\s\-]', '', value)
    return value.strip().lower()


def round_float_columns(df):
    float_cols = df.select_dtypes(include='float').columns
    df[float_cols] = df[float_cols].round(2)
    return df

def normalize_column_name(col):
    col = unicodedata.normalize('NFKD', col).encode('ascii', 'ignore').decode('utf-8')
    col = col.lower().strip()
    col = re.sub(r'[^a-z0-9]+', '_', col)
    col = col.strip('_')
    return col

## 3. O fluxo da lógica de processamento de dados

Leitura: Os dados brutos (Bronze) são carregados do CSV.

Schema Enforcement: Os nomes das colunas são normalizados imediatamente.

Data Cleaning:

Conversão da coluna date para o tipo datetime.

Remoção de registros nulos em colunas mandatórias (price, date, city_full).

Eliminação de duplicatas para evitar inflar métricas estatísticas.

In [3]:
engine = create_engine(
    "postgresql://postgres:postgres@localhost:5432/housets"
)
with engine.begin() as conn:
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS silver;"))


print("Lendo dados da camada BRONZE (CSV)...")

df = pd.read_csv("../Data Layer/raw/dados_brutos.csv")

df.columns = [normalize_column_name(c) for c in df.columns]


df['date'] = pd.to_datetime(df['date'], errors='coerce')


df = df.dropna(subset=['price', 'date', 'city_full'])
df = df.drop_duplicates()


string_cols = df.select_dtypes(include='object').columns

for col in string_cols:
    df[col] = df[col].apply(remove_special_chars)


Lendo dados da camada BRONZE (CSV)...


## 4. Engenharia de Atributos
Foi criada a lógica de sazonalidade:

Sazonalidade: O código identifica se o imóvel foi registrado no verão (meses 6, 7 e 8 - hemisfério norte) ou em outras estações.
Essa é uma variável categórica importante, pois o período do ano pode influenciar diretamente no preço e na liquidez do mercado imobiliário.

Foi padronizado a precisão numérica para duas casas decimais.

In [4]:
df['month'] = df['date'].dt.month

df['season'] = np.where(
    df['month'].isin([6, 7, 8]),
    'verao',
    'outras_estacoes'
)

df = round_float_columns(df)

## 5. Carga na Camada Silver (PostgreSQL)
A etapa final consiste em salvar o DataFrame limpo em um esquema dedicado chamado silver.

In [None]:
df.to_sql(
    name="silver_houses",
    schema="silver",
    con=engine,
    if_exists="replace",
    index=False
)

print("RAW → SILVER concluído com sucesso.")