# 🔄 Pipeline ETL - Dados ITBI Recife 2023-2025

**Projeto de Integração de Dados**  
**ETL = Extract → Transform → Load**

---

## 📋 Objetivo
Implementar um pipeline ETL completo para integrar dados do ITBI (Imposto sobre Transmissão de Bens Imóveis) da cidade do Recife dos anos 2023, 2024 e 2025.

## 🔄 Diferença ETL vs ELT:
- **ETL**: Extract → Transform → Load (transforma durante a extração)
- **ELT**: Extract → Load → Transform (carrega dados brutos, transforma no banco)

## 📊 Fontes de Dados:
- Portal de Dados Abertos do Recife
- Datasets ITBI 2023, 2024, 2025
- Formato: CSV com separador ';'

## 🎯 Vantagens do ETL:
- Controle total sobre transformações
- Dados chegam limpos no destino
- Menor uso de recursos do banco
- Implementação mais simples

In [2]:

# Imports
import pandas as pd
import numpy as np
import os
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configurações de visualização
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("✅ Dependências instaladas e configuradas!")
print(f"📅 Execução ETL iniciada em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("🔄 Pipeline: Extract → Transform → Load")

✅ Dependências instaladas e configuradas!
📅 Execução ETL iniciada em: 2025-07-29 17:16:50
🔄 Pipeline: Extract → Transform → Load


In [3]:
def extract_itbi_data_etl():
    """
    Extrai dados ITBI dos 3 anos para o pipeline ETL.
    No ETL, extraímos os dados e aplicamos validações básicas.
    """
    
    # URLs dos datasets oficiais
    datasets_urls = [
        ("2023", "http://dados.recife.pe.gov.br/dataset/28e3e25e-a9a7-4a9f-90a8-bb02d09cbc18/resource/d0c08a6f-4c27-423c-9219-8d13403816f4/download/itbi_2023.csv"),
        ("2024", "http://dados.recife.pe.gov.br/dataset/28e3e25e-a9a7-4a9f-90a8-bb02d09cbc18/resource/a36d548b-d705-496a-ac47-4ec36f068474/download/itbi_2024.csv"),
        ("2025", "http://dados.recife.pe.gov.br/dataset/28e3e25e-a9a7-4a9f-90a8-bb02d09cbc18/resource/5b582147-3935-459a-bbf7-ee623c22c97b/download/itbi_2025.csv")
    ]
    
    datasets_dict = {}
    total_records = 0
    
    print("📥 INICIANDO EXTRAÇÃO DOS DADOS - PIPELINE ETL")
    print("-" * 45)
    print("🔍 No ETL, extraímos e validamos os dados")
    
    for year, url in datasets_urls:
        print(f"\n📅 Extraindo dados ITBI {year}...")
        
        try:
            # Carregar dados com validações
            df = pd.read_csv(url, sep=';', encoding='utf-8')
            
            # Adicionar metadados
            df['source_year'] = year
            df['extraction_timestamp'] = datetime.now()
            df['pipeline_type'] = 'ETL'
            
            # Validações básicas durante extração
            if df.empty:
                raise ValueError(f"Dataset {year} está vazio")
            
            if len(df.columns) < 10:
                raise ValueError(f"Dataset {year} tem poucas colunas: {len(df.columns)}")
            
            # Verificar colunas essenciais
            required_columns = ['valor_avaliacao', 'bairro', 'data_transacao']
            missing_columns = [col for col in required_columns if col not in df.columns]
            if missing_columns:
                print(f"   ⚠️ Colunas essenciais faltando: {missing_columns}")
            
            # Armazenar dataset
            datasets_dict[year] = df
            total_records += len(df)
            
            print(f"   ✅ Dados extraídos: {len(df):,} registros")
            print(f"   📊 Colunas encontradas: {len(df.columns)}")
            print(f"   📝 Metadados adicionados")
            
        except Exception as e:
            print(f"   ❌ Erro extraindo {year}: {e}")
            continue
    
    print(f"\n✅ Extração ETL concluída:")
    print(f"   • Datasets extraídos: {len(datasets_dict)}")
    print(f"   • Total de registros: {total_records:,}")
    print(f"   • Próximo passo: TRANSFORM (transformações em Python)")
    
    return datasets_dict

# Executar extração ETL
datasets_raw_etl = extract_itbi_data_etl()

# Mostrar estrutura dos dados extraídos
print("\n🔍 ESTRUTURA DOS DADOS EXTRAÍDOS:")
for year, df in datasets_raw_etl.items():
    print(f"\n📅 Dataset {year}:")
    print(f"   • Shape: {df.shape}")
    print(f"   • Memória: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    print(f"   • Valores nulos: {df.isnull().sum().sum():,}")
    print(f"   • Tipos de dados únicos: {len(df.dtypes.unique())}")

📥 INICIANDO EXTRAÇÃO DOS DADOS - PIPELINE ETL
---------------------------------------------
🔍 No ETL, extraímos e validamos os dados

📅 Extraindo dados ITBI 2023...
   ✅ Dados extraídos: 12,669 registros
   📊 Colunas encontradas: 25
   📝 Metadados adicionados

📅 Extraindo dados ITBI 2024...
   ✅ Dados extraídos: 15,242 registros
   📊 Colunas encontradas: 25
   📝 Metadados adicionados

📅 Extraindo dados ITBI 2025...
   ✅ Dados extraídos: 7,206 registros
   📊 Colunas encontradas: 25
   📝 Metadados adicionados

✅ Extração ETL concluída:
   • Datasets extraídos: 3
   • Total de registros: 35,117
   • Próximo passo: TRANSFORM (transformações em Python)

🔍 ESTRUTURA DOS DADOS EXTRAÍDOS:

📅 Dataset 2023:
   • Shape: (12669, 25)
   • Memória: 13.43 MB
   • Valores nulos: 8,124
   • Tipos de dados únicos: 4

📅 Dataset 2024:
   • Shape: (15242, 25)
   • Memória: 16.16 MB
   • Valores nulos: 12,681
   • Tipos de dados únicos: 4

📅 Dataset 2025:
   • Shape: (7206, 25)
   • Memória: 7.64 MB
   • Va

In [4]:
def fix_encoding(text):
    """Corrige problemas de encoding em texto."""
    if not isinstance(text, str):
        return text
    try:
        return text.encode('latin1').decode('utf-8')
    except (UnicodeEncodeError, UnicodeDecodeError):
        return text

def convert_currency_format(value):
    """Converte formato monetário brasileiro para internacional."""
    if pd.isna(value):
        return value
    return str(value).replace(',', '.')

def clean_column_names(df):
    """Limpa e padroniza nomes de colunas."""
    df = df.copy()
    
    print("   🧹 Limpando nomes das colunas...")
    
    # Manter nomes originais mas criar mapeamento se necessário
    original_columns = len(df.columns)
    
    # Remover colunas completamente vazias
    df = df.dropna(axis=1, how='all')
    
    removed_columns = original_columns - len(df.columns)
    if removed_columns > 0:
        print(f"   • Colunas vazias removidas: {removed_columns}")
    
    return df

def handle_missing_values(df):
    """Trata valores nulos no dataset."""
    df = df.copy()
    
    print("   🔧 Tratando valores nulos...")
    
    # Contar nulos antes
    nulls_before = df.isnull().sum().sum()
    
    # Tratar campos de texto
    text_columns = df.select_dtypes(include=['object']).columns
    for col in text_columns:
        if col not in ['source_year', 'extraction_timestamp', 'pipeline_type']:
            df[col] = df[col].fillna('Não informado')
    
    # Contar nulos depois
    nulls_after = df.isnull().sum().sum()
    
    print(f"   • Nulos tratados: {nulls_before:,} → {nulls_after:,}")
    
    return df

def fix_data_types(df):
    """Corrige tipos de dados das colunas."""
    df = df.copy()
    
    print("   🔢 Corrigindo tipos de dados...")
    
    # Identificar colunas numéricas por padrão nos nomes
    numeric_patterns = ['valor', 'area', 'ano', 'sfh', 'fracao']
    
    for col in df.columns:
        col_lower = col.lower()
        
        # Se é uma coluna que deve ser numérica
        if any(pattern in col_lower for pattern in numeric_patterns):
            if col not in ['source_year', 'extraction_timestamp', 'pipeline_type']:
                try:
                    # Converter vírgulas para pontos
                    df[col] = df[col].astype(str).str.replace(',', '.')
                    # Remover pontos de milhares
                    df[col] = df[col].str.replace(r'(\d)\.(\d{3})', r'\1\2', regex=True)
                    # Converter para float
                    df[col] = pd.to_numeric(df[col], errors='coerce')
                    print(f"   • {col}: convertido para numérico")
                except Exception as e:
                    print(f"   ⚠️ Erro convertendo {col}: {e}")
    
    # Converter datas
    date_columns = [col for col in df.columns if 'data' in col.lower()]
    for col in date_columns:
        try:
            df[col] = pd.to_datetime(df[col], errors='coerce')
            print(f"   • {col}: convertido para datetime")
        except Exception as e:
            print(f"   ⚠️ Erro convertendo data {col}: {e}")
    
    return df

def create_derived_metrics(df):
    """Cria métricas derivadas durante a transformação."""
    df = df.copy()
    
    print("   🧮 Criando métricas derivadas...")
    
    # Valor por m²
    if 'valor_avaliacao' in df.columns and 'area_construida' in df.columns:
        df['valor_por_m2'] = (df['valor_avaliacao'] / df['area_construida']).round(2)
        print("   • valor_por_m2: criado")
    
    # Idade do imóvel
    if 'data_transacao' in df.columns and 'ano_construcao' in df.columns:
        try:
            df['ano_transacao'] = df['data_transacao'].dt.year
            df['idade_imovel'] = df['ano_transacao'] - df['ano_construcao']
            print("   • idade_imovel: criado")
        except Exception as e:
            print(f"   ⚠️ Erro criando idade_imovel: {e}")
    
    # Faixa de valor
    if 'valor_avaliacao' in df.columns:
        def classificar_valor(valor):
            if pd.isna(valor):
                return 'Não informado'
            if valor <= 200000:
                return 'Baixo (até R$ 200k)'
            elif valor <= 500000:
                return 'Médio (R$ 200k-500k)'
            elif valor <= 1000000:
                return 'Alto (R$ 500k-1M)'
            else:
                return 'Premium (acima R$ 1M)'
        
        df['faixa_valor'] = df['valor_avaliacao'].apply(classificar_valor)
        print("   • faixa_valor: criado")
    
    # Indicador de financiamento
    if 'sfh' in df.columns:
        df['tem_financiamento'] = (df['sfh'] > 0).astype(int)
        print("   • tem_financiamento: criado")
    
    # Componentes temporais
    if 'data_transacao' in df.columns:
        try:
            df['mes_transacao'] = df['data_transacao'].dt.month
            df['trimestre'] = df['data_transacao'].dt.quarter
            print("   • componentes temporais: criados")
        except Exception as e:
            print(f"   ⚠️ Erro criando componentes temporais: {e}")
    
    # Categoria de área
    if 'area_construida' in df.columns:
        def classificar_area(area):
            if pd.isna(area):
                return 'Não informado'
            if area <= 50:
                return 'Pequeno (até 50m²)'
            elif area <= 100:
                return 'Médio (50-100m²)'
            elif area <= 200:
                return 'Grande (100-200m²)'
            else:
                return 'Extra Grande (acima 200m²)'
        
        df['categoria_area'] = df['area_construida'].apply(classificar_area)
        print("   • categoria_area: criado")
    
    return df

print("✅ Funções de transformação ETL definidas!")

✅ Funções de transformação ETL definidas!


In [5]:
def transform_dataset_etl(df, year):
    """Aplica todas as transformações ETL em um dataset."""
    
    print(f"\n🔄 Transformando dataset {year} (ETL):")
    print("-" * 35)
    
    original_shape = df.shape
    
    # Pipeline de transformações ETL
    df = clean_column_names(df)
    df = handle_missing_values(df)
    df = fix_data_types(df)
    df = create_derived_metrics(df)
    
    final_shape = df.shape
    
    print(f"   ✅ Transformação {year} concluída:")
    print(f"      • Shape: {original_shape} → {final_shape}")
    print(f"      • Colunas adicionadas: {final_shape[1] - original_shape[1]}")
    
    return df

def transform_all_datasets_etl(datasets_dict):
    """Transforma todos os datasets usando ETL."""
    
    print("\n🔄 INICIANDO TRANSFORMAÇÕES ETL")
    print("=" * 40)
    print("🎯 No ETL, transformamos os dados EM MEMÓRIA antes de carregar")
    
    transformed_datasets = {}
    
    start_time = datetime.now()
    
    for year, df in datasets_dict.items():
        transformed_df = transform_dataset_etl(df, year)
        transformed_datasets[year] = transformed_df
    
    end_time = datetime.now()
    processing_time = end_time - start_time
    
    print(f"\n✅ Todas as transformações ETL concluídas!")
    print(f"   ⏱️ Tempo de processamento: {processing_time}")
    print(f"   💾 Próximo passo: LOAD (carregar dados transformados)")
    
    return transformed_datasets

# Executar transformações ETL
datasets_transformed_etl = transform_all_datasets_etl(datasets_raw_etl)

# Verificar qualidade das transformações
print("\n📊 QUALIDADE DAS TRANSFORMAÇÕES:")
print("-" * 35)

total_records = 0
for year, df in datasets_transformed_etl.items():
    print(f"\n📅 Dataset {year}:")
    print(f"   • Registros: {len(df):,}")
    print(f"   • Colunas: {len(df.columns)}")
    print(f"   • Memória: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    print(f"   • Nulos restantes: {df.isnull().sum().sum():,}")
    
    # Verificar métricas derivadas
    derived_metrics = ['valor_por_m2', 'faixa_valor', 'tem_financiamento', 'idade_imovel']
    available_metrics = [col for col in derived_metrics if col in df.columns]
    print(f"   • Métricas derivadas: {len(available_metrics)}/{len(derived_metrics)}")
    
    total_records += len(df)

print(f"\n🎯 RESUMO GERAL:")
print(f"   • Total de registros transformados: {total_records:,}")
print(f"   • Anos processados: {len(datasets_transformed_etl)}")
print(f"   • Pipeline: Dados transformados EM MEMÓRIA")


🔄 INICIANDO TRANSFORMAÇÕES ETL
🎯 No ETL, transformamos os dados EM MEMÓRIA antes de carregar

🔄 Transformando dataset 2023 (ETL):
-----------------------------------
   🧹 Limpando nomes das colunas...
   🔧 Tratando valores nulos...
   • Nulos tratados: 8,124 → 6,804
   🔢 Corrigindo tipos de dados...
   • valor_avaliacao: convertido para numérico
   • ano_construcao: convertido para numérico
   • area_terreno: convertido para numérico
   • area_construida: convertido para numérico
   • fracao_ideal: convertido para numérico
   • sfh: convertido para numérico
   • ano: convertido para numérico
   • data_transacao: convertido para datetime
   🧮 Criando métricas derivadas...
   • valor_por_m2: criado
   • idade_imovel: criado
   • faixa_valor: criado
   • tem_financiamento: criado
   • componentes temporais: criados
   • categoria_area: criado
   ✅ Transformação 2023 concluída:
      • Shape: (12669, 25) → (12669, 33)
      • Colunas adicionadas: 8

🔄 Transformando dataset 2024 (ETL):
---