# SCD Type 2 (Slowly Changing Dimensions) - Tutorial Completo

## üéØ **Objetivo**

Este notebook demonstra como implementar **SCD Type 2** usando **PostgreSQL** e **Python**, mantendo o hist√≥rico completo de mudan√ßas em dimens√µes do Data Warehouse.

## üìö **O que voc√™ vai aprender:**

1. **Conceitos fundamentais** de SCD Type 2
2. **Configura√ß√£o** do ambiente com Docker + PostgreSQL
3. **Implementa√ß√£o pr√°tica** com Python e Pandas
4. **Consultas hist√≥ricas** com Point-in-Time Joins
5. **Pipeline ETL completo** para processamento em lote

## üóÇÔ∏è **Estrutura do Data Warehouse:**

- **Staging**: `staging.clientes_source` - dados de origem
- **Dimens√£o**: `dw.dim_cliente` - SCD Type 2 com hist√≥rico
- **Fato**: `dw.fato_vendas` - vendas particionadas por `dt_ref`

---

**Antes de come√ßar:** Certifique-se de que o Docker est√° rodando e execute:
```bash
docker-compose up -d
```

## 1Ô∏è‚É£ Environment Setup and Docker Configuration

### üîß **Melhorias implementadas:**

‚úÖ **Arquivo `.env`**: Configura√ß√µes centralizadas e seguras  
‚úÖ **SQLAlchemy**: Instalado automaticamente via notebook  
‚úÖ **C√≥digo limpo**: Eliminada duplica√ß√£o e complexidade  

### üìÅ **Estrutura de configura√ß√£o:**
```
‚îú‚îÄ‚îÄ .env                    # Configura√ß√µes do ambiente
‚îú‚îÄ‚îÄ docker-compose.yml     # PostgreSQL + PgAdmin
‚îî‚îÄ‚îÄ notebooks/
    ‚îî‚îÄ‚îÄ scd_type2_tutorial.ipynb
```

### üê≥ **Para iniciar o ambiente:**
```bash
docker-compose up -d
```

In [26]:
# Importar bibliotecas necess√°rias
import pandas as pd
import numpy as np
import psycopg2
from datetime import datetime, date, timedelta
import os
import warnings
warnings.filterwarnings('ignore')

# Carregar vari√°veis do arquivo .env
from dotenv import load_dotenv
load_dotenv()

# Tentar importar SQLAlchemy
try:
    from sqlalchemy import create_engine, text
    SQLALCHEMY_AVAILABLE = True
    print("‚úÖ SQLAlchemy importado com sucesso!")
except Exception as e:
    print(f"‚ùå Erro no SQLAlchemy: {e}")
    print("   Instalando depend√™ncias...")
    raise

# Configura√ß√µes do banco de dados (carregadas do .env)
DB_CONFIG = {
    'host': os.getenv('DB_HOST', 'localhost'),
    'port': os.getenv('DB_PORT', '5432'),
    'database': os.getenv('DB_NAME', 'datawarehouse'),
    'username': os.getenv('DB_USER', 'dw_user'),
    'password': os.getenv('DB_PASSWORD', 'dw_password'),
}

print("üîß Configura√ß√£o carregada do .env:")
print(f"   Host: {DB_CONFIG['host']}:{DB_CONFIG['port']}")
print(f"   Database: {DB_CONFIG['database']}")
print(f"   User: {DB_CONFIG['username']}")
print("   ‚úÖ Ambiente configurado!")

‚úÖ SQLAlchemy importado com sucesso!
üîß Configura√ß√£o carregada do .env:
   Host: localhost:5432
   Database: datawarehouse
   User: dw_user
   ‚úÖ Ambiente configurado!


## 2Ô∏è‚É£ PostgreSQL Connection and Database Creation

In [27]:
# Criar conex√£o com PostgreSQL
def create_db_connection():
    """Cria conex√£o com o banco PostgreSQL usando configura√ß√µes do .env"""
    connection_string = f"postgresql://{DB_CONFIG['username']}:{DB_CONFIG['password']}@{DB_CONFIG['host']}:{DB_CONFIG['port']}/{DB_CONFIG['database']}"
    return create_engine(connection_string)

# Testar conex√£o
try:
    engine = create_db_connection()
    
    # Teste de conectividade
    with engine.connect() as conn:
        result = conn.execute(text("SELECT version()"))
        version = result.fetchone()[0]
        print("üéâ Conex√£o estabelecida com sucesso!")
        print(f"   PostgreSQL: {version.split(',')[0]}")
        
except Exception as e:
    print(f"‚ùå Erro na conex√£o: {e}")
    print("   üí° Verifique se o Docker est√° rodando: docker-compose up -d")

# Fun√ß√µes auxiliares (corrigidas para SQLAlchemy com auto-commit)
def execute_query(query, params=None):
    """Executa uma query SQL com sintaxe correta do SQLAlchemy"""
    with engine.begin() as conn:  # begin() garante auto-commit
        if params:
            return conn.execute(text(query), params)
        else:
            return conn.execute(text(query))

def load_dataframe(query, params=None):
    """Carrega dados do banco para DataFrame"""
    with engine.connect() as conn:
        if params:
            result = conn.execute(text(query), params)
        else:
            result = conn.execute(text(query))
        
        # Converter resultado para DataFrame
        rows = result.fetchall()
        columns = result.keys()
        return pd.DataFrame(rows, columns=columns)

print("‚úÖ Fun√ß√µes de banco configuradas!")

üéâ Conex√£o estabelecida com sucesso!
   PostgreSQL: PostgreSQL 15.14 (Debian 15.14-1.pgdg13+1) on x86_64-pc-linux-gnu
‚úÖ Fun√ß√µes de banco configuradas!


## 3Ô∏è‚É£ Create Initial Dimension and Fact Tables

Vamos verificar se as tabelas foram criadas corretamente pelo script de inicializa√ß√£o.

In [10]:
# Verificar as tabelas criadas
print("üìä Verificando estrutura das tabelas...")

# 1. Tabela de staging
print("\n1Ô∏è‚É£ STAGING.CLIENTES_SOURCE:")
staging_df = load_dataframe("SELECT * FROM staging.clientes_source LIMIT 5")
print(f"   Registros: {len(staging_df)}")
print(f"   Colunas: {list(staging_df.columns)}")
display(staging_df)

# 2. Dimens√£o SCD Type 2
print("\n2Ô∏è‚É£ DW.DIM_CLIENTE (SCD Type 2):")
dim_df = load_dataframe("SELECT * FROM dw.dim_cliente ORDER BY id_cliente, sk_cliente")
print(f"   Registros: {len(dim_df)}")
print(f"   Colunas: {list(dim_df.columns)}")
display(dim_df)

# 3. Fato de vendas
print("\n3Ô∏è‚É£ DW.FATO_VENDAS:")
fato_df = load_dataframe("SELECT * FROM dw.fato_vendas LIMIT 5")
print(f"   Registros: {len(fato_df)}")
print(f"   Colunas: {list(fato_df.columns)}")
display(fato_df)

print("\n‚úÖ Estrutura inicial verificada!")

üìä Verificando estrutura das tabelas...

1Ô∏è‚É£ STAGING.CLIENTES_SOURCE:
   Registros: 4
   Colunas: ['id_cliente', 'nm_cliente', 'ds_email', 'cidade', 'uf', 'telefone', 'dt_nascimento', 'dt_processamento']


Unnamed: 0,id_cliente,nm_cliente,ds_email,cidade,uf,telefone,dt_nascimento,dt_processamento
0,1,Jo√£o Silva,joao.silva@email.com,S√£o Paulo,SP,11999999999,1985-03-15,2024-10-01
1,2,Maria Santos,maria.santos@email.com,Rio de Janeiro,RJ,21888888888,1990-07-22,2024-10-01
2,3,Carlos Oliveira,carlos.oliveira@email.com,Belo Horizonte,MG,31777777777,1987-12-10,2024-10-01
3,4,Ana Costa,ana.costa@email.com,Porto Alegre,RS,51666666666,1992-05-18,2024-10-01



2Ô∏è‚É£ DW.DIM_CLIENTE (SCD Type 2):
   Registros: 4
   Colunas: ['sk_cliente', 'id_cliente', 'nm_cliente', 'ds_email', 'cidade', 'uf', 'telefone', 'dt_nascimento', 'dt_inicio', 'dt_fim', 'fl_corrente', 'dt_criacao', 'dt_atualizacao']


Unnamed: 0,sk_cliente,id_cliente,nm_cliente,ds_email,cidade,uf,telefone,dt_nascimento,dt_inicio,dt_fim,fl_corrente,dt_criacao,dt_atualizacao
0,1,1,Jo√£o Silva,joao.silva@email.com,S√£o Paulo,SP,11999999999,1985-03-15,2024-10-01,9999-12-31,True,2025-10-27 02:56:43.865833,2025-10-27 02:56:43.865833
1,2,2,Maria Santos,maria.santos@email.com,Rio de Janeiro,RJ,21888888888,1990-07-22,2024-10-01,9999-12-31,True,2025-10-27 02:56:43.865833,2025-10-27 02:56:43.865833
2,3,3,Carlos Oliveira,carlos.oliveira@email.com,Belo Horizonte,MG,31777777777,1987-12-10,2024-10-01,9999-12-31,True,2025-10-27 02:56:43.865833,2025-10-27 02:56:43.865833
3,4,4,Ana Costa,ana.costa@email.com,Porto Alegre,RS,51666666666,1992-05-18,2024-10-01,9999-12-31,True,2025-10-27 02:56:43.865833,2025-10-27 02:56:43.865833



3Ô∏è‚É£ DW.FATO_VENDAS:
   Registros: 4
   Colunas: ['sk_venda', 'sk_cliente', 'id_produto', 'nm_produto', 'dt_venda', 'vl_venda', 'qtd_vendida', 'dt_ref', 'dt_criacao']


Unnamed: 0,sk_venda,sk_cliente,id_produto,nm_produto,dt_venda,vl_venda,qtd_vendida,dt_ref,dt_criacao
0,1,1,110,Produto 110,2024-10-15,550.0,1,2024-10-15,2025-10-27 02:56:43.868938
1,2,2,120,Produto 120,2024-10-15,600.0,1,2024-10-15,2025-10-27 02:56:43.868938
2,3,3,130,Produto 130,2024-10-15,650.0,1,2024-10-15,2025-10-27 02:56:43.868938
3,4,4,140,Produto 140,2024-10-15,700.0,1,2024-10-15,2025-10-27 02:56:43.868938



‚úÖ Estrutura inicial verificada!


## 4Ô∏è‚É£ Load Sample Data for SCD2 Demo

Vamos simular a chegada de novos dados com mudan√ßas para demonstrar o SCD Type 2.

In [11]:
# Simular chegada de novos dados (dt_ref = 2024-10-25)
dt_ref = '2024-10-25'
print(f"üìÖ Simulando processamento para dt_ref = {dt_ref}")

# Primeiro, limpar dados duplicados se existirem
try:
    execute_query("DELETE FROM staging.clientes_source WHERE dt_processamento = :dt_ref", {'dt_ref': dt_ref})
    print(f"üßπ Limpeza: dados antigos de {dt_ref} removidos")
except Exception as e:
    print(f"‚ÑπÔ∏è  Limpeza: {e}")

# Novos dados que chegaram no sistema
novos_dados = [
    # Cliente 1: Jo√£o mudou de cidade (S√£o Paulo ‚Üí Bras√≠lia)
    (1, 'Jo√£o Silva', 'joao.silva@email.com', 'Bras√≠lia', 'DF', '11999999999', '1985-03-15'),
    
    # Cliente 2: Maria mudou email e telefone
    (2, 'Maria Santos', 'maria.santos.new@gmail.com', 'Rio de Janeiro', 'RJ', '21777777777', '1990-07-22'),
    
    # Cliente 3: Carlos sem mudan√ßas
    (3, 'Carlos Oliveira', 'carlos.oliveira@email.com', 'Belo Horizonte', 'MG', '31777777777', '1987-12-10'),
    
    # Cliente 5: Novo cliente
    (5, 'Pedro Costa', 'pedro.costa@email.com', 'Salvador', 'BA', '71555555555', '1995-08-30'),
]

# Inserir na tabela de staging
insert_query = """
INSERT INTO staging.clientes_source 
(id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento, dt_processamento)
VALUES (:id_cliente, :nm_cliente, :ds_email, :cidade, :uf, :telefone, :dt_nascimento, :dt_processamento)
"""

inseridos = 0
for dados in novos_dados:
    try:
        params = {
            'id_cliente': dados[0],
            'nm_cliente': dados[1],
            'ds_email': dados[2],
            'cidade': dados[3],
            'uf': dados[4],
            'telefone': dados[5],
            'dt_nascimento': dados[6],
            'dt_processamento': dt_ref
        }
        execute_query(insert_query, params)
        inseridos += 1
        print(f"   ‚úì Cliente {dados[0]} - {dados[1]} inserido")
    except Exception as e:
        print(f"   ‚ùå Erro ao inserir cliente {dados[0]}: {e}")

# Verificar dados inseridos
print(f"\nüìã Resumo: {inseridos} registros inseridos")
staging_novos = load_dataframe("SELECT * FROM staging.clientes_source WHERE dt_processamento = :dt_ref", {'dt_ref': dt_ref})
print(f"üìä Dados na staging para {dt_ref}:")
display(staging_novos)

print(f"\n‚úÖ {len(staging_novos)} registros prontos para processamento!")

üìÖ Simulando processamento para dt_ref = 2024-10-25
üßπ Limpeza: dados antigos de 2024-10-25 removidos
   ‚úì Cliente 1 - Jo√£o Silva inserido
   ‚úì Cliente 2 - Maria Santos inserido
   ‚úì Cliente 3 - Carlos Oliveira inserido
   ‚úì Cliente 5 - Pedro Costa inserido

üìã Resumo: 4 registros inseridos
üìä Dados na staging para 2024-10-25:


Unnamed: 0,id_cliente,nm_cliente,ds_email,cidade,uf,telefone,dt_nascimento,dt_processamento
0,1,Jo√£o Silva,joao.silva@email.com,Bras√≠lia,DF,11999999999,1985-03-15,2024-10-25
1,2,Maria Santos,maria.santos.new@gmail.com,Rio de Janeiro,RJ,21777777777,1990-07-22,2024-10-25
2,3,Carlos Oliveira,carlos.oliveira@email.com,Belo Horizonte,MG,31777777777,1987-12-10,2024-10-25
3,5,Pedro Costa,pedro.costa@email.com,Salvador,BA,71555555555,1995-08-30,2024-10-25



‚úÖ 4 registros prontos para processamento!


## 5Ô∏è‚É£ Implement SCD2 Logic - Identify Changes

Agora vamos implementar a l√≥gica para identificar que tipos de mudan√ßas ocorreram.

In [12]:
def analisar_mudancas_scd2(dt_ref):
    """
    Analisa as mudan√ßas entre os dados de staging e a dimens√£o atual
    Retorna DataFrames categorizados por tipo de mudan√ßa
    """
    
    # 1. Carregar dados de origem (staging)
    df_source = load_dataframe(f"""
        SELECT id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento
        FROM staging.clientes_source 
        WHERE dt_processamento = '{dt_ref}'
    """)
    
    # 2. Carregar dimens√£o atual (apenas registros correntes)
    df_current = load_dataframe("""
        SELECT sk_cliente, id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento
        FROM dw.dim_cliente 
        WHERE fl_corrente = TRUE
    """)
    
    print(f"üìä An√°lise de mudan√ßas para {dt_ref}:")
    print(f"   Source: {len(df_source)} registros")
    print(f"   Current: {len(df_current)} registros")
    
    # 3. Fazer merge para identificar tipos de mudan√ßa
    df_merged = df_source.merge(
        df_current, 
        on='id_cliente', 
        how='outer', 
        suffixes=('_source', '_current')
    )
    
    # 4. Categorizar mudan√ßas
    
    # Novos clientes (est√£o no source, mas n√£o no current)
    novos_clientes = df_merged[df_merged['sk_cliente'].isna()].copy()
    
    # Clientes que sa√≠ram (est√£o no current, mas n√£o no source) - opcional
    clientes_saidos = df_merged[df_merged['nm_cliente_source'].isna()].copy()
    
    # Clientes existentes (est√£o em ambos)
    clientes_existentes = df_merged[
        df_merged['sk_cliente'].notna() & 
        df_merged['nm_cliente_source'].notna()
    ].copy()
    
    # Identificar mudan√ßas nos clientes existentes
    def verificar_mudanca(row):
        campos_comparacao = ['nm_cliente', 'ds_email', 'cidade', 'uf', 'telefone', 'dt_nascimento']
        for campo in campos_comparacao:
            if str(row[f'{campo}_source']) != str(row[f'{campo}_current']):
                return True
        return False
    
    if not clientes_existentes.empty:
        clientes_existentes['tem_mudanca'] = clientes_existentes.apply(verificar_mudanca, axis=1)
        
        # Separar em com mudan√ßa e sem mudan√ßa
        clientes_com_mudanca = clientes_existentes[clientes_existentes['tem_mudanca']].copy()
        clientes_sem_mudanca = clientes_existentes[~clientes_existentes['tem_mudanca']].copy()
    else:
        clientes_com_mudanca = pd.DataFrame()
        clientes_sem_mudanca = pd.DataFrame()
    
    # 5. Mostrar resultados da an√°lise
    print(f"\nüîç Resultados da an√°lise:")
    print(f"   üÜï Novos clientes: {len(novos_clientes)}")
    print(f"   üîÑ Clientes com mudan√ßa: {len(clientes_com_mudanca)}")
    print(f"   ‚û°Ô∏è  Clientes sem mudan√ßa: {len(clientes_sem_mudanca)}")
    print(f"   üö™ Clientes que sa√≠ram: {len(clientes_saidos)}")
    
    return {
        'novos_clientes': novos_clientes,
        'clientes_com_mudanca': clientes_com_mudanca,
        'clientes_sem_mudanca': clientes_sem_mudanca,
        'clientes_saidos': clientes_saidos,
        'df_source': df_source,
        'df_current': df_current
    }

# Executar an√°lise
resultado_analise = analisar_mudancas_scd2(dt_ref)

# Mostrar detalhes das mudan√ßas
if len(resultado_analise['clientes_com_mudanca']) > 0:
    print("\nüìã Detalhes dos clientes com mudan√ßa:")
    for _, row in resultado_analise['clientes_com_mudanca'].iterrows():
        print(f"\n   Cliente {row['id_cliente']} - {row['nm_cliente_source']}:")
        campos = ['nm_cliente', 'ds_email', 'cidade', 'uf', 'telefone']
        for campo in campos:
            valor_antigo = row[f'{campo}_current']
            valor_novo = row[f'{campo}_source']
            if str(valor_antigo) != str(valor_novo):
                print(f"     {campo}: '{valor_antigo}' ‚Üí '{valor_novo}'")

if len(resultado_analise['novos_clientes']) > 0:
    print("\nüìã Novos clientes:")
    display(resultado_analise['novos_clientes'][['id_cliente', 'nm_cliente_source', 'cidade_source']].rename(columns={
        'nm_cliente_source': 'nome',
        'cidade_source': 'cidade'
    }))

üìä An√°lise de mudan√ßas para 2024-10-25:
   Source: 4 registros
   Current: 4 registros

üîç Resultados da an√°lise:
   üÜï Novos clientes: 1
   üîÑ Clientes com mudan√ßa: 2
   ‚û°Ô∏è  Clientes sem mudan√ßa: 1
   üö™ Clientes que sa√≠ram: 1

üìã Detalhes dos clientes com mudan√ßa:

   Cliente 1 - Jo√£o Silva:
     cidade: 'S√£o Paulo' ‚Üí 'Bras√≠lia'
     uf: 'SP' ‚Üí 'DF'

   Cliente 2 - Maria Santos:
     ds_email: 'maria.santos@email.com' ‚Üí 'maria.santos.new@gmail.com'
     telefone: '21888888888' ‚Üí '21777777777'

üìã Novos clientes:


Unnamed: 0,id_cliente,nome,cidade
4,5,Pedro Costa,Salvador


## 6Ô∏è‚É£ Process Historical Records (Expire Old Versions)

Agora vamos "aposentar" os registros antigos que tiveram mudan√ßas.

In [13]:
def expirar_registros_antigos(dt_ref, clientes_com_mudanca):
    """
    Expira os registros antigos setando fl_corrente = FALSE e dt_fim = dt_ref
    """
    if clientes_com_mudanca.empty:
        print("   ‚ÑπÔ∏è  Nenhum registro para expirar.")
        return
    
    print(f"üïí Expirando registros antigos (dt_fim = {dt_ref})...")
    
    # Lista de IDs de clientes que tiveram mudan√ßa
    ids_clientes_mudanca = clientes_com_mudanca['id_cliente'].tolist()
    
    # Atualizar registros na dimens√£o (sintaxe correta SQLAlchemy)
    update_query = """
        UPDATE dw.dim_cliente 
        SET fl_corrente = FALSE,
            dt_fim = :dt_ref,
            dt_atualizacao = CURRENT_TIMESTAMP
        WHERE id_cliente = ANY(:ids_clientes)
          AND fl_corrente = TRUE
    """
    
    params = {
        'dt_ref': dt_ref,
        'ids_clientes': ids_clientes_mudanca
    }
    
    execute_query(update_query, params)
    
    print(f"   ‚úÖ {len(ids_clientes_mudanca)} registros expirados.")
    
    # Verificar resultado (usando par√¢metros tamb√©m)
    verificacao = load_dataframe("""
        SELECT id_cliente, nm_cliente, cidade, dt_inicio, dt_fim, fl_corrente
        FROM dw.dim_cliente 
        WHERE id_cliente = ANY(:ids_clientes)
          AND dt_fim = :dt_ref
        ORDER BY id_cliente
    """, {
        'ids_clientes': ids_clientes_mudanca,
        'dt_ref': dt_ref
    })
    
    if not verificacao.empty:
        print("\nüìã Registros expirados:")
        display(verificacao)
    
    return verificacao

# Executar expira√ß√£o dos registros antigos
registros_expirados = expirar_registros_antigos(
    dt_ref, 
    resultado_analise['clientes_com_mudanca']
)

üïí Expirando registros antigos (dt_fim = 2024-10-25)...
   ‚úÖ 2 registros expirados.

üìã Registros expirados:


Unnamed: 0,id_cliente,nm_cliente,cidade,dt_inicio,dt_fim,fl_corrente
0,1,Jo√£o Silva,S√£o Paulo,2024-10-01,2024-10-25,False
1,2,Maria Santos,Rio de Janeiro,2024-10-01,2024-10-25,False


## 7Ô∏è‚É£ Insert New Versions for Changed Records

Agora vamos inserir as novas vers√µes dos clientes que mudaram + novos clientes.

In [14]:
def inserir_novas_versoes(dt_ref, clientes_com_mudanca, novos_clientes):
    """
    Insere novas vers√µes dos clientes que mudaram + novos clientes
    """
    
    total_insercoes = 0
    
    # 1. Inserir novas vers√µes de clientes que mudaram
    if not clientes_com_mudanca.empty:
        print(f"üîÑ Inserindo novas vers√µes de clientes que mudaram...")
        
        for _, row in clientes_com_mudanca.iterrows():
            insert_query = """
                INSERT INTO dw.dim_cliente 
                (id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento, 
                 dt_inicio, dt_fim, fl_corrente, dt_criacao, dt_atualizacao)
                VALUES (:id_cliente, :nm_cliente, :ds_email, :cidade, :uf, 
                        :telefone, :dt_nascimento, :dt_inicio, '9999-12-31', 
                        TRUE, CURRENT_TIMESTAMP, CURRENT_TIMESTAMP)
            """
            
            params = {
                'id_cliente': row['id_cliente'],
                'nm_cliente': row['nm_cliente_source'],
                'ds_email': row['ds_email_source'],
                'cidade': row['cidade_source'],
                'uf': row['uf_source'],
                'telefone': row['telefone_source'],
                'dt_nascimento': row['dt_nascimento_source'],
                'dt_inicio': dt_ref
            }
            
            execute_query(insert_query, params)
            total_insercoes += 1
        
        print(f"   ‚úÖ {len(clientes_com_mudanca)} novas vers√µes inseridas.")
    
    # 2. Inserir novos clientes
    if not novos_clientes.empty:
        print(f"üÜï Inserindo novos clientes...")
        
        for _, row in novos_clientes.iterrows():
            insert_query = """
                INSERT INTO dw.dim_cliente 
                (id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento, 
                 dt_inicio, dt_fim, fl_corrente, dt_criacao, dt_atualizacao)
                VALUES (:id_cliente, :nm_cliente, :ds_email, :cidade, :uf, 
                        :telefone, :dt_nascimento, :dt_inicio, '9999-12-31', 
                        TRUE, CURRENT_TIMESTAMP, CURRENT_TIMESTAMP)
            """
            
            params = {
                'id_cliente': row['id_cliente'],
                'nm_cliente': row['nm_cliente_source'],
                'ds_email': row['ds_email_source'],
                'cidade': row['cidade_source'],
                'uf': row['uf_source'],
                'telefone': row['telefone_source'],
                'dt_nascimento': row['dt_nascimento_source'],
                'dt_inicio': dt_ref
            }
            
            execute_query(insert_query, params)
            total_insercoes += 1
        
        print(f"   ‚úÖ {len(novos_clientes)} novos clientes inseridos.")
    
    print(f"\nüéâ Total de inser√ß√µes: {total_insercoes}")
    
    # Verificar resultado final
    print(f"\nüìä Estado atual da dimens√£o:")
    resultado_final = load_dataframe("""
        SELECT 
            id_cliente,
            nm_cliente,
            cidade,
            dt_inicio,
            dt_fim,
            fl_corrente,
            sk_cliente
        FROM dw.dim_cliente 
        ORDER BY id_cliente, sk_cliente
    """)
    
    display(resultado_final)
    
    return resultado_final

# Executar inser√ß√£o das novas vers√µes
resultado_final = inserir_novas_versoes(
    dt_ref,
    resultado_analise['clientes_com_mudanca'],
    resultado_analise['novos_clientes']
)

üîÑ Inserindo novas vers√µes de clientes que mudaram...
   ‚úÖ 2 novas vers√µes inseridas.
üÜï Inserindo novos clientes...
   ‚úÖ 1 novos clientes inseridos.

üéâ Total de inser√ß√µes: 3

üìä Estado atual da dimens√£o:


Unnamed: 0,id_cliente,nm_cliente,cidade,dt_inicio,dt_fim,fl_corrente,sk_cliente
0,1,Jo√£o Silva,S√£o Paulo,2024-10-01,2024-10-25,False,1
1,1,Jo√£o Silva,Bras√≠lia,2024-10-25,9999-12-31,True,5
2,2,Maria Santos,Rio de Janeiro,2024-10-01,2024-10-25,False,2
3,2,Maria Santos,Rio de Janeiro,2024-10-25,9999-12-31,True,6
4,3,Carlos Oliveira,Belo Horizonte,2024-10-01,9999-12-31,True,3
5,4,Ana Costa,Porto Alegre,2024-10-01,9999-12-31,True,4
6,5,Pedro Costa,Salvador,2024-10-25,9999-12-31,True,7


## 8Ô∏è‚É£ Query Historical Data with Point-in-Time Joins

Agora vamos demonstrar como consultar dados hist√≥ricos usando Point-in-Time Joins.

In [15]:
# Primeiro, vamos adicionar algumas vendas para demonstrar o hist√≥rico
print("üí∞ Adicionando vendas para demonstrar Point-in-Time Joins...")

# Vendas antes das mudan√ßas (2024-10-20)
vendas_antigas = [
    (1, 'Produto A', '2024-10-20', 1000.00),
    (2, 'Produto B', '2024-10-20', 750.00),
]

# Vendas depois das mudan√ßas (2024-10-26) 
vendas_novas = [
    (1, 'Produto C', '2024-10-26', 1200.00),  # Jo√£o j√° em Bras√≠lia
    (2, 'Produto D', '2024-10-26', 850.00),   # Maria com novo email
    (5, 'Produto E', '2024-10-26', 600.00),   # Pedro (novo cliente)
]

def inserir_vendas(vendas, dt_ref_venda):
    for id_cliente, produto, dt_venda, valor in vendas:
        # Encontrar a sk_cliente v√°lida na data da venda (sintaxe corrigida)
        sk_query = """
            SELECT sk_cliente 
            FROM dw.dim_cliente 
            WHERE id_cliente = :id_cliente 
              AND :dt_venda BETWEEN dt_inicio AND dt_fim
        """
        
        result = execute_query(sk_query, {
            'id_cliente': id_cliente,
            'dt_venda': dt_venda
        })
        
        sk_cliente = result.fetchone()
        if sk_cliente:
            insert_venda = """
                INSERT INTO dw.fato_vendas 
                (sk_cliente, id_produto, nm_produto, dt_venda, vl_venda, qtd_vendida, dt_ref)
                VALUES (:sk_cliente, :id_produto, :nm_produto, :dt_venda, 
                        :vl_venda, 1, :dt_ref)
            """
            
            execute_query(insert_venda, {
                'sk_cliente': sk_cliente[0],
                'id_produto': hash(produto) % 1000,
                'nm_produto': produto,
                'dt_venda': dt_venda,
                'vl_venda': valor,
                'dt_ref': dt_ref_venda
            })

# Inserir vendas
inserir_vendas(vendas_antigas, '2024-10-20')
inserir_vendas(vendas_novas, '2024-10-26')

print("‚úÖ Vendas inseridas!")

# Agora fazer as consultas hist√≥ricas
print("\nüîç CONSULTA 1: Vendas com informa√ß√µes hist√≥ricas corretas")
print("   (Point-in-Time Join - mostra a cidade onde o cliente estava na √©poca da venda)")

consulta_historica = load_dataframe("""
    SELECT 
        f.dt_venda,
        f.nm_produto,
        f.vl_venda,
        d.id_cliente,
        d.nm_cliente,
        d.cidade AS cidade_na_epoca_da_venda,
        d.ds_email AS email_na_epoca_da_venda,
        d.dt_inicio AS cliente_valido_desde,
        d.dt_fim AS cliente_valido_ate,
        d.fl_corrente
    FROM dw.fato_vendas f
    INNER JOIN dw.dim_cliente d 
        ON f.sk_cliente = d.sk_cliente
    ORDER BY f.dt_venda, d.id_cliente
""")

display(consulta_historica)

print("\nüìä Observe que:")
print("   ‚Ä¢ Jo√£o comprou em 2024-10-20 quando estava em S√£o Paulo")
print("   ‚Ä¢ Jo√£o comprou em 2024-10-26 quando j√° estava em Bras√≠lia")
print("   ‚Ä¢ Maria comprou com o email antigo em 2024-10-20")
print("   ‚Ä¢ Maria comprou com o email novo em 2024-10-26")
print("   ‚Ä¢ Pedro s√≥ aparece nas vendas de 2024-10-26 (√© cliente novo)")

üí∞ Adicionando vendas para demonstrar Point-in-Time Joins...
‚úÖ Vendas inseridas!

üîç CONSULTA 1: Vendas com informa√ß√µes hist√≥ricas corretas
   (Point-in-Time Join - mostra a cidade onde o cliente estava na √©poca da venda)


Unnamed: 0,dt_venda,nm_produto,vl_venda,id_cliente,nm_cliente,cidade_na_epoca_da_venda,email_na_epoca_da_venda,cliente_valido_desde,cliente_valido_ate,fl_corrente
0,2024-10-15,Produto 110,550.0,1,Jo√£o Silva,S√£o Paulo,joao.silva@email.com,2024-10-01,2024-10-25,False
1,2024-10-15,Produto 120,600.0,2,Maria Santos,Rio de Janeiro,maria.santos@email.com,2024-10-01,2024-10-25,False
2,2024-10-15,Produto 130,650.0,3,Carlos Oliveira,Belo Horizonte,carlos.oliveira@email.com,2024-10-01,9999-12-31,True
3,2024-10-15,Produto 140,700.0,4,Ana Costa,Porto Alegre,ana.costa@email.com,2024-10-01,9999-12-31,True
4,2024-10-20,Produto A,1000.0,1,Jo√£o Silva,S√£o Paulo,joao.silva@email.com,2024-10-01,2024-10-25,False
5,2024-10-20,Produto B,750.0,2,Maria Santos,Rio de Janeiro,maria.santos@email.com,2024-10-01,2024-10-25,False
6,2024-10-26,Produto C,1200.0,1,Jo√£o Silva,Bras√≠lia,joao.silva@email.com,2024-10-25,9999-12-31,True
7,2024-10-26,Produto D,850.0,2,Maria Santos,Rio de Janeiro,maria.santos.new@gmail.com,2024-10-25,9999-12-31,True
8,2024-10-26,Produto E,600.0,5,Pedro Costa,Salvador,pedro.costa@email.com,2024-10-25,9999-12-31,True



üìä Observe que:
   ‚Ä¢ Jo√£o comprou em 2024-10-20 quando estava em S√£o Paulo
   ‚Ä¢ Jo√£o comprou em 2024-10-26 quando j√° estava em Bras√≠lia
   ‚Ä¢ Maria comprou com o email antigo em 2024-10-20
   ‚Ä¢ Maria comprou com o email novo em 2024-10-26
   ‚Ä¢ Pedro s√≥ aparece nas vendas de 2024-10-26 (√© cliente novo)


## 9Ô∏è‚É£ Query Current Data Only

Agora vamos mostrar como obter apenas os dados atuais dos clientes.

In [16]:
print("üîç CONSULTA 2: Apenas dados atuais (fl_corrente = TRUE)")
print("   (Para dashboards, APIs, relat√≥rios que s√≥ precisam do 'estado atual')")

clientes_atuais = load_dataframe("""
    SELECT 
        id_cliente,
        nm_cliente,
        ds_email,
        cidade,
        uf,
        telefone,
        dt_nascimento,
        dt_inicio AS valido_desde,
        sk_cliente
    FROM dw.dim_cliente 
    WHERE fl_corrente = TRUE
    ORDER BY id_cliente
""")

print(f"\nüìä Clientes atuais ({len(clientes_atuais)} registros):")
display(clientes_atuais)

print("\nüîç CONSULTA 3: Compara√ß√£o Antes vs Depois")
print("   (Hist√≥rico completo mostrando todas as vers√µes)")

historico_completo = load_dataframe("""
    SELECT 
        id_cliente,
        nm_cliente,
        cidade,
        ds_email,
        dt_inicio,
        dt_fim,
        fl_corrente,
        sk_cliente,
        CASE 
            WHEN fl_corrente = TRUE THEN 'üü¢ ATUAL'
            ELSE 'üî¥ HIST√ìRICO'
        END as status
    FROM dw.dim_cliente 
    ORDER BY id_cliente, sk_cliente
""")

print(f"\nüìä Hist√≥rico completo ({len(historico_completo)} registros):")
display(historico_completo)

print("\nüí° INSIGHTS:")
print("   ‚Ä¢ Cliente 1 (Jo√£o): 2 vers√µes - mudou de S√£o Paulo para Bras√≠lia")
print("   ‚Ä¢ Cliente 2 (Maria): 2 vers√µes - mudou email e telefone") 
print("   ‚Ä¢ Cliente 3 (Carlos): 1 vers√£o - sem mudan√ßas")
print("   ‚Ä¢ Cliente 4 (Ana): 1 vers√£o - n√£o apareceu nos novos dados")
print("   ‚Ä¢ Cliente 5 (Pedro): 1 vers√£o - cliente novo")

üîç CONSULTA 2: Apenas dados atuais (fl_corrente = TRUE)
   (Para dashboards, APIs, relat√≥rios que s√≥ precisam do 'estado atual')

üìä Clientes atuais (5 registros):


Unnamed: 0,id_cliente,nm_cliente,ds_email,cidade,uf,telefone,dt_nascimento,valido_desde,sk_cliente
0,1,Jo√£o Silva,joao.silva@email.com,Bras√≠lia,DF,11999999999,1985-03-15,2024-10-25,5
1,2,Maria Santos,maria.santos.new@gmail.com,Rio de Janeiro,RJ,21777777777,1990-07-22,2024-10-25,6
2,3,Carlos Oliveira,carlos.oliveira@email.com,Belo Horizonte,MG,31777777777,1987-12-10,2024-10-01,3
3,4,Ana Costa,ana.costa@email.com,Porto Alegre,RS,51666666666,1992-05-18,2024-10-01,4
4,5,Pedro Costa,pedro.costa@email.com,Salvador,BA,71555555555,1995-08-30,2024-10-25,7



üîç CONSULTA 3: Compara√ß√£o Antes vs Depois
   (Hist√≥rico completo mostrando todas as vers√µes)

üìä Hist√≥rico completo (7 registros):


Unnamed: 0,id_cliente,nm_cliente,cidade,ds_email,dt_inicio,dt_fim,fl_corrente,sk_cliente,status
0,1,Jo√£o Silva,S√£o Paulo,joao.silva@email.com,2024-10-01,2024-10-25,False,1,üî¥ HIST√ìRICO
1,1,Jo√£o Silva,Bras√≠lia,joao.silva@email.com,2024-10-25,9999-12-31,True,5,üü¢ ATUAL
2,2,Maria Santos,Rio de Janeiro,maria.santos@email.com,2024-10-01,2024-10-25,False,2,üî¥ HIST√ìRICO
3,2,Maria Santos,Rio de Janeiro,maria.santos.new@gmail.com,2024-10-25,9999-12-31,True,6,üü¢ ATUAL
4,3,Carlos Oliveira,Belo Horizonte,carlos.oliveira@email.com,2024-10-01,9999-12-31,True,3,üü¢ ATUAL
5,4,Ana Costa,Porto Alegre,ana.costa@email.com,2024-10-01,9999-12-31,True,4,üü¢ ATUAL
6,5,Pedro Costa,Salvador,pedro.costa@email.com,2024-10-25,9999-12-31,True,7,üü¢ ATUAL



üí° INSIGHTS:
   ‚Ä¢ Cliente 1 (Jo√£o): 2 vers√µes - mudou de S√£o Paulo para Bras√≠lia
   ‚Ä¢ Cliente 2 (Maria): 2 vers√µes - mudou email e telefone
   ‚Ä¢ Cliente 3 (Carlos): 1 vers√£o - sem mudan√ßas
   ‚Ä¢ Cliente 4 (Ana): 1 vers√£o - n√£o apareceu nos novos dados
   ‚Ä¢ Cliente 5 (Pedro): 1 vers√£o - cliente novo


## üîü Complete SCD2 ETL Pipeline Function

Agora vamos criar uma fun√ß√£o completa que automatiza todo o processo SCD2.

In [28]:
def processar_scd2_completo(dt_ref):
    """
    Pipeline ETL completo para SCD Type 2
    
    Args:
        dt_ref (str): Data de refer√™ncia no formato 'YYYY-MM-DD'
    
    Returns:
        dict: Relat√≥rio do processamento
    """
    
    print(f"üöÄ INICIANDO PROCESSAMENTO SCD2 para {dt_ref}")
    print("=" * 60)
    
    relatorio = {
        'dt_ref': dt_ref,
        'novos_clientes': 0,
        'clientes_atualizados': 0,
        'registros_expirados': 0,
        'total_inseridos': 0,
        'erros': []
    }
    
    try:
        # PASSO 1: Carregar dados de origem
        print(f"üì• PASSO 1: Carregando dados de origem...")
        df_source = load_dataframe("""
            SELECT id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento
            FROM staging.clientes_source 
            WHERE dt_processamento = :dt_ref
        """, {'dt_ref': dt_ref})
        
        if df_source.empty:
            print(f"   ‚ö†Ô∏è  Nenhum dado encontrado para {dt_ref}")
            return relatorio
        
        print(f"   ‚úÖ {len(df_source)} registros carregados")
        
        # PASSO 2: Carregar dimens√£o atual
        print(f"üìä PASSO 2: Carregando dimens√£o atual...")
        df_current = load_dataframe("""
            SELECT sk_cliente, id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento
            FROM dw.dim_cliente 
            WHERE fl_corrente = TRUE
        """)
        print(f"   ‚úÖ {len(df_current)} registros atuais carregados")
        
        # PASSO 3: Identificar mudan√ßas
        print(f"üîç PASSO 3: Identificando mudan√ßas...")
        df_merged = df_source.merge(df_current, on='id_cliente', how='outer', suffixes=('_source', '_current'))
        
        # Novos clientes
        novos_clientes = df_merged[df_merged['sk_cliente'].isna()].copy()
        
        # Clientes existentes
        clientes_existentes = df_merged[
            df_merged['sk_cliente'].notna() & df_merged['nm_cliente_source'].notna()
        ].copy()
        
        # Verificar mudan√ßas
        def verificar_mudanca(row):
            campos = ['nm_cliente', 'ds_email', 'cidade', 'uf', 'telefone', 'dt_nascimento']
            return any(str(row[f'{campo}_source']) != str(row[f'{campo}_current']) for campo in campos)
        
        if not clientes_existentes.empty:
            clientes_existentes['tem_mudanca'] = clientes_existentes.apply(verificar_mudanca, axis=1)
            clientes_com_mudanca = clientes_existentes[clientes_existentes['tem_mudanca']].copy()
        else:
            clientes_com_mudanca = pd.DataFrame()
        
        print(f"   üÜï Novos clientes: {len(novos_clientes)}")
        print(f"   üîÑ Clientes com mudan√ßa: {len(clientes_com_mudanca)}")
        
        relatorio['novos_clientes'] = len(novos_clientes)
        relatorio['clientes_atualizados'] = len(clientes_com_mudanca)
        
        # PASSO 4: Expirar registros antigos
        if not clientes_com_mudanca.empty:
            print(f"üïí PASSO 4: Expirando registros antigos...")
            ids_clientes_mudanca = clientes_com_mudanca['id_cliente'].tolist()
            
            update_query = """
                UPDATE dw.dim_cliente 
                SET fl_corrente = FALSE, dt_fim = :dt_ref, dt_atualizacao = CURRENT_TIMESTAMP
                WHERE id_cliente = ANY(:ids_clientes) AND fl_corrente = TRUE
            """
            
            execute_query(update_query, {
                'dt_ref': dt_ref,
                'ids_clientes': ids_clientes_mudanca
            })
            
            relatorio['registros_expirados'] = len(ids_clientes_mudanca)
            print(f"   ‚úÖ {len(ids_clientes_mudanca)} registros expirados")
        
        # PASSO 5: Inserir novas vers√µes
        print(f"üíæ PASSO 5: Inserindo novas vers√µes...")
        
        # Preparar dados para inser√ß√£o
        registros_para_inserir = []
        
        # Novos clientes
        for _, row in novos_clientes.iterrows():
            registros_para_inserir.append({
                'id_cliente': row['id_cliente'],
                'nm_cliente': row['nm_cliente_source'],
                'ds_email': row['ds_email_source'],
                'cidade': row['cidade_source'],
                'uf': row['uf_source'],
                'telefone': row['telefone_source'],
                'dt_nascimento': row['dt_nascimento_source'],
                'dt_inicio': dt_ref
            })
        
        # Clientes atualizados
        for _, row in clientes_com_mudanca.iterrows():
            registros_para_inserir.append({
                'id_cliente': row['id_cliente'],
                'nm_cliente': row['nm_cliente_source'],
                'ds_email': row['ds_email_source'],
                'cidade': row['cidade_source'],
                'uf': row['uf_source'],
                'telefone': row['telefone_source'],
                'dt_nascimento': row['dt_nascimento_source'],
                'dt_inicio': dt_ref
            })
        
        # Inserir em lote (sintaxe corrigida)
        insert_query = """
            INSERT INTO dw.dim_cliente 
            (id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento, 
             dt_inicio, dt_fim, fl_corrente, dt_criacao, dt_atualizacao)
            VALUES (:id_cliente, :nm_cliente, :ds_email, :cidade, :uf, 
                    :telefone, :dt_nascimento, :dt_inicio, '9999-12-31', 
                    TRUE, CURRENT_TIMESTAMP, CURRENT_TIMESTAMP)
        """
        
        for registro in registros_para_inserir:
            execute_query(insert_query, registro)
        
        relatorio['total_inseridos'] = len(registros_para_inserir)
        print(f"   ‚úÖ {len(registros_para_inserir)} registros inseridos")
        
        # PASSO 6: Relat√≥rio final
        print(f"üìã PASSO 6: Gerando relat√≥rio final...")
        
        total_dim = execute_query("SELECT COUNT(*) FROM dw.dim_cliente").fetchone()[0]
        total_atuais = execute_query("SELECT COUNT(*) FROM dw.dim_cliente WHERE fl_corrente = TRUE").fetchone()[0]
        
        print(f"\nüéâ PROCESSAMENTO CONCLU√çDO COM SUCESSO!")
        print(f"   üìä Total de registros na dimens√£o: {total_dim}")
        print(f"   üìä Registros atuais: {total_atuais}")
        print(f"   üÜï Novos clientes: {relatorio['novos_clientes']}")
        print(f"   üîÑ Clientes atualizados: {relatorio['clientes_atualizados']}")
        print(f"   üíæ Total inserido: {relatorio['total_inseridos']}")
        
    except Exception as e:
        print(f"‚ùå ERRO durante o processamento: {e}")
        relatorio['erros'].append(str(e))
    
    print("=" * 60)
    return relatorio

# TESTE: Simular um novo lote de dados
print("üß™ TESTANDO PIPELINE COMPLETO COM NOVOS DADOS")
print()

# Adicionar dados para teste (dt_ref = 2024-10-27)
dt_ref_teste = '2024-10-27'

# Novos dados de teste
dados_teste = [
    # Jo√£o mudou telefone
    (1, 'Jo√£o Silva', 'joao.silva@email.com', 'Bras√≠lia', 'DF', '11888888888', '1985-03-15'),
    
    # Carlos mudou de cidade
    (3, 'Carlos Oliveira', 'carlos.oliveira@email.com', 'S√£o Paulo', 'SP', '31777777777', '1987-12-10'),
    
    # Ana voltou (estava ausente no lote anterior)
    (4, 'Ana Costa', 'ana.costa@email.com', 'Porto Alegre', 'RS', '51666666666', '1992-05-18'),
    
    # Cliente totalmente novo
    (6, 'Lucas Fernandes', 'lucas.fernandes@email.com', 'Curitiba', 'PR', '41444444444', '1988-11-25'),
]

# Inserir na staging (sintaxe corrigida)
for dados in dados_teste:
    params = {
        'id_cliente': dados[0],
        'nm_cliente': dados[1],
        'ds_email': dados[2],
        'cidade': dados[3],
        'uf': dados[4],
        'telefone': dados[5],
        'dt_nascimento': dados[6],
        'dt_processamento': dt_ref_teste
    }
    execute_query("""
        INSERT INTO staging.clientes_source 
        (id_cliente, nm_cliente, ds_email, cidade, uf, telefone, dt_nascimento, dt_processamento)
        VALUES (:id_cliente, :nm_cliente, :ds_email, :cidade, :uf, :telefone, :dt_nascimento, :dt_processamento)
    """, params)

# Executar pipeline
relatorio_teste = processar_scd2_completo(dt_ref_teste)

üß™ TESTANDO PIPELINE COMPLETO COM NOVOS DADOS

üöÄ INICIANDO PROCESSAMENTO SCD2 para 2024-10-27
üì• PASSO 1: Carregando dados de origem...
   ‚úÖ 4 registros carregados
üìä PASSO 2: Carregando dimens√£o atual...
   ‚úÖ 4 registros atuais carregados
üîç PASSO 3: Identificando mudan√ßas...
   üÜï Novos clientes: 1
   üîÑ Clientes com mudan√ßa: 2
üïí PASSO 4: Expirando registros antigos...
   ‚úÖ 2 registros expirados
üíæ PASSO 5: Inserindo novas vers√µes...
   ‚úÖ 3 registros inseridos
üìã PASSO 6: Gerando relat√≥rio final...

üéâ PROCESSAMENTO CONCLU√çDO COM SUCESSO!
   üìä Total de registros na dimens√£o: 7
   üìä Registros atuais: 5
   üÜï Novos clientes: 1
   üîÑ Clientes atualizados: 2
   üíæ Total inserido: 3


## üéØ Resumo e Pr√≥ximos Passos

### ‚úÖ O que voc√™ aprendeu:

1. **Conceitos SCD Type 2**: Como manter hist√≥rico completo de mudan√ßas
2. **Estrutura de dados**: Surrogate Key, Business Key, dt_inicio, dt_fim, fl_corrente
3. **Point-in-Time Joins**: Como consultar dados hist√≥ricos corretamente
4. **Pipeline ETL**: Processo completo automatizado para SCD2
5. **Dados atuais vs hist√≥ricos**: Como obter ambas as vis√µes conforme necess√°rio

### üöÄ Pr√≥ximos passos sugeridos:

1. **Implementar com PySpark**: Para volumes maiores de dados
2. **Delta Lake MERGE**: Usar `MERGE INTO` para SCD2 mais eficiente
3. **Monitoramento**: Adicionar logs e m√©tricas ao pipeline
4. **Testes automatizados**: Validar integridade dos dados SCD2
5. **Performance**: Otimizar √≠ndices e particionamento

### üìö Comandos Docker √∫teis:

```bash
# Iniciar ambiente
docker-compose up -d

# Parar ambiente  
docker-compose down

# Ver logs
docker-compose logs postgres

# Acessar PgAdmin: http://localhost:8080
# Email: admin@datawarehouse.com
# Senha: admin123
```

### üí° Pontos importantes:

- **SCD Type 2** √© essencial para Data Warehousing
- **Point-in-Time Joins** garantem precis√£o hist√≥rica
- **Pipeline automatizado** reduz erros manuais
- **fl_corrente** facilita consultas de dados atuais
- **Particionamento** melhora performance em grandes volumes

**üéâ Parab√©ns! Voc√™ dominou os conceitos fundamentais de SCD Type 2!**