# üèóÔ∏è Normaliza√ß√£o de Endere√ßos - Bronze ‚Üí Prata

Este notebook:
1. Carrega endere√ßos da camada Bronze
2. Normaliza cada endere√ßo para o padr√£o brasileiro (ABNT NBR 14725 / Correios)
3. Extrai e estrutura componentes do endere√ßo
4. Salva dados normalizados na camada Prata

## Formato Padr√£o Brasileiro:
```
[Tipo Logradouro] [Nome Logradouro], [N√∫mero] - [Complemento] - [Bairro] - [Munic√≠pio]/[UF] - CEP [CEP]
```

## 1. Configura√ß√£o e Importa√ß√£o

In [None]:
import pandas as pd
import numpy as np
from minio import Minio
import io
from datetime import datetime
import sys
import os
import warnings
warnings.filterwarnings('ignore')

# Adicionar diret√≥rio atual ao path para importar o normalizador
sys.path.insert(0, os.getcwd())

# Importar normalizador
from normalizar_enderecos_brasileiros import NormalizadorEndereco

# Configura√ß√µes MinIO
MINIO_SERVER_URL = "ch8ai-minio.l6zv5a.easypanel.host"
MINIO_ROOT_USER = "admin"
MINIO_ROOT_PASSWORD = "1q2w3e4r"
BUCKET_NAME = "govbr"

print("‚úÖ Bibliotecas importadas com sucesso!")
print("‚úÖ Normalizador de endere√ßos carregado!")

## 2. Conex√£o com MinIO

In [None]:
# Conectar ao MinIO
minio_client = Minio(
    MINIO_SERVER_URL,
    access_key=MINIO_ROOT_USER,
    secret_key=MINIO_ROOT_PASSWORD,
    secure=True
)

print("‚úÖ Conectado ao MinIO")

## 3. Carregar Dados da Camada Bronze

In [None]:
# Listar arquivos dispon√≠veis na camada Bronze
print("üìÅ Buscando arquivos na camada Bronze - Cidad√£os...")
print("=" * 80)

objects = list(minio_client.list_objects(BUCKET_NAME, prefix="bronze/simulado/cidadaos/", recursive=True))

if not objects:
    print("‚ö†Ô∏è  Nenhum arquivo encontrado na camada Bronze.")
    print("   Execute primeiro o script de gera√ß√£o de dados.")
else:
    print(f"‚úÖ {len(objects)} arquivo(s) encontrado(s)")
    for obj in objects:
        tamanho_mb = obj.size / 1024 / 1024
        print(f"  üìÑ {obj.object_name} ({tamanho_mb:.2f} MB)")

In [None]:
# Carregar dados da camada Bronze
if objects:
    # Pegar o arquivo mais recente
    arquivo_mais_recente = max(objects, key=lambda x: x.last_modified)
    print(f"\nüìÇ Carregando: {arquivo_mais_recente.object_name}")
    
    # Ler dados
    response = minio_client.get_object(BUCKET_NAME, arquivo_mais_recente.object_name)
    df_bronze = pd.read_parquet(io.BytesIO(response.read()))
    
    print(f"‚úÖ Dados carregados: {len(df_bronze):,} registros")
    print(f"\nüìä Estrutura dos dados:")
    print(f"  ‚Ä¢ Colunas: {list(df_bronze.columns)}")
    print(f"  ‚Ä¢ Shape: {df_bronze.shape}")
    
    # Mostrar amostra
    print(f"\nüìù Amostra dos dados (primeiras 3 linhas):")
    display(df_bronze.head(3))
else:
    df_bronze = None
    print("‚ö†Ô∏è  Nenhum dado para processar.")

## 4. Inicializar Normalizador

In [None]:
# Inicializar normalizador
normalizador = NormalizadorEndereco()

print("‚úÖ Normalizador inicializado")
print("\nüß™ Testando normalizador com exemplo:")

if df_bronze is not None and len(df_bronze) > 0:
    exemplo_endereco = df_bronze['endereco'].iloc[0]
    print(f"\nüìù Endere√ßo original:")
    print(f"   {exemplo_endereco}")
    
    componentes = normalizador.normalizar(exemplo_endereco)
    print(f"\nüîç Componentes extra√≠dos:")
    for chave, valor in componentes.items():
        if valor:
            print(f"   ‚Ä¢ {chave}: {valor}")
    
    endereco_normalizado = normalizador.normalizar_completo(exemplo_endereco)
    print(f"\n‚úÖ Endere√ßo normalizado:")
    print(f"   {endereco_normalizado}")

## 5. Normalizar Todos os Endere√ßos

In [None]:
if df_bronze is not None:
    print("üîÑ Normalizando endere√ßos...")
    print("=" * 80)
    
    # Criar DataFrame para armazenar dados normalizados
    dados_normalizados = []
    
    total_registros = len(df_bronze)
    
    for idx, row in df_bronze.iterrows():
        # Normalizar endere√ßo
        componentes = normalizador.normalizar(row['endereco'])
        endereco_normalizado = normalizador.normalizar_completo(row['endereco'])
        
        # Criar registro normalizado
        registro = {
            # Dados do cidad√£o (mantidos da bronze)
            'cpf': row['cpf'],
            'nome': row['nome'],
            'telefone': row['telefone'],
            'tipo_telefone': row['tipo_telefone'],
            'email': row['email'],
            'numero_endereco': row['numero_endereco'],
            'total_enderecos': row['total_enderecos'],
            
            # Endere√ßo original (para refer√™ncia)
            'endereco_original': row['endereco'],
            
            # Endere√ßo normalizado (formato padr√£o)
            'endereco_normalizado': endereco_normalizado,
            
            # Componentes estruturados
            'tipo_logradouro': componentes.get('tipo_logradouro'),
            'nome_logradouro': componentes.get('nome_logradouro'),
            'numero_imovel': componentes.get('numero'),
            'complemento': componentes.get('complemento'),
            'bairro': componentes.get('bairro'),
            'municipio': componentes.get('municipio'),
            'uf': componentes.get('uf'),
            'cep': componentes.get('cep'),
            
            # Flags de qualidade
            'tem_complemento': componentes.get('complemento') is not None,
            'tem_bairro': componentes.get('bairro') is not None,
            'tem_municipio': componentes.get('municipio') is not None,
            'tem_uf': componentes.get('uf') is not None,
            'tem_cep': componentes.get('cep') is not None,
            'completo': all([
                componentes.get('tipo_logradouro'),
                componentes.get('nome_logradouro'),
                componentes.get('numero'),
                componentes.get('bairro'),
                componentes.get('municipio'),
                componentes.get('uf'),
                componentes.get('cep')
            ])
        }
        
        dados_normalizados.append(registro)
        
        # Progresso
        if (idx + 1) % 10000 == 0:
            progresso = ((idx + 1) / total_registros) * 100
            print(f"  Progresso: {idx + 1:,}/{total_registros:,} ({progresso:.1f}%)")
    
    # Criar DataFrame normalizado
    df_prata = pd.DataFrame(dados_normalizados)
    
    print(f"\n‚úÖ Normaliza√ß√£o conclu√≠da!")
    print(f"   ‚Ä¢ Total de registros processados: {len(df_prata):,}")
    print(f"   ‚Ä¢ Registros com endere√ßo completo: {df_prata['completo'].sum():,} ({df_prata['completo'].sum()/len(df_prata)*100:.1f}%)")
    
    print(f"\nüìä Estat√≠sticas de qualidade:")
    print(f"   ‚Ä¢ Com complemento: {df_prata['tem_complemento'].sum():,} ({df_prata['tem_complemento'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com bairro: {df_prata['tem_bairro'].sum():,} ({df_prata['tem_bairro'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com munic√≠pio: {df_prata['tem_municipio'].sum():,} ({df_prata['tem_municipio'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com UF: {df_prata['tem_uf'].sum():,} ({df_prata['tem_uf'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com CEP: {df_prata['tem_cep'].sum():,} ({df_prata['tem_cep'].sum()/len(df_prata)*100:.1f}%)")
else:
    df_prata = None
    print("‚ö†Ô∏è  Nenhum dado para normalizar.")

## 6. Visualizar Dados Normalizados

In [None]:
if df_prata is not None:
    print("üìä Amostra dos dados normalizados:")
    print("=" * 80)
    
    # Mostrar algumas colunas principais
    colunas_principais = [
        'cpf', 'nome', 'endereco_original', 'endereco_normalizado',
        'tipo_logradouro', 'nome_logradouro', 'numero_imovel',
        'complemento', 'bairro', 'municipio', 'uf', 'cep', 'completo'
    ]
    
    display(df_prata[colunas_principais].head(10))
    
    print(f"\nüìã Estrutura completa do DataFrame:")
    print(f"   ‚Ä¢ Total de colunas: {len(df_prata.columns)}")
    print(f"   ‚Ä¢ Colunas: {list(df_prata.columns)}")

In [None]:
if df_prata is not None:
    print("üîç Exemplos de normaliza√ß√£o:")
    print("=" * 80)
    
    # Mostrar alguns exemplos lado a lado
    exemplos = df_prata.head(5)
    
    for idx, row in exemplos.iterrows():
        print(f"\nüìù Exemplo {idx + 1}:")
        print(f"   CPF: {row['cpf']}")
        print(f"   Nome: {row['nome']}")
        print(f"   \n   ‚ùå Original:")
        print(f"      {row['endereco_original']}")
        print(f"   \n   ‚úÖ Normalizado:")
        print(f"      {row['endereco_normalizado']}")
        print(f"   \n   üìã Componentes:")
        if row['tipo_logradouro']:
            print(f"      ‚Ä¢ Tipo: {row['tipo_logradouro']}")
        if row['nome_logradouro']:
            print(f"      ‚Ä¢ Logradouro: {row['nome_logradouro']}")
        if row['numero_imovel']:
            print(f"      ‚Ä¢ N√∫mero: {row['numero_imovel']}")
        if row['complemento']:
            print(f"      ‚Ä¢ Complemento: {row['complemento']}")
        if row['bairro']:
            print(f"      ‚Ä¢ Bairro: {row['bairro']}")
        if row['municipio']:
            print(f"      ‚Ä¢ Munic√≠pio: {row['municipio']}")
        if row['uf']:
            print(f"      ‚Ä¢ UF: {row['uf']}")
        if row['cep']:
            print(f"      ‚Ä¢ CEP: {row['cep']}")
        print(f"      ‚Ä¢ Completo: {'‚úÖ' if row['completo'] else '‚ùå'}")
        print("-" * 80)

## 7. An√°lise de Qualidade dos Dados Normalizados

In [None]:
if df_prata is not None:
    print("üìä An√°lise de Qualidade dos Dados Normalizados")
    print("=" * 80)
    
    # Distribui√ß√£o por UF
    print(f"\nüó∫Ô∏è Distribui√ß√£o por Estado (Top 10):")
    uf_dist = df_prata['uf'].value_counts().head(10)
    for uf, qtd in uf_dist.items():
        if pd.notna(uf):
            percentual = (qtd / len(df_prata)) * 100
            print(f"   ‚Ä¢ {uf}: {qtd:,} ({percentual:.2f}%)")
    
    # Distribui√ß√£o por munic√≠pio
    print(f"\nüèôÔ∏è Distribui√ß√£o por Munic√≠pio (Top 10):")
    municipio_dist = df_prata['municipio'].value_counts().head(10)
    for municipio, qtd in municipio_dist.items():
        if pd.notna(municipio):
            percentual = (qtd / len(df_prata)) * 100
            print(f"   ‚Ä¢ {municipio}: {qtd:,} ({percentual:.2f}%)")
    
    # Tipos de logradouro
    print(f"\nüõ£Ô∏è Tipos de Logradouro (Top 10):")
    tipo_dist = df_prata['tipo_logradouro'].value_counts().head(10)
    for tipo, qtd in tipo_dist.items():
        if pd.notna(tipo):
            percentual = (qtd / len(df_prata)) * 100
            print(f"   ‚Ä¢ {tipo}: {qtd:,} ({percentual:.2f}%)")
    
    # Estat√≠sticas de completude
    print(f"\n‚úÖ Completude dos Endere√ßos:")
    print(f"   ‚Ä¢ Endere√ßos completos: {df_prata['completo'].sum():,} ({df_prata['completo'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Endere√ßos incompletos: {(~df_prata['completo']).sum():,} ({(~df_prata['completo']).sum()/len(df_prata)*100:.1f}%)")

## 8. Salvar na Camada Prata

In [None]:
def save_to_prata(df, dataset_name, partition_date=None):
    """Salva DataFrame na camada Prata em formato Parquet"""
    if partition_date is None:
        partition_date = datetime.now().strftime('%Y%m%d')

    object_name = f"prata/{dataset_name}/dt={partition_date}/data.parquet"

    try:
        # Converter para Parquet
        buffer = io.BytesIO()
        df.to_parquet(buffer, index=False, engine='pyarrow', compression='snappy')
        buffer.seek(0)

        # Upload para MinIO
        minio_client.put_object(
            BUCKET_NAME,
            object_name,
            buffer,
            length=buffer.getbuffer().nbytes,
            content_type='application/octet-stream'
        )

        tamanho_mb = buffer.getbuffer().nbytes / 1024 / 1024
        print(f"‚úÖ Prata: {object_name}")
        print(f"   ‚Ä¢ {len(df):,} registros")
        print(f"   ‚Ä¢ {tamanho_mb:.2f} MB")
        return True
    except Exception as e:
        print(f"‚ùå Erro ao salvar {object_name}: {e}")
        return False

print("üíæ Fun√ß√£o de salvamento definida!")

In [None]:
if df_prata is not None:
    print("üíæ Salvando dados normalizados na camada Prata...")
    print("=" * 80)
    
    # Salvar na camada Prata
    sucesso = save_to_prata(df_prata, 'cidadaos_enderecos_normalizados')
    
    if sucesso:
        print(f"\n‚úÖ Dados salvos com sucesso na camada Prata!")
        print(f"\nüìÅ Localiza√ß√£o: prata/cidadaos_enderecos_normalizados/dt=YYYYMMDD/data.parquet")
        
        # Verificar arquivo salvo
        print(f"\nüîç Verificando arquivo salvo...")
        partition_date = datetime.now().strftime('%Y%m%d')
        object_name = f"prata/cidadaos_enderecos_normalizados/dt={partition_date}/data.parquet"
        
        try:
            response = minio_client.stat_object(BUCKET_NAME, object_name)
            tamanho_mb = response.size / 1024 / 1024
            print(f"   ‚úÖ Arquivo confirmado: {tamanho_mb:.2f} MB")
        except Exception as e:
            print(f"   ‚ö†Ô∏è  Erro ao verificar arquivo: {e}")
    else:
        print(f"\n‚ùå Erro ao salvar dados.")
else:
    print("‚ö†Ô∏è  Nenhum dado para salvar.")

## 9. Resumo Final

In [None]:
if df_prata is not None:
    print("=" * 80)
    print("üìã RESUMO DA NORMALIZA√á√ÉO")
    print("=" * 80)
    
    print(f"\nüìä Estat√≠sticas Gerais:")
    print(f"   ‚Ä¢ Total de registros processados: {len(df_prata):,}")
    print(f"   ‚Ä¢ Cidad√£os √∫nicos: {df_prata['cpf'].nunique():,}")
    print(f"   ‚Ä¢ Endere√ßos √∫nicos normalizados: {df_prata['endereco_normalizado'].nunique():,}")
    
    print(f"\n‚úÖ Qualidade dos Dados:")
    print(f"   ‚Ä¢ Endere√ßos completos: {df_prata['completo'].sum():,} ({df_prata['completo'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com CEP: {df_prata['tem_cep'].sum():,} ({df_prata['tem_cep'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com UF: {df_prata['tem_uf'].sum():,} ({df_prata['tem_uf'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com munic√≠pio: {df_prata['tem_municipio'].sum():,} ({df_prata['tem_municipio'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com bairro: {df_prata['tem_bairro'].sum():,} ({df_prata['tem_bairro'].sum()/len(df_prata)*100:.1f}%)")
    print(f"   ‚Ä¢ Com complemento: {df_prata['tem_complemento'].sum():,} ({df_prata['tem_complemento'].sum()/len(df_prata)*100:.1f}%)")
    
    print(f"\nüó∫Ô∏è Distribui√ß√£o Geogr√°fica:")
    print(f"   ‚Ä¢ Estados √∫nicos: {df_prata['uf'].nunique()}")
    print(f"   ‚Ä¢ Munic√≠pios √∫nicos: {df_prata['municipio'].nunique()}")
    
    print(f"\nüìÅ Dados Salvos:")
    partition_date = datetime.now().strftime('%Y%m%d')
    print(f"   ‚Ä¢ Camada: Prata")
    print(f"   ‚Ä¢ Dataset: cidadaos_enderecos_normalizados")
    print(f"   ‚Ä¢ Parti√ß√£o: dt={partition_date}")
    
    print(f"\n‚úÖ Processo conclu√≠do com sucesso!")