# üìä Camada Bronze - Visualiza√ß√£o de Dados Brutos

Este notebook demonstra como visualizar e consultar dados da camada Bronze usando Spark.

## O que √© a Camada Bronze?
- Dados brutos coletados diretamente das APIs
- Sem transforma√ß√µes ou limpeza
- Formato Parquet armazenado no MinIO
- Particionado por data de ingest√£o

In [None]:
# ‚ö†Ô∏è IMPORTANTE: Execute primeiro o notebook CONFIGURAR_SPARK.ipynb
# Se ainda n√£o executou, execute o script de corre√ß√£o:
try:
    spark
    print("‚úÖ Spark Session j√° dispon√≠vel")
except NameError:
    print("‚ö†Ô∏è  Spark n√£o configurado. Execute CONFIGURAR_SPARK.ipynb primeiro!")
    print("Ou execute o script de corre√ß√£o:")
    exec(open('/home/jovyan/work/fix_spark_py4j.py').read())

In [None]:
# Verificar Spark Session
print(f"‚úÖ Spark vers√£o: {spark.version}")
print(f"‚úÖ App: {spark.sparkContext.appName}")

## 1. Listar Arquivos na Camada Bronze

In [None]:
# Listar todos os arquivos Bronze dispon√≠veis
from pyspark.sql.functions import col

try:
    # Listar arquivos no MinIO
    bronze_paths = [
        "s3a://govbr/bronze/ibge/municipios/",
        "s3a://govbr/bronze/ibge/estados/",
        "s3a://govbr/bronze/ibge/populacao_estados/",
        "s3a://govbr/bronze/portal_transparencia/orgaos_siafi/",
        "s3a://govbr/bronze/portal_transparencia/bpc_municipios/"
    ]
    
    print("üìÅ Arquivos dispon√≠veis na Camada Bronze:\n")
    for path in bronze_paths:
        try:
            df = spark.read.parquet(path)
            print(f"‚úÖ {path}")
            print(f"   Registros: {df.count():,}")
            print(f"   Colunas: {', '.join(df.columns[:5])}...")
            print()
        except Exception as e:
            print(f"‚ö†Ô∏è  {path} - N√£o dispon√≠vel")
            print()
except Exception as e:
    print(f"‚ùå Erro: {e}")

## 2. Visualizar Munic√≠pios (IBGE)

In [None]:
# Ler dados de munic√≠pios
df_municipios = spark.read.parquet("s3a://govbr/bronze/ibge/municipios/")

print(f"üìä Total de munic√≠pios: {df_municipios.count():,}")
print(f"\nüìã Estrutura dos dados:")
df_municipios.printSchema()

print(f"\nüîç Primeiros registros:")
df_municipios.show(10, truncate=False)

In [None]:
# An√°lise por regi√£o
from pyspark.sql.functions import count, col

municipios_por_regiao = df_municipios \
    .groupBy("regiao_nome") \
    .agg(count("*").alias("total_municipios")) \
    .orderBy(col("total_municipios").desc())

print("üìä Munic√≠pios por Regi√£o:")
municipios_por_regiao.show(truncate=False)

## 3. Visualizar Estados (IBGE)

In [None]:
# Ler dados de estados
df_estados = spark.read.parquet("s3a://govbr/bronze/ibge/estados/")

print(f"üìä Total de estados: {df_estados.count()}")
print(f"\nüîç Todos os estados:")
df_estados.select("uf_sigla", "uf_nome", "regiao_nome").show(truncate=False)

## 4. Visualizar Dados de BPC (Portal da Transpar√™ncia)

In [None]:
# Ler dados de BPC
try:
    df_bpc = spark.read.parquet("s3a://govbr/bronze/portal_transparencia/bpc_municipios/")
    
    print(f"üìä Total de registros BPC: {df_bpc.count():,}")
    print(f"\nüìã Estrutura:")
    df_bpc.printSchema()
    
    print(f"\nüîç Primeiros registros:")
    df_bpc.show(10, truncate=False)
    
    # Valor total por estado
    from pyspark.sql.functions import sum, col
    
    bpc_por_estado = df_bpc \
        .groupBy("uf_sigla") \
        .agg(
            sum("valor").alias("valor_total"),
            sum("quantidade_beneficiados").alias("total_beneficiados")
        ) \
        .orderBy(col("valor_total").desc())
    
    print(f"\nüí∞ BPC por Estado:")
    bpc_por_estado.show(truncate=False)
    
except Exception as e:
    print(f"‚ö†Ô∏è  Dados de BPC n√£o dispon√≠veis: {e}")

## 5. Consultas SQL na Camada Bronze

In [None]:
# Criar views tempor√°rias
df_municipios.createOrReplaceTempView("municipios")
df_estados.createOrReplaceTempView("estados")

# Consulta: Munic√≠pios por estado
resultado = spark.sql("""
    SELECT 
        e.uf_sigla,
        e.uf_nome,
        COUNT(m.codigo_ibge) as total_municipios
    FROM estados e
    LEFT JOIN municipios m ON e.uf_sigla = m.uf_sigla
    GROUP BY e.uf_sigla, e.uf_nome
    ORDER BY total_municipios DESC
    LIMIT 10
""")

print("üìä Top 10 Estados por N√∫mero de Munic√≠pios:")
resultado.show(truncate=False)

## ‚úÖ Resumo

A camada Bronze cont√©m dados brutos coletados diretamente das APIs:
- ‚úÖ IBGE: Munic√≠pios, Estados, Popula√ß√£o
- ‚úÖ Portal da Transpar√™ncia: √ìrg√£os SIAFI, BPC
- ‚úÖ Formato: Parquet particionado por data
- ‚úÖ Armazenamento: MinIO (S3-compatible)