# üß™ Teste Completo do Pipeline com Visualiza√ß√µes

Este notebook testa todo o pipeline e gera visualiza√ß√µes dos dados.

## 1. Executar Teste Completo

Execute a c√©lula abaixo para:
- Verificar dados Bronze
- Executar ingest√£o se necess√°rio
- Verificar dados Prata
- Executar transforma√ß√£o se necess√°rio
- Gerar gr√°ficos e an√°lises

In [None]:
# Executar teste completo
exec(open('/home/jovyan/work/teste_completo_com_graficos.py').read())

## 2. Visualizar Gr√°ficos Gerados

Se os gr√°ficos foram salvos, voc√™ pode visualiz√°-los aqui:

In [None]:
from IPython.display import Image, display
import os

dashboard_path = '/home/jovyan/work/dashboard_analise.png'
if os.path.exists(dashboard_path):
    display(Image(dashboard_path))
else:
    print("‚ö†Ô∏è  Dashboard ainda n√£o foi gerado. Execute a c√©lula acima primeiro.")

## 3. An√°lise Interativa dos Dados

Explore os dados carregados:

In [None]:
# Carregar dados Prata
from pyspark.sql import SparkSession

# Garantir que Spark est√° inicializado
try:
    spark
except NameError:
    exec(open('/home/jovyan/work/spark_com_jars_manual.py').read())
    spark = globals()['spark']

# Carregar dados
df_fato_bf = spark.read.parquet("s3a://govbr/prata/fato_bolsa_familia/")
df_estados = spark.read.parquet("s3a://govbr/prata/dim_estados/")

# Converter para Pandas
df_bf_pd = df_fato_bf.toPandas()
df_estados_pd = df_estados.toPandas()

print("‚úÖ Dados carregados!")
print(f"\nFato Bolsa Fam√≠lia: {len(df_bf_pd)} registros")
print(f"Estados: {len(df_estados_pd)} registros")

In [None]:
# Ver primeiras linhas do Fato Bolsa Fam√≠lia
if 'df_bf_pd' in locals() and len(df_bf_pd) > 0:
    print("\nüìä Primeiras linhas do Fato Bolsa Fam√≠lia:")
    display(df_bf_pd.head(10))
    
    print("\nüìà Colunas dispon√≠veis:")
    print(df_bf_pd.columns.tolist())
else:
    print("‚ö†Ô∏è  Dados n√£o dispon√≠veis")

In [None]:
# Estat√≠sticas descritivas
if 'df_bf_pd' in locals() and len(df_bf_pd) > 0:
    print("\nüìä Estat√≠sticas Descritivas - Bolsa Fam√≠lia:")
    
    if 'quantidade_beneficiarios' in df_bf_pd.columns:
        print(f"\nTotal de Benefici√°rios: {df_bf_pd['quantidade_beneficiarios'].sum():,.0f}")
        print(f"M√©dia por Munic√≠pio: {df_bf_pd['quantidade_beneficiarios'].mean():,.0f}")
        print(f"Mediana: {df_bf_pd['quantidade_beneficiarios'].median():,.0f}")
        print(f"M√≠nimo: {df_bf_pd['quantidade_beneficiarios'].min():,.0f}")
        print(f"M√°ximo: {df_bf_pd['quantidade_beneficiarios'].max():,.0f}")
    
    if 'valor_total' in df_bf_pd.columns:
        print(f"\nValor Total: R$ {df_bf_pd['valor_total'].sum()/1e6:.2f} milh√µes")
        print(f"M√©dia por Munic√≠pio: R$ {df_bf_pd['valor_total'].mean()/1e3:.2f} mil")
    
    if 'percentual_beneficiarios' in df_bf_pd.columns:
        print(f"\n% M√©dio de Popula√ß√£o Assistida: {df_bf_pd['percentual_beneficiarios'].mean():.2f}%")
        print(f"% M√°ximo: {df_bf_pd['percentual_beneficiarios'].max():.2f}%")
        print(f"% M√≠nimo: {df_bf_pd['percentual_beneficiarios'].min():.2f}%")
else:
    print("‚ö†Ô∏è  Dados n√£o dispon√≠veis")

In [None]:
# Criar gr√°ficos interativos adicionais
import matplotlib.pyplot as plt
import seaborn as sns

if 'df_bf_pd' in locals() and len(df_bf_pd) > 0:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Top 10 Munic√≠pios por Benefici√°rios
    if 'quantidade_beneficiarios' in df_bf_pd.columns:
        municipio_col = 'nome_municipio' if 'nome_municipio' in df_bf_pd.columns else 'municipio'
        if municipio_col in df_bf_pd.columns:
            top10 = df_bf_pd.nlargest(10, 'quantidade_beneficiarios')
            axes[0, 0].barh(top10[municipio_col], top10['quantidade_beneficiarios'] / 1000, color='steelblue')
            axes[0, 0].set_xlabel('Benefici√°rios (mil)')
            axes[0, 0].set_title('Top 10 Munic√≠pios - Benefici√°rios')
            axes[0, 0].invert_yaxis()
    
    # 2. Top 10 Munic√≠pios por % Assistido
    if 'percentual_beneficiarios' in df_bf_pd.columns:
        municipio_col = 'nome_municipio' if 'nome_municipio' in df_bf_pd.columns else 'municipio'
        if municipio_col in df_bf_pd.columns:
            top10_perc = df_bf_pd.nlargest(10, 'percentual_beneficiarios')
            axes[0, 1].barh(top10_perc[municipio_col], top10_perc['percentual_beneficiarios'], color='coral')
            axes[0, 1].set_xlabel('% Popula√ß√£o Assistida')
            axes[0, 1].set_title('Top 10 Munic√≠pios - % Assistido')
            axes[0, 1].invert_yaxis()
    
    # 3. Distribui√ß√£o de Benefici√°rios
    if 'quantidade_beneficiarios' in df_bf_pd.columns:
        axes[1, 0].hist(df_bf_pd['quantidade_beneficiarios'] / 1000, bins=20, color='skyblue', edgecolor='black')
        axes[1, 0].set_xlabel('Benefici√°rios (mil)')
        axes[1, 0].set_ylabel('Frequ√™ncia')
        axes[1, 0].set_title('Distribui√ß√£o de Benefici√°rios')
        axes[1, 0].grid(True, alpha=0.3)
    
    # 4. Benefici√°rios vs Popula√ß√£o
    if 'quantidade_beneficiarios' in df_bf_pd.columns and 'populacao' in df_bf_pd.columns:
        axes[1, 1].scatter(df_bf_pd['populacao'] / 1000, df_bf_pd['quantidade_beneficiarios'] / 1000, 
                          alpha=0.6, s=50, color='purple')
        axes[1, 1].set_xlabel('Popula√ß√£o (mil)')
        axes[1, 1].set_ylabel('Benefici√°rios (mil)')
        axes[1, 1].set_title('Benefici√°rios vs Popula√ß√£o')
        axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è  Dados n√£o dispon√≠veis para visualiza√ß√£o")

## 4. Consultas SQL (Opcional)

Execute consultas SQL nos dados:

In [None]:
# Criar views tempor√°rias
if 'df_fato_bf' in locals():
    df_fato_bf.createOrReplaceTempView("fato_bolsa_familia")
    
if 'df_estados' in locals():
    df_estados.createOrReplaceTempView("dim_estados")

# Exemplo: Top 10 munic√≠pios por benefici√°rios
if 'df_fato_bf' in locals():
    resultado = spark.sql("""
        SELECT 
            nome_municipio,
            uf_sigla,
            quantidade_beneficiarios,
            valor_total,
            percentual_beneficiarios
        FROM fato_bolsa_familia
        ORDER BY quantidade_beneficiarios DESC
        LIMIT 10
    """)
    
    print("\nüèÜ Top 10 Munic√≠pios por Benefici√°rios:")
    resultado.show(truncate=False)