# üìä An√°lises de Dados Governamentais - GovBR

Este notebook cont√©m an√°lises explorat√≥rias dos dados coletados das APIs governamentais:
- Portal da Transpar√™ncia (Bolsa Fam√≠lia, BPC)
- IBGE (Munic√≠pios, Estados, Popula√ß√£o)

## Estrutura das Camadas:
- **Bronze**: Dados brutos coletados das APIs
- **Prata**: Dados transformados e relacionados
- **Ouro**: Dados enriquecidos com an√°lises e m√©tricas

In [None]:
# Configura√ß√µes e imports
import pandas as pd
import numpy as np
from minio import Minio
import io
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configura√ß√µes MinIO
MINIO_SERVER_URL = "ch8ai-minio.l6zv5a.easypanel.host"
MINIO_ROOT_USER = "admin"
MINIO_ROOT_PASSWORD = "1q2w3e4r"
BUCKET_NAME = "govbr"

# Cliente MinIO
minio_client = Minio(
    MINIO_SERVER_URL,
    access_key=MINIO_ROOT_USER,
    secret_key=MINIO_ROOT_PASSWORD,
    secure=True
)

print("‚úÖ Configura√ß√µes carregadas!")

In [None]:
def read_from_storage(camada, dataset_name, partition_date=None):
    """L√™ DataFrame de qualquer camada (bronze, prata, ouro)"""
    if partition_date is None:
        # Buscar a parti√ß√£o mais recente
        prefix = f"{camada}/{dataset_name}/"
        objects = list(minio_client.list_objects(BUCKET_NAME, prefix=prefix, recursive=True))
        if not objects:
            return None
        
        # Pegar o mais recente
        latest = max(objects, key=lambda x: x.last_modified)
        object_name = latest.object_name
    else:
        object_name = f"{camada}/{dataset_name}/dt={partition_date}/data.parquet"
    
    try:
        response = minio_client.get_object(BUCKET_NAME, object_name)
        df = pd.read_parquet(io.BytesIO(response.read()))
        response.close()
        response.release_conn()
        print(f"‚úÖ Lido: {object_name} ({len(df)} registros)")
        return df
    except Exception as e:
        print(f"‚ùå Erro ao ler {object_name}: {e}")
        return None

print("‚úÖ Fun√ß√£o de leitura criada!")

## 1. Carregando Dados da Camada Ouro (Dados Enriquecidos)

In [None]:
# Carregar dados da camada Ouro
print("Carregando dados da camada Ouro...\n")

municipios_ouro = read_from_storage('ouro', 'municipios_enriquecidos')
estados_ouro = read_from_storage('ouro', 'estados_enriquecidos')
bolsa_familia_ouro = read_from_storage('ouro', 'bpc_analytics')  # Pode conter ambos BPC e Bolsa Fam√≠lia
rankings = read_from_storage('ouro', 'rankings')
resumo_geral = read_from_storage('ouro', 'resumo_geral')

print("\n‚úÖ Dados carregados!")

## 2. Carregando Dados da Camada Prata (Dados Transformados)

In [None]:
# Carregar dados da camada Prata para an√°lises detalhadas
print("Carregando dados da camada Prata...\n")

fato_bolsa_familia = read_from_storage('prata', 'fato_bolsa_familia')
fato_bpc = read_from_storage('prata', 'fato_bpc')
dim_municipios = read_from_storage('prata', 'dim_municipios')
dim_estados = read_from_storage('prata', 'dim_estados')

print("\n‚úÖ Dados da Prata carregados!")

## 3. Resumo Geral dos Dados

In [None]:
if resumo_geral is not None:
    print("üìä RESUMO GERAL:")
    print(resumo_geral.to_string(index=False))
else:
    print("üìä RESUMO DOS DADOS CARREGADOS:")
    print(f"\n‚úÖ Munic√≠pios: {len(municipios_ouro) if municipios_ouro is not None else 0}")
    print(f"‚úÖ Estados: {len(estados_ouro) if estados_ouro is not None else 0}")
    print(f"‚úÖ Bolsa Fam√≠lia: {len(fato_bolsa_familia) if fato_bolsa_familia is not None else 0} registros")
    print(f"‚úÖ BPC: {len(fato_bpc) if fato_bpc is not None else 0} registros")

## 4. An√°lise de Bolsa Fam√≠lia

In [None]:
if fato_bolsa_familia is not None and len(fato_bolsa_familia) > 0:
    print("üìä ESTAT√çSTICAS DESCRITIVAS - BOLSA FAM√çLIA")
    print("=" * 80)
    
    # Estat√≠sticas b√°sicas
    print("\nüí∞ Valores Totais:")
    print(f"  Total investido: R$ {fato_bolsa_familia['valor_total'].sum():,.2f}")
    print(f"  M√©dia por munic√≠pio: R$ {fato_bolsa_familia['valor_total'].mean():,.2f}")
    print(f"  Mediana: R$ {fato_bolsa_familia['valor_total'].median():,.2f}")
    print(f"  M√°ximo: R$ {fato_bolsa_familia['valor_total'].max():,.2f}")
    print(f"  M√≠nimo: R$ {fato_bolsa_familia['valor_total'].min():,.2f}")
    
    print("\nüë• Benefici√°rios:")
    print(f"  Total de benefici√°rios: {fato_bolsa_familia['quantidade_beneficiarios'].sum():,.0f}")
    print(f"  M√©dia por munic√≠pio: {fato_bolsa_familia['quantidade_beneficiarios'].mean():,.0f}")
    print(f"  M√°ximo: {fato_bolsa_familia['quantidade_beneficiarios'].max():,.0f}")
    
    if 'percentual_beneficiarios' in fato_bolsa_familia.columns:
        print("\nüìà Percentual de Benefici√°rios:")
        print(f"  M√©dia: {fato_bolsa_familia['percentual_beneficiarios'].mean():.2f}%")
        print(f"  M√°ximo: {fato_bolsa_familia['percentual_beneficiarios'].max():.2f}%")
    
    if 'valor_medio_beneficiario' in fato_bolsa_familia.columns:
        print("\nüíµ Valor M√©dio por Benefici√°rio:")
        print(f"  M√©dia: R$ {fato_bolsa_familia['valor_medio_beneficiario'].mean():.2f}")
        print(f"  Mediana: R$ {fato_bolsa_familia['valor_medio_beneficiario'].median():.2f}")
    
    print("\nüåé Distribui√ß√£o por UF:")
    if 'uf_sigla' in fato_bolsa_familia.columns:
        uf_stats = fato_bolsa_familia.groupby('uf_sigla').agg({
            'valor_total': 'sum',
            'quantidade_beneficiarios': 'sum',
            'nome_municipio': 'count'
        }).rename(columns={'nome_municipio': 'num_municipios'})
        uf_stats = uf_stats.sort_values('valor_total', ascending=False)
        print(uf_stats.to_string())
else:
    print("‚ö†Ô∏è Dados de Bolsa Fam√≠lia n√£o dispon√≠veis")

In [None]:
# Visualiza√ß√µes - Bolsa Fam√≠lia
if fato_bolsa_familia is not None and len(fato_bolsa_familia) > 0:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Top 10 munic√≠pios por valor total
    top10_valor = fato_bolsa_familia.nlargest(10, 'valor_total')
    axes[0, 0].barh(range(len(top10_valor)), top10_valor['valor_total'] / 1000, color='steelblue')
    axes[0, 0].set_yticks(range(len(top10_valor)))
    axes[0, 0].set_yticklabels(top10_valor['nome_municipio'] + ' - ' + top10_valor['uf_sigla'], fontsize=9)
    axes[0, 0].set_xlabel('Valor Total (R$ mil)')
    axes[0, 0].set_title('Top 10 Munic√≠pios - Valor Total Bolsa Fam√≠lia', fontsize=12, fontweight='bold')
    axes[0, 0].grid(axis='x', alpha=0.3)
    
    # 2. Top 10 munic√≠pios por n√∫mero de benefici√°rios
    top10_benef = fato_bolsa_familia.nlargest(10, 'quantidade_beneficiarios')
    axes[0, 1].barh(range(len(top10_benef)), top10_benef['quantidade_beneficiarios'], color='coral')
    axes[0, 1].set_yticks(range(len(top10_benef)))
    axes[0, 1].set_yticklabels(top10_benef['nome_municipio'] + ' - ' + top10_benef['uf_sigla'], fontsize=9)
    axes[0, 1].set_xlabel('N√∫mero de Benefici√°rios')
    axes[0, 1].set_title('Top 10 Munic√≠pios - N√∫mero de Benefici√°rios', fontsize=12, fontweight='bold')
    axes[0, 1].grid(axis='x', alpha=0.3)
    
    # 3. Distribui√ß√£o de valores
    if 'valor_total' in fato_bolsa_familia.columns:
        axes[1, 0].hist(fato_bolsa_familia['valor_total'] / 1000, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
        axes[1, 0].set_xlabel('Valor Total (R$ mil)')
        axes[1, 0].set_ylabel('Frequ√™ncia')
        axes[1, 0].set_title('Distribui√ß√£o de Valores Totais', fontsize=12, fontweight='bold')
        axes[1, 0].grid(alpha=0.3)
    
    # 4. Distribui√ß√£o por UF (se dispon√≠vel)
    if 'uf_sigla' in fato_bolsa_familia.columns:
        uf_counts = fato_bolsa_familia['uf_sigla'].value_counts().head(10)
        axes[1, 1].bar(range(len(uf_counts)), uf_counts.values, color='lightgreen')
        axes[1, 1].set_xticks(range(len(uf_counts)))
        axes[1, 1].set_xticklabels(uf_counts.index, rotation=45, ha='right')
        axes[1, 1].set_ylabel('N√∫mero de Munic√≠pios')
        axes[1, 1].set_title('Top 10 UFs - N√∫mero de Munic√≠pios', fontsize=12, fontweight='bold')
        axes[1, 1].grid(axis='y', alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Dados insuficientes para visualiza√ß√£o")

## 5. An√°lise de BPC (Benef√≠cio de Presta√ß√£o Continuada)

In [None]:
if fato_bpc is not None and len(fato_bpc) > 0:
    print("üìä ESTAT√çSTICAS DESCRITIVAS - BPC")
    print("=" * 80)
    
    # Estat√≠sticas b√°sicas
    print("\nüí∞ Valores Totais:")
    print(f"  Total investido: R$ {fato_bpc['valor'].sum():,.2f}")
    print(f"  M√©dia por munic√≠pio: R$ {fato_bpc['valor'].mean():,.2f}")
    print(f"  Mediana: R$ {fato_bpc['valor'].median():,.2f}")
    print(f"  M√°ximo: R$ {fato_bpc['valor'].max():,.2f}")
    print(f"  M√≠nimo: R$ {fato_bpc['valor'].min():,.2f}")
    
    print("\nüë• Benefici√°rios:")
    print(f"  Total de benefici√°rios: {fato_bpc['quantidade_beneficiados'].sum():,.0f}")
    print(f"  M√©dia por munic√≠pio: {fato_bpc['quantidade_beneficiados'].mean():,.0f}")
    print(f"  M√°ximo: {fato_bpc['quantidade_beneficiados'].max():,.0f}")
    
    if 'valor_per_capita' in fato_bpc.columns:
        print("\nüíµ Valor Per Capita:")
        print(f"  M√©dia: R$ {fato_bpc['valor_per_capita'].mean():.2f}")
        print(f"  Mediana: R$ {fato_bpc['valor_per_capita'].median():.2f}")
    
    print("\nüìÖ Per√≠odo de Refer√™ncia:")
    if 'data_referencia' in fato_bpc.columns:
        print(f"  Per√≠odo: {fato_bpc['data_referencia'].min()} a {fato_bpc['data_referencia'].max()}")
    
    print("\nüåé Distribui√ß√£o por UF:")
    if 'uf_sigla' in fato_bpc.columns:
        uf_stats = fato_bpc.groupby('uf_sigla').agg({
            'valor': 'sum',
            'quantidade_beneficiados': 'sum',
            'nome_municipio': 'count'
        }).rename(columns={'nome_municipio': 'num_municipios'})
        uf_stats = uf_stats.sort_values('valor', ascending=False)
        print(uf_stats.to_string())
else:
    print("‚ö†Ô∏è Dados de BPC n√£o dispon√≠veis")

In [None]:
# Visualiza√ß√µes - BPC
if fato_bpc is not None and len(fato_bpc) > 0:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Top 10 munic√≠pios por valor total
    top10_valor = fato_bpc.nlargest(10, 'valor')
    axes[0, 0].barh(range(len(top10_valor)), top10_valor['valor'] / 1000, color='purple')
    axes[0, 0].set_yticks(range(len(top10_valor)))
    axes[0, 0].set_yticklabels(top10_valor['nome_municipio'] + ' - ' + top10_valor['uf_sigla'], fontsize=9)
    axes[0, 0].set_xlabel('Valor Total (R$ mil)')
    axes[0, 0].set_title('Top 10 Munic√≠pios - Valor Total BPC', fontsize=12, fontweight='bold')
    axes[0, 0].grid(axis='x', alpha=0.3)
    
    # 2. Top 10 munic√≠pios por n√∫mero de benefici√°rios
    top10_benef = fato_bpc.nlargest(10, 'quantidade_beneficiados')
    axes[0, 1].barh(range(len(top10_benef)), top10_benef['quantidade_beneficiados'], color='orange')
    axes[0, 1].set_yticks(range(len(top10_benef)))
    axes[0, 1].set_yticklabels(top10_benef['nome_municipio'] + ' - ' + top10_benef['uf_sigla'], fontsize=9)
    axes[0, 1].set_xlabel('N√∫mero de Benefici√°rios')
    axes[0, 1].set_title('Top 10 Munic√≠pios - N√∫mero de Benefici√°rios BPC', fontsize=12, fontweight='bold')
    axes[0, 1].grid(axis='x', alpha=0.3)
    
    # 3. Distribui√ß√£o de valores
    axes[1, 0].hist(fato_bpc['valor'] / 1000, bins=20, color='mediumpurple', edgecolor='black', alpha=0.7)
    axes[1, 0].set_xlabel('Valor Total (R$ mil)')
    axes[1, 0].set_ylabel('Frequ√™ncia')
    axes[1, 0].set_title('Distribui√ß√£o de Valores BPC', fontsize=12, fontweight='bold')
    axes[1, 0].grid(alpha=0.3)
    
    # 4. Rela√ß√£o Valor vs Benefici√°rios
    axes[1, 1].scatter(fato_bpc['quantidade_beneficiados'], fato_bpc['valor'] / 1000, 
                       alpha=0.6, color='teal', s=50)
    axes[1, 1].set_xlabel('N√∫mero de Benefici√°rios')
    axes[1, 1].set_ylabel('Valor Total (R$ mil)')
    axes[1, 1].set_title('Rela√ß√£o: Benefici√°rios vs Valor Total', fontsize=12, fontweight='bold')
    axes[1, 1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Dados insuficientes para visualiza√ß√£o")

## 6. An√°lise Comparativa: Bolsa Fam√≠lia vs BPC

In [None]:
# Compara√ß√£o entre programas
if fato_bolsa_familia is not None and fato_bpc is not None:
    print("üìä COMPARA√á√ÉO ENTRE PROGRAMAS")
    print("=" * 80)
    
    comparacao = pd.DataFrame({
        'Programa': ['Bolsa Fam√≠lia', 'BPC'],
        'Total Investido (R$)': [
            fato_bolsa_familia['valor_total'].sum(),
            fato_bpc['valor'].sum()
        ],
        'Total Benefici√°rios': [
            fato_bolsa_familia['quantidade_beneficiarios'].sum(),
            fato_bpc['quantidade_beneficiados'].sum()
        ],
        'N√∫mero de Munic√≠pios': [
            len(fato_bolsa_familia),
            len(fato_bpc)
        ],
        'Valor M√©dio por Benefici√°rio (R$)': [
            fato_bolsa_familia['valor_total'].sum() / fato_bolsa_familia['quantidade_beneficiarios'].sum(),
            fato_bpc['valor'].sum() / fato_bpc['quantidade_beneficiados'].sum()
        ]
    })
    
    print(comparacao.to_string(index=False))
    
    # Visualiza√ß√£o comparativa
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))
    
    # 1. Compara√ß√£o de valores totais
    axes[0].bar(comparacao['Programa'], comparacao['Total Investido (R$)'] / 1e6, 
                color=['steelblue', 'purple'], alpha=0.7)
    axes[0].set_ylabel('Valor Total (R$ milh√µes)')
    axes[0].set_title('Compara√ß√£o: Valor Total Investido', fontsize=12, fontweight='bold')
    axes[0].grid(axis='y', alpha=0.3)
    for i, v in enumerate(comparacao['Total Investido (R$)'] / 1e6):
        axes[0].text(i, v, f'R$ {v:.1f}M', ha='center', va='bottom', fontweight='bold')
    
    # 2. Compara√ß√£o de benefici√°rios
    axes[1].bar(comparacao['Programa'], comparacao['Total Benefici√°rios'] / 1000, 
                color=['coral', 'orange'], alpha=0.7)
    axes[1].set_ylabel('N√∫mero de Benefici√°rios (mil)')
    axes[1].set_title('Compara√ß√£o: Total de Benefici√°rios', fontsize=12, fontweight='bold')
    axes[1].grid(axis='y', alpha=0.3)
    for i, v in enumerate(comparacao['Total Benefici√°rios'] / 1000):
        axes[1].text(i, v, f'{v:.1f}K', ha='center', va='bottom', fontweight='bold')
    
    # 3. Compara√ß√£o de valor m√©dio
    axes[2].bar(comparacao['Programa'], comparacao['Valor M√©dio por Benefici√°rio (R$)'], 
                color=['lightgreen', 'teal'], alpha=0.7)
    axes[2].set_ylabel('Valor M√©dio (R$)')
    axes[2].set_title('Compara√ß√£o: Valor M√©dio por Benefici√°rio', fontsize=12, fontweight='bold')
    axes[2].grid(axis='y', alpha=0.3)
    for i, v in enumerate(comparacao['Valor M√©dio por Benefici√°rio (R$)']):
        axes[2].text(i, v, f'R$ {v:.2f}', ha='center', va='bottom', fontweight='bold')
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Dados insuficientes para compara√ß√£o")

## 7. An√°lise por Regi√£o/UF

In [None]:
# An√°lise agregada por UF
if fato_bolsa_familia is not None and 'uf_sigla' in fato_bolsa_familia.columns:
    print("üìä BOLSA FAM√çLIA POR UF")
    print("=" * 80)
    
    bf_por_uf = fato_bolsa_familia.groupby('uf_sigla').agg({
        'valor_total': 'sum',
        'quantidade_beneficiarios': 'sum',
        'nome_municipio': 'count'
    }).rename(columns={'nome_municipio': 'num_municipios'})
    bf_por_uf['valor_medio_beneficiario'] = bf_por_uf['valor_total'] / bf_por_uf['quantidade_beneficiarios']
    bf_por_uf = bf_por_uf.sort_values('valor_total', ascending=False)
    
    print(bf_por_uf.to_string())
    
    # Visualiza√ß√£o
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Valor total por UF
    axes[0, 0].barh(range(len(bf_por_uf)), bf_por_uf['valor_total'] / 1e6, color='steelblue')
    axes[0, 0].set_yticks(range(len(bf_por_uf)))
    axes[0, 0].set_yticklabels(bf_por_uf.index)
    axes[0, 0].set_xlabel('Valor Total (R$ milh√µes)')
    axes[0, 0].set_title('Valor Total por UF - Bolsa Fam√≠lia', fontsize=12, fontweight='bold')
    axes[0, 0].grid(axis='x', alpha=0.3)
    
    # 2. Benefici√°rios por UF
    axes[0, 1].barh(range(len(bf_por_uf)), bf_por_uf['quantidade_beneficiarios'] / 1000, color='coral')
    axes[0, 1].set_yticks(range(len(bf_por_uf)))
    axes[0, 1].set_yticklabels(bf_por_uf.index)
    axes[0, 1].set_xlabel('Benefici√°rios (mil)')
    axes[0, 1].set_title('Benefici√°rios por UF - Bolsa Fam√≠lia', fontsize=12, fontweight='bold')
    axes[0, 1].grid(axis='x', alpha=0.3)
    
    # 3. N√∫mero de munic√≠pios por UF
    axes[1, 0].barh(range(len(bf_por_uf)), bf_por_uf['num_municipios'], color='lightgreen')
    axes[1, 0].set_yticks(range(len(bf_por_uf)))
    axes[1, 0].set_yticklabels(bf_por_uf.index)
    axes[1, 0].set_xlabel('N√∫mero de Munic√≠pios')
    axes[1, 0].set_title('Munic√≠pios com Dados por UF', fontsize=12, fontweight='bold')
    axes[1, 0].grid(axis='x', alpha=0.3)
    
    # 4. Valor m√©dio por benefici√°rio por UF
    axes[1, 1].barh(range(len(bf_por_uf)), bf_por_uf['valor_medio_beneficiario'], color='teal')
    axes[1, 1].set_yticks(range(len(bf_por_uf)))
    axes[1, 1].set_yticklabels(bf_por_uf.index)
    axes[1, 1].set_xlabel('Valor M√©dio (R$)')
    axes[1, 1].set_title('Valor M√©dio por Benefici√°rio por UF', fontsize=12, fontweight='bold')
    axes[1, 1].grid(axis='x', alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Dados insuficientes para an√°lise por UF")

## 8. Rankings e Top Munic√≠pios

In [None]:
# Rankings
if rankings is not None:
    print("üìä RANKINGS DISPON√çVEIS:")
    print(rankings.head(20).to_string(index=False))
else:
    # Criar rankings manualmente
    print("üìä TOP 20 MUNIC√çPIOS - BOLSA FAM√çLIA")
    print("=" * 80)
    
    if fato_bolsa_familia is not None:
        top20_bf = fato_bolsa_familia.nlargest(20, 'valor_total')[
            ['nome_municipio', 'uf_sigla', 'valor_total', 'quantidade_beneficiarios']
        ].copy()
        top20_bf['valor_total_mil'] = top20_bf['valor_total'] / 1000
        top20_bf = top20_bf[['nome_municipio', 'uf_sigla', 'valor_total_mil', 'quantidade_beneficiarios']]
        top20_bf.columns = ['Munic√≠pio', 'UF', 'Valor Total (R$ mil)', 'Benefici√°rios']
        print(top20_bf.to_string(index=False))
        
        print("\nüìä TOP 20 MUNIC√çPIOS - BPC")
        print("=" * 80)
        
        if fato_bpc is not None:
            top20_bpc = fato_bpc.nlargest(20, 'valor')[
                ['nome_municipio', 'uf_sigla', 'valor', 'quantidade_beneficiados']
            ].copy()
            top20_bpc['valor_mil'] = top20_bpc['valor'] / 1000
            top20_bpc = top20_bpc[['nome_municipio', 'uf_sigla', 'valor_mil', 'quantidade_beneficiados']]
            top20_bpc.columns = ['Munic√≠pio', 'UF', 'Valor Total (R$ mil)', 'Benefici√°rios']
            print(top20_bpc.to_string(index=False))

## 9. An√°lise de Popula√ß√£o e Benefici√°rios

In [None]:
# An√°lise de rela√ß√£o popula√ß√£o vs benefici√°rios
if fato_bolsa_familia is not None and 'populacao' in fato_bolsa_familia.columns:
    # Filtrar apenas munic√≠pios com popula√ß√£o dispon√≠vel
    bf_com_pop = fato_bolsa_familia[fato_bolsa_familia['populacao'].notna()].copy()
    
    if len(bf_com_pop) > 0:
        print("üìä AN√ÅLISE: POPULA√á√ÉO vs BENEFICI√ÅRIOS")
        print("=" * 80)
        
        # Calcular correla√ß√£o
        if 'percentual_beneficiarios' in bf_com_pop.columns:
            corr = bf_com_pop[['populacao', 'quantidade_beneficiarios', 'percentual_beneficiarios']].corr()
            print("\nüìà Correla√ß√µes:")
            print(corr.to_string())
        
        # Visualiza√ß√£o
        fig, axes = plt.subplots(1, 2, figsize=(16, 6))
        
        # 1. Popula√ß√£o vs Benefici√°rios
        axes[0].scatter(bf_com_pop['populacao'] / 1000, bf_com_pop['quantidade_beneficiarios'], 
                       alpha=0.6, color='steelblue', s=50)
        axes[0].set_xlabel('Popula√ß√£o (mil habitantes)')
        axes[0].set_ylabel('N√∫mero de Benefici√°rios')
        axes[0].set_title('Popula√ß√£o vs Benefici√°rios - Bolsa Fam√≠lia', fontsize=12, fontweight='bold')
        axes[0].grid(alpha=0.3)
        
        # 2. Percentual de benefici√°rios
        if 'percentual_beneficiarios' in bf_com_pop.columns:
            axes[1].hist(bf_com_pop['percentual_beneficiarios'], bins=30, color='coral', 
                        edgecolor='black', alpha=0.7)
            axes[1].set_xlabel('Percentual de Benefici√°rios (%)')
            axes[1].set_ylabel('Frequ√™ncia')
            axes[1].set_title('Distribui√ß√£o do Percentual de Benefici√°rios', fontsize=12, fontweight='bold')
            axes[1].grid(alpha=0.3)
            axes[1].axvline(bf_com_pop['percentual_beneficiarios'].mean(), 
                          color='red', linestyle='--', linewidth=2, label=f'M√©dia: {bf_com_pop["percentual_beneficiarios"].mean():.2f}%')
            axes[1].legend()
        
        plt.tight_layout()
        plt.show()
        
        print(f"\n‚úÖ {len(bf_com_pop)} munic√≠pios com dados de popula√ß√£o dispon√≠veis")
    else:
        print("‚ö†Ô∏è Nenhum munic√≠pio com dados de popula√ß√£o dispon√≠vel")
else:
    print("‚ö†Ô∏è Dados de popula√ß√£o n√£o dispon√≠veis para an√°lise")

## 10. Exportar Dados para An√°lise Externa

In [None]:
# Exportar dados principais para CSV (opcional)
exportar = False  # Mude para True se quiser exportar

if exportar:
    if fato_bolsa_familia is not None:
        fato_bolsa_familia.to_csv('bolsa_familia_analise.csv', index=False)
        print("‚úÖ Bolsa Fam√≠lia exportado para CSV")
    
    if fato_bpc is not None:
        fato_bpc.to_csv('bpc_analise.csv', index=False)
        print("‚úÖ BPC exportado para CSV")
    
    if municipios_ouro is not None:
        municipios_ouro.to_csv('municipios_enriquecidos.csv', index=False)
        print("‚úÖ Munic√≠pios exportados para CSV")
    
    print("\n‚úÖ Exporta√ß√£o conclu√≠da!")
else:
    print("üí° Para exportar os dados, altere a vari√°vel 'exportar' para True")

## 11. Informa√ß√µes sobre os Dados

### Fonte dos Dados:
- **Portal da Transpar√™ncia**: https://api.portaldatransparencia.gov.br
- **IBGE**: https://servicodados.ibge.gov.br

### Per√≠odos dos Dados:
- **Bolsa Fam√≠lia**: Dados de outubro/2021 (500 munic√≠pios)
- **BPC**: Dados de dezembro/2024 (50 munic√≠pios de SP)
- **Popula√ß√£o**: Dados de 2010 (982 munic√≠pios √∫nicos)

### Observa√ß√µes:
- Os dados foram coletados em tempo real das APIs governamentais
- Alguns munic√≠pios podem n√£o ter dados dispon√≠veis para todos os per√≠odos
- A popula√ß√£o por munic√≠pio foi agregada para tratar duplicatas da API do IBGE