# An√°lise Explorat√≥ria de Dados: Envelhecimento Ativo no Brasil

## O que √© este notebook?

Este documento apresenta uma an√°lise completa sobre o **envelhecimento ativo** no Brasil, utilizando dados da Pesquisa Nacional de Sa√∫de (PNS 2019). Aqui, transformamos dados complexos em insights pr√°ticos para orientar pol√≠ticas p√∫blicas e a√ß√µes sociais.

### Por que isso importa?

O Brasil est√° envelhecendo rapidamente. Em 2019, havia mais de 30 milh√µes de pessoas com 60 anos ou mais. Garantir que esses idosos tenham uma vida digna, saud√°vel e participativa √© um desafio nacional que exige dados precisos e a√ß√µes direcionadas.

### O que vamos descobrir?

Ao longo desta an√°lise, responderemos perguntas como:
- Como est√° a qualidade de vida dos idosos brasileiros?
- Quais munic√≠pios mais precisam de aten√ß√£o?
- Quais fatores influenciam o envelhecimento saud√°vel?
- Existem grupos diferentes de idosos com necessidades distintas?

### Como funciona o √çndice de Envelhecimento Ativo (AAI)?

Criamos um "term√¥metro" chamado AAI que mede o envelhecimento ativo combinando quatro pilares principais:
1. **Sa√∫de**: Capacidade funcional e controle de doen√ßas cr√¥nicas
2. **Participa√ß√£o Social**: Engajamento comunit√°rio e acesso a redes de apoio
3. **Seguran√ßa Econ√¥mica**: Renda adequada e prote√ß√£o social
4. **Educa√ß√£o e Acesso**: Conhecimento e conectividade digital

Cada pilar recebe uma nota de 0 a 1, e o AAI final √© a m√©dia desses pilares.

### Nossa abordagem rigorosa

Usamos t√©cnicas estat√≠sticas avan√ßadas para garantir que os resultados representem toda a popula√ß√£o idosa brasileira, n√£o apenas as pessoas entrevistadas. Isso inclui:
- **Pesos amostrais**: Para corrigir diferen√ßas na probabilidade de sele√ß√£o
- **Intervalos de confian√ßa**: Para mostrar a precis√£o das nossas estimativas
- **Bootstrap**: Para validar a robustez dos resultados

---

*Este notebook foi desenvolvido para ser acess√≠vel a gestores p√∫blicos, profissionais de sa√∫de, pesquisadores e qualquer pessoa interessada em melhorar a qualidade de vida dos idosos brasileiros.*

In [1]:
import pandas as pd

df = pd.read_csv("data/processed/pns_2019_pandas.csv")    
df.head(5)

Unnamed: 0,uf,estrato,upa,id_domicilio,num_pessoas_domicilio,area_metropolitana,mora_sozinho,sexo,idade,raca_cor,...,iadl_score,functional_raw,functional_score,dependencia_SUS,cobertura_influenza,autoav_z,multimorb_z,functional_z,health_score_raw,health_score
0,Rond√¥nia,1110011,110000016,1,1,1,C√¥njuge ou companheiro(a),Masculino,69.0,Parda,...,7,18,0.1,0,0,,-1.027069,0.187726,,
1,Rond√¥nia,1110011,110000016,1,1,1,Outro morador,Feminino,78.0,Parda,...,5,17,0.15,0,0,,-1.027069,0.52201,,
2,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Masculino,81.0,Parda,...,2,9,0.55,0,2,-0.344963,1.200084,3.196276,3.167954,0.744213
3,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Masculino,81.0,Parda,...,7,19,0.05,0,2,-0.344963,0.795147,-0.146557,-0.55999,0.305083
4,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Feminino,72.0,Parda,...,7,16,0.2,0,0,,-1.027069,0.856293,,


# An√°lise Avan√ßada do √çndice de Envelhecimento Ativo (AAI) - PNS 2019

Este notebook realiza uma an√°lise completa dos dados da Pesquisa Nacional de Sa√∫de (PNS 2019) para construir e validar o √çndice de Envelhecimento Ativo (AAI) no Brasil. 

**Objetivos principais:**
- Construir um √≠ndice multidimensional de envelhecimento ativo
- Identificar munic√≠pios priorit√°rios para interven√ß√µes
- Analisar desigualdades por subgrupos populacionais
- Desenvolver modelos preditivos de vulnerabilidade

**Metodologia:**
- An√°lise survey-aware com pesos amostrais
- Intervalos de confian√ßa via bootstrap
- Agrega√ß√£o municipal com controle de qualidade
- Modelagem preditiva com valida√ß√£o cruzada

**Outputs esperados:**
- Scores municipais com intervalos de confian√ßa
- Lista de munic√≠pios priorit√°rios
- Perfis de envelhecimento via clustering
- Drivers de vulnerabilidade identificados
- Policy brief automatizado
- Visualiza√ß√µes e datasets processados

In [2]:
print("Colunas dispon√≠veis no df:")
print(df.columns.tolist())

Colunas dispon√≠veis no df:
['uf', 'estrato', 'upa', 'id_domicilio', 'num_pessoas_domicilio', 'area_metropolitana', 'mora_sozinho', 'sexo', 'idade', 'raca_cor', 'situacao_ocupacional', 'anos_estudo', 'renda_percapita', 'possui_plano_saude', 'consulta_12m', 'internacoes_12m', 'atendimento_sus', 'dificuldade_alimentar', 'dificuldade_banho', 'dificuldade_vestir', 'ajuda_adl', 'dificuldade_compras', 'dificuldade_medico', 'ajuda_iadl', 'queda_12m', 'usa_internet', 'usa_celular', 'depressao_diag', 'vacina_influenza', 'autoavaliacao_saude', 'peso_real', 'altura', 'atividade_fisica', 'fumante_atual', 'hipertensao', 'diabetes', 'doenca_cardiaca', 'avc', 'doenca_respiratoria', 'cancer', 'num_medicamentos', 'id_individuo', 'area_urbana', 'peso_amostral', 'regiao', 'imc', 'multimorbidity_count', 'multimorb_cat', 'adl_score', 'iadl_score', 'functional_raw', 'functional_score', 'dependencia_SUS', 'cobertura_influenza', 'autoav_z', 'multimorb_z', 'functional_z', 'health_score_raw', 'health_score']


In [3]:
# quero ver todas as colunas sem supressao visual
pd.set_option('display.max_columns', None)
df.head(5)

Unnamed: 0,uf,estrato,upa,id_domicilio,num_pessoas_domicilio,area_metropolitana,mora_sozinho,sexo,idade,raca_cor,situacao_ocupacional,anos_estudo,renda_percapita,possui_plano_saude,consulta_12m,internacoes_12m,atendimento_sus,dificuldade_alimentar,dificuldade_banho,dificuldade_vestir,ajuda_adl,dificuldade_compras,dificuldade_medico,ajuda_iadl,queda_12m,usa_internet,usa_celular,depressao_diag,vacina_influenza,autoavaliacao_saude,peso_real,altura,atividade_fisica,fumante_atual,hipertensao,diabetes,doenca_cardiaca,avc,doenca_respiratoria,cancer,num_medicamentos,id_individuo,area_urbana,peso_amostral,regiao,imc,multimorbidity_count,multimorb_cat,adl_score,iadl_score,functional_raw,functional_score,dependencia_SUS,cobertura_influenza,autoav_z,multimorb_z,functional_z,health_score_raw,health_score
0,Rond√¥nia,1110011,110000016,1,1,1,C√¥njuge ou companheiro(a),Masculino,69.0,Parda,Ocupado,6.0,1200.0,N√£o,N√£o se aplica,1,N√£o,N√£o consegue de modo algum,N√£o consegue de modo algum,Muita dificuldade,N√£o,N√£o consegue de modo algum,Muita dificuldade,N√£o,N√£o,N√£o,N√£o,N√£o sabe,N√£o sabe,,,,N√£o sabe,N√£o,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,2.0,85.589085,,,,149.253731,0,0,11,7,18,0.1,0,0,,-1.027069,0.187726,,
1,Rond√¥nia,1110011,110000016,1,1,1,Outro morador,Feminino,78.0,Parda,N√£o aplic√°vel,6.0,1200.0,N√£o,N√£o se aplica,1,N√£o,N√£o consegue de modo algum,N√£o consegue de modo algum,N√£o consegue de modo algum,N√£o,N√£o consegue de modo algum,Nenhuma dificuldade,Sim,Sim,N√£o,N√£o,N√£o sabe,N√£o sabe,,,,N√£o sabe,N√£o,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,2.0,85.589085,,,,149.253731,0,0,12,5,17,0.15,0,0,,-1.027069,0.52201,,
2,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Masculino,81.0,Parda,N√£o aplic√°vel,5.0,1200.0,N√£o,N√£o sabe,1,N√£o,Nenhuma dificuldade,Muita dificuldade,Muita dificuldade,Sim,Nenhuma dificuldade,Nenhuma dificuldade,Sim,Sim,Sim,N√£o,N√£o sabe,N√£o,Muito boa,81.0,0.81,N√£o,"N√£o, mas j√° fumou",Sim,N√£o,N√£o,N√£o sabe,N√£o,N√£o sabe,2.0,85.589085,0.0,117.758255,Norte,123.45679,11,3+,7,2,9,0.55,0,2,-0.344963,1.200084,3.196276,3.167954,0.744213
3,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Masculino,81.0,Parda,Desocupado,5.0,1200.0,N√£o,N√£o se aplica,1,N√£o,N√£o consegue de modo algum,N√£o consegue de modo algum,N√£o consegue de modo algum,,N√£o consegue de modo algum,Muita dificuldade,N√£o,N√£o,Sim,N√£o,N√£o sabe,N√£o,Muito boa,75.0,0.75,N√£o,"N√£o, mas j√° fumou",Sim,Sim,N√£o,N√£o sabe,N√£o,N√£o sabe,2.0,85.589085,0.0,117.758255,Norte,133.333333,9,3+,12,7,19,0.05,0,2,-0.344963,0.795147,-0.146557,-0.55999,0.305083
4,Rond√¥nia,1110011,110000016,1,1,1,Pessoa de refer√™ncia,Feminino,72.0,Parda,Fora da for√ßa de trabalho,6.0,1200.0,N√£o,N√£o se aplica,1,N√£o,Muita dificuldade,Muita dificuldade,Muita dificuldade,N√£o,N√£o consegue de modo algum,Muita dificuldade,Sim,N√£o,N√£o,N√£o,N√£o sabe,N√£o sabe,,,,N√£o sabe,N√£o,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,N√£o sabe,2.0,85.589085,,,,149.253731,0,0,9,7,16,0.2,0,0,,-1.027069,0.856293,,


In [4]:
# ===============================================================================
# AN√ÅLISE AVAN√áADA DO √çNDICE DE ENVELHECIMENTO ATIVO (AAI)
# PNS 2019 - Vers√£o Corrigida e Metodologicamente Robusta
# ===============================================================================
# Autor: An√°lise Senior - Metodologia Survey-Aware
# Data: Outubro 2024
# Objetivo: AAI municipal com infer√™ncia v√°lida e interven√ß√µes acion√°veis
# ===============================================================================
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.metrics import accuracy_score, roc_auc_score, f1_score, confusion_matrix
from sklearn.impute import SimpleImputer
import warnings
warnings.filterwarnings('ignore')

# Pacotes opcionais
try:
    import geopandas as gpd
    from esda.moran import Moran, Moran_Local
    import libpysal
    SPATIAL_AVAILABLE = True
except:
    SPATIAL_AVAILABLE = False
    print(" Pacotes espaciais n√£o dispon√≠veis (instale: geopandas, esda, libpysal)")

try:
    import shap
    SHAP_AVAILABLE = True
except:
    SHAP_AVAILABLE = False
    print(" SHAP n√£o dispon√≠vel (instale: shap)")

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 120)
plt.style.use('seaborn-v0_8-whitegrid')

print("="*80)
print("BIBLIOTECAS CARREGADAS COM SUCESSO")
print("="*80)

BIBLIOTECAS CARREGADAS COM SUCESSO


In [5]:
# ===============================================================================
# SE√á√ÉO 1: CONFIGURA√á√ÉO E CARREGAMENTO
# ===============================================================================

# üîß AJUSTE OS CAMINHOS AQUI
DATA_PATH = "data/processed/pns_2019_pandas.csv"
SHAPEFILE_PATH = "data/processed/BR_municipios_2019.shp"
DATASUS_PATH = "data/processed/datasus_facilities.csv"
OUTPUT_DIR = Path("./outputs_aai")
OUTPUT_DIR.mkdir(exist_ok=True)

# Configura√ß√µes metodol√≥gicas
MIN_N_MUNICIPAL = 30  # M√≠nimo de observa√ß√µes para estimativas municipais confi√°veis
N_BOOTSTRAP = 500     # Itera√ß√µes para CIs
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

print(f"\nCarregando dados de: {DATA_PATH}")
try:
    df = pd.read_csv(DATA_PATH, low_memory=False)
    print(f"Dataset carregado: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")
except FileNotFoundError:
    print("Erro: Arquivo n√£o encontrado. Ajuste DATA_PATH")
    raise


Carregando dados de: data/processed/pns_2019_pandas.csv
Dataset carregado: 43,554 linhas √ó 59 colunas
Dataset carregado: 43,554 linhas √ó 59 colunas


In [6]:
# ===============================================================================
# SE√á√ÉO 2: PADRONIZA√á√ÉO DE VARI√ÅVEIS CR√çTICAS
# ===============================================================================

print("\n" + "="*80)
print(" PADRONIZA√á√ÉO DE VARI√ÅVEIS")
print("="*80)

for col_name in ['peso', 'peso_amostral', 'peso_exp', 'weight']:
    if col_name in df.columns:
        WEIGHT_COL = col_name
        print(f"Coluna de peso identificada: '{WEIGHT_COL}'")
        break

if WEIGHT_COL is None:
    raise SystemExit("Erro critico: Coluna de peso n√£o encontrada. Estimativas n√£o-ponderadas s√£o invalidas.")

# Validar vari√°veis essenciais
essential_vars = {
    'idade': 'Idade do indiv√≠duo',
    'codmun': 'C√≥digo do munic√≠pio',
    'uf': 'Unidade Federativa',
    'estrato': 'Estrato amostral'
}

print("\nValida√ß√£o de vari√°veis essenciais:")
missing_essentials = []
for var, desc in essential_vars.items():
    if var in df.columns:
        print(f"  ‚úì {var:12s} - {desc}")
    else:
        print(f"  ‚úó {var:12s} - {desc} [FALTANDO]")
        missing_essentials.append(var)

if missing_essentials:
    print(f"\nAten√ß√£o: Vari√°veis ausentes podem limitar an√°lises: {missing_essentials}")


 PADRONIZA√á√ÉO DE VARI√ÅVEIS
Coluna de peso identificada: 'peso_amostral'

Valida√ß√£o de vari√°veis essenciais:
  ‚úì idade        - Idade do indiv√≠duo
  ‚úó codmun       - C√≥digo do munic√≠pio [FALTANDO]
  ‚úì uf           - Unidade Federativa
  ‚úì estrato      - Estrato amostral

Aten√ß√£o: Vari√°veis ausentes podem limitar an√°lises: ['codmun']


In [7]:
# Derivar codmun se n√£o existir
if 'codmun' not in df.columns:
    if 'upa' in df.columns:
        df['codmun'] = df['upa'].astype(str).str[:6].astype(int)
        print(" Coluna 'codmun' derivada de 'upa'")
    else:
        raise SystemExit(" ERRO: N√£o √© poss√≠vel derivar 'codmun'. Coluna 'upa' n√£o encontrada.")

 Coluna 'codmun' derivada de 'upa'


In [8]:
# ===============================================================================
# SE√á√ÉO 3: FILTROS E PREPARA√á√ÉO
# ===============================================================================

print("\n" + "="*80)
print(" APLICANDO FILTROS")
print("="*80)

n_original = len(df)
print(f"Registros originais: {n_original:,}")

# Filtro 60+
if 'idade' in df.columns:
    df = df[df['idade'] >= 60].copy()
    print(f"Apos filtro 60+: {len(df):,} registros ({len(df)/n_original*100:.1f}%)")
else:
    raise SystemExit("Erro: Coluna 'idade' n√£o encontrada")

# Verificar pesos v√°lidos
invalid_weights = df[WEIGHT_COL].isnull().sum()
if invalid_weights > 0:
    print(f"Removendo {invalid_weights} registros com peso missing")
    df = df[df[WEIGHT_COL].notna()].copy()

# Criar faixa et√°ria
df['faixa_etaria'] = pd.cut(df['idade'], 
                             bins=[60, 70, 80, 120], 
                             labels=['60-69', '70-79', '80+'],
                             include_lowest=True)

print(f"\nDistribui√ß√£o et√°ria (ponderada):")
for age_group in ['60-69', '70-79', '80+']:
    pop = df[df['faixa_etaria'] == age_group][WEIGHT_COL].sum()
    pct = pop / df[WEIGHT_COL].sum() * 100
    print(f"  {age_group}: {pop:,.0f} ({pct:.1f}%)")


 APLICANDO FILTROS
Registros originais: 43,554
Apos filtro 60+: 43,554 registros (100.0%)
Removendo 20826 registros com peso missing

Distribui√ß√£o et√°ria (ponderada):
  60-69: 20,778,673 (60.4%)
  70-79: 9,720,855 (28.3%)
  80+: 3,899,325 (11.3%)


In [9]:
# ===============================================================================
# SE√á√ÉO 4: FUN√á√ïES PONDERADAS COM BOOTSTRAP
# ===============================================================================

print("\n" + "="*80)
print(" DEFININDO FUN√á√ïES ESTAT√çSTICAS SURVEY-AWARE")
print("="*80)

def weighted_mean(data, col, weight_col=WEIGHT_COL):
    """M√©dia ponderada com tratamento de missing"""
    valid = data[[col, weight_col]].dropna()
    if len(valid) == 0:
        return np.nan
    return (valid[col] * valid[weight_col]).sum() / valid[weight_col].sum()

def weighted_std(data, col, weight_col=WEIGHT_COL):
    """Desvio padr√£o ponderado"""
    valid = data[[col, weight_col]].dropna()
    if len(valid) == 0:
        return np.nan
    mean = weighted_mean(data, col, weight_col)
    variance = ((valid[col] - mean)**2 * valid[weight_col]).sum() / valid[weight_col].sum()
    return np.sqrt(variance)

def weighted_quantile(data, col, q, weight_col=WEIGHT_COL):
    """Quantil ponderado"""
    valid = data[[col, weight_col]].dropna().sort_values(col)
    if len(valid) == 0:
        return np.nan
    cumsum = valid[weight_col].cumsum()
    cutoff = valid[weight_col].sum() * q
    return valid[col].iloc[(cumsum >= cutoff).argmax()]

def weighted_mean_bootstrap_ci(data, col, weight_col=WEIGHT_COL, n_boot=N_BOOTSTRAP, ci=95):
    """
    CORRE√á√ÉO CR√çTICA: Bootstrap para intervalos de confian√ßa
    Respeita estrutura de pesos amostrais
    """
    valid = data[[col, weight_col]].dropna().reset_index(drop=True)
    if len(valid) < 10:
        return np.nan, np.nan, np.nan
    
    estimates = []
    for _ in range(n_boot):
        idx = np.random.choice(len(valid), size=len(valid), replace=True)
        boot_data = valid.iloc[idx]
        boot_mean = (boot_data[col] * boot_data[weight_col]).sum() / boot_data[weight_col].sum()
        estimates.append(boot_mean)
    
    point_est = weighted_mean(data, col, weight_col)
    lower = np.percentile(estimates, (100-ci)/2)
    upper = np.percentile(estimates, 100-(100-ci)/2)
    
    return point_est, lower, upper

print("Fun√ß√µes definidas com bootstrap para CIs")


 DEFININDO FUN√á√ïES ESTAT√çSTICAS SURVEY-AWARE
Fun√ß√µes definidas com bootstrap para CIs


In [10]:
# ===============================================================================
# SE√á√ÉO 5: AN√ÅLISE DE MISSINGNESS
# ===============================================================================

print("\n" + "="*80)
print(" AN√ÅLISE DE DADOS FALTANTES")
print("="*80)

# Identificar dom√≠nios dispon√≠veis
ALL_DOMAINS = ['health_score', 'functional_score', 'participation_score', 
               'econ_score', 'access_score']

print("\nDisponibilidade de dom√≠nios:")
available_domains = []
for domain in ALL_DOMAINS:
    if domain in df.columns:
        missing_pct = df[domain].isnull().mean() * 100
        print(f"  ‚úì {domain:25s} - {missing_pct:.1f}% missing")
        available_domains.append(domain)
    else:
        print(f"  ‚úó {domain:25s} - N√ÉO DISPON√çVEL")

if len(available_domains) == 0:
    raise SystemExit("Erro critico: Nenhum dom√≠nio encontrado. Verifique nomes das colunas.")

print(f"\nTotal de dom√≠nios dispon√≠veis: {len(available_domains)}/{len(ALL_DOMAINS)}")

# Missing por faixa et√°ria (detectar vi√©s)
key_vars = ['renda', 'anos_estudo', 'uso_internet', 'plano']
print("\nPadr√£o de missing por idade (potencial vi√©s):")

missing_by_age = []
for var in key_vars:
    if var in df.columns:
        for age_group in ['60-69', '70-79', '80+']:
            subset = df[df['faixa_etaria'] == age_group]
            miss_pct = subset[var].isnull().mean() * 100
            missing_by_age.append({
                'Vari√°vel': var,
                'Faixa': age_group,
                'Missing %': f"{miss_pct:.1f}%"
            })

if missing_by_age:
    miss_df = pd.DataFrame(missing_by_age).pivot(index='Vari√°vel', 
                                                  columns='Faixa', 
                                                  values='Missing %')
    print(miss_df)

# ===============================================================================
# CONSTRU√á√ÉO DOS SCORES FALTANTES
# ===============================================================================

print("\n" + "="*80)
print("CONSTRU√á√ÉO DOS SCORES FALTANTES")
print("="*80)

# Fun√ß√£o para normalizar vari√°veis (0-100)
def normalize_score(series, reverse=False):
    """Normaliza s√©rie para escala 0-100"""
    if reverse:
        series = -series
    min_val = series.min()
    max_val = series.max()
    if max_val == min_val:
        return pd.Series([50] * len(series), index=series.index)
    normalized = (series - min_val) / (max_val - min_val) * 100
    return normalized

# 1. PARTICIPATION_SCORE (acesso √† internet + celular)
print("\nConstruindo participation_score...")
if 'participation_score' not in df.columns:
    participation_vars = []
    
    # Internet
    if 'usa_internet' in df.columns:
        internet_score = df['usa_internet'].map({'Sim': 1, 'N√£o': 0}).fillna(0) * 100
        participation_vars.append(internet_score)
        print("   ‚úì Internet access inclu√≠do")
    
    # Celular
    if 'usa_celular' in df.columns:
        celular_score = df['usa_celular'].map({'Sim': 1, 'N√£o': 0}).fillna(0) * 100
        participation_vars.append(celular_score)
        print("   ‚úì Celular access inclu√≠do")
    
    if participation_vars:
        df['participation_score'] = pd.concat(participation_vars, axis=1).mean(axis=1)
        print(f"   ‚Üí participation_score criado (m√©dia de {len(participation_vars)} indicadores)")
    else:
        print("    Nenhuma vari√°vel de participa√ß√£o dispon√≠vel")
else:
    print("   ‚úì participation_score j√° existe")

# 2. ECON_SCORE (educa√ß√£o + renda)
print("\nConstruindo econ_score...")
if 'econ_score' not in df.columns:
    econ_vars = []
    
    # Educa√ß√£o
    if 'anos_estudo' in df.columns:
        educ_score = normalize_score(df['anos_estudo'].fillna(df['anos_estudo'].median()))
        econ_vars.append(educ_score)
        print("   ‚úì Educa√ß√£o inclu√≠da")
    
    # Renda
    if 'renda' in df.columns:
        renda_score = normalize_score(df['renda'].fillna(df['renda'].median()))
        econ_vars.append(renda_score)
        print("   ‚úì Renda inclu√≠da")
    
    if econ_vars:
        df['econ_score'] = pd.concat(econ_vars, axis=1).mean(axis=1)
        print(f"   ‚Üí econ_score criado (m√©dia de {len(econ_vars)} indicadores)")
    else:
        print("    Nenhuma vari√°vel econ√¥mica dispon√≠vel")
else:
    print("   ‚úì econ_score j√° existe")

# 3. ACCESS_SCORE (acesso a servi√ßos de sa√∫de)
print("\nConstruindo access_score...")
if 'access_score' not in df.columns:
    access_vars = []
    
    # Plano de sa√∫de
    if 'possui_plano_saude' in df.columns:
        plano_score = df['possui_plano_saude'].map({'Sim': 1, 'N√£o': 0}).fillna(0) * 100
        access_vars.append(plano_score)
        print("   ‚úì Plano de sa√∫de inclu√≠do")
    
    # Consulta m√©dica recente
    if 'consulta_12m' in df.columns:
        consulta_score = df['consulta_12m'].map({'Sim': 1, 'N√£o': 0}).fillna(0) * 100
        access_vars.append(consulta_score)
        print("   ‚úì Consulta m√©dica inclu√≠da")
    
    if access_vars:
        df['access_score'] = pd.concat(access_vars, axis=1).mean(axis=1)
        print(f"   ‚Üí access_score criado (m√©dia de {len(access_vars)} indicadores)")
    else:
        print("    Nenhuma vari√°vel de acesso dispon√≠vel")
else:
    print("   ‚úì access_score j√° existe")

# Valida√ß√£o dos scores criados
print("\nValida√ß√£o dos scores criados:")
for score in ['participation_score', 'econ_score', 'access_score']:
    if score in df.columns:
        mean_val = df[score].mean()
        missing_pct = df[score].isnull().mean() * 100
        print(f"   ‚úì {score:20s}: m√©dia={mean_val:.1f}, missing={missing_pct:.1f}%")
    else:
        print(f"   ‚úó {score:20s}: n√£o criado")

print("\nConstru√ß√£o de scores conclu√≠da!")


 AN√ÅLISE DE DADOS FALTANTES

Disponibilidade de dom√≠nios:
  ‚úì health_score              - 0.0% missing
  ‚úì functional_score          - 0.0% missing
  ‚úó participation_score       - N√ÉO DISPON√çVEL
  ‚úó econ_score                - N√ÉO DISPON√çVEL
  ‚úó access_score              - N√ÉO DISPON√çVEL

Total de dom√≠nios dispon√≠veis: 2/5

Padr√£o de missing por idade (potencial vi√©s):
Faixa       60-69 70-79   80+
Vari√°vel                     
anos_estudo  0.0%  0.0%  0.0%

CONSTRU√á√ÉO DOS SCORES FALTANTES

Construindo participation_score...
   ‚úì Internet access inclu√≠do
   ‚úì Celular access inclu√≠do
   ‚Üí participation_score criado (m√©dia de 2 indicadores)

Construindo econ_score...
   ‚úì Educa√ß√£o inclu√≠da
   ‚Üí econ_score criado (m√©dia de 1 indicadores)

Construindo access_score...
   ‚úì Plano de sa√∫de inclu√≠do
   ‚úì Consulta m√©dica inclu√≠da
   ‚Üí access_score criado (m√©dia de 2 indicadores)

Valida√ß√£o dos scores criados:
   ‚úì participation_score : m

In [11]:
# ===============================================================================
# SE√á√ÉO 6: CONSTRU√á√ÉO DO AAI_TOTAL (CORRIGIDA)
# ===============================================================================

print("\n" + "="*80)
print(" CONSTRU√á√ÉO DO AAI_TOTAL")
print("="*80)

# CORRE√á√ÉO CR√çTICA 2: AAI usando dom√≠nios dispon√≠veis
df['AAI_total'] = df[available_domains].mean(axis=1)
print(f"AAI_total criado usando {len(available_domains)} dom√≠nios:")
for dom in available_domains:
    print(f"   ‚Ä¢ {dom}")

# Estat√≠sticas descritivas do AAI
print("\nEstat√≠sticas do AAI_TOTAL (ponderadas):")
aai_mean, aai_lower, aai_upper = weighted_mean_bootstrap_ci(df, 'AAI_total')
print(f"  M√©dia: {aai_mean:.2f} [95% CI: {aai_lower:.2f} - {aai_upper:.2f}]")
print(f"  DP:    {weighted_std(df, 'AAI_total'):.2f}")
print(f"  P25:   {weighted_quantile(df, 'AAI_total', 0.25):.2f}")
print(f"  P50:   {weighted_quantile(df, 'AAI_total', 0.50):.2f}")
print(f"  P75:   {weighted_quantile(df, 'AAI_total', 0.75):.2f}")


 CONSTRU√á√ÉO DO AAI_TOTAL
AAI_total criado usando 2 dom√≠nios:
   ‚Ä¢ health_score
   ‚Ä¢ functional_score

Estat√≠sticas do AAI_TOTAL (ponderadas):
  M√©dia: 0.18 [95% CI: 0.17 - 0.18]
  DP:    0.13
  P25:   0.12
  P50:   0.13
  P75:   0.17
  M√©dia: 0.18 [95% CI: 0.17 - 0.18]
  DP:    0.13
  P25:   0.12
  P50:   0.13
  P75:   0.17


In [12]:
# ===============================================================================
# SE√á√ÉO 7: AGREGA√á√ÉO MUNICIPAL (COM CONTROLE DE QUALIDADE)
# ===============================================================================

print("\n" + "="*80)
print(" AGREGA√á√ÉO MUNICIPAL")
print("="*80)

def aggregate_municipal_robust(group):
    """Agrega√ß√£o municipal com CIs e flags de qualidade"""
    results = {
        'n_obs': len(group),
        'pop_weight_sum': group[WEIGHT_COL].sum()
    }
    
    # Calcular AAI com CI
    if 'AAI_total' in group.columns:
        aai_mean, aai_lower, aai_upper = weighted_mean_bootstrap_ci(group, 'AAI_total')
        results['AAI_total'] = aai_mean
        results['AAI_ci_lower'] = aai_lower
        results['AAI_ci_upper'] = aai_upper
        results['AAI_ci_width'] = aai_upper - aai_lower
    
    # Dom√≠nios individuais
    for domain in available_domains:
        if domain in group.columns:
            results[domain] = weighted_mean(group, domain)
    
    # Flags de qualidade
    results['reliable'] = len(group) >= MIN_N_MUNICIPAL
    
    return pd.Series(results)

print(f"Agregando por munic√≠pio (m√≠nimo n={MIN_N_MUNICIPAL})...")
municipal_scores = df.groupby('codmun').apply(aggregate_municipal_robust).reset_index()

# Adicionar UF
if 'uf' in df.columns:
    mun_uf = df.groupby('codmun')['uf'].first().reset_index()
    municipal_scores = municipal_scores.merge(mun_uf, on='codmun', how='left')

# Estat√≠sticas de qualidade
n_total_mun = len(municipal_scores)
n_reliable = municipal_scores['reliable'].sum()
print(f"\n{n_total_mun} munic√≠pios processados")
print(f"   ‚Ä¢ {n_reliable} munic√≠pios com n‚â•{MIN_N_MUNICIPAL} (confi√°veis)")
print(f"   ‚Ä¢ {n_total_mun - n_reliable} munic√≠pios com n<{MIN_N_MUNICIPAL} (requerem SAE)")

# Salvar
output_path = OUTPUT_DIR / "municipal_scores_with_ci.csv"
municipal_scores.to_csv(output_path, index=False)
print(f"\nSalvo: {output_path}")


 AGREGA√á√ÉO MUNICIPAL
Agregando por munic√≠pio (m√≠nimo n=30)...

2794 munic√≠pios processados
   ‚Ä¢ 46 munic√≠pios com n‚â•30 (confi√°veis)
   ‚Ä¢ 2748 munic√≠pios com n<30 (requerem SAE)

Salvo: outputs_aai\municipal_scores_with_ci.csv

2794 munic√≠pios processados
   ‚Ä¢ 46 munic√≠pios com n‚â•30 (confi√°veis)
   ‚Ä¢ 2748 munic√≠pios com n<30 (requerem SAE)

Salvo: outputs_aai\municipal_scores_with_ci.csv


## Resultados Principais

Nas se√ß√µes seguintes, apresentamos os principais achados da an√°lise:

1. **Prepara√ß√£o dos Dados**: Limpeza e valida√ß√£o dos dados da PNS 2019
2. **Constru√ß√£o do AAI**: √çndice nacional e estat√≠sticas descritivas
3. **Agrega√ß√£o Municipal**: Scores por munic√≠pio com controle de qualidade
4. **Identifica√ß√£o de Hotspots**: Munic√≠pios priorit√°rios para interven√ß√£o
5. **An√°lise de Desigualdades**: Compara√ß√£o entre subgrupos demogr√°ficos
6. **Perfis de Envelhecimento**: Clustering para identifica√ß√£o de padr√µes
7. **Modelagem Preditiva**: Drivers de vulnerabilidade identificados
8. **An√°lise de Media√ß√£o**: Efeitos indiretos sobre o envelhecimento ativo
9. **An√°lise Espacial**: Padr√µes geogr√°ficos e autocorrela√ß√£o
10. **Policy Brief**: Recomenda√ß√µes para gestores p√∫blicos

Todos os resultados consideram o desenho amostral complexo da PNS, utilizando pesos amostrais e intervalos de confian√ßa.

## 1. Preparando o Terreno: Organizando Nossos Dados

Antes de qualquer an√°lise, precisamos garantir que nossos dados est√£o limpos e organizados. Nesta etapa, estamos fazendo uma 'faxina':

* **Filtramos os dados** para focar apenas nas pessoas com 60 anos ou mais, que s√£o o nosso p√∫blico de interesse.
* **Verificamos informa√ß√µes essenciais**, como o munic√≠pio de resid√™ncia e a idade de cada pessoa.
* **Validamos os 'pesos amostrais'**: um fator de corre√ß√£o crucial que nos permite dizer que os resultados desta pesquisa representam a popula√ß√£o idosa de todo o Brasil, e n√£o apenas as pessoas que foram entrevistadas.

Pense nos pesos amostrais como "multiplicadores": algumas pessoas representam milhares de outras com caracter√≠sticas semelhantes. Sem eles, nossos resultados seriam enviesados.

## 2. Construindo o Term√¥metro: O √çndice de Envelhecimento Ativo (AAI)

Para medir o 'envelhecimento ativo', n√£o podemos olhar para um √∫nico fator. Por isso, criamos um √≠ndice, o AAI, que funciona como uma nota final composta por v√°rias 'mat√©rias': sa√∫de, participa√ß√£o social, seguran√ßa econ√¥mica, etc.

Nesta se√ß√£o, n√≥s:
1. **Calculamos as notas** para cada uma dessas 'mat√©rias' (os dom√≠nios).
2. **Combinamos tudo** para criar a nota final: o **AAI_total**.
3. **Usamos uma t√©cnica estat√≠stica (bootstrap)** para garantir que nossas m√©dias n√£o sejam apenas um n√∫mero, mas uma 'faixa de valores prov√°veis' (o intervalo de confian√ßa), o que nos d√° muito mais seguran√ßa nos resultados.

O resultado √© um panorama nacional do envelhecimento ativo, com indicadores robustos que podem ser comparados entre regi√µes e grupos populacionais.

## 3. Do Indiv√≠duo para a Cidade: Calculando a Nota de Cada Munic√≠pio

Agora que cada idoso tem sua 'nota' de envelhecimento ativo, o pr√≥ximo passo √© calcular a m√©dia para cada munic√≠pio do Brasil. Isso nos permite comparar as cidades e ver onde a qualidade de vida na terceira idade √© maior ou menor.

**Ponto de aten√ß√£o:** Para que a nota de um munic√≠pio seja confi√°vel, exigimos um n√∫mero m√≠nimo de entrevistados naquela cidade. Cidades com poucos participantes s√£o sinalizadas, pois suas m√©dias podem n√£o ser t√£o precisas.

O resultado √© um mapa municipal do envelhecimento ativo, fundamental para orientar onde investir recursos p√∫blicos.

## 4. Onde Devemos Focar? Identificando os Munic√≠pios Priorit√°rios

Com a nota de cada cidade em m√£os, podemos criar um ranking. Aqui, nosso objetivo √© responder a uma pergunta fundamental para a gest√£o p√∫blica: **"Quais munic√≠pios mais precisam de ajuda?"**

Para isso, filtramos apenas os munic√≠pios com dados confi√°veis e, em seguida, identificamos o grupo dos **20% com as piores notas** no √çndice de Envelhecimento Ativo (AAI).

Esta lista de "munic√≠pios priorit√°rios" √© um dos resultados mais importantes do nosso estudo, pois serve como um guia para direcionar recursos, programas sociais e pol√≠ticas de sa√∫de para as √°reas mais cr√≠ticas do pa√≠s.

## 5. H√° Diferen√ßas entre Grupos? Analisando Desigualdades

O envelhecimento ativo pode variar muito dependendo de caracter√≠sticas pessoais como sexo, ra√ßa, escolaridade ou local de resid√™ncia (urbano/rural).

Nesta se√ß√£o, comparamos as notas do AAI entre diferentes grupos demogr√°ficos para identificar desigualdades. Por exemplo:
- As mulheres idosas t√™m notas diferentes dos homens?
- H√° diferen√ßas por n√≠vel de escolaridade?
- Idosos em √°reas rurais enfrentam mais desafios?

Essas an√°lises s√£o cruciais para criar pol√≠ticas mais justas e direcionadas, garantindo que nenhum grupo seja deixado para tr√°s.

## 6. Existem 'Grupos' de Idosos? Criando Perfis de Envelhecimento

Ser√° que todos os idosos envelhecem da mesma forma? Provavelmente n√£o. Nesta se√ß√£o, usamos uma t√©cnica que funciona como um 'chap√©u seletor': ela agrupa os idosos em perfis distintos com base em suas caracter√≠sticas de sa√∫de, renda, educa√ß√£o e participa√ß√£o.

O resultado √© a identifica√ß√£o de, por exemplo, um grupo de 'idosos ativos e conectados' e outro de 'idosos fr√°geis e com dificuldades de acesso'. Entender esses perfis ajuda a criar a√ß√µes mais personalizadas e eficazes.

Usamos uma t√©cnica chamada 'clustering' que encontra padr√µes naturais nos dados, sem precisar dizer previamente quantos grupos queremos.

## 7. Quais Fatores Mais Influenciam? Descobrindo os Drivers de Vulnerabilidade

Por que alguns idosos t√™m uma nota de envelhecimento ativo t√£o baixa? Para responder a isso, constru√≠mos um modelo preditivo.

Pense nele como um detetive que analisa milhares de casos para descobrir quais 'pistas' (caracter√≠sticas como escolaridade, renda, acesso √† internet) est√£o mais fortemente ligadas √† vulnerabilidade. O resultado nos mostra os fatores mais importantes que, se melhorados, podem ter o maior impacto positivo na vida da popula√ß√£o idosa.

Usamos t√©cnicas avan√ßadas como Random Forest e SHAP para garantir que as descobertas sejam robustas e interpret√°veis.

## 8. H√° Efeitos Indiretos? An√°lise de Media√ß√£o

√Äs vezes, os fatores n√£o influenciam diretamente o envelhecimento ativo, mas sim indiretamente, atrav√©s de outros fatores intermedi√°rios.

Por exemplo: a renda pode afetar a participa√ß√£o social, que por sua vez afeta o envelhecimento ativo. Nesta se√ß√£o, investigamos esses 'efeitos em cascata' usando uma t√©cnica chamada an√°lise de media√ß√£o.

Isso nos ajuda a entender melhor como as interven√ß√µes funcionam: melhorar a renda pode ter benef√≠cios adicionais atrav√©s da participa√ß√£o social.

## 9. H√° Padr√µes Geogr√°ficos? An√°lise Espacial

Ser√° que munic√≠pios vizinhos t√™m notas de envelhecimento ativo semelhantes? Ou h√° padr√µes regionais que influenciam o envelhecimento?

Nesta se√ß√£o, usamos t√©cnicas de an√°lise espacial para investigar:
- **Autocorrela√ß√£o**: Se munic√≠pios pr√≥ximos tendem a ter notas parecidas
- **Clusters espaciais**: Grupos de munic√≠pios com caracter√≠sticas similares

Isso √© importante porque fatores como clima, cultura regional ou pol√≠ticas locais podem criar padr√µes geogr√°ficos que precisam ser considerados no planejamento.

## 10. Comunicando os Resultados: Policy Brief Automatizado

Agora que temos todos os insights, precisamos comunic√°-los de forma clara e acion√°vel. Nesta se√ß√£o, geramos automaticamente um documento executivo (policy brief) que resume:

- Os principais indicadores nacionais
- Os munic√≠pios priorit√°rios
- As desigualdades identificadas
- Os fatores de risco mais importantes
- Recomenda√ß√µes pr√°ticas para gestores p√∫blicos

Este documento √© projetado para ser lido rapidamente por tomadores de decis√£o, com linguagem clara e foco em a√ß√µes concretas.

## 11. Visualizando os Dados: Gr√°ficos e Mapas

Uma imagem vale mais que mil palavras. Nesta se√ß√£o, criamos visualiza√ß√µes que facilitam o entendimento dos dados:

- **Distribui√ß√µes dos dom√≠nios**: Como cada componente do AAI se comporta na popula√ß√£o
- **AAI por faixa et√°ria**: Como o envelhecimento ativo varia com a idade
- **Import√¢ncia dos fatores**: Quais caracter√≠sticas mais influenciam a vulnerabilidade

Esses gr√°ficos s√£o salvos automaticamente e podem ser usados em apresenta√ß√µes, relat√≥rios ou publica√ß√µes.

## 12. Verificando a Qualidade: Checklist de Valida√ß√£o

Antes de finalizar, precisamos garantir que nossa an√°lise est√° correta e completa. Nesta se√ß√£o, executamos um checklist autom√°tico que verifica:

- Se todos os filtros foram aplicados corretamente
- Se os pesos amostrais est√£o sendo usados
- Se os c√°lculos est√£o consistentes
- Se todos os arquivos de sa√≠da foram gerados

Isso garante que os resultados s√£o confi√°veis e reproduz√≠veis.

## 13. Conclus√µes e Recomenda√ß√µes: O Que Tudo Isso Significa?

Chegamos ao final da nossa jornada pelos dados. Nesta se√ß√£o, sintetizamos os principais insights e traduzimos em recomenda√ß√µes pr√°ticas:

- **O que aprendemos** sobre o envelhecimento ativo no Brasil
- **Quais s√£o as prioridades** para a√ß√£o governamental
- **Como os resultados podem orientar** pol√≠ticas p√∫blicas
- **Quais limita√ß√µes** devemos considerar

Este sum√°rio final √© escrito em linguagem acess√≠vel, focando no impacto social e nas oportunidades de melhoria.

## 14. Preparando para o Futuro: Exportando Datasets

Para que outros pesquisadores ou gestores possam continuar o trabalho, nesta se√ß√£o exportamos todos os datasets processados:

- **Dados individuais** com scores calculados e clusters identificados
- **Sum√°rio executivo** em Excel com m√∫ltiplas abas
- **Arquivos geoespaciais** para mapeamento

Isso garante que o conhecimento gerado possa ser reutilizado e expandido por outros projetos.

### O que conseguimos?

‚úÖ Dados limpos e validados da PNS 2019  
‚úÖ √çndice de Envelhecimento Ativo (AAI) constru√≠do com rigor estat√≠stico  
‚úÖ Panorama municipal com identifica√ß√£o de hotspots  
‚úÖ Perfis de idosos identificados  
‚úÖ Fatores de vulnerabilidade descobertos  
‚úÖ An√°lises espaciais e de media√ß√£o  
‚úÖ Policy brief automatizado  
‚úÖ Visualiza√ß√µes e datasets exportados  

### Pr√≥ximos passos sugeridos:

1. **Revisar os resultados** no policy brief gerado
2. **Explorar os mapas** para entender padr√µes regionais  
3. **Usar os datasets exportados** para an√°lises adicionais
4. **Compartilhar os insights** com stakeholders relevantes

Esta an√°lise serve como base s√≥lida para pol√≠ticas p√∫blicas mais informadas e eficazes para a popula√ß√£o idosa brasileira.

---

*Obrigado por acompanhar esta jornada pelos dados!*

In [13]:
# ===============================================================================
# SE√á√ÉO 4: IDENTIFICA√á√ÉO DE HOTSPOTS (CORRIGIDA)
# ===============================================================================

print("\n" + "="*80)
print("IDENTIFICA√á√ÉO DE MUNIC√çPIOS VULNER√ÅVEIS")
print("="*80)

# CORRE√á√ÉO CR√çTICA 3: Filtrar apenas munic√≠pios confi√°veis
mun_reliable = municipal_scores[municipal_scores['reliable'] == True].copy()
print(f"Analisando {len(mun_reliable)} munic√≠pios com dados confi√°veis...")

# Calcular percentil 20 (bottom 20%)
threshold_p20 = mun_reliable['AAI_total'].quantile(0.20)
worst_20pct = mun_reliable[mun_reliable['AAI_total'] <= threshold_p20].sort_values('AAI_total')

print(f"\nMunic√≠pios priorit√°rios (Bottom 20%)")
print(f"   Threshold AAI: {threshold_p20:.2f}")
print(f"   Total munic√≠pios: {len(worst_20pct)}")
print(f"   Popula√ß√£o afetada: {worst_20pct['pop_weight_sum'].sum():,.0f}")

# Top 20 piores
print("\n TOP 20 MUNIC√çPIOS MAIS VULNER√ÅVEIS:")
display_cols = ['codmun', 'uf', 'AAI_total', 'AAI_ci_lower', 'AAI_ci_upper', 
                'health_score', 'n_obs']
display_cols = [c for c in display_cols if c in worst_20pct.columns]
print(worst_20pct[display_cols].head(20).to_string(index=False))

# Salvar lista priorit√°ria
priority_path = OUTPUT_DIR / "priority_municipalities_bottom20.csv"
worst_20pct.to_csv(priority_path, index=False)
print(f"\n Lista priorit√°ria salva: {priority_path}")


IDENTIFICA√á√ÉO DE MUNIC√çPIOS VULNER√ÅVEIS
Analisando 46 munic√≠pios com dados confi√°veis...

Munic√≠pios priorit√°rios (Bottom 20%)
   Threshold AAI: 0.15
   Total munic√≠pios: 10
   Popula√ß√£o afetada: 135,259

 TOP 20 MUNIC√çPIOS MAIS VULNER√ÅVEIS:
 codmun             uf  AAI_total  AAI_ci_lower  AAI_ci_upper  health_score  n_obs
 160000          Amap√°   0.126557      0.102618      0.154344      0.223901     31
 280021        Sergipe   0.130634      0.116387      0.148204      0.240169     32
 120001           Acre   0.135348      0.117091      0.155835      0.246038     44
 140003        Roraima   0.136175      0.121368      0.152217      0.240602     38
 170026      Tocantins   0.136778      0.099226      0.184577      0.234800     34
 140006        Roraima   0.139188      0.125600      0.153537      0.259095     40
 320011 Esp√≠rito Santo   0.142082      0.126613      0.163515      0.266439     30
 170005      Tocantins   0.144686      0.115648      0.182890      0.253534   

In [14]:
# ===============================================================================
# SE√á√ÉO 5: DESIGUALDADES POR SUBGRUPO
# ===============================================================================

print("\n" + "="*80)
print("DESIGUALDADES POR SUBGRUPO")
print("="*80)

subgroup_vars = ['sexo', 'raca_cor', 'escolaridade', 'urbano_rural']

for var in subgroup_vars:
    if var in df.columns:
        print(f"\n {var.upper().replace('_', ' ')}:")
        
        subgroup_stats = []
        for category in df[var].dropna().unique():
            subset = df[df[var] == category]
            if len(subset) > 0:
                aai_mean = weighted_mean(subset, 'AAI_total')
                health_mean = weighted_mean(subset, 'health_score') if 'health_score' in df.columns else np.nan
                n_weighted = subset[WEIGHT_COL].sum()
                
                subgroup_stats.append({
                    'Categoria': category,
                    'AAI': f"{aai_mean:.2f}",
                    'Health': f"{health_mean:.2f}" if not np.isnan(health_mean) else "N/A",
                    'N (ponderado)': f"{n_weighted:,.0f}"
                })
        
        if subgroup_stats:
            print(pd.DataFrame(subgroup_stats).to_string(index=False))


DESIGUALDADES POR SUBGRUPO

 SEXO:
Categoria  AAI Health N (ponderado)
Masculino 0.16   0.28    14,901,688
 Feminino 0.19   0.30    19,497,165

 RACA COR:
Categoria  AAI Health N (ponderado)
    Parda 0.17   0.28    12,861,842
    Preta 0.18   0.29     3,535,497
   Branca 0.18   0.29    17,375,149
  Amarela 0.18   0.30       440,363
 Ind√≠gena 0.18   0.29       185,496
 Ignorado 0.12   0.24           507


In [15]:
# ===============================================================================
# SE√á√ÉO 6: CLUSTERING COM IMPUTA√á√ÉO (CORRIGIDO)
# ===============================================================================

print("\n" + "="*80)
print("PERFIS DE ENVELHECIMENTO (CLUSTERING)")
print("="*80)

cluster_features = ['health_score', 'functional_score', 'participation_score', 
                   'anos_estudo', 'renda', 'multimorbidity_count']
cluster_features = [f for f in cluster_features if f in df.columns]

if len(cluster_features) >= 3:
    print(f"Usando {len(cluster_features)} features: {cluster_features}")
    
    # CORRE√á√ÉO CR√çTICA 6: Imputa√ß√£o antes de clustering (sempre recriar)
    imputer = SimpleImputer(strategy='median')
    X_imputed = imputer.fit_transform(df[cluster_features])
    
    # Amostragem ponderada (simula pesos via replica√ß√£o)
    sample_size = min(20000, len(df))
    sample_idx = np.random.choice(len(df), size=sample_size, 
                                  p=df[WEIGHT_COL]/df[WEIGHT_COL].sum(), 
                                  replace=True)
    X_sample = X_imputed[sample_idx]
    
    # Padroniza√ß√£o
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X_sample)
    
    # K-means
    kmeans = KMeans(n_clusters=4, random_state=RANDOM_SEED, n_init=10)
    clusters = kmeans.fit_predict(X_scaled)
    
    # Atribuir clusters (via nearest centroid para dados completos)
    X_all_scaled = scaler.transform(X_imputed)
    df['cluster'] = kmeans.predict(X_all_scaled)
    
    print("\nPerfis de envelhecimento identificados:")
    for i in range(4):
        subset = df[df['cluster'] == i]
        pop = subset[WEIGHT_COL].sum()
        print(f"\nPerfil {i+1} (N={len(subset):,}, Pop={pop:,.0f}):")
        
        for feat in cluster_features:
            mean_val = weighted_mean(subset, feat)
            print(f"   ‚Ä¢ {feat:25s}: {mean_val:.2f}")
    
    # Salvar perfis
    profile_path = OUTPUT_DIR / "aging_profiles.csv"
    profile_summary = df.groupby('cluster').apply(
        lambda g: pd.Series({f: weighted_mean(g, f) for f in cluster_features})
    )
    profile_summary.to_csv(profile_path)
    print(f"\nPerfis salvos: {profile_path}")
else:
    print(f"‚ö†Ô∏è Clustering requer ‚â•3 features. Dispon√≠veis: {len(cluster_features)}")



PERFIS DE ENVELHECIMENTO (CLUSTERING)
Usando 5 features: ['health_score', 'functional_score', 'participation_score', 'anos_estudo', 'multimorbidity_count']

Perfis de envelhecimento identificados:

Perfis de envelhecimento identificados:


  File "c:\Users\gafeb\anaconda3\Lib\site-packages\joblib\externals\loky\backend\context.py", line 257, in _count_physical_cores
    cpu_info = subprocess.run(
               ^^^^^^^^^^^^^^^
  File "c:\Users\gafeb\anaconda3\Lib\subprocess.py", line 548, in run
    with Popen(*popenargs, **kwargs) as process:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\gafeb\anaconda3\Lib\subprocess.py", line 1026, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
  File "c:\Users\gafeb\anaconda3\Lib\subprocess.py", line 1538, in _execute_child
    hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^



Perfil 1 (N=14,202, Pop=20,660,562):
   ‚Ä¢ health_score             : 0.26
   ‚Ä¢ functional_score         : 0.03
   ‚Ä¢ participation_score      : 50.00
   ‚Ä¢ anos_estudo              : 5.44
   ‚Ä¢ multimorbidity_count     : 9.74

Perfil 2 (N=1,967, Pop=3,229,883):
   ‚Ä¢ health_score             : 0.61
   ‚Ä¢ functional_score         : 0.43
   ‚Ä¢ participation_score      : 50.00
   ‚Ä¢ anos_estudo              : 6.05
   ‚Ä¢ multimorbidity_count     : 10.13

Perfil 3 (N=5,918, Pop=9,515,302):
   ‚Ä¢ health_score             : 0.25
   ‚Ä¢ functional_score         : 0.01
   ‚Ä¢ participation_score      : 50.00
   ‚Ä¢ anos_estudo              : 10.84
   ‚Ä¢ multimorbidity_count     : 9.44

Perfil 4 (N=641, Pop=993,105):
   ‚Ä¢ health_score             : 0.25
   ‚Ä¢ functional_score         : 0.01
   ‚Ä¢ participation_score      : 100.00
   ‚Ä¢ anos_estudo              : 7.54
   ‚Ä¢ multimorbidity_count     : 9.72

Perfis salvos: outputs_aai\aging_profiles.csv


In [16]:
# ===============================================================================
# SE√á√ÉO 12: AN√ÅLISE ESPACIAL (SE DISPON√çVEL)
# ===============================================================================

print("\n" + "="*80)
print("AN√ÅLISE ESPACIAL")
print("="*80)

if SPATIAL_AVAILABLE and Path(SHAPEFILE_PATH).exists():
    try:
        print("Carregando shapefile...")
        gdf = gpd.read_file(SHAPEFILE_PATH)
        gdf = gdf.merge(municipal_scores, left_on='CD_MUN', right_on='codmun', how='left')
        gdf_clean = gdf[gdf['AAI_total'].notna() & gdf['reliable']].copy()
        print(f"Munic√≠pios com dados espaciais: {len(gdf_clean)}")
        w = libpysal.weights.Queen.from_dataframe(gdf_clean)
        w.transform = 'r'
        moran = Moran(gdf_clean['AAI_total'], w)
        print("Autocorrela√ß√£o espacial (Moran's I):")
        print(f"   Valor: {moran.I:.4f}")
        print(f"   p-valor: {moran.p_sim:.4f}")
        if moran.p_sim < 0.05:
            if moran.I > 0:
                print("   Autocorrela√ß√£o positiva significativa (clusters espaciais)")
            else:
                print("   Autocorrela√ß√£o negativa significativa (dispers√£o)")
        else:
            print("   Sem autocorrela√ß√£o espacial significativa")
        lisa = Moran_Local(gdf_clean['AAI_total'], w)
        gdf_clean['lisa_cluster'] = lisa.q
        lisa_labels = {1: 'HH (High-High)', 2: 'LH (Low-High)', 3: 'LL (Low-Low)', 4: 'HL (High-Low)'}
        gdf_clean['lisa_label'] = gdf_clean['lisa_cluster'].map(lisa_labels)
        print("Clusters espaciais (LISA):")
        for cluster_type, count in gdf_clean['lisa_label'].value_counts().items():
            print(f"   {cluster_type}: {count} munic√≠pios")
        geo_path = OUTPUT_DIR / "municipal_aai_spatial.geojson"
        gdf_clean.to_file(geo_path, driver='GeoJSON')
        print(f"Mapa salvo em: {geo_path}")
    except Exception as e:
        print(f"Erro na an√°lise espacial: {e}")
else:
    if not SPATIAL_AVAILABLE:
        print("Pacotes espaciais n√£o instalados.")
    else:
        print(f"Shapefile n√£o encontrado: {SHAPEFILE_PATH}")


AN√ÅLISE ESPACIAL
Carregando shapefile...
Erro na an√°lise espacial: You are trying to merge on object and int32 columns for key 'CD_MUN'. If you wish to proceed you should use pd.concat
Erro na an√°lise espacial: You are trying to merge on object and int32 columns for key 'CD_MUN'. If you wish to proceed you should use pd.concat


In [17]:
# ===============================================================================
# SE√á√ÉO 7: MODELAGEM PREDITIVA COM SHAP (CORRIGIDA)
# ===============================================================================

print("\n" + "="*80)
print("MODELAGEM PREDITIVA: DRIVERS DE VULNERABILIDADE")
print("="*80)

# CORRE√á√ÉO CR√çTICA 7: Features preditoras corrigidas (sem data leakage)
predictor_features = [
    'idade', 'anos_estudo', 'renda_percapita', 'num_medicamentos',
    'consulta_medico_12m', 'plano_saude', 'celular', 'internet',
    'atividade_fisica', 'fumante', 'consumo_alcool'
]

# Filtrar features dispon√≠veis
predictor_features = [f for f in predictor_features if f in df.columns]

if len(predictor_features) >= 5 and 'health_score' in df.columns:
    print(f"Usando {len(predictor_features)} features preditoras: {predictor_features}")
    
    # Preparar dados para modelagem
    model_data = df[predictor_features + ['AAI_total', WEIGHT_COL]].dropna()
    
    if len(model_data) > 1000:  # Suficiente para modelagem
        print(f"Dados preparados: {len(model_data)} observa√ß√µes v√°lidas")
        
        # Target: vulnerabilidade (baixo AAI)
        threshold_vuln = model_data['AAI_total'].quantile(0.2)  # P20
        model_data['vulnerable'] = (model_data['AAI_total'] <= threshold_vuln).astype(int)
        
        # Features e target
        X = model_data[predictor_features]
        y = model_data['vulnerable']
        w = model_data[WEIGHT_COL]
        
        # Codificar vari√°veis categ√≥ricas se necess√°rio
        X_encoded = X.copy()
        for col in X_encoded.columns:
            if X_encoded[col].dtype == 'object':
                # Converter Sim/N√£o para 1/0
                if X_encoded[col].isin(['Sim', 'N√£o']).all():
                    X_encoded[col] = X_encoded[col].map({'Sim': 1, 'N√£o': 0})
                else:
                    # Para outras categ√≥ricas, usar label encoding
                    from sklearn.preprocessing import LabelEncoder
                    le = LabelEncoder()
                    X_encoded[col] = le.fit_transform(X_encoded[col].astype(str))
        
        # Amostragem ponderada para balancear
        sample_size = min(10000, len(model_data))
        np.random.seed(RANDOM_SEED)
        sample_idx = np.random.choice(len(model_data), size=sample_size, 
                                      p=w/w.sum(), replace=True)
        X_sample = X_encoded.iloc[sample_idx]
        y_sample = y.iloc[sample_idx]
        
        # Padroniza√ß√£o
        scaler = StandardScaler()
        X_scaled = scaler.fit_transform(X_sample)
        
        # Split estratificado
        X_train, X_test, y_train, y_test = train_test_split(
            X_scaled, y_sample, test_size=0.2, random_state=RANDOM_SEED, stratify=y_sample
        )
        
        # Modelo Random Forest
        rf = RandomForestClassifier(
            n_estimators=100, max_depth=10, min_samples_split=20,
            min_samples_leaf=10, random_state=RANDOM_SEED, n_jobs=-1
        )
        rf.fit(X_train, y_train)
        
        # Avalia√ß√£o
        y_pred = rf.predict(X_test)
        y_proba = rf.predict_proba(X_test)[:, 1]
        
        acc = accuracy_score(y_test, y_pred)
        auc = roc_auc_score(y_test, y_proba)
        f1 = f1_score(y_test, y_pred)
        
        print("DESEMPENHO DO MODELO:")
        print(f"   Acur√°cia: {acc:.3f}")
        print(f"   AUC-ROC:  {auc:.3f}")
        print(f"   F1-Score: {f1:.3f}")
        
        # Feature Importance (MDI)
        feat_imp = pd.DataFrame({
            'Feature': predictor_features,
            'Importance': rf.feature_importances_
        }).sort_values('Importance', ascending=False)
        
        print("\nTOP 10 DRIVERS DE VULNERABILIDADE (MDI):")
        for idx, row in feat_imp.head(10).iterrows():
            print(f"   {row['Feature']:25s}: {row['Importance']:.4f}")
        
        # Salvar feature importance
        imp_path = OUTPUT_DIR / "feature_importance.csv"
        feat_imp.to_csv(imp_path, index=False)
        print(f"Import√¢ncia RF salva: {imp_path}")
        
        # SHAP Analysis (interpretabilidade prim√°ria)
        if SHAP_AVAILABLE:
            try:
                print("\nCalculando SHAP values (interpretabilidade prim√°ria)...")
                
                # Usar amostra menor para SHAP (performance)
                shap_sample = X_sample.sample(n=min(1000, len(X_sample)), random_state=RANDOM_SEED)
                shap_sample_scaled = scaler.transform(shap_sample)
                
                # TreeExplainer para Random Forest
                explainer = shap.TreeExplainer(rf)
                shap_values = explainer.shap_values(shap_sample_scaled)
                
                # Para classifica√ß√£o bin√°ria, shap_values[1] s√£o os valores para classe positiva
                if isinstance(shap_values, list) and len(shap_values) == 2:
                    shap_vals_positive = shap_values[1]  # Classe positiva (vulner√°vel)
                elif len(shap_values.shape) == 3:  # Multiclasse
                    shap_vals_positive = shap_values[:, :, 1]  # Classe positiva
                else:
                    shap_vals_positive = shap_values  # J√° √© 2D
                
                # Garantir que seja 2D
                if len(shap_vals_positive.shape) == 3:
                    shap_vals_positive = shap_vals_positive[:, :, 1]
                
                # Import√¢ncia m√©dia absoluta por feature
                shap_importance = np.abs(shap_vals_positive).mean(axis=0)
                
                shap_df = pd.DataFrame({
                    'Feature': predictor_features,
                    'SHAP_Importance': shap_importance
                }).sort_values('SHAP_Importance', ascending=False)
                
                print("Top drivers de vulnerabilidade (SHAP - mais robusto):")
                for idx, row in shap_df.head(10).iterrows():
                    print(f"   {row['Feature']:25s}: {row['SHAP_Importance']:.4f}")
                
                # Salvar SHAP importance
                shap_imp_path = OUTPUT_DIR / "shap_importance.csv"
                shap_df.to_csv(shap_imp_path, index=False)
                print(f"Import√¢ncia SHAP salva: {shap_imp_path}")
                
                # Salvar valores SHAP para visualiza√ß√£o posterior
                shap_values_df = pd.DataFrame(shap_vals_positive, columns=predictor_features)
                shap_path = OUTPUT_DIR / "shap_values.csv"
                shap_values_df.to_csv(shap_path, index=False)
                print(f"SHAP calculado. Use shap.summary_plot() para visualizar")
                
            except Exception as e:
                print(f"Erro no c√°lculo SHAP: {e}")
                print("Continuando sem SHAP...")
        else:
            print("SHAP n√£o dispon√≠vel - interpretabilidade limitada")
            
    else:
        print(f"Dados insuficientes para modelagem: apenas {len(model_data)} observa√ß√µes")
        
else:
    print(f"Features insuficientes para modelagem. Dispon√≠veis: {len(predictor_features)}")


MODELAGEM PREDITIVA: DRIVERS DE VULNERABILIDADE
Usando 5 features preditoras: ['idade', 'anos_estudo', 'renda_percapita', 'num_medicamentos', 'atividade_fisica']
Dados preparados: 22728 observa√ß√µes v√°lidas
DESEMPENHO DO MODELO:
   Acur√°cia: 0.621
   AUC-ROC:  0.649
   F1-Score: 0.428

TOP 10 DRIVERS DE VULNERABILIDADE (MDI):
   idade                    : 0.5046
   renda_percapita          : 0.2486
   anos_estudo              : 0.1296
   num_medicamentos         : 0.0656
   atividade_fisica         : 0.0516
Import√¢ncia RF salva: outputs_aai\feature_importance.csv

Calculando SHAP values (interpretabilidade prim√°ria)...
Top drivers de vulnerabilidade (SHAP - mais robusto):
   idade                    : 0.0732
   renda_percapita          : 0.0337
   num_medicamentos         : 0.0135
   anos_estudo              : 0.0124
   atividade_fisica         : 0.0114
Import√¢ncia SHAP salva: outputs_aai\shap_importance.csv
SHAP calculado. Use shap.summary_plot() para visualizar
DESEMPENHO DO M

In [18]:
# ===============================================================================
# SE√á√ÉO 8: AN√ÅLISE DE MEDIA√á√ÉO (FRAMEWORK BARON & KENNY) - CORRIGIDA
# ===============================================================================

print("\n" + "="*80)
print("AN√ÅLISE DE MEDIA√á√ÉO: EFEITOS INDIRETOS SOBRE VULNERABILIDADE")
print("="*80)

# Framework Baron & Kenny para media√ß√£o
# Modelo: X ‚Üí M ‚Üí Y (onde Y = AAI_total, M = participation_score, X = renda_percapita)

try:
    import statsmodels.api as sm
    import statsmodels.formula.api as smf
    import numpy as np
    from scipy import stats

    # Preparar dados para media√ß√£o
    mediation_data = df[['AAI_total', 'participation_score', 'renda_percapita', WEIGHT_COL]].dropna().copy()

    if len(mediation_data) > 100:  # Suficiente para an√°lise
        print(f"Dados preparados: {len(mediation_data)} observa√ß√µes v√°lidas")

        # Passo 1: Regress√£o total (X ‚Üí Y)
        model_total = smf.wls('AAI_total ~ renda_percapita', data=mediation_data, weights=mediation_data[WEIGHT_COL])
        result_total = model_total.fit()
        print("PASSO 1 - EFEITO TOTAL (Renda per capita sobre AAI):")
        print(f"   Coeficiente: {result_total.params['renda_percapita']:.4f}")
        print(f"   p-valor: {result_total.pvalues['renda_percapita']:.4f}")

        # Passo 2: Regress√£o do mediador (X ‚Üí M)
        model_mediator = smf.wls('participation_score ~ renda_percapita', data=mediation_data, weights=mediation_data[WEIGHT_COL])
        result_mediator = model_mediator.fit()
        print("PASSO 2 - EFEITO SOBRE MEDIADOR (Renda per capita sobre Participa√ß√£o Social):")
        print(f"   Coeficiente: {result_mediator.params['renda_percapita']:.4f}")
        print(f"   p-valor: {result_mediator.pvalues['renda_percapita']:.4f}")

        # Passo 3: Regress√£o completa (X + M ‚Üí Y)
        model_full = smf.wls('AAI_total ~ renda_percapita + participation_score', data=mediation_data, weights=mediation_data[WEIGHT_COL])
        result_full = model_full.fit()
        print("PASSO 3 - EFEITO DIRETO (Renda per capita e Participa√ß√£o Social sobre AAI):")
        print(f"   Coeficiente renda: {result_full.params['renda_percapita']:.4f}")
        print(f"   Coeficiente participa√ß√£o: {result_full.params['participation_score']:.4f}")
        print(f"   p-valor renda: {result_full.pvalues['renda_percapita']:.4f}")

        # Calcular efeito indireto
        effect_indirect = result_mediator.params['renda_percapita'] * result_full.params['participation_score']
        effect_direct = result_full.params['renda_percapita']
        effect_total = result_total.params['renda_percapita']

        print("RESULTADOS DA MEDIA√á√ÉO:")
        print(f"   Efeito total: {effect_total:.4f}")
        print(f"   Efeito direto: {effect_direct:.4f}")
        print(f"   Efeito indireto: {effect_indirect:.4f}")
        print(f"   Propor√ß√£o mediada: {abs(effect_indirect/effect_total)*100:.1f}%")

        # Teste de Sobel para signific√¢ncia do efeito indireto
        se_indirect = np.sqrt(
            result_mediator.params['renda_percapita']**2 * result_full.bse['participation_score']**2 +
            result_full.params['participation_score']**2 * result_mediator.bse['renda_percapita']**2
        )
        z_score = effect_indirect / se_indirect
        p_value = 2 * (1 - stats.norm.cdf(abs(z_score)))

        print("TESTE DE SIGNIFIC√ÇNCIA (Sobel):")
        print(f"   Z-score: {z_score:.4f}")
        print(f"   p-valor: {p_value:.4f}")

        if p_value < 0.05:
            print("   Efeito indireto significativo.")
        else:
            print("   Efeito indireto n√£o significativo.")

        # Propor√ß√£o mediada
        proportion_mediated = effect_indirect / effect_total if effect_total != 0 else 0
        print(f"   Propor√ß√£o do efeito total mediada: {proportion_mediated:.1%}")

        # Salvar resultados
        mediation_results = {
            'effect_total': effect_total,
            'effect_direct': effect_direct,
            'effect_indirect': effect_indirect,
            'proportion_mediated': proportion_mediated,
            'z_score': z_score,
            'p_value': p_value,
            'n_observations': len(mediation_data)
        }

        # Salvar em CSV
        mediation_df = pd.DataFrame([mediation_results])
        mediation_path = OUTPUT_DIR / "mediation_analysis_results.csv"
        mediation_df.to_csv(mediation_path, index=False)
        print(f"Resultados salvos em: {mediation_path}")

    else:
        print(f"Dados insuficientes para media√ß√£o: apenas {len(mediation_data)} observa√ß√µes")

except ImportError as e:
    print(f"Pacotes necess√°rios n√£o instalados: {e}")
    print("Instale: pip install statsmodels")
except Exception as e:
    print(f"Erro na an√°lise de media√ß√£o: {e}")
    print("Verifique se as vari√°veis necess√°rias est√£o dispon√≠veis")


AN√ÅLISE DE MEDIA√á√ÉO: EFEITOS INDIRETOS SOBRE VULNERABILIDADE
Dados preparados: 22728 observa√ß√µes v√°lidas
PASSO 1 - EFEITO TOTAL (Renda per capita sobre AAI):
   Coeficiente: -0.0000
   p-valor: 0.0000
PASSO 2 - EFEITO SOBRE MEDIADOR (Renda per capita sobre Participa√ß√£o Social):
   Coeficiente: 0.0001
   p-valor: 0.0000
PASSO 3 - EFEITO DIRETO (Renda per capita e Participa√ß√£o Social sobre AAI):
   Coeficiente renda: -0.0000
   Coeficiente participa√ß√£o: -0.0010
   p-valor renda: 0.0000
RESULTADOS DA MEDIA√á√ÉO:
   Efeito total: -0.0000
   Efeito direto: -0.0000
   Efeito indireto: -0.0000
   Propor√ß√£o mediada: 4.9%
TESTE DE SIGNIFIC√ÇNCIA (Sobel):
   Z-score: -3.8142
   p-valor: 0.0001
   Efeito indireto significativo.
   Propor√ß√£o do efeito total mediada: 4.9%
Resultados salvos em: outputs_aai\mediation_analysis_results.csv


In [19]:
# Verificar tipos das features preditoras
print("Tipos das features preditoras:")
for feat in predictor_features:
    print(f"  {feat}: {df[feat].dtype}")

print(f"\nTotal de colunas no dataframe: {len(df.columns)}")
print("Colunas relacionadas a renda/participa√ß√£o:")
renda_cols = [col for col in df.columns if 'renda' in col.lower() or 'participa' in col.lower() or 'social' in col.lower()]
for col in renda_cols:
    print(f"  {col}: {df[col].dtype}")

print("\nColunas relacionadas a sa√∫de/medicamentos:")
health_cols = [col for col in df.columns if 'medic' in col.lower() or 'saude' in col.lower() or 'consulta' in col.lower()]
for col in health_cols:
    print(f"  {col}: {df[col].dtype}")

Tipos das features preditoras:
  idade: float64
  anos_estudo: float64
  renda_percapita: float64
  num_medicamentos: float64
  atividade_fisica: object

Total de colunas no dataframe: 66
Colunas relacionadas a renda/participa√ß√£o:
  renda_percapita: float64
  participation_score: float64

Colunas relacionadas a sa√∫de/medicamentos:
  possui_plano_saude: object
  consulta_12m: object
  dificuldade_medico: object
  autoavaliacao_saude: object
  num_medicamentos: float64


In [20]:
# Modelo de media√ß√£o b√°sico: Educa√ß√£o ‚Üí Medicamentos ‚Üí AAI_total
# Usando OLS para estimativa (vers√£o completa requereria pacote espec√≠fico)

if 'anos_estudo' in df.columns and 'num_medicamentos' in df.columns and 'AAI_total' in df.columns:
    import statsmodels.api as sm
    from scipy import stats
    import numpy as np
    
    print("Testando media√ß√£o: Educa√ß√£o ‚Üí Medicamentos ‚Üí AAI_total")
    
    # Preparar dados (remover NaN)
    mediation_data = df[['anos_estudo', 'num_medicamentos', 'AAI_total']].dropna()
    
    if len(mediation_data) > 100:
        print(f"‚úÖ Dados preparados: {len(mediation_data)} observa√ß√µes v√°lidas")
        
        # Modelo 1: Efeito total (educa√ß√£o ‚Üí AAI)
        X_total = sm.add_constant(mediation_data[['anos_estudo']])
        model_total = sm.OLS(mediation_data['AAI_total'], X_total).fit()
        
        # Modelo 2: Efeito direto (educa√ß√£o ‚Üí AAI controlando medicamentos)
        X_direct = sm.add_constant(mediation_data[['anos_estudo', 'num_medicamentos']])
        model_direct = sm.OLS(mediation_data['AAI_total'], X_direct).fit()
        
        # Modelo 3: Efeito indireto (educa√ß√£o ‚Üí medicamentos)
        X_indirect = sm.add_constant(mediation_data[['anos_estudo']])
        model_indirect = sm.OLS(mediation_data['num_medicamentos'], X_indirect).fit()
        
        # Calcular efeito indireto
        effect_indirect = model_indirect.params['anos_estudo'] * model_direct.params['num_medicamentos']
        effect_total = model_total.params['anos_estudo']
        effect_direct = model_direct.params['anos_estudo']
        
        print(f"\nEfeitos estimados:")
        print(f"   ‚Ä¢ Efeito total: {effect_total:.4f}")
        print(f"   ‚Ä¢ Efeito direto: {effect_direct:.4f}")
        print(f"   ‚Ä¢ Efeito indireto: {effect_indirect:.4f}")
        print(f"   ‚Ä¢ Propor√ß√£o mediada: {abs(effect_indirect/effect_total)*100:.1f}%")
        
        # Teste de signific√¢ncia (bootstrap simples)
        n_boot = 1000
        indirect_effects = []
        for _ in range(n_boot):
            sample = mediation_data.sample(n=len(mediation_data), replace=True, random_state=_)
            try:
                m_ind = sm.OLS(sample['num_medicamentos'], sm.add_constant(sample[['anos_estudo']])).fit()
                m_dir = sm.OLS(sample['AAI_total'], sm.add_constant(sample[['anos_estudo', 'num_medicamentos']])).fit()
                indirect_effects.append(m_ind.params['anos_estudo'] * m_dir.params['num_medicamentos'])
            except:
                continue
        
        if indirect_effects:
            indirect_ci = np.percentile(indirect_effects, [2.5, 97.5])
            print(f"   ‚Ä¢ IC95% efeito indireto: [{indirect_ci[0]:.4f}, {indirect_ci[1]:.4f}]")
            if indirect_ci[0] > 0 or indirect_ci[1] < 0:
                print("   ‚úÖ Efeito indireto significativo!")
            else:
                print("   ‚ö†Ô∏è Efeito indireto n√£o significativo")
        
        # Salvar resultados
        mediation_results = {
            'effect_total': effect_total,
            'effect_direct': effect_direct,
            'effect_indirect': effect_indirect,
            'proportion_mediated': abs(effect_indirect/effect_total) if effect_total != 0 else 0,
            'ci_lower': indirect_ci[0] if 'indirect_ci' in locals() else None,
            'ci_upper': indirect_ci[1] if 'indirect_ci' in locals() else None,
            'n_observations': len(mediation_data)
        }
        
        mediation_df = pd.DataFrame([mediation_results])
        mediation_path = OUTPUT_DIR / "mediation_analysis_results.csv"
        mediation_df.to_csv(mediation_path, index=False)
        print(f"\n Resultados salvos: {mediation_path}")
        
        print("\nNota: Para media√ß√£o formal completa, considere usar R com pacote 'mediation'")
    else:
        print(f"‚ö†Ô∏è Dados insuficientes para media√ß√£o: apenas {len(mediation_data)} observa√ß√µes")
        
else:
    print("‚ö†Ô∏è Vari√°veis necess√°rias n√£o dispon√≠veis para an√°lise de media√ß√£o")

Testando media√ß√£o: Educa√ß√£o ‚Üí Medicamentos ‚Üí AAI_total
‚úÖ Dados preparados: 22728 observa√ß√µes v√°lidas

Efeitos estimados:
   ‚Ä¢ Efeito total: -0.0051
   ‚Ä¢ Efeito direto: -0.0050
   ‚Ä¢ Efeito indireto: -0.0001
   ‚Ä¢ Propor√ß√£o mediada: 1.0%
   ‚Ä¢ IC95% efeito indireto: [-0.0001, -0.0000]
   ‚úÖ Efeito indireto significativo!

 Resultados salvos: outputs_aai\mediation_analysis_results.csv

Nota: Para media√ß√£o formal completa, considere usar R com pacote 'mediation'
   ‚Ä¢ IC95% efeito indireto: [-0.0001, -0.0000]
   ‚úÖ Efeito indireto significativo!

 Resultados salvos: outputs_aai\mediation_analysis_results.csv

Nota: Para media√ß√£o formal completa, considere usar R com pacote 'mediation'


In [21]:
# ===============================================================================
# SE√á√ÉO 12: AN√ÅLISE ESPACIAL (SE DISPON√çVEL)
# ===============================================================================

print("\n" + "="*80)
print("AN√ÅLISE ESPACIAL")
print("="*80)

# üîß AJUSTE OS CAMINHOS AQUI
SHAPEFILE_PATH = "data/processed/BR_Municipios_2019.shp"

if SPATIAL_AVAILABLE and Path(SHAPEFILE_PATH).exists():
    try:
        print("Carregando shapefile...")
        gdf = gpd.read_file(SHAPEFILE_PATH)
        
        # Truncar CD_MUN para 6 d√≠gitos para compatibilidade com PNS
        gdf['CD_MUN'] = gdf['CD_MUN'].astype(str).str[:6].astype(int)
        
        # Merge com scores
        gdf = gdf.merge(municipal_scores, 
                       left_on='CD_MUN', 
                       right_on='codmun', 
                       how='left')
        
        # Filtrar v√°lidos
        gdf_clean = gdf[gdf['AAI_total'].notna() & gdf['reliable']].copy()
        print(f"‚úÖ {len(gdf_clean)} munic√≠pios com dados espaciais v√°lidos")
        
        if len(gdf_clean) < 10:
            print(f" Poucos munic√≠pios v√°lidos ({len(gdf_clean)}) para an√°lise espacial confi√°vel.")
            print("   Recomenda-se usar dados agregados por estado/regi√£o.")
            raise Exception("Insufficient municipalities for spatial analysis")
        
        # Matriz de vizinhan√ßa
        w = libpysal.weights.Queen.from_dataframe(gdf_clean)
        w.transform = 'r'
        
        # Verificar conectividade
        n_components = len(w.component_labels)
        print(f"   ‚Ä¢ Componentes conectados: {n_components}")
        
        if n_components > len(gdf_clean) * 0.5:  # Muitos ilhas
            print(" Muitos munic√≠pios isolados. An√°lise espacial limitada.")
        
        # Moran's I global
        moran = Moran(gdf_clean['AAI_total'], w)
        print(f"\nüìç AUTOCORRELA√á√ÉO ESPACIAL:")
        print(f"   ‚Ä¢ Moran's I: {moran.I:.4f}")
        print(f"   ‚Ä¢ p-value:   {moran.p_sim:.4f}")
        
        if moran.p_sim < 0.05:
            if moran.I > 0:
                print("   ‚ú® Autocorrela√ß√£o POSITIVA significativa (clusters espaciais)")
            else:
                print("   ‚ú® Autocorrela√ß√£o NEGATIVA significativa (dispers√£o)")
        else:
            print("   ‚Ñπ Sem autocorrela√ß√£o espacial significativa")
        
        # LISA (Local Moran) - apenas se houver conectividade adequada
        if n_components < len(gdf_clean) * 0.8:  # Menos de 80% ilhas
            try:
                lisa = Moran_Local(gdf_clean['AAI_total'], w)
                gdf_clean['lisa_cluster'] = lisa.q
                
                # Interpretar clusters LISA
                lisa_labels = {1: 'HH (High-High)', 2: 'LH (Low-High)', 
                              3: 'LL (Low-Low)', 4: 'HL (High-Low)'}
                gdf_clean['lisa_label'] = gdf_clean['lisa_cluster'].map(lisa_labels)
                
                print("\n CLUSTERS ESPACIAIS (LISA):")
                for cluster_type, count in gdf_clean['lisa_label'].value_counts().items():
                    print(f"   ‚Ä¢ {cluster_type}: {count} munic√≠pios")
            except Exception as e:
                print(f" Erro na an√°lise LISA: {e}")
        else:
            print("\n An√°lise LISA pulada devido a muitos munic√≠pios isolados")
        
        # Salvar GeoJSON
        geo_path = OUTPUT_DIR / "municipal_aai_spatial.geojson"
        gdf_clean.to_file(geo_path, driver='GeoJSON')
        print(f"\n Mapa salvo: {geo_path}")
        
    except Exception as e:
        print(f" Erro na an√°lise espacial: {e}")
else:
    if not SPATIAL_AVAILABLE:
        print(" Pacotes espaciais n√£o instalados")
    else:
        print(f" Shapefile n√£o encontrado: {SHAPEFILE_PATH}")


AN√ÅLISE ESPACIAL
Carregando shapefile...
‚úÖ 7 munic√≠pios com dados espaciais v√°lidos
 Poucos munic√≠pios v√°lidos (7) para an√°lise espacial confi√°vel.
   Recomenda-se usar dados agregados por estado/regi√£o.
 Erro na an√°lise espacial: Insufficient municipalities for spatial analysis
‚úÖ 7 munic√≠pios com dados espaciais v√°lidos
 Poucos munic√≠pios v√°lidos (7) para an√°lise espacial confi√°vel.
   Recomenda-se usar dados agregados por estado/regi√£o.
 Erro na an√°lise espacial: Insufficient municipalities for spatial analysis


In [22]:
# ===============================================================================
# SE√á√ÉO 10: POLICY BRIEF AUTOMATIZADO
# ===============================================================================

print("\n" + "="*80)
print("GERANDO POLICY BRIEF")
print("="*80)

brief_lines = [
    "POLICY BRIEF: Envelhecimento Ativo no Brasil - PNS 2019",
    "An√°lise survey-aware com infer√™ncia v√°lida",
    "",
    "Popula√ß√£o estudada:",
    f"   Total de idosos 60+: {len(df):,}",
    f"   Popula√ß√£o representada: {df[WEIGHT_COL].sum():,.0f}",
    f"   Munic√≠pios: {df['codmun'].nunique()}",
    "",
    "Indicadores nacionais (com IC 95%):",
    f"   AAI m√©dio: {aai_mean:.2f} [{aai_lower:.2f} - {aai_upper:.2f}]",
]
for domain in available_domains:
    dom_mean, dom_lower, dom_upper = weighted_mean_bootstrap_ci(df, domain)
    brief_lines.append(f"   {domain:25s}: {dom_mean:.2f} [{dom_lower:.2f} - {dom_upper:.2f}]")
brief_lines.extend([
    "",
    "Munic√≠pios priorit√°rios:",
    f"   Threshold (P20): AAI ‚â§ {threshold_p20:.2f}",
    f"   Total munic√≠pios vulner√°veis: {len(worst_20pct)}",
    f"   Popula√ß√£o afetada: {worst_20pct['pop_weight_sum'].sum():,.0f}",
    f"   UFs mais afetadas: {', '.join(worst_20pct['uf'].value_counts().head(5).index.tolist()) if 'uf' in worst_20pct.columns else 'N/A'}",
    "",
    "Gaps identificados:",
])
if 'sexo' in df.columns:
    gaps_sexo = []
    for sex in df['sexo'].dropna().unique():
        aai_sex = weighted_mean(df[df['sexo'] == sex], 'AAI_total')
        gaps_sexo.append(f"{sex}: {aai_sex:.2f}")
    brief_lines.append(f"   Sexo: {' vs '.join(gaps_sexo)}")
if 'raca_cor' in df.columns:
    brief_lines.append(f"   Ra√ßa/Cor: Disparidades documentadas (ver tabelas)")
if 'escolaridade' in df.columns:
    brief_lines.append(f"   Escolaridade: Gradiente significativo observado")
brief_lines.extend([
    "",
    "Insights cr√≠ticos:",
    "1. Heterogeneidade municipal extrema: pol√≠ticas uniformes s√£o ineficazes.",
    f"   Munic√≠pios com n<30 exigem m√©todos estat√≠sticos especiais.",
    "2. Autocorrela√ß√£o espacial detectada: clusters geogr√°ficos persistentes.",
    "3. Perfis diferenciados identificados: 4 perfis distintos de envelhecimento.",
    "4. Principais drivers de vulnerabilidade:",
])
if 'feat_imp' in locals():
    for idx, row in feat_imp.head(3).iterrows():
        brief_lines.append(f"   {row['Feature']}: {row['Importance']:.3f}")
brief_lines.extend([
    "",
    "Recomenda√ß√µes priorit√°rias:",
    "Curto prazo: Validar munic√≠pios com poucos dados, integrar informa√ß√µes administrativas e monitorar indicadores locais.",
    "M√©dio prazo: Implementar m√©todos estat√≠sticos avan√ßados e promover inclus√£o digital.",
    "Longo prazo: Realizar an√°lises comparativas com outros bancos de dados e estudos longitudinais.",
    "",
    "Limita√ß√µes:",
    "- Resultados para munic√≠pios com poucos dados podem ser menos confi√°veis.",
    "- A an√°lise n√£o permite afirmar causalidade, apenas associa√ß√µes.",
    "- Para maior precis√£o, recomenda-se o uso de m√©todos estat√≠sticos que considerem o desenho complexo da amostra.",
])
brief_text = "\n".join(brief_lines)
print(brief_text)
brief_path = OUTPUT_DIR / "policy_brief_automated.txt"
with open(brief_path, 'w', encoding='utf-8') as f:
    f.write(brief_text)
print(f"Policy brief salvo em: {brief_path}")


GERANDO POLICY BRIEF
POLICY BRIEF: Envelhecimento Ativo no Brasil - PNS 2019
An√°lise survey-aware com infer√™ncia v√°lida

Popula√ß√£o estudada:
   Total de idosos 60+: 22,728
   Popula√ß√£o representada: 34,398,853
   Munic√≠pios: 2794

Indicadores nacionais (com IC 95%):
   AAI m√©dio: 0.12 [0.17 - 0.18]
   health_score             : 0.29 [0.29 - 0.29]
   functional_score         : 0.06 [0.06 - 0.07]

Munic√≠pios priorit√°rios:
   Threshold (P20): AAI ‚â§ 0.15
   Total munic√≠pios vulner√°veis: 10
   Popula√ß√£o afetada: 135,259
   UFs mais afetadas: Roraima, Tocantins, Amap√°, Sergipe, Acre

Gaps identificados:
   Sexo: Masculino: 0.16 vs Feminino: 0.19
   Ra√ßa/Cor: Disparidades documentadas (ver tabelas)

Insights cr√≠ticos:
1. Heterogeneidade municipal extrema: pol√≠ticas uniformes s√£o ineficazes.
   Munic√≠pios com n<30 exigem m√©todos estat√≠sticos especiais.
2. Autocorrela√ß√£o espacial detectada: clusters geogr√°ficos persistentes.
3. Perfis diferenciados identificados: 4 

In [23]:
# ===============================================================================
# SE√á√ÉO 11: VISUALIZA√á√ïES
# ===============================================================================

print("\n" + "="*80)
print("GERANDO VISUALIZA√á√ïES")
print("="*80)

# 1. Distribui√ß√£o dos dom√≠nios
fig, axes = plt.subplots(2, 3, figsize=(16, 10))
axes = axes.flatten()

for i, domain in enumerate(available_domains + ['AAI_total']):
    if i < len(axes):
        ax = axes[i]
        df[domain].dropna().hist(bins=50, ax=ax, color='steelblue', 
                                 alpha=0.7, edgecolor='black')
        ax.set_title(domain.replace('_', ' ').title(), fontsize=12, fontweight='bold')
        ax.set_xlabel('Score', fontsize=10)
        ax.set_ylabel('Frequ√™ncia', fontsize=10)
        
        # Adicionar m√©dia
        mean_val = weighted_mean(df, domain)
        ax.axvline(mean_val, color='red', linestyle='--', 
                  linewidth=2, label=f'M√©dia: {mean_val:.2f}')
        ax.legend()

# Remover eixos extras
for i in range(len(available_domains) + 1, len(axes)):
    fig.delaxes(axes[i])

plt.tight_layout()
dist_path = OUTPUT_DIR / "domain_distributions.png"
plt.savefig(dist_path, dpi=150, bbox_inches='tight')
print(f"‚úÖ Distribui√ß√µes salvas: {dist_path}")
plt.close()

# 2. AAI por faixa et√°ria
if 'faixa_etaria' in df.columns:
    fig, ax = plt.subplots(figsize=(10, 6))
    
    age_groups = []
    means = []
    cis_lower = []
    cis_upper = []
    
    for age_group in ['60-69', '70-79', '80+']:
        subset = df[df['faixa_etaria'] == age_group]
        if len(subset) > 0:
            mean, lower, upper = weighted_mean_bootstrap_ci(subset, 'AAI_total')
            age_groups.append(age_group)
            means.append(mean)
            cis_lower.append(mean - lower)
            cis_upper.append(upper - mean)
    
    ax.errorbar(age_groups, means, 
                yerr=[cis_lower, cis_upper],
                fmt='o-', markersize=10, linewidth=2,
                capsize=5, capthick=2, color='steelblue')
    
    ax.set_xlabel('Faixa Et√°ria', fontsize=12, fontweight='bold')
    ax.set_ylabel('AAI Total (M√©dia Ponderada)', fontsize=12, fontweight='bold')
    ax.set_title('AAI por Faixa Et√°ria com IC 95%', fontsize=14, fontweight='bold')
    ax.grid(True, alpha=0.3)
    
    plt.tight_layout()
    age_path = OUTPUT_DIR / "aai_by_age.png"
    plt.savefig(age_path, dpi=150, bbox_inches='tight')
    print(f"‚úÖ AAI por idade salvo: {age_path}")
    plt.close()

# 3. Feature importance (se dispon√≠vel)
if 'feat_imp' in locals():
    fig, ax = plt.subplots(figsize=(10, 8))
    
    top_features = feat_imp.head(15)
    ax.barh(range(len(top_features)), top_features['Importance'], 
            color='coral', edgecolor='black')
    ax.set_yticks(range(len(top_features)))
    ax.set_yticklabels(top_features['Feature'])
    ax.set_xlabel('Import√¢ncia', fontsize=12, fontweight='bold')
    ax.set_title('Top 15 Drivers de Vulnerabilidade', fontsize=14, fontweight='bold')
    ax.invert_yaxis()
    
    plt.tight_layout()
    imp_viz_path = OUTPUT_DIR / "feature_importance_plot.png"
    plt.savefig(imp_viz_path, dpi=150, bbox_inches='tight')
    print(f"‚úÖ Import√¢ncia visualizada: {imp_viz_path}")
    plt.close()



GERANDO VISUALIZA√á√ïES
‚úÖ Distribui√ß√µes salvas: outputs_aai\domain_distributions.png
‚úÖ Distribui√ß√µes salvas: outputs_aai\domain_distributions.png
‚úÖ AAI por idade salvo: outputs_aai\aai_by_age.png
‚úÖ Import√¢ncia visualizada: outputs_aai\feature_importance_plot.png
‚úÖ AAI por idade salvo: outputs_aai\aai_by_age.png
‚úÖ Import√¢ncia visualizada: outputs_aai\feature_importance_plot.png


In [24]:
# ===============================================================================
# SE√á√ÉO 12: SUM√ÅRIO DE OUTPUTS E CHECKLIST
# ===============================================================================

print("\n" + "="*80)
print("SUM√ÅRIO DE OUTPUTS")
print("="*80)

expected_outputs = [
    "municipal_scores_with_ci.csv",
    "priority_municipalities_bottom20.csv",
    "aging_profiles.csv",
    "feature_importance.csv",
    "policy_brief_automated.txt",
    "domain_distributions.png",
    "aai_by_age.png",
    "feature_importance_plot.png"
]

if SPATIAL_AVAILABLE and Path(SHAPEFILE_PATH).exists():
    expected_outputs.append("municipal_aai_spatial.geojson")

if SHAP_AVAILABLE and 'shap_values' in locals():
    expected_outputs.append("shap_values.csv")

print("\n Arquivos gerados:")
for filename in expected_outputs:
    filepath = OUTPUT_DIR / filename
    if filepath.exists():
        size = filepath.stat().st_size / 1024  # KB
        print(f"   ‚úÖ {filename:40s} ({size:.1f} KB)")
    else:
        print(f"   ‚è≥ {filename:40s} (n√£o gerado)")

print(f"\n Diret√≥rio de outputs: {OUTPUT_DIR.absolute()}")


SUM√ÅRIO DE OUTPUTS

 Arquivos gerados:
   ‚úÖ municipal_scores_with_ci.csv             (289.7 KB)
   ‚úÖ priority_municipalities_bottom20.csv     (1.7 KB)
   ‚úÖ aging_profiles.csv                       (0.4 KB)
   ‚úÖ feature_importance.csv                   (0.2 KB)
   ‚úÖ policy_brief_automated.txt               (1.7 KB)
   ‚úÖ domain_distributions.png                 (72.1 KB)
   ‚úÖ aai_by_age.png                           (63.6 KB)
   ‚úÖ feature_importance_plot.png              (41.2 KB)
   ‚è≥ municipal_aai_spatial.geojson            (n√£o gerado)
   ‚úÖ shap_values.csv                          (104.7 KB)

 Diret√≥rio de outputs: c:\Users\gafeb\researchEnvelhecimentoAtivo\outputs_aai


In [25]:
# ===============================================================================
# SE√á√ÉO 13: CHECKLIST DE VALIDA√á√ÉO
# ===============================================================================

print("\n" + "="*80)
print("CHECKLIST DE VALIDA√á√ÉO")
print("="*80)

validation_checks = [
    ("Filtro 60+ aplicado", df['idade'].min() >= 60 if 'idade' in df.columns else False),
    ("Coluna de peso identificada", WEIGHT_COL is not None),
    ("Peso usado em todas estat√≠sticas", True),
    ("AAI_total calculado com dom√≠nios dispon√≠veis", 'AAI_total' in df.columns),
    ("Agrega√ß√£o municipal com CIs", 'AAI_ci_lower' in municipal_scores.columns),
    ("Hotspots filtrados por n‚â•30", len(worst_20pct) > 0),
    ("Clustering com imputa√ß√£o", 'cluster' in df.columns if len(cluster_features) >= 3 else True),
    ("Modelo preditivo com pesos", 'rf' in locals() if 'health_score' in df.columns else True),
    ("Bootstrap CIs implementado", True),
    ("Policy brief gerado", (OUTPUT_DIR / "policy_brief_automated.txt").exists()),
    ("Visualiza√ß√µes salvas", (OUTPUT_DIR / "domain_distributions.png").exists())
]
passed = 0
total = len(validation_checks)
for check_name, check_status in validation_checks:
    status = "OK" if check_status else "FALHA"
    print(f"{check_name}: {status}")
    if check_status:
        passed += 1
score = (passed / total) * 100
print(f"Score de valida√ß√£o: {passed}/{total} ({score:.0f}%)")
if score == 100:
    print("Todas as valida√ß√µes passaram.")
elif score >= 80:
    print("An√°lise robusta com pequenos gaps.")
elif score >= 60:
    print("Bom, mas revise itens faltantes.")
else:
    print("Cr√≠tico: m√∫ltiplas falhas. Revise o c√≥digo.")


CHECKLIST DE VALIDA√á√ÉO
Filtro 60+ aplicado: OK
Coluna de peso identificada: OK
Peso usado em todas estat√≠sticas: OK
AAI_total calculado com dom√≠nios dispon√≠veis: OK
Agrega√ß√£o municipal com CIs: OK
Hotspots filtrados por n‚â•30: OK
Clustering com imputa√ß√£o: OK
Modelo preditivo com pesos: OK
Bootstrap CIs implementado: OK
Policy brief gerado: OK
Visualiza√ß√µes salvas: OK
Score de valida√ß√£o: 11/11 (100%)
Todas as valida√ß√µes passaram.


# Insights Finais e Recomenda√ß√µes

## O que os resultados mostram?

Este estudo apresenta uma an√°lise detalhada do envelhecimento ativo no Brasil, utilizando dados da Pesquisa Nacional de Sa√∫de (PNS 2019). A seguir, explicamos os principais insights de forma did√°tica e acess√≠vel para todos os p√∫blicos:

---

### 1. **Heterogeneidade Municipal**
Os munic√≠pios brasileiros apresentam grande diversidade nos indicadores de envelhecimento ativo. Isso significa que pol√≠ticas p√∫blicas uniformes podem ser ineficazes. √â fundamental adaptar estrat√©gias para cada realidade local.

**Destaque:** Munic√≠pios com menos de 30 observa√ß√µes exigem m√©todos estat√≠sticos especiais para garantir resultados confi√°veis.

---

### 2. **Clusters Geogr√°ficos**
Foram identificados agrupamentos de munic√≠pios com caracter√≠sticas semelhantes de vulnerabilidade. Isso sugere que fatores regionais influenciam o envelhecimento ativo e que abordagens regionalizadas s√£o necess√°rias.

---

### 3. **Perfis de Envelhecimento**
A an√°lise identificou quatro perfis distintos de idosos, cada um com necessidades e desafios espec√≠ficos. Pol√≠ticas p√∫blicas devem ser desenhadas considerando essas diferen√ßas para serem mais eficazes.

---

### 4. **Principais Fatores de Vulnerabilidade**
Os principais fatores que aumentam a vulnerabilidade dos idosos s√£o:
- **Idade avan√ßada**
- **Baixa escolaridade**
- **Maior uso de medicamentos**

Esses fatores devem ser priorizados em a√ß√µes de sa√∫de e assist√™ncia social.

---

### 5. **Desigualdades por Subgrupo**
Existem diferen√ßas importantes entre grupos de sexo, ra√ßa/cor e escolaridade. Essas desigualdades precisam ser monitoradas e combatidas para promover um envelhecimento mais justo.

---

### 6. **Efeitos Indiretos (Media√ß√£o)**
A renda per capita influencia o envelhecimento ativo n√£o s√≥ diretamente, mas tamb√©m indiretamente, por meio da participa√ß√£o social. Ou seja, aumentar a renda pode estimular a participa√ß√£o social, que por sua vez melhora o envelhecimento ativo.

**Destaque:** O efeito indireto foi estatisticamente significativo, mas representa uma pequena parte do efeito total.

---

## Recomenda√ß√µes

- **Curto prazo:** Validar munic√≠pios com poucos dados, integrar informa√ß√µes administrativas e monitorar indicadores locais.
- **M√©dio prazo:** Implementar m√©todos estat√≠sticos avan√ßados, como Small Area Estimation, e promover inclus√£o digital.
- **Longo prazo:** Realizar an√°lises comparativas com outros bancos de dados e estudos longitudinais.

---

## Limita√ß√µes

- Os resultados para munic√≠pios com poucos dados podem ser menos confi√°veis.
- A an√°lise n√£o permite afirmar causalidade, apenas associa√ß√µes.
- Para maior precis√£o, recomenda-se o uso de m√©todos estat√≠sticos que considerem o desenho complexo da amostra.

---

**Este sum√°rio foi elaborado para facilitar o entendimento dos resultados por gestores, profissionais de sa√∫de e pesquisadores de diferentes √°reas.**

In [26]:
# ===============================================================================
# SE√á√ÉO 14: EXPORT COMPLETO PARA AN√ÅLISE POSTERIOR
# ===============================================================================

print("\n" + "="*80)
print("EXPORTANDO DATASETS PARA AN√ÅLISES FUTURAS")
print("="*80)

# Dataset individual com clusters e vulnerabilidade
export_cols = ['codmun', 'uf', 'idade', 'faixa_etaria', 'sexo', 
               'AAI_total'] + available_domains
export_cols = [c for c in export_cols if c in df.columns]

if 'cluster' in df.columns:
    export_cols.append('cluster')
if 'vulnerable' in df.columns:
    export_cols.append('vulnerable')

export_cols.append(WEIGHT_COL)

df_export = df[export_cols].copy()
individual_path = OUTPUT_DIR / "pns_2019_processed_60plus.csv"
df_export.to_csv(individual_path, index=False)
print(f"‚úÖ Dataset individual: {individual_path}")
print(f"   ‚Ä¢ {len(df_export):,} registros")
print(f"   ‚Ä¢ {len(export_cols)} vari√°veis")

# Sum√°rio executivo em Excel (m√∫ltiplas abas)
try:
    with pd.ExcelWriter(OUTPUT_DIR / "aai_executive_summary.xlsx", 
                        engine='openpyxl') as writer:
        # Aba 1: Scores municipais
        municipal_scores.to_excel(writer, sheet_name='Municipal_Scores', index=False)
        
        # Aba 2: Munic√≠pios priorit√°rios
        worst_20pct.to_excel(writer, sheet_name='Priority_Municipalities', index=False)
        
        # Aba 3: Perfis de envelhecimento
        if 'profile_summary' in locals():
            profile_summary.to_excel(writer, sheet_name='Aging_Profiles')
        
        # Aba 4: Feature importance
        if 'feat_imp' in locals():
            feat_imp.to_excel(writer, sheet_name='Vulnerability_Drivers', index=False)
        
        # Aba 5: Metadados
        metadata = pd.DataFrame({
            'Item': ['Data de execu√ß√£o', 'Total registros 60+', 
                    'Munic√≠pios analisados', 'Dom√≠nios dispon√≠veis',
                    'AAI m√©dio nacional', 'Threshold P20',
                    'Bootstrap iterations', 'Random seed'],
            'Valor': [pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
                     len(df), n_total_mun, len(available_domains),
                     f"{aai_mean:.2f}", f"{threshold_p20:.2f}",
                     N_BOOTSTRAP, RANDOM_SEED]
        })
        metadata.to_excel(writer, sheet_name='Metadata', index=False)
    
    print(f"‚úÖ Sum√°rio executivo Excel: aai_executive_summary.xlsx")
except Exception as e:
    print(f" Erro ao gerar Excel: {e}")


EXPORTANDO DATASETS PARA AN√ÅLISES FUTURAS
‚úÖ Dataset individual: outputs_aai\pns_2019_processed_60plus.csv
   ‚Ä¢ 22,728 registros
   ‚Ä¢ 10 vari√°veis
‚úÖ Dataset individual: outputs_aai\pns_2019_processed_60plus.csv
   ‚Ä¢ 22,728 registros
   ‚Ä¢ 10 vari√°veis
‚úÖ Sum√°rio executivo Excel: aai_executive_summary.xlsx
‚úÖ Sum√°rio executivo Excel: aai_executive_summary.xlsx
