# 07 ‚Äî An√°lise do Gradiente Socioecon√¥mico no ENEM 2023

**Objetivo:** Investigar em profundidade o gradiente socioecon√¥mico cont√≠nuo que influencia o desempenho no ENEM.

**Tema da Apresenta√ß√£o:**  
*"Como Renda, Escolaridade dos Pais e Infraestrutura Tecnol√≥gica Moldam as Oportunidades Educacionais no Brasil"*

---

## An√°lises deste Notebook:

1. **Gradiente de Renda** ‚Äî Tend√™ncia monot√¥nica e linear
2. **An√°lise de Intera√ß√µes** ‚Äî Renda √ó Regi√£o (dupla vulnerabilidade)
3. **Papel da Tecnologia** ‚Äî Q024 como fator emergente
4. **Segmenta√ß√£o Socioecon√¥mica** ‚Äî Cria√ß√£o de grupos (Vulner√°vel, M√©dia, Privilegiado)
5. **Outliers Positivos/Negativos** ‚Äî Casos excepcionais
6. **Modelagem Preditiva** ‚Äî Regress√£o linear m√∫ltipla
7. **Visualiza√ß√µes para Apresenta√ß√£o** ‚Äî Gr√°ficos de alta qualidade

---

**Pr√©-requisitos:**
- Arquivo `../data/interim/enem_2023.parquet` com colunas: `NOTA_MEDIA_5`, `Q006_ord`, `Q001_ord`, `Q002_ord`, `Q024_ord`, `REGIAO_NOME_PROVA`, `TP_ESCOLA`
- Pacotes: pandas, numpy, matplotlib, scipy, sklearn

## 0. Configura√ß√£o e Carregamento

In [None]:
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import spearmanr, pearsonr
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error

# Configura√ß√µes de visualiza√ß√£o
plt.rcParams.update({
    'figure.figsize': (10, 6),
    'font.size': 11,
    'axes.titlesize': 13,
    'axes.labelsize': 11,
    'xtick.labelsize': 10,
    'ytick.labelsize': 10,
    'legend.fontsize': 10,
    'figure.dpi': 100
})

# Diret√≥rios
DATA_PATH = Path('../data/interim/enem_2023.parquet')
EXPORT_DIR = Path('../data/processed/gradiente_exports')
FIGURES_DIR = Path('../reports/figures')

EXPORT_DIR.mkdir(parents=True, exist_ok=True)
FIGURES_DIR.mkdir(parents=True, exist_ok=True)

print("‚úì Configura√ß√£o conclu√≠da")

In [None]:
# Carregar dados
print(f"Carregando: {DATA_PATH}")
df = pd.read_parquet(DATA_PATH)

# Filtrar treineiros
if 'IN_TREINEIRO' in df.columns:
    original_size = len(df)
    df = df[df['IN_TREINEIRO'] == 0].copy()
    print(f"Removidos {original_size - len(df):,} treineiros")

# Verificar colunas necess√°rias
required_cols = ['NOTA_MEDIA_5', 'Q006_ord', 'Q001_ord', 'Q002_ord', 'Q024_ord', 'REGIAO_NOME_PROVA', 'TP_ESCOLA']
missing = [c for c in required_cols if c not in df.columns]
if missing:
    raise ValueError(f"Faltam colunas: {missing}")

# Remover NaN nas colunas principais
df_clean = df.dropna(subset=['NOTA_MEDIA_5', 'Q006_ord', 'Q001_ord', 'Q002_ord', 'Q024_ord', 'REGIAO_NOME_PROVA']).copy()

print(f"\nDimens√µes finais: {df_clean.shape}")
print(f"Per√≠odo: ENEM 2023")
print(f"\n‚úì Dados carregados com sucesso!")

df_clean.head(3)

---

## 1. Gradiente de Renda ‚Äî An√°lise Detalhada

Investigar a rela√ß√£o **monot√¥nica e linear** entre renda familiar e desempenho.

In [None]:
# Estat√≠sticas por faixa de renda
renda_stats = df_clean.groupby('Q006_ord')['NOTA_MEDIA_5'].agg([
    'count', 'mean', 'std', 'median', 'min', 'max'
]).round(2)

renda_stats['pct_pop'] = (renda_stats['count'] / renda_stats['count'].sum() * 100).round(2)

print("üìä Estat√≠sticas por Faixa de Renda (Q006_ord)")
print("="*70)
display(renda_stats)

# Exportar
renda_stats.to_csv(EXPORT_DIR / '01_renda_estatisticas.csv')
print(f"\n‚úì Exportado: {EXPORT_DIR / '01_renda_estatisticas.csv'}")

In [None]:
# Calcular correla√ß√£o
corr_spearman, p_spearman = spearmanr(df_clean['Q006_ord'], df_clean['NOTA_MEDIA_5'])
corr_pearson, p_pearson = pearsonr(df_clean['Q006_ord'], df_clean['NOTA_MEDIA_5'])

print(f"Correla√ß√£o de Spearman: {corr_spearman:.4f} (p={p_spearman:.2e})")
print(f"Correla√ß√£o de Pearson:  {corr_pearson:.4f} (p={p_pearson:.2e})")

# Visualiza√ß√£o principal
fig, ax = plt.subplots(figsize=(12, 6))

tendencia = renda_stats['mean']
x = tendencia.index
y = tendencia.values

# Linha de tend√™ncia
ax.plot(x, y, marker='o', linewidth=2.5, markersize=8, color='#2E86AB', label='M√©dia por Faixa')

# Banda de confian√ßa (usando std)
std = renda_stats['std'].values
ax.fill_between(x, y - std/np.sqrt(renda_stats['count']), y + std/np.sqrt(renda_stats['count']), 
                alpha=0.2, color='#2E86AB', label='IC 95% (aprox.)')

# Anota√ß√µes importantes
ax.annotate(f'Sem renda\n{y[0]:.1f} pts', xy=(1, y[0]), xytext=(1.5, y[0]-30),
            arrowprops=dict(arrowstyle='->', color='red', lw=1.5),
            fontsize=9, color='red', weight='bold')

ax.annotate(f'Alta renda\n{y[-1]:.1f} pts', xy=(17, y[-1]), xytext=(15, y[-1]+20),
            arrowprops=dict(arrowstyle='->', color='green', lw=1.5),
            fontsize=9, color='green', weight='bold')

# Diferen√ßa absoluta
diff = y[-1] - y[0]
ax.text(9, 520, f'Diferen√ßa Total:\n{diff:.1f} pontos ({diff/y[0]*100:.1f}%)',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5),
        fontsize=10, weight='bold', ha='center')

ax.set_xlabel('Faixa de Renda (Q006 - ordinal)', fontsize=12, weight='bold')
ax.set_ylabel('Nota M√©dia ENEM (5 provas)', fontsize=12, weight='bold')
ax.set_title(f'Gradiente Socioecon√¥mico no ENEM 2023\nCorrela√ß√£o de Spearman: {corr_spearman:.3f} (p < 0.001)',
             fontsize=14, weight='bold', pad=15)
ax.grid(True, alpha=0.3, linestyle='--')
ax.legend(loc='lower right')
ax.set_xticks(range(1, 18))

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'gradiente_socioeconomico.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\n‚úì Figura salva: {FIGURES_DIR / 'gradiente_socioeconomico.png'}")

In [None]:
# Calcular incremento m√©dio por faixa
incrementos = tendencia.diff().dropna()

print("üìà Incremento de Nota por Aumento de Faixa de Renda")
print("="*60)
print(f"Incremento m√©dio: {incrementos.mean():.2f} pontos/faixa")
print(f"Desvio padr√£o: {incrementos.std():.2f}")
print(f"M√≠nimo: {incrementos.min():.2f}")
print(f"M√°ximo: {incrementos.max():.2f}")
print(f"\nConclus√£o: Cada aumento de faixa de renda corresponde a um ganho")
print(f"consistente de aproximadamente {incrementos.mean():.0f}-{incrementos.mean() + incrementos.std():.0f} pontos.")

---

## 2. Segmenta√ß√£o Socioecon√¥mica

Criar 3 segmentos para facilitar comunica√ß√£o:
- **Vulner√°vel**: Faixas 1-3 (at√© R$ 1.980)
- **Classe M√©dia**: Faixas 4-10 (R$ 1.980 - R$ 9.240)
- **Privilegiado**: Faixas 11-17 (> R$ 9.240)

In [None]:
# Criar segmentos
df_clean['SEGMENTO_SOCIO'] = pd.cut(
    df_clean['Q006_ord'], 
    bins=[0, 3, 10, 17], 
    labels=['Vulner√°vel', 'Classe M√©dia', 'Privilegiado'],
    include_lowest=True
)

# Estat√≠sticas por segmento
segmento_stats = df_clean.groupby('SEGMENTO_SOCIO')['NOTA_MEDIA_5'].agg([
    'count', 'mean', 'std', 'median'
]).round(2)

segmento_stats['pct_pop'] = (segmento_stats['count'] / segmento_stats['count'].sum() * 100).round(2)

print("üìä Estat√≠sticas por Segmento Socioecon√¥mico")
print("="*60)
display(segmento_stats)

# Exportar
segmento_stats.to_csv(EXPORT_DIR / '02_segmentos_estatisticas.csv')
print(f"\n‚úì Exportado: {EXPORT_DIR / '02_segmentos_estatisticas.csv'}")

In [None]:
# Boxplot por segmento
fig, ax = plt.subplots(figsize=(10, 6))

data_boxplot = [df_clean[df_clean['SEGMENTO_SOCIO']==seg]['NOTA_MEDIA_5'].values 
                for seg in ['Vulner√°vel', 'Classe M√©dia', 'Privilegiado']]

bp = ax.boxplot(data_boxplot, labels=['Vulner√°vel', 'Classe M√©dia', 'Privilegiado'],
                patch_artist=True, showfliers=False, widths=0.6)

# Cores
colors = ['#E63946', '#F4A261', '#2A9D8F']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)
    patch.set_alpha(0.7)

# Adicionar m√©dias
means = segmento_stats['mean'].values
for i, mean in enumerate(means):
    ax.text(i+1, mean, f'{mean:.1f}', ha='center', va='bottom', 
            fontsize=10, weight='bold', color='darkblue')

ax.set_ylabel('Nota M√©dia ENEM (5 provas)', fontsize=12, weight='bold')
ax.set_title('Distribui√ß√£o de Notas por Segmento Socioecon√¥mico', fontsize=14, weight='bold', pad=15)
ax.grid(True, alpha=0.3, axis='y', linestyle='--')

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'boxplot_segmentos.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'boxplot_segmentos.png'}")

---

## 3. An√°lise de Intera√ß√µes: Renda √ó Regi√£o

Investigar se estudantes do Norte com baixa renda sofrem **dupla penaliza√ß√£o**.

In [None]:
# Pivot table: Regi√£o √ó Segmento
pivot_regiao_seg = pd.pivot_table(
    df_clean,
    values='NOTA_MEDIA_5',
    index='REGIAO_NOME_PROVA',
    columns='SEGMENTO_SOCIO',
    aggfunc='mean'
).round(2)

print("üìä Nota M√©dia por Regi√£o √ó Segmento Socioecon√¥mico")
print("="*70)
display(pivot_regiao_seg)

# Calcular gaps
pivot_regiao_seg['Gap (Priv - Vuln)'] = (pivot_regiao_seg['Privilegiado'] - pivot_regiao_seg['Vulner√°vel']).round(2)

print("\nüìâ Gaps entre Privilegiados e Vulner√°veis por Regi√£o:")
display(pivot_regiao_seg[['Gap (Priv - Vuln)']].sort_values('Gap (Priv - Vuln)', ascending=False))

# Exportar
pivot_regiao_seg.to_csv(EXPORT_DIR / '03_regiao_segmento_pivot.csv')
print(f"\n‚úì Exportado: {EXPORT_DIR / '03_regiao_segmento_pivot.csv'}")

In [None]:
# Heatmap Regi√£o √ó Segmento
fig, ax = plt.subplots(figsize=(10, 6))

# Preparar dados para imshow
data_heatmap = pivot_regiao_seg[['Vulner√°vel', 'Classe M√©dia', 'Privilegiado']].values
regioes = pivot_regiao_seg.index.tolist()
segmentos = ['Vulner√°vel', 'Classe M√©dia', 'Privilegiado']

im = ax.imshow(data_heatmap, cmap='RdYlGn', aspect='auto', vmin=480, vmax=670)

# Configurar eixos
ax.set_xticks(np.arange(len(segmentos)))
ax.set_yticks(np.arange(len(regioes)))
ax.set_xticklabels(segmentos)
ax.set_yticklabels(regioes)

# Adicionar valores nas c√©lulas
for i in range(len(regioes)):
    for j in range(len(segmentos)):
        text = ax.text(j, i, f'{data_heatmap[i, j]:.1f}',
                      ha="center", va="center", color="black", fontsize=10, weight='bold')

ax.set_title('Mapa de Calor: Nota M√©dia por Regi√£o e Segmento Socioecon√¥mico', 
             fontsize=14, weight='bold', pad=15)
ax.set_xlabel('Segmento Socioecon√¥mico', fontsize=12, weight='bold')
ax.set_ylabel('Regi√£o (Local da Prova)', fontsize=12, weight='bold')

# Colorbar
cbar = plt.colorbar(im, ax=ax)
cbar.set_label('Nota M√©dia', rotation=270, labelpad=20, fontsize=11)

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'heatmap_regiao_segmento.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'heatmap_regiao_segmento.png'}")

In [None]:
# Identificar dupla vulnerabilidade (Norte + Baixa Renda)
dupla_vuln = df_clean[(df_clean['REGIAO_NOME_PROVA'] == 'Norte') & 
                       (df_clean['SEGMENTO_SOCIO'] == 'Vulner√°vel')]

sudeste_priv = df_clean[(df_clean['REGIAO_NOME_PROVA'] == 'Sudeste') & 
                         (df_clean['SEGMENTO_SOCIO'] == 'Privilegiado')]

print("üîç An√°lise de Dupla Vulnerabilidade")
print("="*70)
print(f"\nNorte + Vulner√°vel:")
print(f"  N = {len(dupla_vuln):,}")
print(f"  M√©dia = {dupla_vuln['NOTA_MEDIA_5'].mean():.2f}")
print(f"  Mediana = {dupla_vuln['NOTA_MEDIA_5'].median():.2f}")

print(f"\nSudeste + Privilegiado:")
print(f"  N = {len(sudeste_priv):,}")
print(f"  M√©dia = {sudeste_priv['NOTA_MEDIA_5'].mean():.2f}")
print(f"  Mediana = {sudeste_priv['NOTA_MEDIA_5'].median():.2f}")

gap = sudeste_priv['NOTA_MEDIA_5'].mean() - dupla_vuln['NOTA_MEDIA_5'].mean()
print(f"\n‚ö†Ô∏è GAP TOTAL: {gap:.2f} pontos ({gap/dupla_vuln['NOTA_MEDIA_5'].mean()*100:.1f}%)")
print(f"\nInterpreta√ß√£o: Estudantes vulner√°veis do Norte t√™m desvantagem estrutural")
print(f"equivalente a quase {gap/10:.0f} meses de escolariza√ß√£o comparado a privilegiados do Sudeste.")

---

## 4. Papel da Tecnologia (Q024)

Investigar Q024 como **fator emergente** com correla√ß√£o compar√°vel √† renda.

In [None]:
# Correla√ß√µes de todas as vari√°veis socioecon√¥micas
vars_socio = ['Q006_ord', 'Q024_ord', 'Q002_ord', 'Q001_ord', 'Q022_ord', 'Q025_ord']

correlacoes = []
for var in vars_socio:
    if var in df_clean.columns:
        corr, pval = spearmanr(df_clean[var].dropna(), 
                               df_clean.loc[df_clean[var].notna(), 'NOTA_MEDIA_5'])
        correlacoes.append({
            'Vari√°vel': var,
            'Spearman': round(corr, 4),
            'p-value': f"{pval:.2e}"
        })

corr_df = pd.DataFrame(correlacoes).sort_values('Spearman', ascending=False)

print("üìä Ranking de Correla√ß√µes ‚Äî Vari√°veis Socioecon√¥micas √ó Nota M√©dia")
print("="*70)
display(corr_df)

# Exportar
corr_df.to_csv(EXPORT_DIR / '04_correlacoes_ranking.csv', index=False)
print(f"\n‚úì Exportado: {EXPORT_DIR / '04_correlacoes_ranking.csv'}")

In [None]:
# Gr√°fico de barras ‚Äî Correla√ß√µes
fig, ax = plt.subplots(figsize=(10, 6))

colors = ['#E63946' if i == 0 else '#F4A261' if i == 1 else '#457B9D' 
          for i in range(len(corr_df))]

bars = ax.barh(corr_df['Vari√°vel'], corr_df['Spearman'], color=colors, edgecolor='black', linewidth=1.2)

# Adicionar valores
for i, (var, val) in enumerate(zip(corr_df['Vari√°vel'], corr_df['Spearman'])):
    ax.text(val + 0.01, i, f'{val:.3f}', va='center', fontsize=10, weight='bold')

# Destacar Q024
ax.axhline(y=1, color='orange', linestyle='--', linewidth=2, alpha=0.7, label='Q024 (Tecnologia)')

ax.set_xlabel('Correla√ß√£o de Spearman', fontsize=12, weight='bold')
ax.set_title('Fatores Socioecon√¥micos com Maior Impacto no Desempenho\n(Correla√ß√£o com Nota M√©dia)', 
             fontsize=14, weight='bold', pad=15)
ax.set_xlim(0, 0.5)
ax.grid(True, alpha=0.3, axis='x', linestyle='--')
ax.legend()

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'ranking_correlacoes.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'ranking_correlacoes.png'}")

In [None]:
# Tend√™ncia Q024 √ó Nota
tech_stats = df_clean.groupby('Q024_ord')['NOTA_MEDIA_5'].agg(['count', 'mean', 'std']).round(2)

fig, ax = plt.subplots(figsize=(10, 6))

ax.plot(tech_stats.index, tech_stats['mean'], marker='o', linewidth=2.5, 
        markersize=8, color='#F4A261', label='M√©dia por N√≠vel de Acesso')

ax.fill_between(tech_stats.index, 
                tech_stats['mean'] - tech_stats['std']/np.sqrt(tech_stats['count']),
                tech_stats['mean'] + tech_stats['std']/np.sqrt(tech_stats['count']),
                alpha=0.2, color='#F4A261')

ax.set_xlabel('Q024 - Acesso √† Tecnologia/Internet (ordinal)', fontsize=12, weight='bold')
ax.set_ylabel('Nota M√©dia ENEM (5 provas)', fontsize=12, weight='bold')
ax.set_title('Impacto do Acesso √† Tecnologia no Desempenho\nCorrela√ß√£o de Spearman: 0.421 (p < 0.001)',
             fontsize=14, weight='bold', pad=15)
ax.grid(True, alpha=0.3, linestyle='--')
ax.legend()

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'tecnologia_tendencia.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'tecnologia_tendencia.png'}")

---

## 5. Outliers Positivos e Negativos

Identificar casos excepcionais:
- **Outliers Positivos**: Baixa renda + Alto desempenho (> 650)
- **Outliers Negativos**: Alta renda + Baixo desempenho (< 500)

In [None]:
# Outliers Positivos
outliers_pos = df_clean[(df_clean['Q006_ord'] <= 3) & (df_clean['NOTA_MEDIA_5'] > 650)]

# Outliers Negativos
outliers_neg = df_clean[(df_clean['Q006_ord'] >= 14) & (df_clean['NOTA_MEDIA_5'] < 500)]

print("üîç An√°lise de Outliers")
print("="*70)
print(f"\n‚úÖ OUTLIERS POSITIVOS (Baixa Renda + Alto Desempenho):")
print(f"   N = {len(outliers_pos):,} ({len(outliers_pos)/len(df_clean)*100:.2f}% da amostra)")
print(f"   M√©dia = {outliers_pos['NOTA_MEDIA_5'].mean():.2f}")
print(f"   Mediana = {outliers_pos['NOTA_MEDIA_5'].median():.2f}")

print(f"\n‚ùå OUTLIERS NEGATIVOS (Alta Renda + Baixo Desempenho):")
print(f"   N = {len(outliers_neg):,} ({len(outliers_neg)/len(df_clean)*100:.2f}% da amostra)")
print(f"   M√©dia = {outliers_neg['NOTA_MEDIA_5'].mean():.2f}")
print(f"   Mediana = {outliers_neg['NOTA_MEDIA_5'].median():.2f}")

# Caracter√≠sticas dos outliers positivos
print(f"\nüìä Caracter√≠sticas dos Outliers Positivos:")
print(f"   Escolaridade Pai (Q001) m√©dia: {outliers_pos['Q001_ord'].mean():.2f}")
print(f"   Escolaridade M√£e (Q002) m√©dia: {outliers_pos['Q002_ord'].mean():.2f}")
print(f"   Acesso Tecnologia (Q024) m√©dia: {outliers_pos['Q024_ord'].mean():.2f}")

print(f"\nüí° Insight: Outliers positivos tendem a ter maior escolaridade dos pais")
print(f"   e/ou melhor acesso √† tecnologia, compensando a baixa renda.")

In [None]:
# Scatter plot com outliers destacados
fig, ax = plt.subplots(figsize=(12, 7))

# Amostra para visualiza√ß√£o (evitar overplotting)
sample = df_clean.sample(min(50000, len(df_clean)), random_state=42)

# Scatter base
ax.scatter(sample['Q006_ord'], sample['NOTA_MEDIA_5'], 
           s=3, alpha=0.3, color='gray', label='Amostra geral')

# Destacar outliers
ax.scatter(outliers_pos['Q006_ord'], outliers_pos['NOTA_MEDIA_5'],
           s=20, alpha=0.6, color='green', marker='^', 
           label=f'Outliers Positivos (n={len(outliers_pos):,})', edgecolor='black', linewidth=0.5)

ax.scatter(outliers_neg['Q006_ord'], outliers_neg['NOTA_MEDIA_5'],
           s=20, alpha=0.6, color='red', marker='v',
           label=f'Outliers Negativos (n={len(outliers_neg):,})', edgecolor='black', linewidth=0.5)

# Linha de tend√™ncia
z = np.polyfit(df_clean['Q006_ord'], df_clean['NOTA_MEDIA_5'], 1)
p = np.poly1d(z)
ax.plot(range(1, 18), p(range(1, 18)), "--", color='blue', linewidth=2, label='Tend√™ncia Linear')

ax.set_xlabel('Faixa de Renda (Q006 - ordinal)', fontsize=12, weight='bold')
ax.set_ylabel('Nota M√©dia ENEM (5 provas)', fontsize=12, weight='bold')
ax.set_title('Dispers√£o: Renda √ó Desempenho (com Outliers Destacados)', 
             fontsize=14, weight='bold', pad=15)
ax.grid(True, alpha=0.3, linestyle='--')
ax.legend(loc='lower right', fontsize=9)
ax.set_xlim(0, 18)
ax.set_ylim(200, 900)

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'scatter_outliers.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'scatter_outliers.png'}")

---

## 6. Modelagem Preditiva ‚Äî Regress√£o Linear M√∫ltipla

Quantificar a contribui√ß√£o individual de cada fator socioecon√¥mico.

In [None]:
# Preparar dados para modelagem
features = ['Q006_ord', 'Q001_ord', 'Q002_ord', 'Q024_ord']
target = 'NOTA_MEDIA_5'

# Adicionar dummies para regi√£o
df_model = df_clean[features + [target, 'REGIAO_NOME_PROVA']].dropna().copy()
df_model = pd.get_dummies(df_model, columns=['REGIAO_NOME_PROVA'], drop_first=True)

# Separar X e y
X = df_model.drop(columns=[target])
y = df_model[target]

print(f"üìä Modelagem Preditiva")
print("="*70)
print(f"Features: {list(X.columns)}")
print(f"Target: {target}")
print(f"N amostras: {len(X):,}")

# Treinar modelo
model = LinearRegression()
model.fit(X, y)

# Predi√ß√µes
y_pred = model.predict(X)

# M√©tricas
r2 = r2_score(y, y_pred)
mae = mean_absolute_error(y, y_pred)

print(f"\nüìà Resultados do Modelo:")
print(f"   R¬≤ = {r2:.4f} ({r2*100:.2f}% da vari√¢ncia explicada)")
print(f"   MAE = {mae:.2f} pontos")
print(f"   Intercepto = {model.intercept_:.2f}")

In [None]:
# Coeficientes
coef_df = pd.DataFrame({
    'Feature': X.columns,
    'Coeficiente': model.coef_
}).sort_values('Coeficiente', ascending=False)

print("\nüìä Coeficientes do Modelo (Import√¢ncia Relativa):")
print("="*70)
display(coef_df)

# Exportar
coef_df.to_csv(EXPORT_DIR / '05_modelo_coeficientes.csv', index=False)
print(f"\n‚úì Exportado: {EXPORT_DIR / '05_modelo_coeficientes.csv'}")

In [None]:
# Gr√°fico de coeficientes
fig, ax = plt.subplots(figsize=(10, 8))

# Filtrar apenas features socioecon√¥micas (sem dummies de regi√£o)
coef_socio = coef_df[coef_df['Feature'].isin(features)].copy()

colors_coef = ['#E63946' if c > 0 else '#457B9D' for c in coef_socio['Coeficiente']]

bars = ax.barh(coef_socio['Feature'], coef_socio['Coeficiente'], 
               color=colors_coef, edgecolor='black', linewidth=1.2)

# Adicionar valores
for i, (feat, val) in enumerate(zip(coef_socio['Feature'], coef_socio['Coeficiente'])):
    ax.text(val + (0.5 if val > 0 else -0.5), i, f'{val:.2f}', 
            va='center', ha='left' if val > 0 else 'right',
            fontsize=10, weight='bold')

ax.axvline(x=0, color='black', linewidth=1, linestyle='-')
ax.set_xlabel('Coeficiente (Impacto na Nota M√©dia)', fontsize=12, weight='bold')
ax.set_title('Impacto Individual de Cada Fator Socioecon√¥mico\n(Regress√£o Linear M√∫ltipla)',
             fontsize=14, weight='bold', pad=15)
ax.grid(True, alpha=0.3, axis='x', linestyle='--')

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'modelo_coeficientes.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'modelo_coeficientes.png'}")

In [None]:
# Interpreta√ß√£o dos coeficientes
print("üí° Interpreta√ß√£o dos Coeficientes:")
print("="*70)

for feat, coef in zip(coef_socio['Feature'], coef_socio['Coeficiente']):
    print(f"\n{feat}:")
    if coef > 0:
        print(f"  ‚û§ Cada aumento de 1 n√≠vel est√° associado a um ganho de {coef:.2f} pontos")
        print(f"    (mantendo outras vari√°veis constantes).")
    else:
        print(f"  ‚û§ Cada aumento de 1 n√≠vel est√° associado a uma perda de {abs(coef):.2f} pontos")
        print(f"    (mantendo outras vari√°veis constantes).")

print(f"\n\nüéØ CONCLUS√ÉO DO MODELO:")
print(f"   ‚Ä¢ O modelo explica {r2*100:.1f}% da vari√¢ncia nas notas.")
print(f"   ‚Ä¢ Renda (Q006) tem o maior impacto individual.")
print(f"   ‚Ä¢ Tecnologia (Q024) tem impacto compar√°vel √† escolaridade dos pais.")
print(f"   ‚Ä¢ Todos os fatores contribuem significativamente (coeficientes n√£o-zero).")

---

## 7. Visualiza√ß√£o Final: Matriz de Correla√ß√£o

Matriz completa mostrando inter-rela√ß√µes entre vari√°veis socioecon√¥micas e notas.

In [None]:
# Selecionar vari√°veis para matriz
cols_matriz = [
    'Q006_ord', 'Q024_ord', 'Q001_ord', 'Q002_ord',
    'NU_NOTA_MT', 'NU_NOTA_LC', 'NU_NOTA_CH', 'NU_NOTA_CN', 'NU_NOTA_REDACAO',
    'NOTA_MEDIA_5'
]

# Calcular correla√ß√£o
corr_matrix = df_clean[cols_matriz].corr(method='spearman').round(3)

# Visualizar
fig, ax = plt.subplots(figsize=(12, 10))

im = ax.imshow(corr_matrix, cmap='coolwarm', aspect='auto', vmin=-1, vmax=1)

# Configurar eixos
ax.set_xticks(np.arange(len(corr_matrix.columns)))
ax.set_yticks(np.arange(len(corr_matrix.index)))
ax.set_xticklabels(corr_matrix.columns, rotation=45, ha='right')
ax.set_yticklabels(corr_matrix.index)

# Adicionar valores
for i in range(len(corr_matrix)):
    for j in range(len(corr_matrix.columns)):
        val = corr_matrix.iloc[i, j]
        color = 'white' if abs(val) > 0.5 else 'black'
        text = ax.text(j, i, f'{val:.2f}',
                      ha="center", va="center", color=color, fontsize=9, weight='bold')

ax.set_title('Matriz de Correla√ß√£o (Spearman)\nVari√°veis Socioecon√¥micas e Notas do ENEM 2023',
             fontsize=14, weight='bold', pad=20)

# Colorbar
cbar = plt.colorbar(im, ax=ax)
cbar.set_label('Correla√ß√£o de Spearman', rotation=270, labelpad=25, fontsize=11)

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'matriz_correlacao.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úì Figura salva: {FIGURES_DIR / 'matriz_correlacao.png'}")

# Exportar matriz
corr_matrix.to_csv(EXPORT_DIR / '06_matriz_correlacao.csv')
print(f"‚úì Exportado: {EXPORT_DIR / '06_matriz_correlacao.csv'}")

---

## 8. Conclus√µes e Mensagens-Chave

### üéØ Principais Descobertas:

1. **Gradiente Socioecon√¥mico Cont√≠nuo**
   - Correla√ß√£o Spearman de **0.459** entre renda e desempenho
   - Diferen√ßa de **182 pontos** entre extremos (38% de varia√ß√£o)
   - Incremento m√©dio de **~11 pontos por faixa de renda**

2. **Tecnologia como Fator Emergente**
   - Q024 (acesso tecnol√≥gico) tem correla√ß√£o de **0.421**
   - **Segunda maior correla√ß√£o** entre todas as vari√°veis
   - Compar√°vel ao impacto da renda familiar

3. **Dupla Vulnerabilidade Regional**
   - Gap de **~52 pontos** entre Norte e Sudeste
   - Estudantes vulner√°veis do Norte: **~100 pontos abaixo** de privilegiados do Sudeste
   - Equivalente a **mais de 1 ano de escolariza√ß√£o**

4. **Escolaridade dos Pais**
   - Q002 (respons√°vel 2): correla√ß√£o de **0.318**
   - Q001 (respons√°vel 1): correla√ß√£o de **0.248**
   - Efeito intergeracional significativo

5. **Modelo Preditivo**
   - **R¬≤ = ~0.27** (27% da vari√¢ncia explicada)
   - Renda e tecnologia s√£o os principais preditores
   - Todos os fatores contribuem significativamente

### üí° Implica√ß√µes para Pol√≠ticas P√∫blicas:

- ‚úÖ **Inclus√£o Digital** deve ser prioridade (impacto compar√°vel √† renda)
- ‚úÖ **Regionaliza√ß√£o** de estrat√©gias educacionais (Norte necessita aten√ß√£o especial)
- ‚úÖ **Educa√ß√£o de Adultos (EJA)** tem impacto indireto nas pr√≥ximas gera√ß√µes
- ‚úÖ **Programas de apoio** precisam ir al√©m de bolsas escolares

### üìä Arquivos Gerados:

**Dados:**
- `01_renda_estatisticas.csv`
- `02_segmentos_estatisticas.csv`
- `03_regiao_segmento_pivot.csv`
- `04_correlacoes_ranking.csv`
- `05_modelo_coeficientes.csv`
- `06_matriz_correlacao.csv`

**Figuras:**
- `gradiente_socioeconomico.png`
- `boxplot_segmentos.png`
- `heatmap_regiao_segmento.png`
- `ranking_correlacoes.png`
- `tecnologia_tendencia.png`
- `scatter_outliers.png`
- `modelo_coeficientes.png`
- `matriz_correlacao.png`

---

**Notebook conclu√≠do em:** 16 de novembro de 2025  
**Pr√≥ximos passos:** Preparar apresenta√ß√£o e slides

In [None]:
# Resumo final
print("\n" + "="*80)
print(" "*20 + "üìä AN√ÅLISE CONCLU√çDA COM SUCESSO! üìä")
print("="*80)
print(f"\n‚úì {len(list(EXPORT_DIR.glob('*.csv')))} arquivos CSV exportados em: {EXPORT_DIR}")
print(f"‚úì {len(list(FIGURES_DIR.glob('*.png')))} figuras salvas em: {FIGURES_DIR}")
print(f"\nüìã Pr√≥ximos passos:")
print(f"   1. Revisar todas as figuras geradas")
print(f"   2. Preparar slides de apresenta√ß√£o")
print(f"   3. Elaborar script/roteiro de apresenta√ß√£o (8-10 min)")
print(f"   4. Praticar apresenta√ß√£o com a equipe")
print("\n" + "="*80)