# Modelo Regional

## Configura√ß√µes Iniciais

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import requests as req
from sklearn.linear_model import LinearRegression
import geopandas as gpd
import statsmodels.api as sm

In [None]:
import os

# Ajusta o caminho relativo para o arquivo de dados
data_path = os.path.join("..", "data", "merged_df.pkl")
merged_df = pd.read_pickle(data_path)

merged_df.head()

In [None]:
# Importar fun√ß√£o de utilidades para carregar m√©tricas do modelo inicial
import sys
import os
sys.path.append('..')

from utils.model_utils import load_modelo_inicial_metrics

# Carregar e exibir m√©tricas do modelo inicial
inicial_metrics = load_modelo_inicial_metrics()

print("=== M√âTRICAS DO MODELO INICIAL (BASELINE) ===")
print(f"üìä Modelo: {inicial_metrics['modelo_nome']}")
print(f"üéØ R¬≤ teste: {inicial_metrics['r2_teste']:.4f}")
print(f"üìê MAE teste: {inicial_metrics['mae_teste']:.4f}")
print(f"üìà Equa√ß√£o: {inicial_metrics['equacao']}")
print(f"üîó Correla√ß√£o BF-Lula: {inicial_metrics['correlacao_bf_lula']:.4f}")
print(f"üìã Observa√ß√µes: {inicial_metrics['n_observacoes']:,}")

print(f"\n‚úÖ Modelo inicial carregado com sucesso!")
print(f"   ‚Üí Agora podemos comparar com os modelos regionais")

In [None]:
# Importar modelo treinado do notebook inicial
import pickle
import os

# Carregar o modelo inicial salvo
try:
    model_path = os.path.join("..", "data", "models", "modelo_inicial_bolsa_familia.pkl")
    with open(model_path, 'rb') as f:
        model_inicial = pickle.load(f)
    print("‚úÖ Modelo inicial carregado com sucesso!")
    print(f"   ‚Üí Coeficientes: Intercept={model_inicial.intercept_:.4f}, BF={model_inicial.coef_[0]:.4f}")
except FileNotFoundError:
    print("‚ö†Ô∏è Modelo inicial n√£o encontrado. Ser√° necess√°rio treinar novamente no notebook inicial.")
    model_inicial = None

## Testando Nordeste

In [None]:
# Testando Nordeste vs Resto do Pa√≠s
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error

# Check what regions we have
print("=== REGI√ïES DISPON√çVEIS ===")
print(merged_df['regi√£o'].value_counts())

# Create Nordeste dummy variable (1 if Nordeste, 0 otherwise)
merged_df['is_nordeste'] = (merged_df['regi√£o'] == 'Nordeste').astype(int)

print(f"\n=== DISTRIBUI√á√ÉO NORDESTE ===")
print(f"Munic√≠pios do Nordeste: {merged_df['is_nordeste'].sum()}")
print(f"Munic√≠pios de outras regi√µes: {(merged_df['is_nordeste'] == 0).sum()}")
print(f"% Nordeste: {merged_df['is_nordeste'].mean()*100:.1f}%")

# Multiple Linear Regression: % Bolsa Fam√≠lia + Nordeste
df_region = merged_df[['perc_bolsa_familia', 'is_nordeste', 'voto_lula']].dropna()

X_region = df_region[['perc_bolsa_familia', 'is_nordeste']].values
y_region = df_region['voto_lula'].values

# Split into train and test sets
X_train_region, X_test_region, y_train_region, y_test_region = train_test_split(
    X_region, y_region, test_size=0.2, random_state=42
)

# Train model
model_region = LinearRegression()
model_region.fit(X_train_region, y_train_region)

# Predict
y_train_pred_region = model_region.predict(X_train_region)
y_test_pred_region = model_region.predict(X_test_region)

# Metrics
train_r2_region = r2_score(y_train_region, y_train_pred_region)
test_r2_region = r2_score(y_test_region, y_test_pred_region)
train_mae_region = mean_absolute_error(y_train_region, y_train_pred_region)
test_mae_region = mean_absolute_error(y_test_region, y_test_pred_region)

print(f"\n=== MODELO COM BOLSA FAM√çLIA + NORDESTE ===")
print(f"Intercept: {model_region.intercept_:.4f}")
print(f"Coeficiente Bolsa Fam√≠lia: {model_region.coef_[0]:.4f}")
print(f"Coeficiente Nordeste: {model_region.coef_[1]:.4f}")
print(f"\nR¬≤ (treino): {train_r2_region:.4f}")
print(f"R¬≤ (teste): {test_r2_region:.4f}")
print(f"MAE (treino): {train_mae_region:.4f}")
print(f"MAE (teste): {test_mae_region:.4f}")

In [None]:
# Compare with simple model
print("\n=== COMPARA√á√ÉO DOS MODELOS ===")
print(f"Modelo simples (apenas Bolsa Fam√≠lia) - R¬≤ teste: {inicial_metrics['r2_teste']:.4f}")
print(f"Modelo + Nordeste - R¬≤ teste: {test_r2_region:.4f}")
print(f"Melhoria no R¬≤ teste: {test_r2_region - inicial_metrics['r2_teste']:.4f} ({((test_r2_region - inicial_metrics['r2_teste'])/inicial_metrics['r2_teste'])*100:.1f}% de aumento)")

print(f"\n=== AVALIA√á√ÉO ===")
improvement = (test_r2_region - inicial_metrics['r2_teste']) * 100
if improvement < 0.5:
    print(f"‚ùå INSIGNIFICANTE: {improvement:.1f}pp de melhoria")
elif improvement < 2.0:
    print(f"‚ö†Ô∏è  PEQUENA: {improvement:.1f}pp de melhoria")  
else:
    print(f"‚úÖ SIGNIFICANTE: {improvement:.1f}pp de melhoria")

print(f"\n=== INTERPRETA√á√ÉO DO COEFICIENTE NORDESTE ===")
print(f"Coeficiente Nordeste: {model_region.coef_[1]:.2f}")
print(f"‚Üí Munic√≠pios do Nordeste votam {model_region.coef_[1]:.1f} pontos percentuais")
print(f"  a MAIS no Lula, controlando por Bolsa Fam√≠lia")
print(f"‚Üí Isso √© um efeito REGIONAL forte e independente do Bolsa Fam√≠lia!")

# Check correlation
import numpy as np
corr_bf_region = np.corrcoef(df_region['perc_bolsa_familia'], df_region['is_nordeste'])[0,1]
corr_region_lula = np.corrcoef(df_region['is_nordeste'], df_region['voto_lula'])[0,1]

print(f"\n=== CORRELA√á√ïES ===")
print(f"Correla√ß√£o Bolsa Fam√≠lia ‚Üî Nordeste: {corr_bf_region:.3f}")
print(f"Correla√ß√£o Nordeste ‚Üî Voto Lula: {corr_region_lula:.3f}")
print(f"‚Üí Nordeste adiciona informa√ß√£o NOVA al√©m do Bolsa Fam√≠lia!")

In [None]:
# AN√ÅLISE DE MULTICOLINEARIDADE
print("=== AN√ÅLISE DE MULTICOLINEARIDADE ===")
print(f"Correla√ß√£o Bolsa Fam√≠lia ‚Üî Nordeste: {corr_bf_region:.3f}")

# Definir test_r2_simple usando o valor do modelo inicial
test_r2_simple = inicial_metrics['r2_teste']

# Rule of thumb: correlations > 0.8 are problematic, 0.7-0.8 are concerning
if abs(corr_bf_region) > 0.8:
    print("üö® ALTA MULTICOLINEARIDADE: > 0.8")
elif abs(corr_bf_region) > 0.7:
    print("‚ö†Ô∏è  MULTICOLINEARIDADE MODERADA: 0.7-0.8")
else:
    print("‚úÖ MULTICOLINEARIDADE BAIXA: < 0.7")

# Simple VIF approximation: VIF ‚âà 1/(1-r¬≤)
r_squared_correlation = corr_bf_region**2
simple_vif = 1 / (1 - r_squared_correlation)

print(f"\n=== VARIANCE INFLATION FACTOR (VIF) Aproximado ===")
print(f"R¬≤ entre vari√°veis: {r_squared_correlation:.3f}")
print(f"VIF aproximado: {simple_vif:.2f}")
print(f"VIF interpretation:")
print(f"  1.0 = no correlation")
print(f"  1-5 = moderate correlation")
print(f"  5-10 = high correlation (concerning)")
print(f"  >10 = very high correlation (problematic)")

if simple_vif > 10:
    print("üö® PROBLEMA: VIF > 10")
elif simple_vif > 5:
    print("‚ö†Ô∏è  CUIDADO: VIF > 5")
else:
    print("‚úÖ OK: VIF < 5")

# Practical impact analysis
print(f"\n=== TESTE PR√ÅTICO: VALE A PENA INCLUIR NORDESTE? ===")
print(f"Correla√ß√£o individual Bolsa Fam√≠lia ‚Üí Lula: {0.809:.3f}")
print(f"Correla√ß√£o individual Nordeste ‚Üí Lula: {corr_region_lula:.3f}")
print(f"Mas elas se sobrep√µem em: {corr_bf_region:.3f}")

print(f"\nSe fossem independentes (r=0), R¬≤ seria ‚âà {0.809**2 + corr_region_lula**2:.3f}")
print(f"R¬≤ real com ambas: {test_r2_region:.3f}")
print(f"Perda por multicolinearidade: {(0.809**2 + corr_region_lula**2 - test_r2_region):.3f}")

print(f"\n=== DECIS√ÉO ===")
improvement_pp = (test_r2_region - test_r2_simple) * 100
if simple_vif < 5 and improvement_pp > 2:
    print(f"‚úÖ INCLUIR NORDESTE:")
    print(f"   ‚Ä¢ VIF aceit√°vel ({simple_vif:.1f} < 5)")
    print(f"   ‚Ä¢ Melhoria significativa ({improvement_pp:.1f}pp)")
    print(f"   ‚Ä¢ Faz sentido teoricamente")
elif simple_vif >= 5:
    print(f"‚ö†Ô∏è  CUIDADO com multicolinearidade")
    print(f"   ‚Ä¢ Considerar usar apenas uma das vari√°veis")
else:
    print(f"‚ùå N√£o incluir - melhoria insuficiente")

In [None]:
# AN√ÅLISE DE CONTRIBUI√á√ÉO √öNICA
print("=== CONTRIBUI√á√ÉO √öNICA DE CADA VARI√ÅVEL ===")

# Test: what if we only had Nordeste (without Bolsa Fam√≠lia)?
df_only_region = merged_df[['is_nordeste', 'voto_lula']].dropna()
X_only_region = df_only_region[['is_nordeste']].values
y_only_region = df_only_region['voto_lula'].values

X_train_only, X_test_only, y_train_only, y_test_only = train_test_split(
    X_only_region, y_only_region, test_size=0.2, random_state=42
)

model_only_region = LinearRegression()
model_only_region.fit(X_train_only, y_train_only)
y_pred_only_region = model_only_region.predict(X_test_only)
r2_only_region = r2_score(y_test_only, y_pred_only_region)

print(f"Apenas Bolsa Fam√≠lia: R¬≤ = {test_r2_simple:.3f}")
print(f"Apenas Nordeste: R¬≤ = {r2_only_region:.3f}")
print(f"Bolsa Fam√≠lia + Nordeste: R¬≤ = {test_r2_region:.3f}")

print(f"\n=== CONTRIBUI√á√ÉO INCREMENTAL ===")
bf_contribution = test_r2_simple
nordeste_added = test_r2_region - test_r2_simple
nordeste_alone = r2_only_region

print(f"Bolsa Fam√≠lia sozinha explica: {bf_contribution:.1%} da varia√ß√£o")
print(f"Nordeste sozinho explica: {nordeste_alone:.1%} da varia√ß√£o")
print(f"Nordeste ADICIONA: {nordeste_added:.1%} quando combinado com Bolsa Fam√≠lia")

print(f"\n=== CONCLUS√ÉO FINAL ===")
print(f"‚úÖ A multicolinearidade (0.741) √© ACEIT√ÅVEL porque:")
print(f"   ‚Ä¢ VIF = 2.2 (< 5.0 limite)")
print(f"   ‚Ä¢ Nordeste adiciona {nordeste_added:.1%} de explica√ß√£o √∫nica")
print(f"   ‚Ä¢ Faz sentido: Nordeste tem cultura pol√≠tica pr√≥pria")
print(f"   ‚Ä¢ Melhoria de {improvement_pp:.1f}pp vale o 'custo' da multicolinearidade")

print(f"\nüéØ RECOMENDA√á√ÉO: MANTER AMBAS as vari√°veis no modelo!")

### O que √© VIF (Variance Inflation Factor)?

**VIF mede o quanto a vari√¢ncia de um coeficiente de regress√£o "infla" devido √† multicolinearidade.**

### Como funciona:

1. **VIF = 1/(1 - R¬≤)** onde R¬≤ √© a correla√ß√£o entre uma vari√°vel independente e todas as outras
2. **Interpreta√ß√£o**:
   - **VIF = 1**: Nenhuma correla√ß√£o com outras vari√°veis (ideal)
   - **VIF = 2**: A vari√¢ncia do coeficiente √© 2x maior que seria sem correla√ß√£o
   - **VIF = 5**: A vari√¢ncia √© 5x maior (limite de preocupa√ß√£o)
   - **VIF = 10**: A vari√¢ncia √© 10x maior (problem√°tico)

### Por que isso importa?

- **Alta multicolinearidade** ‚Üí **VIF alto** ‚Üí **coeficientes inst√°veis**
- Os coeficientes ficam com **maior incerteza** (intervalos de confian√ßa mais largos)
- Pequenas mudan√ßas nos dados podem causar **grandes mudan√ßas nos coeficientes**

### No nosso caso:
- **Correla√ß√£o Bolsa Fam√≠lia ‚Üî Nordeste = 0.741**
- **R¬≤ = 0.741¬≤ = 0.549**  
- **VIF = 1/(1-0.549) = 2.2**

Isso significa que a **vari√¢ncia dos coeficientes √© 2.2x maior** do que seria se as vari√°veis fossem independentes - o que √© aceit√°vel!

In [None]:
# EXEMPLO PR√ÅTICO DE VIF
print("=== EXEMPLO PR√ÅTICO: O QUE SIGNIFICA VIF = 2.2? ===")

# Simula√ß√£o conceitual
print("Imagine que voc√™ est√° medindo a 'confian√ßa' no coeficiente:")
print()
print("üéØ Se Bolsa Fam√≠lia e Nordeste fossem INDEPENDENTES (VIF = 1.0):")
print("   Coeficiente Nordeste = 12.14 ¬± 2.0 (exemplo)")
print("   ‚Üí Temos certeza de que est√° entre 10.1 e 14.2")
print()
print("‚ö†Ô∏è  Com a correla√ß√£o atual (VIF = 2.2):")
print("   Coeficiente Nordeste = 12.14 ¬± 3.0 (2.2x maior incerteza)")
print("   ‚Üí Agora s√≥ temos certeza de que est√° entre 9.1 e 15.2")
print()
print("üìä Interpreta√ß√£o:")
print("   ‚Ä¢ O coeficiente AINDA √© v√°lido e significativo")
print("   ‚Ä¢ Apenas temos um pouco MENOS certeza do valor exato")
print("   ‚Ä¢ Como VIF = 2.2 < 5, isso √© ACEIT√ÅVEL")

print()
print("=== LIMITES PR√ÅTICOS DE VIF ===")
correlations = [0, 0.5, 0.7, 0.8, 0.9, 0.95]
print("Correla√ß√£o ‚Üí VIF ‚Üí Interpreta√ß√£o")
for corr in correlations:
    vif = 1 / (1 - corr**2) if corr < 1 else float('inf')
    if vif == float('inf'):
        status = "üö® IMPOSS√çVEL"
    elif vif > 10:
        status = "üö® PROBLEM√ÅTICO"
    elif vif > 5:
        status = "‚ö†Ô∏è  PREOCUPANTE"
    elif vif > 2:
        status = "üü° MODERADO"
    else:
        status = "‚úÖ BOM"
    print(f"{corr:.2f}      ‚Üí {vif:.1f}   ‚Üí {status}")

print()
print(f"üéØ Nossa situa√ß√£o: correla√ß√£o 0.74 ‚Üí VIF 2.2 ‚Üí üü° MODERADO (ACEIT√ÅVEL)")
print(f"üí° Regra pr√°tica: VIF < 5 = OK, VIF > 10 = problema s√©rio")

In [None]:
# VISUALIZA√á√ÉO: PODER EXPLICATIVO ADICIONAL DO NORDESTE
import matplotlib.pyplot as plt
import numpy as np

# Create a comprehensive visualization
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# 1. Residuals comparison: Simple vs Multiple model
# Get predictions from both models for the same test set
# Get predictions from both models for the same test set
X_test_simple = X_test_region[:, [0]]  # Only % Bolsa Fam√≠lia column
y_test_simple = y_test_region          # Same y as region test set
y_pred_simple_comparison = model_inicial.predict(X_test_simple)
residuals_simple = y_test_simple - y_pred_simple_comparison
residuals_multiple = y_test_region - y_test_pred_region

# Plot 1: Residuals distribution
ax1.hist(residuals_simple, bins=30, alpha=0.7, label=f'Modelo Simples (MAE={np.mean(np.abs(residuals_simple)):.1f})', color='lightcoral')
ax1.hist(residuals_multiple, bins=30, alpha=0.7, label=f'+ Nordeste (MAE={np.mean(np.abs(residuals_multiple)):.1f})', color='lightblue')
ax1.set_xlabel('Res√≠duos (Real - Predito)')
ax1.set_ylabel('Frequ√™ncia')
ax1.set_title('Distribui√ß√£o dos Res√≠duos')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Plot 2: Predicted vs Actual scatter
ax2.scatter(y_test_simple, y_pred_simple_comparison, alpha=0.6, color='lightcoral', label=f'Simples (R¬≤={test_r2_simple:.3f})')
ax2.scatter(y_test_region, y_test_pred_region, alpha=0.6, color='lightblue', label=f'+ Nordeste (R¬≤={test_r2_region:.3f})')
ax2.plot([20, 80], [20, 80], 'k--', alpha=0.8, label='Linha Perfeita')
ax2.set_xlabel('Voto Lula Real (%)')
ax2.set_ylabel('Voto Lula Predito (%)')
ax2.set_title('Predi√ß√µes vs Realidade')
ax2.legend()
ax2.grid(True, alpha=0.3)

# Plot 3: R¬≤ Bar Chart
models = ['Simples\n(Bolsa Fam√≠lia)', 'Simples +\nNordeste']
r2_values = [test_r2_simple, test_r2_region]
colors = ['lightcoral', 'lightblue']
bars = ax3.bar(models, r2_values, color=colors, alpha=0.8)
ax3.set_ylabel('R¬≤ (Teste)')
ax3.set_title('Compara√ß√£o do Poder Explicativo')
ax3.set_ylim(0, 0.8)
# Add value labels on bars
for bar, r2 in zip(bars, r2_values):
    height = bar.get_height()
    ax3.text(bar.get_x() + bar.get_width()/2., height + 0.01, f'{r2:.3f}', 
             ha='center', va='bottom', fontweight='bold')
ax3.grid(True, alpha=0.3)

# Plot 4: Error reduction by region
# Create a comparison showing how much the error improved in different regions
test_data = df_region.iloc[X_test_region.shape[0]:X_test_region.shape[0]*2]  # Approximate test data
if len(test_data) > 0:
    # Show improvement for Nordeste vs other regions
    regions = ['Outras Regi√µes', 'Nordeste']
    mae_simple_by_region = []
    mae_multiple_by_region = []
    
    # This is a conceptual visualization - in practice you'd need to track which test samples are which
    # For demonstration, we'll show the overall improvement
    mae_improvement = np.mean(np.abs(residuals_simple)) - np.mean(np.abs(residuals_multiple))
    
    ax4.bar(['Melhoria no\nMAE'], [mae_improvement], color='green', alpha=0.7)
    ax4.set_ylabel('Redu√ß√£o no MAE')
    ax4.set_title('Melhoria na Precis√£o\n(Menor = Melhor)')
    ax4.text(0, mae_improvement/2, f'{mae_improvement:.2f}\npontos menos\nde erro', 
             ha='center', va='center', fontweight='bold', color='white')
    ax4.grid(True, alpha=0.3)

plt.tight_layout()
#plt.savefig('graficos/regressao/poder_explicativo_nordeste.png', dpi=300, bbox_inches='tight')
plt.show()

print("=== RESUMO VISUAL ===")
print(f"üìä O gr√°fico mostra como adicionar Nordeste:")
print(f"   ‚Ä¢ REDUZ a dispers√£o dos res√≠duos")
print(f"   ‚Ä¢ MELHORA o alinhamento predi√ß√µes vs realidade") 
print(f"   ‚Ä¢ AUMENTA o R¬≤ de {test_r2_simple:.1%} para {test_r2_region:.1%}")
print(f"   ‚Ä¢ DIMINUI o erro m√©dio absoluto em {mae_improvement:.2f} pontos")

In [None]:
# VISUALIZA√á√ÉO ESPEC√çFICA: EFEITO REGIONAL
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Get full dataset for visualization
df_viz = merged_df[['perc_bolsa_familia', 'is_nordeste', 'voto_lula', 'regi√£o']].dropna()

# Plot 1: Scatter colored by region with both regression lines
nordeste_mask = df_viz['is_nordeste'] == 1
other_mask = df_viz['is_nordeste'] == 0

# Scatter plot
ax1.scatter(df_viz[other_mask]['perc_bolsa_familia'], df_viz[other_mask]['voto_lula'], 
           alpha=0.6, color='lightcoral', label='Outras Regi√µes', s=20)
ax1.scatter(df_viz[nordeste_mask]['perc_bolsa_familia'], df_viz[nordeste_mask]['voto_lula'], 
           alpha=0.6, color='lightblue', label='Nordeste', s=20)

# Add regression lines
bf_range = np.linspace(df_viz['perc_bolsa_familia'].min(), df_viz['perc_bolsa_familia'].max(), 100)

# Simple model line (same for all regions)
simple_pred = model_inicial.intercept_ + model_inicial.coef_[0] * bf_range
ax1.plot(bf_range, simple_pred, 'r--', linewidth=2, label='Modelo Simples (todas regi√µes)', alpha=0.8)

# Multiple model lines (different for Nordeste vs others)
# For other regions (is_nordeste = 0)
multiple_pred_others = model_region.intercept_ + model_region.coef_[0] * bf_range + model_region.coef_[1] * 0
ax1.plot(bf_range, multiple_pred_others, 'coral', linewidth=2, label='Modelo + Regi√£o (outras)', alpha=0.8)

# For Nordeste (is_nordeste = 1)  
multiple_pred_nordeste = model_region.intercept_ + model_region.coef_[0] * bf_range + model_region.coef_[1] * 1
ax1.plot(bf_range, multiple_pred_nordeste, 'blue', linewidth=2, label='Modelo + Regi√£o (Nordeste)', alpha=0.8)

ax1.set_xlabel('% Bolsa Fam√≠lia')
ax1.set_ylabel('% Voto Lula')
ax1.set_title('Efeito Regional: Nordeste vs Outras Regi√µes')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Plot 2: Box plot showing residuals by region
residuals_full_simple = []
residuals_full_multiple = []
regions_full = []

# Calculate residuals for full dataset
X_full_simple = df_viz[['perc_bolsa_familia']].values
X_full_multiple = df_viz[['perc_bolsa_familia', 'is_nordeste']].values
y_full = df_viz['voto_lula'].values

pred_full_simple = model_inicial.predict(X_full_simple)
pred_full_multiple = model_region.predict(X_full_multiple)

residuals_full_simple = y_full - pred_full_simple
residuals_full_multiple = y_full - pred_full_multiple

# Separate by region
residuals_simple_nordeste = residuals_full_simple[nordeste_mask]
residuals_simple_others = residuals_full_simple[other_mask]
residuals_multiple_nordeste = residuals_full_multiple[nordeste_mask]
residuals_multiple_others = residuals_full_multiple[other_mask]

# Box plot
bp1 = ax2.boxplot([residuals_simple_others, residuals_simple_nordeste], 
                  positions=[1, 2], widths=0.3, patch_artist=True,
                  boxprops=dict(facecolor='lightcoral', alpha=0.7),
                  medianprops=dict(color='red', linewidth=2))

bp2 = ax2.boxplot([residuals_multiple_others, residuals_multiple_nordeste], 
                  positions=[1.4, 2.4], widths=0.3, patch_artist=True,
                  boxprops=dict(facecolor='lightblue', alpha=0.7),
                  medianprops=dict(color='blue', linewidth=2))

ax2.set_xticks([1.2, 2.2])
ax2.set_xticklabels(['Outras Regi√µes', 'Nordeste'])
ax2.set_ylabel('Res√≠duos (Real - Predito)')
ax2.set_title('Distribui√ß√£o dos Erros por Regi√£o')
ax2.grid(True, alpha=0.3)
ax2.axhline(y=0, color='black', linestyle='-', alpha=0.3)

# Add legend
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor='lightcoral', alpha=0.7, label='Modelo Simples'),
                   Patch(facecolor='lightblue', alpha=0.7, label='Modelo + Nordeste')]
ax2.legend(handles=legend_elements)

plt.tight_layout()
#plt.savefig('graficos/regressao/efeito_regional_nordeste.png', dpi=300, bbox_inches='tight')
plt.show()

print("=== INTERPRETA√á√ÉO DOS GR√ÅFICOS ===")
print(f"üìç GR√ÅFICO ESQUERDA:")
print(f"   ‚Ä¢ Mostra que Nordeste tem uma 'linha de tend√™ncia' diferente")
print(f"   ‚Ä¢ Mesmo % de Bolsa Fam√≠lia ‚Üí Nordeste vota +{model_region.coef_[1]:.1f}pp a mais no Lula")
print(f"   ‚Ä¢ O modelo simples (linha vermelha) n√£o captura essa diferen√ßa")
print(f"   ‚Ä¢ O modelo + regi√£o tem linhas separadas para cada regi√£o")
print()
print(f"üìä GR√ÅFICO DIREITA:")
print(f"   ‚Ä¢ Boxplots mostram distribui√ß√£o dos ERROS")
print(f"   ‚Ä¢ Modelo + Nordeste (azul) tem erros menores e mais centrados")
print(f"   ‚Ä¢ Especialmente no Nordeste, onde o modelo simples errava sistematicamente")

## Testando todas as regi√µes

Vamos rapidamente testar se as outras regi√µes (Sul, Sudeste, Norte) adicionam poder explicativo al√©m do Nordeste:

In [None]:
# TESTE R√ÅPIDO: TODAS AS REGI√ïES
import pandas as pd

# Create all regional dummies (leaving Centro-Oeste as reference)
merged_df['is_nordeste'] = (merged_df['regi√£o'] == 'Nordeste').astype(int)
merged_df['is_sudeste'] = (merged_df['regi√£o'] == 'Sudeste').astype(int)
merged_df['is_sul'] = (merged_df['regi√£o'] == 'Sul').astype(int)
merged_df['is_norte'] = (merged_df['regi√£o'] == 'Norte').astype(int)
# Centro-Oeste is the reference category (all others = 0)

print("=== DISTRIBUI√á√ÉO REGIONAL ===")
for region in ['is_nordeste', 'is_sudeste', 'is_sul', 'is_norte']:
    count = merged_df[region].sum()
    pct = merged_df[region].mean() * 100
    region_name = region.replace('is_', '').title()
    print(f"{region_name}: {count} munic√≠pios ({pct:.1f}%)")

centro_oeste = ((merged_df['is_nordeste'] == 0) & 
                (merged_df['is_sudeste'] == 0) & 
                (merged_df['is_sul'] == 0) & 
                (merged_df['is_norte'] == 0)).sum()
print(f"Centro-Oeste (refer√™ncia): {centro_oeste} munic√≠pios ({centro_oeste/len(merged_df)*100:.1f}%)")

# Model with all regions
df_all_regions = merged_df[['perc_bolsa_familia', 'is_nordeste', 'is_sudeste', 'is_sul', 'is_norte', 'voto_lula']].dropna()

X_all_regions = df_all_regions[['perc_bolsa_familia', 'is_nordeste', 'is_sudeste', 'is_sul', 'is_norte']].values
y_all_regions = df_all_regions['voto_lula'].values

# Split with same random_state
X_train_all, X_test_all, y_train_all, y_test_all = train_test_split(
    X_all_regions, y_all_regions, test_size=0.2, random_state=42
)

# Train model
model_all_regions = LinearRegression()
model_all_regions.fit(X_train_all, y_train_all)

# Predict and evaluate
y_test_pred_all = model_all_regions.predict(X_test_all)
test_r2_all_regions = r2_score(y_test_all, y_test_pred_all)
train_r2_all_regions = r2_score(y_train_all, model_all_regions.predict(X_train_all))

print(f"\n=== MODELO COM TODAS AS REGI√ïES ===")
print(f"Intercept: {model_all_regions.intercept_:.4f}")
print(f"Coeficiente Bolsa Fam√≠lia: {model_all_regions.coef_[0]:.4f}")
print(f"Coeficiente Nordeste: {model_all_regions.coef_[1]:.4f}")
print(f"Coeficiente Sudeste: {model_all_regions.coef_[2]:.4f}")
print(f"Coeficiente Sul: {model_all_regions.coef_[3]:.4f}")
print(f"Coeficiente Norte: {model_all_regions.coef_[4]:.4f}")
print(f"\nR¬≤ (treino): {train_r2_all_regions:.4f}")
print(f"R¬≤ (teste): {test_r2_all_regions:.4f}")

print(f"\n=== COMPARA√á√ÉO DE MODELOS ===")
print(f"Simples (Bolsa Fam√≠lia): R¬≤ = {test_r2_simple:.4f}")
print(f"+ Nordeste apenas: R¬≤ = {test_r2_region:.4f}")
print(f"+ Todas regi√µes: R¬≤ = {test_r2_all_regions:.4f}")

improvement_nordeste = test_r2_region - test_r2_simple
improvement_all_regions = test_r2_all_regions - test_r2_simple
additional_from_other_regions = test_r2_all_regions - test_r2_region

print(f"\nMelhoria apenas Nordeste: {improvement_nordeste:.4f} ({improvement_nordeste*100:.1f}pp)")
print(f"Melhoria todas regi√µes: {improvement_all_regions:.4f} ({improvement_all_regions*100:.1f}pp)")
print(f"Adicional das outras regi√µes: {additional_from_other_regions:.4f} ({additional_from_other_regions*100:.1f}pp)")

print(f"\n=== AVALIA√á√ÉO ===")
if additional_from_other_regions < 0.01:
    print("‚ùå Outras regi√µes adicionam QUASE NADA (<1pp)")
elif additional_from_other_regions < 0.02:
    print("‚ö†Ô∏è  Outras regi√µes adicionam POUCO (1-2pp)")
else:
    print("‚úÖ Outras regi√µes adicionam valor significativo (>2pp)")

print(f"\n=== INTERPRETA√á√ÉO DOS COEFICIENTES ===")
print("(Refer√™ncia = Centro-Oeste)")
print(f"Nordeste: +{model_all_regions.coef_[1]:.1f}pp vs Centro-Oeste")
print(f"Sudeste: {model_all_regions.coef_[2]:+.1f}pp vs Centro-Oeste")
print(f"Sul: {model_all_regions.coef_[3]:+.1f}pp vs Centro-Oeste") 
print(f"Norte: {model_all_regions.coef_[4]:+.1f}pp vs Centro-Oeste")

In [None]:
# AN√ÅLISE FINAL: VALE A PENA INCLUIR TODAS AS REGI√ïES?
print("=== AN√ÅLISE CUSTO-BENEF√çCIO ===")

print(f"üéØ BENEF√çCIO: {additional_from_other_regions*100:.1f}pp de melhoria adicional")
print(f"üí∞ CUSTO: +3 vari√°veis extras (complexidade)")

print(f"\n=== SIGNIFIC√ÇNCIA DOS COEFICIENTES ===")
# Quick significance assessment based on magnitude
coefficients = {
    'Nordeste': model_all_regions.coef_[1],
    'Sudeste': model_all_regions.coef_[2], 
    'Sul': model_all_regions.coef_[3],
    'Norte': model_all_regions.coef_[4]
}

for region, coef in coefficients.items():
    if abs(coef) > 10:
        significance = "üî• MUITO FORTE"
    elif abs(coef) > 5:
        significance = "üí™ FORTE"
    elif abs(coef) > 2:
        significance = "üìç MODERADO"
    else:
        significance = "üò¥ FRACO"
    
    print(f"{region:8}: {coef:+5.1f}pp ‚Üí {significance}")

print(f"\n=== RECOMENDA√á√ÉO FINAL ===")
if additional_from_other_regions < 0.01:
    print("üéØ USAR APENAS NORDESTE:")
    print("   ‚úÖ Captura 87% do efeito regional (5.5pp de 6.2pp)")
    print("   ‚úÖ Modelo mais simples e interpret√°vel")
    print("   ‚úÖ Evita overfitting com vari√°veis fracas")
    print(f"   ‚úÖ {test_r2_region:.1%} de R¬≤ √© excelente performance")
    recommendation = "NORDESTE APENAS"
else:
    print("üí´ USAR TODAS AS REGI√ïES:")
    print("   ‚úÖ Melhoria adicional significativa")
    print("   ‚úÖ Vale a complexidade extra")
    recommendation = "TODAS AS REGI√ïES"

print(f"\nüèÜ MODELO FINAL RECOMENDADO:")
print(f"   Voto_Lula = Œ≤‚ÇÄ + Œ≤‚ÇÅ(Bolsa_Fam√≠lia) + Œ≤‚ÇÇ(Nordeste)")
print(f"   R¬≤ = {test_r2_region:.1%}")
print(f"   Simples, interpret√°vel e performance excelente!")

## Salvado resultados e modelo

In [None]:
import pickle
import os

# Save regional model metrics
regional_metrics = {
    'modelo_nome': 'Modelo Regional - Bolsa Fam√≠lia + Nordeste',
    'variaveis': ['perc_bolsa_familia', 'is_nordeste'],
    'n_observacoes': len(df_region),
    'n_variaveis': 2,
    'intercept': model_region.intercept_,
    'coef_bolsa_familia': model_region.coef_[0],
    'coef_nordeste': model_region.coef_[1],
    'r2_treino': train_r2_region,
    'r2_teste': test_r2_region,
    'mae_treino': train_mae_region,
    'mae_teste': test_mae_region,
    'equacao': f"% Voto Lula = {model_region.intercept_:.2f} + ({model_region.coef_[0]:.2f} √ó % Bolsa Fam√≠lia) + ({model_region.coef_[1]:.2f} √ó Nordeste)",
}

metrics_path = os.path.join("..", "data", "metrics", "regional_model_metrics.pkl")
with open(metrics_path, "wb") as f:
    pickle.dump(regional_metrics, f)
print(f"‚úÖ M√©tricas do modelo regional salvas em: {metrics_path}")

# Save the trained regional model itself
model_path = os.path.join("..", "data", "models", "regional_model_bolsa_familia.pkl")
with open(model_path, "wb") as f:
    pickle.dump(model_region, f)
print(f"‚úÖ Modelo regional salvo em: {model_path}")

In [None]:
# Fun√ß√£o auxiliar para carregar m√©tricas nos outros notebooks
def load_regional_model_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo regional (Bolsa Fam√≠lia + Nordeste) nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo regional
    """
    
    metrics_file = os.path.join("..", "data", "metrics", "regional_model_metrics.pkl")
    
    if not os.path.exists(metrics_file):
        raise FileNotFoundError(f"Arquivo de m√©tricas n√£o encontrado: {metrics_file}")
    
    with open(metrics_file, 'rb') as f:
        metrics = pickle.load(f)
    
    return metrics

# Salvar a fun√ß√£o em um arquivo Python para importa√ß√£o
utils_dir = os.path.join("..", "utils")
os.makedirs(utils_dir, exist_ok=True)

# Criar arquivo utils/model_utils.py
utils_content = '''"""
Utilit√°rios para carregar m√©tricas dos modelos de regress√£o
"""

def load_modelo_inicial_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo inicial nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo inicial
    """
    metrics_file = os.path.join("..", "data", "metrics", "modelo_inicial_metrics.pkl")
    
    if not os.path.exists(metrics_file):
        raise FileNotFoundError(f"Arquivo de m√©tricas n√£o encontrado: {metrics_file}")
    
    with open(metrics_file, 'rb') as f:
        metrics = pickle.load(f)
    
    return metrics

def load_regional_model_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo regional (Bolsa Fam√≠lia + Nordeste) nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo regional
    """
    metrics_file = os.path.join("..", "data", "metrics", "regional_model_metrics.pkl")
    
    if not os.path.exists(metrics_file):
        raise FileNotFoundError(f"Arquivo de m√©tricas n√£o encontrado: {metrics_file}")
    
    with open(metrics_file, 'rb') as f:
        metrics = pickle.load(f)
    
    return metrics
'''

utils_file = os.path.join(utils_dir, "model_utils.py")
with open(utils_file, 'w', encoding='utf-8') as f:
    f.write(utils_content)

print("=== FUN√á√ïES EXPORTADAS PARA IMPORTA√á√ÉO ===")
print(f"üìÅ Arquivo criado: {utils_file}")
print(f"üì¶ Agora voc√™ pode importar nos outros notebooks:")
print(f"   from utils.model_utils import load_modelo_inicial_metrics, load_regional_model_metrics")

# Exemplo de como usar nos outros notebooks
print("\n=== COMO USAR NOS OUTROS NOTEBOOKS ===")
print("""
# No in√≠cio dos outros notebooks, adicione:
sys.path.append('..')

# Usar as m√©tricas
regional_metrics = load_regional_model_metrics()
print(f"Modelo regional R¬≤: {regional_metrics['r2_teste']:.4f}")
print(f"Modelo regional equa√ß√£o: {regional_metrics['equacao']}")
""")

# Testar a fun√ß√£o
print("\n=== TESTE DA FUN√á√ÉO ===")
try:
    test_metrics = load_regional_model_metrics()
    print(f"‚úÖ Fun√ß√£o funciona! R¬≤ = {test_metrics['r2_teste']:.4f}")
except Exception as e:
    print(f"‚ùå Erro ao testar fun√ß√£o: {e}")

print(f"\nüéØ PRONTO PARA OS PR√ìXIMOS NOTEBOOKS!")
print(f"   ‚Üí As m√©tricas est√£o salvas em: regional_model_metrics.pkl")
print(f"   ‚Üí Use: from utils.model_utils import load_regional_model_metrics")
print(f"   ‚Üí Muito mais limpo que redefinir a fun√ß√£o toda vez!")
def load_modelo_inicial_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo inicial nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo inicial
    """