# Regress√£o Linear - Modelo Inicial

## Configura√ß√µes Iniciais

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import requests as req
from sklearn.linear_model import LinearRegression
import geopandas as gpd
import statsmodels.api as sm

In [None]:
import os

# Ajusta o caminho relativo para o arquivo de dados
data_path = os.path.join("..", "data", "merged_df.pkl")
merged_df = pd.read_pickle(data_path)

merged_df.head()

## An√°lise com 1 vari√°vel - Bolsa Fam√≠lia

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Prepare data: drop NaNs for the relevant columns
df_lr = merged_df[['perc_bolsa_familia', 'voto_lula']].dropna()

X = df_lr[['perc_bolsa_familia']].values
y = df_lr['voto_lula'].values

# Split into train and test sets (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=None
)

# Train the model on training data
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions on both sets
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# Calculate metrics for both training and test sets
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)
train_mae = mean_absolute_error(y_train, y_train_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)

print("=== MODELO COM TRAIN/TEST SPLIT ===\n")
print(f"Intercept: {model.intercept_:.4f}")
print(f"Coefficient: {model.coef_[0]:.4f}")

print(f"\n=== PERFORMANCE NO CONJUNTO DE TREINO ===")
print(f"Tamanho do treino: {len(X_train)} observa√ß√µes")
print(f"R¬≤ (treino): {train_r2:.4f}")
print(f"MAE (treino): {train_mae:.4f}")

print(f"\n=== PERFORMANCE NO CONJUNTO DE TESTE ===")
print(f"Tamanho do teste: {len(X_test)} observa√ß√µes")
print(f"R¬≤ (teste): {test_r2:.4f}")
print(f"MAE (teste): {test_mae:.4f}")

print(f"\n=== AVALIA√á√ÉO DE OVERFITTING ===")
r2_diff = train_r2 - test_r2
mae_diff = test_mae - train_mae

print(f"Diferen√ßa R¬≤ (treino - teste): {r2_diff:.4f}")
print(f"Diferen√ßa MAE (teste - treino): {mae_diff:.4f}")

if r2_diff > 0.05:
    print("‚ö†Ô∏è ALERTA: Poss√≠vel overfitting (grande diferen√ßa no R¬≤)")
elif r2_diff > 0.02:
    print("‚ö†Ô∏è ATEN√á√ÉO: Leve overfitting detectado")
else:
    print("‚úÖ OK: Sem sinais de overfitting")

### Interpreta√ß√£o dos Par√¢metros da Regress√£o Linear

### **Equa√ß√£o do Modelo**
```
% Voto Lula = Intercept + (Coefficient √ó % Bolsa Fam√≠lia)
% Voto Lula = 29.14 + (1.85 √ó % Bolsa Fam√≠lia)
```

### **Intercept (Intercepto) = 29.14**
- **O que significa**: O valor previsto de % Voto Lula quando % Bolsa Fam√≠lia = 0%
- **Interpreta√ß√£o pr√°tica**: Em um munic√≠pio hipot√©tico com 0% de fam√≠lias no Bolsa Fam√≠lia, o modelo prev√™ que Lula teria 29.14% dos votos
- **Contexto**: Representa a "base" de votos em Lula independente do Bolsa Fam√≠lia

### **Coefficient (Coeficiente) = 1.85**
- **O que significa**: Para cada 1 ponto percentual de aumento na % de fam√≠lias no Bolsa Fam√≠lia, o % de voto em Lula aumenta 1.85 pontos percentuais
- **Interpreta√ß√£o**: O Bolsa Fam√≠lia tem um efeito amplificador - cada 1% de cobertura adicional resulta em quase 2% a mais de votos para Lula
- **Significado pol√≠tico**: Mostra uma rela√ß√£o muito forte entre o programa social e o voto

In [None]:
# Exemplos pr√°ticos usando os par√¢metros da regress√£o

print("=== EXEMPLOS PR√ÅTICOS DO MODELO ===\n")
print("Equa√ß√£o: % Voto Lula = 29.14 + (1.85 √ó % Bolsa Fam√≠lia)\n")

# Exemplos de predi√ß√£o
scenarios = [
    ("Munic√≠pio com baixa cobertura", 5),
    ("Munic√≠pio com cobertura m√©dia", 15), 
    ("Munic√≠pio com alta cobertura", 30),
    ("Munic√≠pio com cobertura muito alta", 50)
]

for desc, perc_bf in scenarios:
    voto_previsto = model.intercept_ + model.coef_[0] * perc_bf
    print(f"{desc} ({perc_bf}% Bolsa Fam√≠lia):")
    print(f"  ‚Üí Voto Lula previsto: {voto_previsto:.1f}%")
    
# Interpreta√ß√£o do coeficiente
print(f"\n=== INTERPRETA√á√ÉO DO COEFICIENTE ===")
print(f"Coeficiente = {model.coef_[0]:.2f}")
print(f"‚Üí A cada 1% adicional de fam√≠lias no Bolsa Fam√≠lia:")
print(f"  ‚Ä¢ O voto em Lula aumenta {model.coef_[0]:.2f} pontos percentuais")
print(f"‚Üí A cada 10% adicionais de fam√≠lias no Bolsa Fam√≠lia:")
print(f"  ‚Ä¢ O voto em Lula aumenta {model.coef_[0] * 10:.1f} pontos percentuais")

# Compara√ß√£o com dados reais
print(f"\n=== COMPARA√á√ÉO COM EXTREMOS DOS DADOS ===")
min_bf = merged_df['perc_bolsa_familia'].min()
max_bf = merged_df['perc_bolsa_familia'].max()

pred_min = model.intercept_ + model.coef_[0] * min_bf
pred_max = model.intercept_ + model.coef_[0] * max_bf

print(f"Menor % Bolsa Fam√≠lia observada: {min_bf:.1f}% ‚Üí Lula previsto: {pred_min:.1f}%")
print(f"Maior % Bolsa Fam√≠lia observada: {max_bf:.1f}% ‚Üí Lula previsto: {pred_max:.1f}%")
print(f"Diferen√ßa total prevista: {pred_max - pred_min:.1f} pontos percentuais")

In [None]:
# Recreate and save the figure with a simplified approach
plt.figure(figsize=(12, 6))

# Plot training data
plt.scatter(X_train[:, 0], y_train, alpha=0.4, label='Dados de Treino', color='lightblue', s=20)

# Plot test data
plt.scatter(X_test[:, 0], y_test, alpha=0.6, label='Dados de Teste', color='orange', s=15, marker='^')

# Create regression line
x_range = np.linspace(X_train[:, 0].min(), X_train[:, 0].max(), 100)
y_line = model.predict(x_range.reshape(-1, 1))
plt.plot(x_range, y_line, color='red', linewidth=2, label='Regress√£o Linear (Treino)')

plt.xlabel('% de Fam√≠lias Benefici√°rias do Bolsa Fam√≠lia')
plt.ylabel('% Voto Lula')
plt.title('Regress√£o Linear: Dados de Treino vs Teste')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()

# # Save immediately
# # Salva a figura como PNG com alta resolu√ß√£o
# filename = "regressao_linear_train_test.png"
# plt.savefig(filename, dpi=300, bbox_inches='tight')
#
# # Verifica se o arquivo foi criado com sucesso
# import os
# if os.path.exists(filename):
#     print(f"‚úÖ SUCCESS: Figure saved as {filename}")
#     print(f"File size: {os.path.getsize(filename)} bytes")
# else:
#     print(f"‚ùå ERROR: Failed to save {filename}")

plt.show()

In [None]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

y_pred = model.predict(X)
r2 = r2_score(y, y_pred)
mse = mean_squared_error(y, y_pred)
mae = mean_absolute_error(y, y_pred)

print(f"R¬≤ score: {r2:.4f}")
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"Mean Absolute Error (MAE): {mae:.4f}")

### Interpreta√ß√£o das M√©tricas de Regress√£o

### **R¬≤ Score (Coeficiente de Determina√ß√£o)**
- **Significado**: Propor√ß√£o da vari√¢ncia explicada pelo modelo
- **Range**: 0 a 1 (valores pr√≥ximos a 1 s√£o melhores)
- **Interpreta√ß√£o**: 65.5% da varia√ß√£o no voto em Lula √© explicada pela varia√ß√£o no Bolsa Fam√≠lia

### **Mean Squared Error (MSE) - Erro Quadr√°tico M√©dio**
- **Significado**: M√©dia dos quadrados dos erros de predi√ß√£o
- **Unidade**: (% pontos)¬≤ 
- **Interpreta√ß√£o**: Penaliza mais os erros grandes
- **Melhor**: Valores menores s√£o melhores

### **Mean Absolute Error (MAE) - Erro Absoluto M√©dio**
- **Significado**: M√©dia dos valores absolutos dos erros
- **Unidade**: Pontos percentuais
- **Interpreta√ß√£o**: Em m√©dia, o modelo erra por X pontos percentuais
- **Melhor**: Valores menores s√£o melhores

In [None]:
# Vamos contextualizar as m√©tricas com os dados reais
print("=== CONTEXTUALIZANDO AS M√âTRICAS ===\n")

print(f"R¬≤ Score: {r2:.4f}")
print(f"‚Üí O modelo explica {r2*100:.1f}% da varia√ß√£o no voto em Lula")
print(f"‚Üí {(1-r2)*100:.1f}% da varia√ß√£o √© devido a outros fatores\n")

print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"‚Üí Raiz do MSE (RMSE): {np.sqrt(mse):.2f} pontos percentuais")
print(f"‚Üí Erro 't√≠pico' do modelo: ¬±{np.sqrt(mse):.1f}pp\n")

print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"‚Üí Em m√©dia, o modelo erra {mae:.1f} pontos percentuais")
print(f"‚Üí Se um munic√≠pio tem 50% de voto Lula, o modelo pode prever entre {50-mae:.1f}% e {50+mae:.1f}%\n")

# Contexto dos dados
voto_lula_range = merged_df['voto_lula'].max() - merged_df['voto_lula'].min()
print(f"=== CONTEXTO DOS DADOS ===")
print(f"Range do % Voto Lula: {merged_df['voto_lula'].min():.1f}% a {merged_df['voto_lula'].max():.1f}%")
print(f"Amplitude total: {voto_lula_range:.1f} pontos percentuais")
print(f"MAE como % da amplitude: {(mae/voto_lula_range)*100:.1f}%")
print(f"‚Üí O erro m√©dio representa {(mae/voto_lula_range)*100:.1f}% da varia√ß√£o total dos dados")

### O que significa "r" nas an√°lises estat√≠sticas?

### **"r" = Coeficiente de Correla√ß√£o de Pearson**

**Defini√ß√£o**: O "r" representa a for√ßa e dire√ß√£o da rela√ß√£o linear entre duas vari√°veis.

**Caracter√≠sticas do "r"**:
- **Range**: -1 ‚â§ r ‚â§ +1
- **Sinal**: 
  - r > 0: correla√ß√£o positiva (quando uma vari√°vel aumenta, a outra tamb√©m aumenta)
  - r < 0: correla√ß√£o negativa (quando uma vari√°vel aumenta, a outra diminui)
  - r = 0: sem correla√ß√£o linear

**Interpreta√ß√£o da for√ßa da correla√ß√£o**:
- |r| = 0.00 a 0.30: correla√ß√£o fraca
- |r| = 0.30 a 0.70: correla√ß√£o moderada  
- |r| = 0.70 a 1.00: correla√ß√£o forte

### **Exemplos do nosso estudo**:
- r = 0.8095 entre % Bolsa Fam√≠lia e % Voto Lula
  - **Interpreta√ß√£o**: Correla√ß√£o positiva muito forte
  - **Significado**: Munic√≠pios com maior % de fam√≠lias no Bolsa Fam√≠lia tendem a ter maior % de votos em Lula

### **Diferen√ßa entre "r" e "R¬≤"**:
- **r**: Mede a correla√ß√£o (-1 a +1)
- **R¬≤**: Mede a propor√ß√£o da vari√¢ncia explicada (0 a 1)
- **Rela√ß√£o**: R¬≤ = r¬≤ (R¬≤ √© o quadrado do r)

**No nosso modelo**:
- r ‚âà ‚àö0.6553 ‚âà 0.81 (correla√ß√£o)
- R¬≤ = 0.6553 (65.5% da vari√¢ncia explicada)

In [None]:
# Exemplos pr√°ticos do "r" no nosso estudo

print("=== EXEMPLOS DE 'r' (CORRELA√á√ÉO DE PEARSON) NO NOSSO ESTUDO ===\n")

# Recalcular algumas correla√ß√µes para demonstrar
if 'perc_bolsa_familia' in merged_df.columns and 'voto_lula' in merged_df.columns:
    r_bolsa_lula = merged_df[['perc_bolsa_familia', 'voto_lula']].corr().iloc[0,1]
    print(f"1. % Bolsa Fam√≠lia vs % Voto Lula:")
    print(f"   r = {r_bolsa_lula:.4f}")
    print(f"   Interpreta√ß√£o: Correla√ß√£o positiva MUITO FORTE")
    print(f"   Significado: Quanto maior o Bolsa Fam√≠lia, maior o voto em Lula\n")

if 'pib per capita' in merged_df.columns:
    r_pib_lula = merged_df[['pib per capita', 'voto_lula']].corr().iloc[0,1]
    print(f"2. PIB per capita vs % Voto Lula:")
    print(f"   r = {r_pib_lula:.4f}")
    if r_pib_lula < 0:
        print(f"   Interpreta√ß√£o: Correla√ß√£o negativa")
        print(f"   Significado: Quanto maior a renda, menor o voto em Lula")
    else:
        print(f"   Interpreta√ß√£o: Correla√ß√£o positiva")
        print(f"   Significado: Quanto maior a renda, maior o voto em Lula")
    print()

r_pop_lula = merged_df[['POPULA√á√ÉO ESTIMADA', 'voto_lula']].corr().iloc[0,1]
print(f"3. Popula√ß√£o vs % Voto Lula:")
print(f"   r = {r_pop_lula:.4f}")
if abs(r_pop_lula) < 0.3:
    print(f"   Interpreta√ß√£o: Correla√ß√£o FRACA")
elif abs(r_pop_lula) < 0.7:
    print(f"   Interpreta√ß√£o: Correla√ß√£o MODERADA")
else:
    print(f"   Interpreta√ß√£o: Correla√ß√£o FORTE")

print(f"\n=== RELA√á√ÉO ENTRE r E R¬≤ ===")
print(f"Se r = {r_bolsa_lula:.4f}, ent√£o:")
print(f"R¬≤ = r¬≤ = ({r_bolsa_lula:.4f})¬≤ = {r_bolsa_lula**2:.4f}")
print(f"Isso significa que {r_bolsa_lula**2*100:.1f}% da varia√ß√£o √© explicada pelo modelo")

##  Testando Pib per Capita

In [None]:
# Multiple Linear Regression with Train/Test Split: Bolsa Fam√≠lia + PIB per capita
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import train_test_split

# Prepare data: drop NaNs for all relevant columns
df_multiple = merged_df[['perc_bolsa_familia', 'pib per capita', 'voto_lula']].dropna()

# Features (X) and target (y)
X_multiple = df_multiple[['perc_bolsa_familia', 'pib per capita']].values
y_multiple = df_multiple['voto_lula'].values

# Split into train and test sets (80% train, 20% test)
X_train_mult, X_test_mult, y_train_mult, y_test_mult = train_test_split(
    X_multiple, y_multiple, test_size=0.2, random_state=42
)

# Train the multiple regression model on training data
model_multiple = LinearRegression()
model_multiple.fit(X_train_mult, y_train_mult)

# Make predictions on both sets
y_train_pred_mult = model_multiple.predict(X_train_mult)
y_test_pred_mult = model_multiple.predict(X_test_mult)

# Calculate metrics for both training and test sets
train_r2_mult = r2_score(y_train_mult, y_train_pred_mult)
test_r2_mult = r2_score(y_test_mult, y_test_pred_mult)
train_mae_mult = mean_absolute_error(y_train_mult, y_train_pred_mult)
test_mae_mult = mean_absolute_error(y_test_mult, y_test_pred_mult)

print("=== MODELO M√öLTIPLO COM TRAIN/TEST SPLIT ===\n")
print(f"Intercept: {model_multiple.intercept_:.4f}")
print(f"Coeficiente Bolsa Fam√≠lia: {model_multiple.coef_[0]:.4f}")
print(f"Coeficiente PIB per capita: {model_multiple.coef_[1]:.6f}")
print(f"\nEqua√ß√£o do modelo:")
print(f"% Voto Lula = {model_multiple.intercept_:.2f} + ({model_multiple.coef_[0]:.2f} √ó % Bolsa Fam√≠lia) + ({model_multiple.coef_[1]:.6f} √ó PIB per capita)")

print(f"\n=== PERFORMANCE NO CONJUNTO DE TREINO ===")
print(f"Tamanho do treino: {len(X_train_mult)} observa√ß√µes")
print(f"R¬≤ (treino): {train_r2_mult:.4f}")
print(f"MAE (treino): {train_mae_mult:.4f}")

print(f"\n=== PERFORMANCE NO CONJUNTO DE TESTE ===")
print(f"Tamanho do teste: {len(X_test_mult)} observa√ß√µes")
print(f"R¬≤ (teste): {test_r2_mult:.4f}")
print(f"MAE (teste): {test_mae_mult:.4f}")

print(f"\n=== AVALIA√á√ÉO DE OVERFITTING ===")
r2_diff_mult = train_r2_mult - test_r2_mult
mae_diff_mult = test_mae_mult - train_mae_mult

print(f"Diferen√ßa R¬≤ (treino - teste): {r2_diff_mult:.4f}")
print(f"Diferen√ßa MAE (teste - treino): {mae_diff_mult:.4f}")

if r2_diff_mult > 0.05:
    print("‚ö†Ô∏è ALERTA: Poss√≠vel overfitting (grande diferen√ßa no R¬≤)")
elif r2_diff_mult > 0.02:
    print("‚ö†Ô∏è ATEN√á√ÉO: Leve overfitting detectado")
else:
    print("‚úÖ OK: Sem sinais de overfitting")

print(f"\n=== COMPARA√á√ÉO COM MODELO SIMPLES ===")
print(f"Modelo simples (apenas Bolsa Fam√≠lia) - R¬≤ teste: {test_r2:.4f}")
print(f"Modelo m√∫ltiplo (+ PIB per capita) - R¬≤ teste: {test_r2_mult:.4f}")
print(f"Melhoria no R¬≤ teste: {test_r2_mult - test_r2:.4f} ({((test_r2_mult - test_r2)/test_r2)*100:.1f}% de aumento)")

### üìä An√°lise: Por que PIB per capita adicionou pouco valor?

### **Resultado:**
- **Melhoria**: Apenas 0.7% no R¬≤ (de 66.30% para 67.00%)
- **Conclus√£o**: PIB per capita n√£o √© uma vari√°vel muito √∫til neste modelo

### **Poss√≠veis explica√ß√µes:**

1. **Redund√¢ncia com Bolsa Fam√≠lia**
   - Bolsa Fam√≠lia j√° captura informa√ß√£o socioecon√¥mica
   - PIB per capita pode estar medindo algo similar

2. **Correla√ß√£o moderada**
   - r = -0.38 entre Bolsa Fam√≠lia e PIB per capita
   - Parte da informa√ß√£o j√° est√° "inclu√≠da" no Bolsa Fam√≠lia

3. **Efeito n√£o-linear**
   - Rela√ß√£o entre renda e voto pode n√£o ser linear
   - Modelo linear simples n√£o captura complexidade

4. **Vari√°vel menos importante**
   - Programas sociais podem ter impacto direto maior
   - Renda pode ser menos relevante que benef√≠cios diretos

### **Li√ß√£o aprendida:**
- Nem sempre "mais vari√°veis = modelo melhor"
- Melhoria de <2% no R¬≤ geralmente n√£o justifica complexidade adicional
- Bolsa Fam√≠lia sozinho j√° √© um preditor muito forte (R¬≤ = 66.3%)

In [None]:
# Quantificando por que PIB per capita adiciona pouco valor

print("=== AN√ÅLISE DETALHADA: PIB PER CAPITA ===\n")

# 1. Correla√ß√£o entre as vari√°veis
corr_bf_pib = merged_df[['perc_bolsa_familia', 'pib per capita']].corr().iloc[0,1]
corr_pib_lula = merged_df[['pib per capita', 'voto_lula']].corr().iloc[0,1]
corr_bf_lula = merged_df[['perc_bolsa_familia', 'voto_lula']].corr().iloc[0,1]

print("1. CORRELA√á√ïES:")
print(f"Bolsa Fam√≠lia vs PIB per capita: {corr_bf_pib:.4f}")
print(f"PIB per capita vs Voto Lula: {corr_pib_lula:.4f}")
print(f"Bolsa Fam√≠lia vs Voto Lula: {corr_bf_lula:.4f}")

# 2. Compara√ß√£o de for√ßa das correla√ß√µes
print(f"\n2. FOR√áA DAS VARI√ÅVEIS:")
print(f"Bolsa Fam√≠lia: MUITO FORTE (r = {abs(corr_bf_lula):.3f})")
print(f"PIB per capita: MODERADA (r = {abs(corr_pib_lula):.3f})")
print(f"‚Üí Bolsa Fam√≠lia √© {abs(corr_bf_lula)/abs(corr_pib_lula):.1f}x mais correlacionado")

# 3. An√°lise da melhoria
improvement = test_r2_mult - test_r2
print(f"\n3. MELHORIA NO MODELO:")
print(f"Melhoria absoluta: {improvement:.4f} ({improvement*100:.1f} pontos percentuais)")
print(f"Melhoria relativa: {(improvement/test_r2)*100:.1f}%")

if improvement < 0.01:
    print("‚ùå CONCLUS√ÉO: Melhoria INSIGNIFICANTE")
elif improvement < 0.02:
    print("‚ö†Ô∏è CONCLUS√ÉO: Melhoria MUITO PEQUENA")
elif improvement < 0.05:
    print("‚úÖ CONCLUS√ÉO: Melhoria MODESTA")
else:
    print("üéØ CONCLUS√ÉO: Melhoria SIGNIFICATIVA")

# 4. Recomenda√ß√£o
print(f"\n4. RECOMENDA√á√ÉO:")
print(f"PIB per capita adiciona apenas {improvement*100:.1f}pp de explica√ß√£o.")
print(f"Para an√°lise pol√≠tica, modelo simples (s√≥ Bolsa Fam√≠lia) pode ser prefer√≠vel:")
print(f"‚Ä¢ Mais interpret√°vel")
print(f"‚Ä¢ Quase a mesma performance (R¬≤ = {test_r2:.3f})")
print(f"‚Ä¢ Evita redund√¢ncia")

# 5. Pr√≥ximas vari√°veis sugeridas
print(f"\n5. PR√ìXIMAS VARI√ÅVEIS A TESTAR:")
print(f"‚Ä¢ Regi√£o (dummy variables) - pode ter impacto maior")
print(f"‚Ä¢ Popula√ß√£o/densidade - diferentes din√¢micas urbano/rural")
print(f"‚Ä¢ Intera√ß√£o Bolsa Fam√≠lia √ó Regi√£o - efeitos regionais")

### ‚ö†Ô∏è Cuidados ao Adicionar Mais Vari√°veis ao Modelo

### **1. Multicolinearidade**
- **Problema**: Vari√°veis independentes muito correlacionadas entre si
- **Exemplo**: PIB per capita e escolaridade geralmente s√£o altamente correlacionados
- **Consequ√™ncias**: Coeficientes inst√°veis, dif√≠ceis de interpretar
- **Como detectar**: Matriz de correla√ß√£o, VIF (Variance Inflation Factor)

### **2. Overfitting (Sobreajuste)**
- **Problema**: Modelo muito complexo que "decora" os dados ao inv√©s de aprender padr√µes
- **Sintomas**: R¬≤ muito alto, mas performance ruim em dados novos
- **Solu√ß√£o**: Cross-validation, dividir dados em treino/teste

### **3. Maldi√ß√£o da Dimensionalidade**
- **Problema**: Muitas vari√°veis em rela√ß√£o ao n√∫mero de observa√ß√µes
- **Regra pr√°tica**: Pelo menos 10-15 observa√ß√µes por vari√°vel
- **Nosso caso**: 5.570 observa√ß√µes ‚Üí m√°ximo ~350-550 vari√°veis

### **4. Causalidade vs Correla√ß√£o**
- **Problema**: Correla√ß√£o n√£o implica causalidade
- **Exemplo**: Bolsa Fam√≠lia pode estar correlacionado com pobreza, que √© a verdadeira causa
- **Solu√ß√£o**: Pensar na teoria por tr√°s das rela√ß√µes

### **5. Vari√°veis Confundidoras**
- **Problema**: Vari√°vel omitida que afeta tanto X quanto Y
- **Exemplo**: Regi√£o pode afetar tanto Bolsa Fam√≠lia quanto voto
- **Solu√ß√£o**: Incluir vari√°veis de controle importantes

### **6. Interpretabilidade**
- **Trade-off**: Mais vari√°veis = maior R¬≤, mas modelo menos interpret√°vel
- **Considera√ß√£o**: Para an√°lise pol√≠tica, interpreta√ß√£o √© crucial

In [None]:
# Vamos verificar algumas dessas preocupa√ß√µes no nosso modelo atual

print("=== DIAGN√ìSTICOS DO MODELO M√öLTIPLO ===\n")

# 1. Verificar correla√ß√£o entre vari√°veis independentes (multicolinearidade)
correlation_matrix = df_multiple[['perc_bolsa_familia', 'pib per capita']].corr()
print("1. CORRELA√á√ÉO ENTRE VARI√ÅVEIS INDEPENDENTES:")
print(f"Correla√ß√£o Bolsa Fam√≠lia vs PIB per capita: {correlation_matrix.iloc[0,1]:.4f}")
if abs(correlation_matrix.iloc[0,1]) > 0.7:
    print("   ‚ö†Ô∏è ALERTA: Alta correla√ß√£o! Risco de multicolinearidade")
elif abs(correlation_matrix.iloc[0,1]) > 0.5:
    print("   ‚ö†Ô∏è ATEN√á√ÉO: Correla√ß√£o moderada, monitorar")
else:
    print("   ‚úÖ OK: Correla√ß√£o baixa entre vari√°veis")

print(f"\n2. N√öMERO DE OBSERVA√á√ïES vs VARI√ÅVEIS:")
n_obs = len(df_multiple)
n_vars = 2  # Bolsa Fam√≠lia + PIB per capita
ratio = n_obs / n_vars
print(f"Observa√ß√µes: {n_obs}")
print(f"Vari√°veis: {n_vars}")
print(f"Ratio obs/var: {ratio:.1f}")
if ratio < 10:
    print("   ‚ö†Ô∏è ALERTA: Poucas observa√ß√µes por vari√°vel")
elif ratio < 20:
    print("   ‚ö†Ô∏è ATEN√á√ÉO: Ratio baixo, cuidado com overfitting")
else:
    print("   ‚úÖ OK: Ratio adequado")

print(f"\n3. MELHORIA INCREMENTAL:")
improvement = test_r2_mult - test_r2
print(f"Melhoria no R¬≤: {improvement:.4f}")
if improvement < 0.01:
    print("   ‚ö†Ô∏è ATEN√á√ÉO: Melhoria muito pequena - vari√°vel pode n√£o ser √∫til")
elif improvement < 0.05:
    print("   ‚úÖ OK: Melhoria modesta mas v√°lida")
else:
    print("   ‚úÖ EXCELENTE: Melhoria significativa")

print(f"\n4. INTERPRETA√á√ÉO DOS COEFICIENTES:")
print(f"Bolsa Fam√≠lia: {model_multiple.coef_[0]:.4f} (cada 1% ‚Üí +{model_multiple.coef_[0]:.2f}pp voto Lula)")
print(f"PIB per capita: {model_multiple.coef_[1]:.6f} (cada R$1.000 ‚Üí {model_multiple.coef_[1]*1000:.3f}pp voto Lula)")

# 5. Verificar se os sinais fazem sentido teoricamente
print(f"\n5. CONSIST√äNCIA TE√ìRICA:")
print(f"Bolsa Fam√≠lia positivo: {'‚úÖ Esperado' if model_multiple.coef_[0] > 0 else '‚ö†Ô∏è Inesperado'}")
print(f"PIB per capita negativo: {'‚úÖ Esperado' if model_multiple.coef_[1] < 0 else '‚ö†Ô∏è Inesperado'}")

### üìã Recomenda√ß√µes para Pr√≥ximas Vari√°veis

### **Baseado nos diagn√≥sticos acima:**

‚úÖ **Aspectos Positivos:**
- Sem problemas de multicolinearidade
- Coeficientes teoricamente consistentes
- Amostra grande o suficiente

‚ö†Ô∏è **Pontos de Aten√ß√£o:**
- PIB per capita adiciona pouco poder explicativo
- Melhoria de apenas 0.4% no R¬≤

### **Pr√≥ximas vari√°veis a considerar (em ordem de prioridade):**

1. **Vari√°veis Dummy de Regi√£o** 
   - **Por qu√™**: Paradoxo de Simpson mostra diferen√ßas regionais importantes
   - **Expectativa**: Melhoria significativa no R¬≤

2. **Densidade Populacional** (ao inv√©s de popula√ß√£o bruta)
   - **Por qu√™**: Pode capturar efeitos urbano vs rural melhor

3. **Intera√ß√£o Bolsa Fam√≠lia √ó Regi√£o**
   - **Por qu√™**: Efeito do programa pode variar por regi√£o

### **Vari√°veis a EVITAR (por enquanto):**
- **Escolaridade**: Provavelmente correlacionada com PIB per capita
- **Taxa de desemprego**: Pode ser correlacionada com Bolsa Fam√≠lia
- **Idade m√©dia**: Sem teoria clara de rela√ß√£o com voto

### **Estrat√©gia Recomendada:**
1. Adicionar uma vari√°vel por vez
2. Verificar melhoria no R¬≤
3. Testar signific√¢ncia estat√≠stica
4. Manter apenas vari√°veis que agregam valor real

## Testando popula√ß√£o

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error

# Multiple Linear Regression: % Bolsa Fam√≠lia + Popula√ß√£o Estimada


# Prepare data: drop NaNs for relevant columns
df_pop = merged_df[['perc_bolsa_familia', 'POPULA√á√ÉO ESTIMADA', 'voto_lula']].dropna()

X_pop = df_pop[['perc_bolsa_familia', 'POPULA√á√ÉO ESTIMADA']].values
y_pop = df_pop['voto_lula'].values

# Split into train and test sets
X_train_pop, X_test_pop, y_train_pop, y_test_pop = train_test_split(
    X_pop, y_pop, test_size=0.2, random_state=42
)

# Train model
model_pop = LinearRegression()
model_pop.fit(X_train_pop, y_train_pop)

# Predict
y_train_pred_pop = model_pop.predict(X_train_pop)
y_test_pred_pop = model_pop.predict(X_test_pop)

# Metrics
train_r2_pop = r2_score(y_train_pop, y_train_pred_pop)
test_r2_pop = r2_score(y_test_pop, y_test_pred_pop)
train_mae_pop = mean_absolute_error(y_train_pop, y_train_pred_pop)
test_mae_pop = mean_absolute_error(y_test_pop, y_test_pred_pop)

print("=== MODELO COM BOLSA FAM√çLIA + POPULA√á√ÉO ===\n")
print(f"Intercept: {model_pop.intercept_:.4f}")
print(f"Coeficiente Bolsa Fam√≠lia: {model_pop.coef_[0]:.4f}")
print(f"Coeficiente Popula√ß√£o Estimada: {model_pop.coef_[1]:.8f}")
print(f"\nR¬≤ (treino): {train_r2_pop:.4f}")
print(f"R¬≤ (teste): {test_r2_pop:.4f}")
print(f"MAE (treino): {train_mae_pop:.4f}")
print(f"MAE (teste): {test_mae_pop:.4f}")
print(f"\nDiferen√ßa R¬≤ (treino - teste): {train_r2_pop - test_r2_pop:.4f}")
print(f"Diferen√ßa MAE (teste - treino): {test_mae_pop - train_mae_pop:.4f}")

### An√°lise: Por que Popula√ß√£o n√£o adiciona valor?

Exatamente como voc√™ observou - **popula√ß√£o n√£o adiciona praticamente nenhum valor ao modelo**. Vamos comparar com o modelo simples para quantificar isso:

In [None]:
# Vamos comparar com o modelo simples (apenas Bolsa Fam√≠lia)
# First get the simple model results for comparison

# Simple model data (just Bolsa Fam√≠lia)
df_simple = merged_df[['perc_bolsa_familia', 'voto_lula']].dropna()
X_simple = df_simple[['perc_bolsa_familia']].values  
y_simple = df_simple['voto_lula'].values

# Split with same random_state for fair comparison
X_train_simple, X_test_simple, y_train_simple, y_test_simple = train_test_split(
    X_simple, y_simple, test_size=0.2, random_state=42
)

# Train simple model
model_simple = LinearRegression()
model_simple.fit(X_train_simple, y_train_simple)

# Predict
y_test_pred_simple = model_simple.predict(X_test_simple)
test_r2_simple = r2_score(y_test_simple, y_test_pred_simple)

print("=== COMPARA√á√ÉO DOS MODELOS ===\n")
print(f"Modelo simples (apenas Bolsa Fam√≠lia) - R¬≤ teste: {test_r2_simple:.4f}")
print(f"Modelo + popula√ß√£o - R¬≤ teste: {test_r2_pop:.4f}")
print(f"Melhoria no R¬≤ teste: {test_r2_pop - test_r2_simple:.4f} ({((test_r2_pop - test_r2_simple)/test_r2_simple)*100:.1f}% de aumento)")

print(f"\n=== AVALIA√á√ÉO ===")
improvement = (test_r2_pop - test_r2_simple) * 100
if improvement < 0.5:
    print(f"‚ùå INSIGNIFICANTE: {improvement:.1f}pp de melhoria")
elif improvement < 2.0:
    print(f"‚ö†Ô∏è  PEQUENA: {improvement:.1f}pp de melhoria")  
else:
    print(f"‚úÖ SIGNIFICANTE: {improvement:.1f}pp de melhoria")

print(f"\n=== POR QUE POPULA√á√ÉO N√ÉO FUNCIONA? ===")
print(f"Coeficiente da popula√ß√£o: {model_pop.coef_[1]:.8f}")
print("‚Üí Coeficiente praticamente ZERO!")
print("‚Üí Popula√ß√£o tem correla√ß√£o muito fraca com voto no Lula")
print("‚Üí J√° est√° 'capturada' indiretamente pelo Bolsa Fam√≠lia")

In [None]:
# An√°lise de correla√ß√£o para entender melhor
import numpy as np

print("=== AN√ÅLISE DE CORRELA√á√ÉO ===")
corr_bf_lula = np.corrcoef(df_pop['perc_bolsa_familia'], df_pop['voto_lula'])[0,1]
corr_pop_lula = np.corrcoef(df_pop['POPULA√á√ÉO ESTIMADA'], df_pop['voto_lula'])[0,1]
corr_bf_pop = np.corrcoef(df_pop['perc_bolsa_familia'], df_pop['POPULA√á√ÉO ESTIMADA'])[0,1]

print(f"Correla√ß√£o Bolsa Fam√≠lia ‚Üî Voto Lula: {corr_bf_lula:.3f}")
print(f"Correla√ß√£o Popula√ß√£o ‚Üî Voto Lula: {corr_pop_lula:.3f}")
print(f"Correla√ß√£o Bolsa Fam√≠lia ‚Üî Popula√ß√£o: {corr_bf_pop:.3f}")

print(f"\n=== CONCLUS√ÉO ===")
print(f"‚úÖ Bolsa Fam√≠lia tem correla√ß√£o FORTE com voto no Lula ({corr_bf_lula:.3f})")
print(f"‚ùå Popula√ß√£o tem correla√ß√£o FRACA com voto no Lula ({corr_pop_lula:.3f})")
print(f"üìä O R¬≤ melhora apenas {(test_r2_pop - test_r2_simple)*100:.2f} pontos percentuais")
print(f"\nüéØ RECOMENDA√á√ÉO: Manter apenas o modelo simples com Bolsa Fam√≠lia")
print(f"   ‚Üí Mais interpret√°vel")
print(f"   ‚Üí Performance praticamente id√™ntica") 
print(f"   ‚Üí Evita overfitting com vari√°veis irrelevantes")

## Salvando M√©tricas e Modelo Inicial

Vamos salvar as principais m√©tricas do modelo inicial para usar nas compara√ß√µes dos pr√≥ximos notebooks.

In [None]:
# Salvando as principais m√©tricas do Modelo Inicial
import pickle
import os

# Criar diret√≥rio para m√©tricas se n√£o existir
metrics_dir = os.path.join("..", "data", "metrics")
os.makedirs(metrics_dir, exist_ok=True)

# M√©tricas do modelo simples (apenas Bolsa Fam√≠lia)
modelo_inicial_metrics = {
    # Informa√ß√µes do modelo
    'modelo_nome': 'Modelo Inicial - Bolsa Fam√≠lia',
    'variaveis': ['perc_bolsa_familia'],
    'n_observacoes': len(df_lr),
    'n_variaveis': 1,
    
    # Coeficientes
    'intercept': model.intercept_,
    'coef_bolsa_familia': model.coef_[0],
    
    # M√©tricas de performance
    'r2_treino': train_r2,
    'r2_teste': test_r2,
    'mae_treino': train_mae,
    'mae_teste': test_mae,
    'mse_teste': mean_squared_error(y_test, y_test_pred),
    'rmse_teste': np.sqrt(mean_squared_error(y_test, y_test_pred)),
    
    # Diagn√≥sticos
    'overfitting_r2_diff': train_r2 - test_r2,
    'overfitting_mae_diff': test_mae - train_mae,
    
    # Correla√ß√µes
    'correlacao_bf_lula': merged_df[['perc_bolsa_familia', 'voto_lula']].corr().iloc[0,1],
    
    # Informa√ß√µes dos dados
    'voto_lula_min': merged_df['voto_lula'].min(),
    'voto_lula_max': merged_df['voto_lula'].max(),
    'voto_lula_mean': merged_df['voto_lula'].mean(),
    'bf_min': merged_df['perc_bolsa_familia'].min(),
    'bf_max': merged_df['perc_bolsa_familia'].max(),
    'bf_mean': merged_df['perc_bolsa_familia'].mean(),
    
    # Equa√ß√£o do modelo
    'equacao': f"% Voto Lula = {model.intercept_:.2f} + ({model.coef_[0]:.2f} √ó % Bolsa Fam√≠lia)"
}

# Salvar as m√©tricas
metrics_file = os.path.join(metrics_dir, "modelo_inicial_metrics.pkl")
with open(metrics_file, 'wb') as f:
    pickle.dump(modelo_inicial_metrics, f)

print("=== M√âTRICAS DO MODELO INICIAL SALVAS ===\n")
print(f"üìÅ Arquivo: {metrics_file}")
print(f"üìä Modelo: {modelo_inicial_metrics['modelo_nome']}")
print(f"üéØ R¬≤ teste: {modelo_inicial_metrics['r2_teste']:.4f}")
print(f"üìê MAE teste: {modelo_inicial_metrics['mae_teste']:.4f}")
print(f"üìà Equa√ß√£o: {modelo_inicial_metrics['equacao']}")
print(f"üîó Correla√ß√£o BF-Lula: {modelo_inicial_metrics['correlacao_bf_lula']:.4f}")

print(f"\n‚úÖ M√©tricas salvas com sucesso!")
print(f"   ‚Üí Use nos pr√≥ximos notebooks para compara√ß√µes")
print(f"   ‚Üí Arquivo pickle pode ser carregado com pd.read_pickle()")

# Verificar se o arquivo foi criado
if os.path.exists(metrics_file):
    print(f"\nüìã Arquivo confirmado: {os.path.getsize(metrics_file)} bytes")
else:
    print(f"\n‚ùå ERRO: Arquivo n√£o foi criado!")

In [None]:
# Fun√ß√£o auxiliar para carregar m√©tricas nos outros notebooks
def load_modelo_inicial_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo inicial nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo inicial
    """
    import pickle
    import os
    
    metrics_file = os.path.join("..", "data", "metrics", "modelo_inicial_metrics.pkl")
    
    if not os.path.exists(metrics_file):
        raise FileNotFoundError(f"Arquivo de m√©tricas n√£o encontrado: {metrics_file}")
    
    with open(metrics_file, 'rb') as f:
        metrics = pickle.load(f)
    
    return metrics

# Salvar a fun√ß√£o em um arquivo Python para importa√ß√£o
import os
utils_dir = os.path.join("..", "utils")
os.makedirs(utils_dir, exist_ok=True)

# Criar arquivo utils/model_utils.py
utils_content = '''"""
Utilit√°rios para carregar m√©tricas dos modelos de regress√£o
"""
import pickle
import os

def load_modelo_inicial_metrics():
    """
    Fun√ß√£o para carregar as m√©tricas do modelo inicial nos outros notebooks.
    
    Returns:
        dict: Dicion√°rio com todas as m√©tricas do modelo inicial
    """
    metrics_file = os.path.join("..", "data", "metrics", "modelo_inicial_metrics.pkl")
    
    if not os.path.exists(metrics_file):
        raise FileNotFoundError(f"Arquivo de m√©tricas n√£o encontrado: {metrics_file}")
    
    with open(metrics_file, 'rb') as f:
        metrics = pickle.load(f)
    
    return metrics
'''

utils_file = os.path.join(utils_dir, "model_utils.py")
with open(utils_file, 'w', encoding='utf-8') as f:
    f.write(utils_content)

print("=== FUN√á√ÉO EXPORTADA PARA IMPORTA√á√ÉO ===")
print(f"üìÅ Arquivo criado: {utils_file}")
print(f"üì¶ Agora voc√™ pode importar nos outros notebooks:")
print(f"   from utils.model_utils import load_modelo_inicial_metrics")

# Exemplo de como usar nos outros notebooks
print("\n=== COMO USAR NOS OUTROS NOTEBOOKS ===")
print("""
# No in√≠cio dos outros notebooks, adicione:
import sys
import os
sys.path.append('..')
from utils.model_utils import load_modelo_inicial_metrics

# Usar as m√©tricas
inicial_metrics = load_modelo_inicial_metrics()
print(f"Modelo inicial R¬≤: {inicial_metrics['r2_teste']:.4f}")
print(f"Modelo inicial equa√ß√£o: {inicial_metrics['equacao']}")
""")

# Testar a fun√ß√£o
print("\n=== TESTE DA FUN√á√ÉO ===")
try:
    test_metrics = load_modelo_inicial_metrics()
    print(f"‚úÖ Fun√ß√£o funciona! R¬≤ = {test_metrics['r2_teste']:.4f}")
except Exception as e:
    print(f"‚ùå Erro ao testar fun√ß√£o: {e}")

print(f"\nüéØ PRONTO PARA OS PR√ìXIMOS NOTEBOOKS!")
print(f"   ‚Üí As m√©tricas est√£o salvas em: modelo_inicial_metrics.pkl")
print(f"   ‚Üí Use: from utils.model_utils import load_modelo_inicial_metrics")
print(f"   ‚Üí Muito mais limpo que redefinir a fun√ß√£o toda vez!")

In [None]:
import pickle
import os

# Salvar o modelo treinado (apenas Bolsa Fam√≠lia) como pickle

model_dir = os.path.join("..", "data", "models")
os.makedirs(model_dir, exist_ok=True)

model_file = os.path.join(model_dir, "modelo_inicial_bolsa_familia.pkl")
with open(model_file, 'wb') as f:
    pickle.dump(model, f)

print(f"‚úÖ Modelo salvo em: {model_file}")