# üìä Regress√£o Linear Simples ‚Äî Precifica√ß√£o de Risco em Empr√©stimos
## Risk-Based Pricing com Lending Club Loan Data

**Autor:** Caio Thomas Silva Bandeira  
**Disciplina:** Ci√™ncia de Dados para Engenheiros ‚Äî Deep Learning  
**Institui√ß√£o:** CEUB ‚Äî Centro Universit√°rio de Bras√≠lia  
**Professor:** George Kuroki Jr.

---

### Objetivo do Projeto

Construir e avaliar **3 modelos de Regress√£o Linear Simples**, cada um usando uma vari√°vel independente diferente para prever a **taxa de juros (`int_rate`)** de empr√©stimos. Cada modelo √© implementado via:

1. **statsmodels** ‚Äî Sum√°rio estat√≠stico completo (OLS)
2. **TensorFlow/Keras** ‚Äî Rede neural simples (single-neuron)

O foco √© o **rigor estat√≠stico** (verifica√ß√£o de premissas) e a **clareza did√°tica**.

---
## 1 ¬∑ Configura√ß√£o do Ambiente e Importa√ß√£o de Bibliotecas

Importamos todas as bibliotecas necess√°rias para o projeto. Cada uma tem um papel espec√≠fico:

| Biblioteca | Papel |
|---|---|
| `pandas` / `numpy` | Manipula√ß√£o e estrutura de dados |
| `matplotlib` / `seaborn` | Visualiza√ß√µes e gr√°ficos estat√≠sticos |
| `statsmodels` | Regress√£o OLS com sum√°rio estat√≠stico detalhado (p-values, R¬≤, F-stat) |
| `tensorflow/keras` | Rede neural simples (1 neur√¥nio linear) |
| `scipy` | Testes estat√≠sticos (Shapiro-Wilk) |
| `kagglehub` | Download autom√°tico do dataset do Kaggle |

In [None]:
# =============================================================================
# 1. IMPORTA√á√ÉO DE BIBLIOTECAS
# =============================================================================
# Cada importa√ß√£o √© agrupada por fun√ß√£o para facilitar a leitura e manuten√ß√£o.

# --- Supress√£o de warnings ---
# Fazemos isso logo no in√≠cio para que o notebook n√£o fique polu√≠do com avisos
# do TensorFlow e de deprecia√ß√µes que n√£o afetam nosso resultado.
import warnings
warnings.filterwarnings('ignore')
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'  # Suprime logs internos do TensorFlow

# --- Manipula√ß√£o de Dados ---
import pandas as pd   # Estrutura de DataFrames (tabelas)
import numpy as np    # Opera√ß√µes num√©ricas vetorizadas

# --- Visualiza√ß√£o ---
import matplotlib.pyplot as plt  # Gr√°ficos est√°ticos (base)
import seaborn as sns            # Gr√°ficos estat√≠sticos de alto n√≠vel

# --- Modelagem Estat√≠stica (statsmodels) ---
# O statsmodels nos d√° o "sum√°rio completo" da regress√£o: p-values, R¬≤,
# intervalos de confian√ßa, F-statistic ‚Äî tudo que precisamos para rigor estat√≠stico.
import statsmodels.api as sm
from statsmodels.graphics.gofplots import qqplot          # Q-Q Plot para normalidade dos res√≠duos
from statsmodels.stats.stattools import durbin_watson      # Teste de independ√™ncia dos res√≠duos
from statsmodels.stats.outliers_influence import variance_inflation_factor  # VIF (multicolinearidade)

# --- Deep Learning (TensorFlow / Keras) ---
# Usaremos uma rede neural com UM √öNICO neur√¥nio linear para demonstrar que
# √© algebricamente id√™ntica √† regress√£o linear: ≈∑ = Wx + b ‚â° ≈∑ = Œ≤‚ÇÅx + Œ≤‚ÇÄ
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# --- Testes Estat√≠sticos (SciPy) ---
from scipy.stats import shapiro  # Teste de Shapiro-Wilk para normalidade dos res√≠duos

# --- Download do Dataset ---
import kagglehub  # Download autom√°tico de datasets do Kaggle

# =============================================================================
# FUN√á√ïES AUXILIARES ‚Äî substituem funcionalidades que eram do sklearn
# =============================================================================

def train_test_split_manual(X, y, test_size=0.2, random_state=42):
    """
    Divis√£o manual treino/teste usando numpy (substitui sklearn.model_selection.train_test_split).
    
    Par√¢metros:
        X: array de features (n, p)
        y: array de target (n,)
        test_size: propor√ß√£o do teste (0.0 a 1.0)
        random_state: seed para reprodutibilidade
    
    Retorna:
        X_train, X_test, y_train, y_test
    """
    rng = np.random.default_rng(random_state)
    n = len(y)
    indices = rng.permutation(n)
    split_idx = int(n * (1 - test_size))
    train_idx, test_idx = indices[:split_idx], indices[split_idx:]
    return X[train_idx], X[test_idx], y[train_idx], y[test_idx]

def r2_score_manual(y_true, y_pred):
    """
    R¬≤ (Coeficiente de Determina√ß√£o) ‚Äî propor√ß√£o da vari√¢ncia explicada.
    R¬≤ = 1 - SS_res / SS_tot
    """
    ss_res = np.sum((y_true - y_pred) ** 2)
    ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)
    return 1 - (ss_res / ss_tot)

def rmse_manual(y_true, y_pred):
    """RMSE ‚Äî Raiz do Erro Quadr√°tico M√©dio."""
    return np.sqrt(np.mean((y_true - y_pred) ** 2))

def mae_manual(y_true, y_pred):
    """MAE ‚Äî Erro M√©dio Absoluto."""
    return np.mean(np.abs(y_true - y_pred))

def standard_scale(X_train, X_test=None):
    """
    Padroniza√ß√£o z-score manual (substitui sklearn.preprocessing.StandardScaler).
    z = (x - Œº) / œÉ
    
    Retorna:
        X_train_scaled, X_test_scaled (se X_test fornecido), mean, std
    """
    mean = np.mean(X_train, axis=0)
    std = np.std(X_train, axis=0)
    X_train_scaled = (X_train - mean) / std
    if X_test is not None:
        X_test_scaled = (X_test - mean) / std
        return X_train_scaled, X_test_scaled, mean, std
    return X_train_scaled, mean, std

# --- Configura√ß√µes Globais de Visualiza√ß√£o ---
sns.set_style('whitegrid')                           # Estilo limpo com grade
plt.rcParams['figure.figsize'] = (12, 6)             # Tamanho padr√£o dos gr√°ficos
plt.rcParams['font.size'] = 12                       # Tamanho de fonte leg√≠vel
plt.rcParams['axes.titlesize'] = 14                  # T√≠tulos de eixo maiores

# --- Reprodutibilidade ---
# Fixamos a seed em TODOS os geradores de n√∫meros aleat√≥rios para garantir
# que qualquer pessoa que rode este notebook obtenha exatamente os mesmos resultados.
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)
tf.random.set_seed(RANDOM_STATE)

print("‚úÖ Todas as bibliotecas foram importadas com sucesso!")
print(f"   Pandas:       {pd.__version__}")
print(f"   NumPy:        {np.__version__}")
print(f"   Matplotlib:   {plt.matplotlib.__version__}")
print(f"   Seaborn:      {sns.__version__}")
print(f"   Statsmodels:  {sm.__version__}")
print(f"   TensorFlow:   {tf.__version__}")

---
## 2 ¬∑ Download e Carregamento do Dataset (Lending Club via KaggleHub)

O **Lending Club Loan Data** √© um dos maiores datasets p√∫blicos de cr√©dito, contendo informa√ß√µes de ~2,2 milh√µes de empr√©stimos concedidos entre 2007 e 2018.

Utilizamos a biblioteca `kagglehub` para download autom√°tico. Na primeira execu√ß√£o, ser√° necess√°rio autenticar com sua chave de API do Kaggle.

> **Nota:** O dataset original possui mais de 150 colunas. Carregaremos todas inicialmente e depois selecionaremos apenas as relevantes.

In [None]:
# =============================================================================
# 2. DOWNLOAD E CARREGAMENTO DO DATASET
# =============================================================================
# O kagglehub baixa o dataset e retorna o caminho local onde foi salvo.
# Na primeira execu√ß√£o, pode ser necess√°rio configurar a chave de API do Kaggle.
# Instru√ß√µes: https://www.kaggle.com/docs/api

print("‚è≥ Baixando o dataset do Kaggle (pode demorar na primeira vez)...")
path = kagglehub.dataset_download('wordsforthewise/lending-club')
print(f"‚úÖ Dataset baixado em: {path}")

# --- Localizar o arquivo CSV dentro da pasta baixada ---
# O kagglehub pode baixar m√∫ltiplos arquivos; precisamos do principal.
import glob
csv_files = glob.glob(os.path.join(path, '**', '*.csv'), recursive=True)
print(f"\nüìÇ Arquivos CSV encontrados:")
for f in csv_files:
    print(f"   ‚Üí {os.path.basename(f)}")

# --- Carregar o CSV principal ---
# Usamos low_memory=False porque o arquivo √© grande e tem colunas com tipos mistos.
# Isso evita warnings de infer√™ncia de tipo inconsistente entre os chunks de leitura.
csv_path = [f for f in csv_files if 'accepted' in os.path.basename(f).lower() or 'loan' in os.path.basename(f).lower()]
csv_path = csv_path[0] if csv_path else csv_files[0]

print(f"\n‚è≥ Carregando: {os.path.basename(csv_path)} ...")
df_raw = pd.read_csv(csv_path, low_memory=False)

print(f"‚úÖ Dataset carregado com sucesso!")
print(f"   Shape original: {df_raw.shape[0]:,} linhas √ó {df_raw.shape[1]} colunas")

# --- Visualizar as primeiras linhas ---
df_raw.head(3)

---
## 3 ¬∑ Amostragem Estratificada (300.000 registros por `grade`)

Com ~2,2 milh√µes de linhas, processar o dataset completo seria demorado e desnecess√°rio para o escopo deste projeto. Vamos extrair uma **amostra de 300.000 registros**.

**Por que estratificada?** A coluna `grade` (A, B, C, D, E, F, G) representa a classifica√ß√£o de risco atribu√≠da pelo Lending Club. Se fiz√©ssemos amostragem aleat√≥ria simples, poder√≠amos sub-representar grades raras (F, G). A amostragem estratificada garante que **a propor√ß√£o de cada grade no sample seja igual √† do dataset original**.

In [None]:
# =============================================================================
# 3. AMOSTRAGEM ESTRATIFICADA ‚Äî 300.000 REGISTROS
# =============================================================================
# Precisamos que a coluna 'grade' exista e n√£o tenha NaN para estratificar.
# Primeiro verificamos; depois amostramos proporcionalmente.

SAMPLE_SIZE = 300_000

# Remover linhas onde 'grade' √© NaN (s√£o poucas, se existirem)
df_raw = df_raw.dropna(subset=['grade'])

# --- Verificar a distribui√ß√£o original de grade ---
print("üìä Distribui√ß√£o original de 'grade':")
print(df_raw['grade'].value_counts(normalize=True).sort_index().apply(lambda x: f"{x:.2%}"))
print(f"\n   Total de registros: {len(df_raw):,}")

# --- Calcular a fra√ß√£o necess√°ria para obter ~300k registros ---
# frac = tamanho_desejado / tamanho_total
frac = SAMPLE_SIZE / len(df_raw)

# --- Amostragem estratificada ---
# Agrupamos por grade e amostramos a mesma fra√ß√£o de cada grupo.
# Isso preserva a propor√ß√£o relativa de cada grade.
df_sample = (
    df_raw
    .groupby('grade', group_keys=False)
    .apply(lambda x: x.sample(frac=frac, random_state=RANDOM_STATE))
)

print(f"\n‚úÖ Amostra criada: {len(df_sample):,} registros")

# --- Comparar propor√ß√µes: original vs amostra ---
comparison = pd.DataFrame({
    'Original (%)': df_raw['grade'].value_counts(normalize=True).sort_index() * 100,
    'Amostra (%)':  df_sample['grade'].value_counts(normalize=True).sort_index() * 100
}).round(2)
comparison['Diferen√ßa (pp)'] = (comparison['Amostra (%)'] - comparison['Original (%)']).round(2)
print("\nüìã Compara√ß√£o de propor√ß√µes (Original vs Amostra):")
comparison

---
## 4 ¬∑ Sele√ß√£o de Vari√°veis e Engenharia de Features

Selecionamos apenas as colunas relevantes e criamos a feature `fico_score`:

| Vari√°vel | Descri√ß√£o |
|---|---|
| `int_rate` | **Vari√°vel-alvo** ‚Äî Taxa de juros (%) |
| `annual_inc` | Renda anual declarada (USD) |
| `dti` | Debt-to-Income ratio (%) ‚Äî raz√£o d√≠vida/renda |
| `fico_range_low` / `fico_range_high` | Faixa do score FICO ‚Üí criamos `fico_score` = m√©dia |
| `grade` | Classifica√ß√£o de risco (usada na amostragem; ser√° dropada) |

> **Sobre o `fico_score`:** O FICO score √© fornecido em faixa (ex: 670‚Äì674). Calcular a **m√©dia aritm√©tica** das extremidades √© a aproxima√ß√£o padr√£o utilizada na literatura.

In [None]:
# =============================================================================
# 4. SELE√á√ÉO DE VARI√ÅVEIS E ENGENHARIA DE FEATURES
# =============================================================================

# --- Selecionar apenas as colunas que precisamos ---
# Isso reduz drasticamente o uso de mem√≥ria e simplifica o trabalho.
colunas_relevantes = ['int_rate', 'annual_inc', 'dti', 'fico_range_low', 'fico_range_high', 'grade']
df = df_sample[colunas_relevantes].copy()

# --- Garantir que int_rate √© num√©rico ---
# Em algumas vers√µes do dataset, int_rate vem como string com "%" (ex: "13.56%").
# Precisamos remover o s√≠mbolo e converter para float.
if df['int_rate'].dtype == 'object':
    df['int_rate'] = df['int_rate'].str.replace('%', '', regex=False).astype(float)
    print("‚ö†Ô∏è  int_rate estava como texto ‚Äî convertido para float (removido '%').")
else:
    print("‚úÖ int_rate j√° est√° em formato num√©rico.")

# --- Criar a feature fico_score ---
# O FICO score √© fornecido em faixa (ex: low=670, high=674).
# A m√©dia aritm√©tica √© a aproxima√ß√£o padr√£o: fico_score = (low + high) / 2
df['fico_score'] = (df['fico_range_low'] + df['fico_range_high']) / 2

# --- Remover colunas auxiliares que n√£o ser√£o mais usadas ---
df = df.drop(columns=['fico_range_low', 'fico_range_high', 'grade'])

print(f"\n‚úÖ DataFrame final: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")
print(f"   Colunas: {list(df.columns)}")
df.head()

---
## 5 ¬∑ Tratamento de Valores Ausentes

Antes de qualquer an√°lise, precisamos verificar se h√° dados faltantes. Valores `NaN` podem:

- **Enviesar os coeficientes** da regress√£o (se n√£o forem aleat√≥rios).
- **Causar erros** em fun√ß√µes que n√£o aceitam NaN (ex: `shapiro()`, `OLS`).

**Estrat√©gia adotada:** Primeiro, **analisamos o padr√£o de aus√™ncia** para entender se os dados faltantes carregam informa√ß√£o √∫til. S√≥ removemos NaN das colunas estritamente necess√°rias para as regress√µes (`int_rate`, `annual_inc`, `dti`, `fico_score`), pois o OLS exige dados completos. Para todas as demais colunas, os NaN s√£o **preservados** e analisados.

In [None]:
# =============================================================================
# 5. TRATAMENTO DE VALORES AUSENTES
# =============================================================================

# --- Diagn√≥stico: quantos NaN existem em cada coluna? ---
missing = pd.DataFrame({
    'Qtd. Ausentes': df.isnull().sum(),
    '% Ausentes': (df.isnull().mean() * 100).round(2)
})
print("üìã Valores ausentes por coluna:")
print(missing)
print(f"\n   Shape ANTES do tratamento: {df.shape}")

# --- An√°lise do padr√£o de aus√™ncia ---
# Verificar se os NaN est√£o concentrados nas mesmas linhas ou distribu√≠dos
nan_por_linha = df.isnull().sum(axis=1)
print(f"\nüìä Distribui√ß√£o de NaN por linha:")
print(f"   Linhas sem nenhum NaN:  {(nan_por_linha == 0).sum():,}")
print(f"   Linhas com 1+ NaN:     {(nan_por_linha > 0).sum():,}")
print(f"   Linhas com todos NaN:  {(nan_por_linha == df.shape[1]).sum():,}")

# --- Verificar se os NaN em cada coluna revelam algum padr√£o ---
# Por exemplo: ser√° que linhas com NaN em 'dti' possuem int_rate diferente?
colunas_regressao = ['int_rate', 'annual_inc', 'dti', 'fico_score']
for col in colunas_regressao:
    n_nan = df[col].isnull().sum()
    if n_nan > 0:
        media_com = df.loc[df[col].notna(), 'int_rate'].mean() if col != 'int_rate' else None
        media_sem = df.loc[df[col].isna(), 'int_rate'].mean() if col != 'int_rate' and df.loc[df[col].isna(), 'int_rate'].notna().any() else None
        print(f"\n   üîç {col}: {n_nan:,} NaN ({n_nan/len(df)*100:.2f}%)")
        if media_com is not None and media_sem is not None:
            print(f"      int_rate m√©dia (com {col}): {media_com:.2f}%")
            print(f"      int_rate m√©dia (sem {col}): {media_sem:.2f}%")
            diff = abs(media_com - media_sem)
            print(f"      Diferen√ßa: {diff:.2f} pp {'‚ö†Ô∏è significativa' if diff > 1 else '‚úÖ pequena'}")

# --- Remover NaN SOMENTE nas colunas necess√°rias para a regress√£o ---
# O OLS exige dados completos nas vari√°veis X e y. N√£o podemos regredir com NaN.
# Justificativa: removemos APENAS onde os c√°lculos exigem.
df = df.dropna(subset=colunas_regressao)

print(f"\n   Shape DEPOIS da remo√ß√£o (apenas colunas de regress√£o): {df.shape}")

# --- Confirmar que as colunas de regress√£o n√£o t√™m NaN ---
assert df[colunas_regressao].isnull().sum().sum() == 0, "Ainda existem NaN nas colunas de regress√£o!"
print("\n‚úÖ Nenhum valor ausente nas colunas de regress√£o.")

---
## 6 ¬∑ An√°lise Explorat√≥ria (EDA) ‚Äî Estat√≠sticas Descritivas

Antes de modelar, precisamos **entender os dados**. As estat√≠sticas descritivas nos revelam:

- **Tend√™ncia central** (m√©dia, mediana) ‚Äî onde se concentram os valores.
- **Dispers√£o** (desvio-padr√£o, min/max) ‚Äî qu√£o espalhados est√£o.
- **Assimetria** ‚Äî vari√°veis como `annual_inc` tendem a ter cauda longa √† direita (poucos ganham muito).

Esse entendimento guia decis√µes posteriores (ex: tratamento de outliers).

In [None]:
# =============================================================================
# 6. AN√ÅLISE EXPLORAT√ìRIA ‚Äî ESTAT√çSTICAS DESCRITIVAS
# =============================================================================

# --- Estat√≠sticas descritivas de todas as vari√°veis num√©ricas ---
# O .describe() nos d√° count, mean, std, min, 25%, 50% (mediana), 75%, max.
print("üìä Estat√≠sticas Descritivas:")
df.describe().round(2)

In [None]:
# --- Tipos de dados e informa√ß√µes gerais ---
print("üìã Informa√ß√µes do DataFrame:")
df.info()

---
## 7 ¬∑ EDA ‚Äî Distribui√ß√£o da Vari√°vel-Alvo (`int_rate`)

Visualizamos a distribui√ß√£o da vari√°vel que queremos prever. 

> **Importante:** A **normalidade da vari√°vel-alvo N√ÉO √© uma premissa da regress√£o linear**. O que precisa ser normal s√£o os **res√≠duos** (erros). Por√©m, entender a distribui√ß√£o de `int_rate` nos ajuda a compreender o fen√¥meno e antecipar problemas.

In [None]:
# =============================================================================
# 7. DISTRIBUI√á√ÉO DA VARI√ÅVEL-ALVO (int_rate)
# =============================================================================

from scipy.stats import skew, kurtosis

fig, ax = plt.subplots(figsize=(12, 6))

# Histograma com curva KDE (Kernel Density Estimation)
sns.histplot(df['int_rate'], kde=True, bins=50, color='steelblue', ax=ax)

# Linhas verticais para m√©dia e mediana ‚Äî permite comparar tend√™ncia central
media = df['int_rate'].mean()
mediana = df['int_rate'].median()
ax.axvline(media, color='red', linestyle='--', linewidth=2, label=f'M√©dia = {media:.2f}%')
ax.axvline(mediana, color='green', linestyle='--', linewidth=2, label=f'Mediana = {mediana:.2f}%')

ax.set_title('Distribui√ß√£o da Taxa de Juros (int_rate)', fontsize=16, fontweight='bold')
ax.set_xlabel('Taxa de Juros (%)')
ax.set_ylabel('Frequ√™ncia')
ax.legend(fontsize=12)
plt.tight_layout()
plt.show()

# --- M√©tricas de forma da distribui√ß√£o ---
sk = skew(df['int_rate'])
kt = kurtosis(df['int_rate'])
print(f"üìà Assimetria (Skewness): {sk:.3f}")
print(f"   ‚Üí {'Assim√©trica √† direita (positiva)' if sk > 0 else 'Assim√©trica √† esquerda' if sk < 0 else 'Sim√©trica'}")
print(f"üìà Curtose (Kurtosis):    {kt:.3f}")
print(f"   ‚Üí {'Leptoc√∫rtica (caudas pesadas)' if kt > 0 else 'Platic√∫rtica (caudas leves)' if kt < 0 else 'Mesoc√∫rtica'}")

---
## 8 ¬∑ EDA ‚Äî Matriz de Correla√ß√£o (Heatmap)

A **correla√ß√£o de Pearson** mede a for√ßa e dire√ß√£o da rela√ß√£o **linear** entre duas vari√°veis (varia de -1 a +1).

**Expectativas baseadas no conhecimento de neg√≥cio:**
- `fico_score` vs `int_rate`: **correla√ß√£o negativa forte** (maior score ‚Üí menor risco ‚Üí juros menores).
- `dti` vs `int_rate`: **correla√ß√£o positiva** (maior DTI ‚Üí mais d√≠vida ‚Üí juros maiores).
- `annual_inc` vs `int_rate`: **correla√ß√£o negativa fraca** (renda alta ‚â† necessariamente juros baixos, pois o FICO j√° captura muito do risco).

In [None]:
# =============================================================================
# 8. MATRIZ DE CORRELA√á√ÉO (HEATMAP)
# =============================================================================

# Calcular a matriz de correla√ß√£o de Pearson
# Pearson mede APENAS rela√ß√µes lineares. Se a rela√ß√£o for n√£o-linear,
# a correla√ß√£o pode ser baixa mesmo que haja uma associa√ß√£o forte.
corr_matrix = df.corr()

fig, ax = plt.subplots(figsize=(8, 6))
sns.heatmap(
    corr_matrix,
    annot=True,         # Mostrar os valores num√©ricos
    fmt='.3f',          # 3 casas decimais
    cmap='coolwarm',    # Paleta: azul (negativo) ‚Üí vermelho (positivo)
    center=0,           # Centralizar a escala no zero
    vmin=-1, vmax=1,    # Fixar limites
    square=True,
    linewidths=0.5,
    ax=ax
)
ax.set_title('Matriz de Correla√ß√£o de Pearson', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

# --- Imprimir correla√ß√µes espec√≠ficas com int_rate ---
print("üìä Correla√ß√£o de Pearson com int_rate:")
for col in ['annual_inc', 'dti', 'fico_score']:
    r = corr_matrix.loc[col, 'int_rate']
    forca = 'forte' if abs(r) > 0.5 else 'moderada' if abs(r) > 0.3 else 'fraca'
    direcao = 'negativa' if r < 0 else 'positiva'
    print(f"   {col:15s} ‚Üí r = {r:+.4f} (correla√ß√£o {forca} {direcao})")

---
## 9 ¬∑ EDA ‚Äî Scatter Plots (X vs `int_rate`)

Visualizamos graficamente a rela√ß√£o entre cada vari√°vel independente e a taxa de juros. A **linearidade visual** √© a primeira premissa a ser verificada: se os pontos n√£o seguirem uma tend√™ncia linear, a regress√£o linear simples pode n√£o ser o modelo ideal.

Usamos `alpha` baixo nos pontos porque temos milhares de observa√ß√µes ‚Äî sem transpar√™ncia, o gr√°fico ficaria uma massa s√≥lida.

In [None]:
# =============================================================================
# 9. SCATTER PLOTS ‚Äî X vs int_rate
# =============================================================================

variaveis = {
    'annual_inc': 'Renda Anual (USD)',
    'dti': 'Debt-to-Income Ratio (%)',
    'fico_score': 'Score FICO'
}

fig, axes = plt.subplots(1, 3, figsize=(20, 6))

for ax, (col, label) in zip(axes, variaveis.items()):
    # regplot = scatter + linha de regress√£o com intervalo de confian√ßa
    sns.regplot(
        x=col, y='int_rate', data=df,
        ax=ax,
        scatter_kws={'alpha': 0.1, 's': 5, 'color': 'steelblue'},  # alpha baixo para volume grande
        line_kws={'color': 'red', 'linewidth': 2},
        ci=95  # Intervalo de confian√ßa de 95%
    )
    ax.set_title(f'{label} vs Taxa de Juros', fontsize=14, fontweight='bold')
    ax.set_xlabel(label)
    ax.set_ylabel('Taxa de Juros (%)')

plt.suptitle('Scatter Plots ‚Äî Vari√°veis Independentes vs int_rate', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

---
## 10 ¬∑ Detec√ß√£o e Remo√ß√£o de Outliers (M√©todo IQR)

**Outliers s√£o perigosos para a regress√£o linear** porque o OLS (Ordinary Least Squares) minimiza a **soma dos quadrados** dos res√≠duos. Valores extremos geram res√≠duos enormes que, ao serem elevados ao quadrado, dominam a fun√ß√£o de custo e "puxam" a reta na dire√ß√£o deles.

**M√©todo utilizado ‚Äî IQR (Interquartile Range):**
- $IQR = Q3 - Q1$ (dist√¢ncia entre o 3¬∫ e o 1¬∫ quartil)
- Limite inferior: $Q1 - 1.5 \times IQR$
- Limite superior: $Q3 + 1.5 \times IQR$
- Qualquer valor fora desses limites √© considerado outlier.

Este √© o mesmo crit√©rio usado em boxplots. √â robusto e amplamente aceito na literatura.

In [None]:
# =============================================================================
# 10. DETEC√á√ÉO E REMO√á√ÉO DE OUTLIERS ‚Äî M√âTODO IQR
# =============================================================================

print(f"üìä Shape ANTES da remo√ß√£o de outliers: {df.shape}")

# --- Boxplots ANTES ---
fig, axes = plt.subplots(1, 4, figsize=(20, 5))
for ax, col in zip(axes, ['int_rate', 'annual_inc', 'dti', 'fico_score']):
    sns.boxplot(y=df[col], ax=ax, color='salmon')
    ax.set_title(f'{col} (ANTES)', fontweight='bold')
plt.suptitle('Boxplots ANTES da Remo√ß√£o de Outliers', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

# --- Fun√ß√£o para remo√ß√£o de outliers via IQR ---
def remover_outliers_iqr(dataframe, coluna):
    """
    Remove outliers de uma coluna usando o m√©todo IQR (Interquartile Range).
    
    Matematicamente:
        - IQR = Q3 - Q1
        - Limite inferior = Q1 - 1.5 * IQR
        - Limite superior = Q3 + 1.5 * IQR
    
    Retorna o DataFrame filtrado e a quantidade de outliers removidos.
    """
    Q1 = dataframe[coluna].quantile(0.25)
    Q3 = dataframe[coluna].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    
    antes = len(dataframe)
    dataframe = dataframe[(dataframe[coluna] >= lower) & (dataframe[coluna] <= upper)]
    removidos = antes - len(dataframe)
    
    print(f"   {coluna:15s} ‚Üí Limites [{lower:.2f}, {upper:.2f}] | Removidos: {removidos:,}")
    return dataframe

# --- Aplicar para cada vari√°vel ---
print("\nüîß Removendo outliers por vari√°vel:")
for col in ['int_rate', 'annual_inc', 'dti', 'fico_score']:
    df = remover_outliers_iqr(df, col)

print(f"\n‚úÖ Shape DEPOIS da remo√ß√£o de outliers: {df.shape}")

# --- Boxplots DEPOIS ---
fig, axes = plt.subplots(1, 4, figsize=(20, 5))
for ax, col in zip(axes, ['int_rate', 'annual_inc', 'dti', 'fico_score']):
    sns.boxplot(y=df[col], ax=ax, color='lightgreen')
    ax.set_title(f'{col} (DEPOIS)', fontweight='bold')
plt.suptitle('Boxplots DEPOIS da Remo√ß√£o de Outliers', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

---
## 11 ¬∑ Divis√£o dos Dados ‚Äî Train/Test Split (80/20)

Dividimos os dados em **treino (80%)** e **teste (20%)** para cada par (X, y):

- **Treino:** usado para estimar os coeficientes da regress√£o (Œ≤‚ÇÄ, Œ≤‚ÇÅ).
- **Teste:** usado para avaliar o modelo em dados que ele **nunca viu** (preven√ß√£o de overfitting).

A divis√£o √© feita via **permuta√ß√£o aleat√≥ria com NumPy**, garantindo reprodutibilidade (seed fixa).

> ‚ö†Ô∏è **A divis√£o √© feita AP√ìS a remo√ß√£o de outliers** para evitar *data leakage* (contamina√ß√£o do teste com informa√ß√µes do pr√©-processamento).

In [None]:
# =============================================================================
# 11. DIVIS√ÉO DOS DADOS ‚Äî TRAIN/TEST SPLIT (80/20)
# =============================================================================

# Vari√°vel alvo (y) ‚Äî a mesma para os 3 modelos
y = df['int_rate'].values

# --- Modelo 1: annual_inc ‚Üí int_rate ---
X1 = df[['annual_inc']].values  # Formato 2D
X1_train, X1_test, y1_train, y1_test = train_test_split_manual(
    X1, y, test_size=0.2, random_state=RANDOM_STATE
)

# --- Modelo 2: dti ‚Üí int_rate ---
X2 = df[['dti']].values
X2_train, X2_test, y2_train, y2_test = train_test_split_manual(
    X2, y, test_size=0.2, random_state=RANDOM_STATE
)

# --- Modelo 3: fico_score ‚Üí int_rate ---
X3 = df[['fico_score']].values
X3_train, X3_test, y3_train, y3_test = train_test_split_manual(
    X3, y, test_size=0.2, random_state=RANDOM_STATE
)

# --- Verificar shapes ---
print("üìã Shapes dos conjuntos de dados:")
print(f"{'Modelo':<12} {'X_train':>10} {'X_test':>10} {'y_train':>10} {'y_test':>10}")
print("-" * 55)
for nome, xt, xte, yt, yte in [
    ('annual_inc', X1_train, X1_test, y1_train, y1_test),
    ('dti',        X2_train, X2_test, y2_train, y2_test),
    ('fico_score', X3_train, X3_test, y3_train, y3_test),
]:
    print(f"{nome:<12} {str(xt.shape):>10} {str(xte.shape):>10} {str(yt.shape):>10} {str(yte.shape):>10}")

print(f"\n‚úÖ Dados divididos: 80% treino / 20% teste (random_state={RANDOM_STATE})")

---
# üî∑ MODELO 1: `annual_inc` ‚Üí `int_rate`
## Renda Anual como Preditora da Taxa de Juros

**Hip√≥tese de neg√≥cio:** Clientes com **maior renda anual** representam menor risco de inadimpl√™ncia, portanto o banco deveria cobrar **juros menores**. Esperamos um coeficiente Œ≤‚ÇÅ **negativo**.

**Equa√ß√£o do modelo:**

$$\hat{y} = \beta_0 + \beta_1 \cdot \text{annual\_inc}$$

Onde:
- $\hat{y}$ = taxa de juros prevista (%)
- $\beta_0$ = intercepto (juros quando renda = 0, interpreta√ß√£o te√≥rica)
- $\beta_1$ = varia√ß√£o na taxa de juros para cada d√≥lar a mais de renda

---

### 12 ¬∑ Modelo 1: Regress√£o OLS (statsmodels)

In [None]:
# =============================================================================
# 12. MODELO 1 ‚Äî annual_inc ‚Üí int_rate (STATSMODELS OLS)
# =============================================================================
# O statsmodels exige que adicionemos uma coluna de constante (1's) ao X para
# que o modelo estime o intercepto (Œ≤‚ÇÄ). Sem isso, a reta seria for√ßada a
# passar pela origem, o que n√£o faz sentido para nosso problema.

X1_train_sm = sm.add_constant(X1_train)  # Adiciona coluna de 1's
X1_test_sm  = sm.add_constant(X1_test)

# --- Ajustar o modelo OLS ---
# OLS = Ordinary Least Squares (M√≠nimos Quadrados Ordin√°rios)
# √â o m√©todo que encontra Œ≤‚ÇÄ e Œ≤‚ÇÅ minimizando a soma dos quadrados dos res√≠duos:
# min Œ£(y·µ¢ - ≈∑·µ¢)¬≤ = min Œ£(y·µ¢ - Œ≤‚ÇÄ - Œ≤‚ÇÅ¬∑x·µ¢)¬≤
modelo1_ols = sm.OLS(y1_train, X1_train_sm).fit()

# --- Exibir o sum√°rio estat√≠stico completo ---
# Este √© o "cora√ß√£o" da an√°lise estat√≠stica: p-values, R¬≤, F-statistic, etc.
print("=" * 70)
print("MODELO 1: annual_inc ‚Üí int_rate (OLS Summary)")
print("=" * 70)
print(modelo1_ols.summary())

### 13 ¬∑ Modelo 1: Previs√µes e M√©tricas de Avalia√ß√£o

Usando os coeficientes estimados pelo OLS, fazemos previs√µes no conjunto de teste e calculamos as m√©tricas R¬≤, RMSE e MAE manualmente com NumPy.

In [None]:
# =============================================================================
# 13. MODELO 1 ‚Äî annual_inc ‚Üí int_rate (PREVIS√ïES E M√âTRICAS)
# =============================================================================

# --- Coeficientes do OLS ---
beta0_m1 = modelo1_ols.params[0]  # Intercepto
beta1_m1 = modelo1_ols.params[1]  # Coeficiente de annual_inc

print("üìê Coeficientes (OLS statsmodels):")
print(f"   Œ≤‚ÇÄ (intercepto):  {beta0_m1:.6f}")
print(f"   Œ≤‚ÇÅ (annual_inc):  {beta1_m1:.10f}")

# --- Previs√µes no conjunto de teste ---
y1_pred = modelo1_ols.predict(X1_test_sm)

# --- M√©tricas de avalia√ß√£o (c√°lculo manual) ---
r2_m1   = r2_score_manual(y1_test, y1_pred)
rmse_m1 = rmse_manual(y1_test, y1_pred)
mae_m1  = mae_manual(y1_test, y1_pred)

print(f"\nüìä M√©tricas no Conjunto de Teste:")
print(f"   R¬≤ (Coef. Determina√ß√£o): {r2_m1:.6f}")
print(f"   RMSE:                    {rmse_m1:.4f}%")
print(f"   MAE:                     {mae_m1:.4f}%")

# --- Scatter Plot com reta de regress√£o ---
fig, ax = plt.subplots(figsize=(12, 6))
ax.scatter(X1_test, y1_test, alpha=0.15, s=8, color='steelblue', label='Dados reais (teste)')
# Reta: ordenamos X_test para que a linha seja cont√≠nua
sorted_idx = X1_test.flatten().argsort()
ax.plot(X1_test.flatten()[sorted_idx], y1_pred[sorted_idx],
        color='red', linewidth=2, label='Reta de Regress√£o')
ax.set_title('Modelo 1: annual_inc ‚Üí int_rate (OLS)', fontsize=14, fontweight='bold')
ax.set_xlabel('Renda Anual (USD)')
ax.set_ylabel('Taxa de Juros (%)')
ax.legend()
plt.tight_layout()
plt.show()

### 14 ¬∑ Modelo 1: Rede Neural Simples (TensorFlow/Keras)

Constru√≠mos uma rede neural com **um √∫nico neur√¥nio linear** para demonstrar a equival√™ncia matem√°tica:

$$\text{Rede Neural:} \quad \hat{y} = W \cdot x + b$$
$$\text{Regress√£o Linear:} \quad \hat{y} = \beta_1 \cdot x + \beta_0$$

S√£o a **mesma equa√ß√£o**! O neur√¥nio aprende $W \approx \beta_1$ e $b \approx \beta_0$ via gradient descent.

> **Padroniza√ß√£o:** Redes neurais convergem **muito melhor** quando os dados est√£o na mesma escala. Usamos padroniza√ß√£o z-score ($z = \frac{x - \mu}{\sigma}$) antes de treinar. Depois, desnormalizamos os pesos para comparar com os coeficientes da regress√£o cl√°ssica.

In [None]:
# =============================================================================
# 14. MODELO 1 ‚Äî annual_inc ‚Üí int_rate (REDE NEURAL - TENSORFLOW/KERAS)
# =============================================================================

# --- Padroniza√ß√£o z-score manual ---
# A rede neural √© sens√≠vel √† escala dos dados. annual_inc est√° na faixa de
# dezenas/centenas de milhares, enquanto int_rate est√° entre 5 e 25.
# Sem padroniza√ß√£o, o gradiente pode explodir ou convergir muito lentamente.
X1_train_scaled, X1_test_scaled, mean1, std1 = standard_scale(X1_train, X1_test)

# --- Construir a rede neural ---
# Arquitetura: 1 neur√¥nio de entrada ‚Üí 1 neur√¥nio de sa√≠da (linear)
# Isso √© ALGEBRICAMENTE ID√äNTICO √† regress√£o linear: ≈∑ = W¬∑x + b
tf.random.set_seed(RANDOM_STATE)

modelo1_nn = Sequential([
    Dense(1, input_shape=(1,), activation='linear')  # 1 neur√¥nio, ativa√ß√£o linear
])

# --- Compilar ---
# Optimizer: Adam (variante eficiente do gradient descent)
# Loss: MSE (Mean Squared Error) ‚Äî mesma fun√ß√£o de custo do OLS!
modelo1_nn.compile(
    optimizer=Adam(learning_rate=0.01),
    loss='mse',
    metrics=['mae']
)

# --- Treinar ---
print("‚è≥ Treinando Rede Neural ‚Äî Modelo 1 (annual_inc ‚Üí int_rate)...")
history1 = modelo1_nn.fit(
    X1_train_scaled, y1_train,
    epochs=100,
    batch_size=32,
    validation_split=0.1,  # 10% do treino para valida√ß√£o interna
    verbose=0  # Silencioso (mostramos a curva de loss depois)
)
print("‚úÖ Treino conclu√≠do!")

# --- Curvas de Loss (Treino vs Valida√ß√£o) ---
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(history1.history['loss'], label='Loss (Treino)', linewidth=2)
ax.plot(history1.history['val_loss'], label='Loss (Valida√ß√£o)', linewidth=2, linestyle='--')
ax.set_title('Modelo 1 (NN): Curva de Loss por √âpoca', fontsize=14, fontweight='bold')
ax.set_xlabel('√âpoca')
ax.set_ylabel('MSE (Mean Squared Error)')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# --- Extrair e desnormalizar pesos ---
# Os pesos da rede foram aprendidos no espa√ßo padronizado (z-score).
# Para comparar com Œ≤‚ÇÅ e Œ≤‚ÇÄ do OLS, precisamos desnormalizar:
#   Œ≤‚ÇÅ_real = W / œÉ_x
#   Œ≤‚ÇÄ_real = b - W * Œº_x / œÉ_x
W_scaled, b_scaled = modelo1_nn.get_weights()
W_real = W_scaled[0][0] / std1[0]
b_real = b_scaled[0] - W_scaled[0][0] * mean1[0] / std1[0]

print(f"\nüìê Pesos da Rede Neural (desnormalizados):")
print(f"   W (‚âà Œ≤‚ÇÅ): {W_real:.10f}")
print(f"   b (‚âà Œ≤‚ÇÄ): {b_real:.6f}")
print(f"\n   Compara√ß√£o com OLS (statsmodels):")
print(f"   Œ≤‚ÇÅ (OLS): {beta1_m1:.10f}")
print(f"   Œ≤‚ÇÄ (OLS): {beta0_m1:.6f}")

# --- M√©tricas no conjunto de teste ---
y1_pred_nn = modelo1_nn.predict(X1_test_scaled, verbose=0).flatten()
r2_m1_nn   = r2_score_manual(y1_test, y1_pred_nn)
rmse_m1_nn = rmse_manual(y1_test, y1_pred_nn)
mae_m1_nn  = mae_manual(y1_test, y1_pred_nn)

print(f"\nüìä M√©tricas (Rede Neural) no Conjunto de Teste:")
print(f"   R¬≤:   {r2_m1_nn:.6f}")
print(f"   RMSE: {rmse_m1_nn:.4f}%")
print(f"   MAE:  {mae_m1_nn:.4f}%")

### 15 ¬∑ Modelo 1: Valida√ß√£o das Premissas ‚Äî Linearidade e Homocedasticidade

As duas premissas mais importantes da regress√£o OLS que podemos verificar visualmente:

1. **Linearidade:** A rela√ß√£o entre X e Y deve ser linear. No gr√°fico de res√≠duos vs X, **n√£o deve haver padr√£o curvil√≠neo**.
2. **Homocedasticidade:** A vari√¢ncia dos res√≠duos deve ser **constante** ao longo de ≈∑. No gr√°fico de res√≠duos vs ≈∑, os pontos devem estar distribu√≠dos aleatoriamente, **sem formato de funil** (cone aberto = heterocedasticidade).

> ‚ö†Ô∏è Se houver **heterocedasticidade**, os erros-padr√£o dos coeficientes ficam enviesados ‚Üí os p-values deixam de ser confi√°veis ‚Üí conclus√µes sobre signific√¢ncia estat√≠stica podem estar erradas.

In [None]:
# =============================================================================
# 15. MODELO 1 ‚Äî VALIDA√á√ÉO: LINEARIDADE E HOMOCEDASTICIDADE
# =============================================================================

# Calcular res√≠duos: diferen√ßa entre o valor real e o previsto
# Se o modelo fosse perfeito, todos os res√≠duos seriam zero.
residuos1 = y1_test - y1_pred

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# --- Plot 1: Res√≠duos vs Valores Previstos (≈∑) ‚Üí Homocedasticidade ---
axes[0].scatter(y1_pred, residuos1, alpha=0.15, s=8, color='steelblue')
axes[0].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[0].set_title('Res√≠duos vs Valores Previstos (≈∑)\nHomocedasticidade', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Valores Previstos (≈∑) ‚Äî Taxa de Juros (%)')
axes[0].set_ylabel('Res√≠duos')

# --- Plot 2: Res√≠duos vs X (annual_inc) ‚Üí Linearidade ---
axes[1].scatter(X1_test, residuos1, alpha=0.15, s=8, color='coral')
axes[1].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[1].set_title('Res√≠duos vs annual_inc\nLinearidade', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Renda Anual (USD)')
axes[1].set_ylabel('Res√≠duos')

plt.suptitle('Modelo 1 ‚Äî An√°lise de Res√≠duos', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

### 16 ¬∑ Modelo 1: Valida√ß√£o das Premissas ‚Äî Normalidade dos Res√≠duos

A premissa de **normalidade dos res√≠duos** garante que os intervalos de confian√ßa e os p-values s√£o v√°lidos.

Ferramentas utilizadas:
- **Q-Q Plot** (Quantile-Quantile): se os pontos seguirem a linha de 45¬∞, os res√≠duos s√£o normais.
- **Teste de Shapiro-Wilk**: teste formal ‚Äî $H_0$: os dados s√£o normalmente distribu√≠dos. Se $p > 0.05$, n√£o rejeitamos $H_0$.

> **Aten√ß√£o:** Com $n$ grande (>5000), Shapiro-Wilk tende a rejeitar $H_0$ por ser muito sens√≠vel a pequenos desvios. Nesse caso, o **Q-Q Plot visual** e o **Teorema Central do Limite** s√£o argumentos mais convincentes.

In [None]:
# =============================================================================
# 16. MODELO 1 ‚Äî VALIDA√á√ÉO: NORMALIDADE DOS RES√çDUOS
# =============================================================================

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# --- Q-Q Plot ---
# Se os res√≠duos forem normais, os pontos se alinham √† diagonal vermelha.
qqplot(residuos1, line='45', ax=axes[0], markersize=2, alpha=0.3)
axes[0].set_title('Q-Q Plot dos Res√≠duos\n(Modelo 1: annual_inc)', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# --- Histograma dos Res√≠duos com KDE ---
sns.histplot(residuos1, kde=True, bins=50, color='steelblue', ax=axes[1])
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1].set_title('Distribui√ß√£o dos Res√≠duos\n(Modelo 1: annual_inc)', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Res√≠duo')
axes[1].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

# --- Teste de Shapiro-Wilk ---
# O teste aceita no m√°ximo 5000 observa√ß√µes. Se temos mais, usamos uma sub-amostra.
amostra_residuos1 = np.random.choice(residuos1, size=min(5000, len(residuos1)), replace=False)
stat_sw, p_sw = shapiro(amostra_residuos1)

print(f"üìä Teste de Shapiro-Wilk (Modelo 1):")
print(f"   Estat√≠stica W = {stat_sw:.6f}")
print(f"   p-value       = {p_sw:.6e}")
if p_sw > 0.05:
    print("   ‚úÖ N√£o rejeitamos H‚ÇÄ: os res√≠duos seguem distribui√ß√£o normal (p > 0.05)")
else:
    print("   ‚ö†Ô∏è  Rejeitamos H‚ÇÄ: desvio da normalidade detectado (p < 0.05)")
    print("   ‚Üí Com n grande, isso √© esperado (Shapiro-Wilk √© muito sens√≠vel).")
    print("   ‚Üí O Q-Q Plot visual e o Teorema Central do Limite justificam a validade.")

### 17 ¬∑ Modelo 1: Valida√ß√£o das Premissas ‚Äî Independ√™ncia (Durbin-Watson)

A estat√≠stica de **Durbin-Watson** testa se os res√≠duos s√£o **autocorrelacionados** (se o erro de uma observa√ß√£o influencia o erro da pr√≥xima).

| Valor DW | Interpreta√ß√£o |
|---|---|
| ‚âà 2.0 | ‚úÖ Sem autocorrela√ß√£o |
| ‚âà 0.0 | ‚ö†Ô∏è Autocorrela√ß√£o positiva forte |
| ‚âà 4.0 | ‚ö†Ô∏è Autocorrela√ß√£o negativa forte |

> Em dados **cross-section** (n√£o temporais), a autocorrela√ß√£o √© menos comum. Mas verificamos por boa pr√°tica.

In [None]:
# =============================================================================
# 17. MODELO 1 ‚Äî VALIDA√á√ÉO: INDEPEND√äNCIA DOS RES√çDUOS (DURBIN-WATSON)
# =============================================================================

# Calcular Durbin-Watson
# Usamos os res√≠duos do OLS no conjunto de treino (pr√°tica padr√£o com statsmodels)
dw1 = durbin_watson(modelo1_ols.resid)

print(f"üìä Estat√≠stica de Durbin-Watson (Modelo 1): {dw1:.4f}")
if 1.5 < dw1 < 2.5:
    print("   ‚úÖ Valor pr√≥ximo de 2 ‚Üí N√£o h√° evid√™ncia de autocorrela√ß√£o significativa.")
elif dw1 <= 1.5:
    print("   ‚ö†Ô∏è  Valor baixo ‚Üí Poss√≠vel autocorrela√ß√£o positiva.")
else:
    print("   ‚ö†Ô∏è  Valor alto ‚Üí Poss√≠vel autocorrela√ß√£o negativa.")

---
# üî∂ MODELO 2: `dti` ‚Üí `int_rate`
## Debt-to-Income Ratio como Preditor da Taxa de Juros

**Hip√≥tese de neg√≥cio:** Quanto **maior o DTI** (mais endividado em rela√ß√£o √† renda), maior o risco de inadimpl√™ncia ‚Üí o banco cobra **juros mais altos**. Esperamos Œ≤‚ÇÅ **positivo**.

**Equa√ß√£o do modelo:**

$$\hat{y} = \beta_0 + \beta_1 \cdot \text{dti}$$

---

### 18 ¬∑ Modelo 2: Regress√£o OLS (statsmodels)

In [None]:
# =============================================================================
# 18. MODELO 2 ‚Äî dti ‚Üí int_rate (STATSMODELS OLS)
# =============================================================================

X2_train_sm = sm.add_constant(X2_train)
X2_test_sm  = sm.add_constant(X2_test)

# Ajustar OLS
modelo2_ols = sm.OLS(y2_train, X2_train_sm).fit()

print("=" * 70)
print("MODELO 2: dti ‚Üí int_rate (OLS Summary)")
print("=" * 70)
print(modelo2_ols.summary())

### 19 ¬∑ Modelo 2: Previs√µes e M√©tricas de Avalia√ß√£o

In [None]:
# =============================================================================
# 19. MODELO 2 ‚Äî dti ‚Üí int_rate (PREVIS√ïES E M√âTRICAS)
# =============================================================================

# Coeficientes do OLS
beta0_m2 = modelo2_ols.params[0]
beta1_m2 = modelo2_ols.params[1]

print("üìê Coeficientes (OLS statsmodels):")
print(f"   Œ≤‚ÇÄ (intercepto): {beta0_m2:.6f}")
print(f"   Œ≤‚ÇÅ (dti):        {beta1_m2:.6f}")

# Previs√µes
y2_pred = modelo2_ols.predict(X2_test_sm)

# M√©tricas
r2_m2   = r2_score_manual(y2_test, y2_pred)
rmse_m2 = rmse_manual(y2_test, y2_pred)
mae_m2  = mae_manual(y2_test, y2_pred)

print(f"\nüìä M√©tricas no Conjunto de Teste:")
print(f"   R¬≤:   {r2_m2:.6f}")
print(f"   RMSE: {rmse_m2:.4f}%")
print(f"   MAE:  {mae_m2:.4f}%")

# --- Scatter Plot com reta ---
fig, ax = plt.subplots(figsize=(12, 6))
ax.scatter(X2_test, y2_test, alpha=0.15, s=8, color='darkorange', label='Dados reais (teste)')
sorted_idx = X2_test.flatten().argsort()
ax.plot(X2_test.flatten()[sorted_idx], y2_pred[sorted_idx],
        color='darkred', linewidth=2, label='Reta de Regress√£o')
ax.set_title('Modelo 2: dti ‚Üí int_rate (OLS)', fontsize=14, fontweight='bold')
ax.set_xlabel('Debt-to-Income Ratio (%)')
ax.set_ylabel('Taxa de Juros (%)')
ax.legend()
plt.tight_layout()
plt.show()

### 20 ¬∑ Modelo 2: Rede Neural Simples (TensorFlow/Keras)

In [None]:
# =============================================================================
# 20. MODELO 2 ‚Äî dti ‚Üí int_rate (REDE NEURAL - TENSORFLOW/KERAS)
# =============================================================================

# Padronizar dti (z-score manual)
X2_train_scaled, X2_test_scaled, mean2, std2 = standard_scale(X2_train, X2_test)

# Construir rede neural ‚Äî mesma arquitetura (1 neur√¥nio linear)
tf.random.set_seed(RANDOM_STATE)
modelo2_nn = Sequential([
    Dense(1, input_shape=(1,), activation='linear')
])
modelo2_nn.compile(optimizer=Adam(learning_rate=0.01), loss='mse', metrics=['mae'])

# Treinar
print("‚è≥ Treinando Rede Neural ‚Äî Modelo 2 (dti ‚Üí int_rate)...")
history2 = modelo2_nn.fit(
    X2_train_scaled, y2_train,
    epochs=100, batch_size=32,
    validation_split=0.1, verbose=0
)
print("‚úÖ Treino conclu√≠do!")

# Curva de Loss
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(history2.history['loss'], label='Loss (Treino)', linewidth=2)
ax.plot(history2.history['val_loss'], label='Loss (Valida√ß√£o)', linewidth=2, linestyle='--')
ax.set_title('Modelo 2 (NN): Curva de Loss por √âpoca', fontsize=14, fontweight='bold')
ax.set_xlabel('√âpoca')
ax.set_ylabel('MSE')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Desnormalizar pesos
W2_scaled, b2_scaled = modelo2_nn.get_weights()
W2_real = W2_scaled[0][0] / std2[0]
b2_real = b2_scaled[0] - W2_scaled[0][0] * mean2[0] / std2[0]
print(f"\nüìê Pesos da Rede Neural (desnormalizados):")
print(f"   W (‚âà Œ≤‚ÇÅ): {W2_real:.6f}")
print(f"   b (‚âà Œ≤‚ÇÄ): {b2_real:.6f}")
print(f"   Compara√ß√£o OLS ‚Üí Œ≤‚ÇÅ: {beta1_m2:.6f}, Œ≤‚ÇÄ: {beta0_m2:.6f}")

# M√©tricas
y2_pred_nn = modelo2_nn.predict(X2_test_scaled, verbose=0).flatten()
r2_m2_nn   = r2_score_manual(y2_test, y2_pred_nn)
rmse_m2_nn = rmse_manual(y2_test, y2_pred_nn)
mae_m2_nn  = mae_manual(y2_test, y2_pred_nn)
print(f"\nüìä M√©tricas (Rede Neural):")
print(f"   R¬≤:   {r2_m2_nn:.6f}")
print(f"   RMSE: {rmse_m2_nn:.4f}%")
print(f"   MAE:  {mae_m2_nn:.4f}%")

### 21 ¬∑ Modelo 2: Valida√ß√£o das Premissas ‚Äî Linearidade e Homocedasticidade

In [None]:
# =============================================================================
# 21. MODELO 2 ‚Äî VALIDA√á√ÉO: LINEARIDADE E HOMOCEDASTICIDADE
# =============================================================================

residuos2 = y2_test - y2_pred

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Res√≠duos vs Valores Previstos ‚Üí Homocedasticidade
axes[0].scatter(y2_pred, residuos2, alpha=0.15, s=8, color='darkorange')
axes[0].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[0].set_title('Res√≠duos vs Valores Previstos (≈∑)\nHomocedasticidade', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Valores Previstos (≈∑)')
axes[0].set_ylabel('Res√≠duos')

# Res√≠duos vs X ‚Üí Linearidade
axes[1].scatter(X2_test, residuos2, alpha=0.15, s=8, color='coral')
axes[1].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[1].set_title('Res√≠duos vs dti\nLinearidade', fontsize=13, fontweight='bold')
axes[1].set_xlabel('DTI (%)')
axes[1].set_ylabel('Res√≠duos')

plt.suptitle('Modelo 2 ‚Äî An√°lise de Res√≠duos', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

### 22 ¬∑ Modelo 2: Valida√ß√£o das Premissas ‚Äî Normalidade dos Res√≠duos (Q-Q Plot + Shapiro-Wilk)

In [None]:
# =============================================================================
# 22. MODELO 2 ‚Äî VALIDA√á√ÉO: NORMALIDADE DOS RES√çDUOS
# =============================================================================

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Q-Q Plot
qqplot(residuos2, line='45', ax=axes[0], markersize=2, alpha=0.3)
axes[0].set_title('Q-Q Plot dos Res√≠duos\n(Modelo 2: dti)', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Histograma
sns.histplot(residuos2, kde=True, bins=50, color='darkorange', ax=axes[1])
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1].set_title('Distribui√ß√£o dos Res√≠duos\n(Modelo 2: dti)', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Res√≠duo')
axes[1].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

# Shapiro-Wilk
amostra_residuos2 = np.random.choice(residuos2, size=min(5000, len(residuos2)), replace=False)
stat_sw2, p_sw2 = shapiro(amostra_residuos2)
print(f"üìä Teste de Shapiro-Wilk (Modelo 2):")
print(f"   Estat√≠stica W = {stat_sw2:.6f}")
print(f"   p-value       = {p_sw2:.6e}")
if p_sw2 > 0.05:
    print("   ‚úÖ N√£o rejeitamos H‚ÇÄ: res√≠duos normais.")
else:
    print("   ‚ö†Ô∏è  H‚ÇÄ rejeitada ‚Äî desvio detectado (esperado com n grande).")

### 23 ¬∑ Modelo 2: Valida√ß√£o das Premissas ‚Äî Independ√™ncia (Durbin-Watson)

In [None]:
# =============================================================================
# 23. MODELO 2 ‚Äî VALIDA√á√ÉO: INDEPEND√äNCIA (DURBIN-WATSON)
# =============================================================================

dw2 = durbin_watson(modelo2_ols.resid)
print(f"üìä Estat√≠stica de Durbin-Watson (Modelo 2): {dw2:.4f}")
if 1.5 < dw2 < 2.5:
    print("   ‚úÖ Sem autocorrela√ß√£o significativa.")
elif dw2 <= 1.5:
    print("   ‚ö†Ô∏è  Poss√≠vel autocorrela√ß√£o positiva.")
else:
    print("   ‚ö†Ô∏è  Poss√≠vel autocorrela√ß√£o negativa.")

---
# üî∑ MODELO 3: `fico_score` ‚Üí `int_rate`
## Score FICO como Preditor da Taxa de Juros

**Hip√≥tese de neg√≥cio:** O FICO score √© o **principal indicador de risco de cr√©dito** nos EUA. Quanto **maior o score**, menor o risco ‚Üí o banco cobra **juros menores**. Esperamos Œ≤‚ÇÅ **fortemente negativo**.

Este deve ser o modelo com **melhor R¬≤** dentre os tr√™s, pois o FICO score √© explicitamente usado pelo Lending Club para definir os grades (A‚ÄìG) que determinam as faixas de taxa de juros.

**Equa√ß√£o:**

$$\hat{y} = \beta_0 + \beta_1 \cdot \text{fico\_score}$$

---

### 24 ¬∑ Modelo 3: Regress√£o OLS (statsmodels)

In [None]:
# =============================================================================
# 24. MODELO 3 ‚Äî fico_score ‚Üí int_rate (STATSMODELS OLS)
# =============================================================================

X3_train_sm = sm.add_constant(X3_train)
X3_test_sm  = sm.add_constant(X3_test)

modelo3_ols = sm.OLS(y3_train, X3_train_sm).fit()

print("=" * 70)
print("MODELO 3: fico_score ‚Üí int_rate (OLS Summary)")
print("=" * 70)
print(modelo3_ols.summary())

### 25 ¬∑ Modelo 3: Previs√µes e M√©tricas de Avalia√ß√£o

In [None]:
# =============================================================================
# 25. MODELO 3 ‚Äî fico_score ‚Üí int_rate (PREVIS√ïES E M√âTRICAS)
# =============================================================================

# Coeficientes do OLS
beta0_m3 = modelo3_ols.params[0]
beta1_m3 = modelo3_ols.params[1]

print("üìê Coeficientes (OLS statsmodels):")
print(f"   Œ≤‚ÇÄ (intercepto):  {beta0_m3:.6f}")
print(f"   Œ≤‚ÇÅ (fico_score):  {beta1_m3:.6f}")

# Previs√µes
y3_pred = modelo3_ols.predict(X3_test_sm)

# M√©tricas
r2_m3   = r2_score_manual(y3_test, y3_pred)
rmse_m3 = rmse_manual(y3_test, y3_pred)
mae_m3  = mae_manual(y3_test, y3_pred)

print(f"\nüìä M√©tricas no Conjunto de Teste:")
print(f"   R¬≤:   {r2_m3:.6f}")
print(f"   RMSE: {rmse_m3:.4f}%")
print(f"   MAE:  {mae_m3:.4f}%")

# Scatter Plot
fig, ax = plt.subplots(figsize=(12, 6))
ax.scatter(X3_test, y3_test, alpha=0.15, s=8, color='seagreen', label='Dados reais (teste)')
sorted_idx = X3_test.flatten().argsort()
ax.plot(X3_test.flatten()[sorted_idx], y3_pred[sorted_idx],
        color='darkred', linewidth=2, label='Reta de Regress√£o')
ax.set_title('Modelo 3: fico_score ‚Üí int_rate (OLS)', fontsize=14, fontweight='bold')
ax.set_xlabel('Score FICO')
ax.set_ylabel('Taxa de Juros (%)')
ax.legend()
plt.tight_layout()
plt.show()

### 26 ¬∑ Modelo 3: Rede Neural Simples (TensorFlow/Keras)

In [None]:
# =============================================================================
# 26. MODELO 3 ‚Äî fico_score ‚Üí int_rate (REDE NEURAL - TENSORFLOW/KERAS)
# =============================================================================

# Padronizar fico_score (z-score manual)
X3_train_scaled, X3_test_scaled, mean3, std3 = standard_scale(X3_train, X3_test)

# Construir rede neural
tf.random.set_seed(RANDOM_STATE)
modelo3_nn = Sequential([
    Dense(1, input_shape=(1,), activation='linear')
])
modelo3_nn.compile(optimizer=Adam(learning_rate=0.01), loss='mse', metrics=['mae'])

# Treinar
print("‚è≥ Treinando Rede Neural ‚Äî Modelo 3 (fico_score ‚Üí int_rate)...")
history3 = modelo3_nn.fit(
    X3_train_scaled, y3_train,
    epochs=100, batch_size=32,
    validation_split=0.1, verbose=0
)
print("‚úÖ Treino conclu√≠do!")

# Curva de Loss
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(history3.history['loss'], label='Loss (Treino)', linewidth=2)
ax.plot(history3.history['val_loss'], label='Loss (Valida√ß√£o)', linewidth=2, linestyle='--')
ax.set_title('Modelo 3 (NN): Curva de Loss por √âpoca', fontsize=14, fontweight='bold')
ax.set_xlabel('√âpoca')
ax.set_ylabel('MSE')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Desnormalizar pesos
W3_scaled, b3_scaled = modelo3_nn.get_weights()
W3_real = W3_scaled[0][0] / std3[0]
b3_real = b3_scaled[0] - W3_scaled[0][0] * mean3[0] / std3[0]
print(f"\nüìê Pesos da Rede Neural (desnormalizados):")
print(f"   W (‚âà Œ≤‚ÇÅ): {W3_real:.6f}")
print(f"   b (‚âà Œ≤‚ÇÄ): {b3_real:.6f}")
print(f"   Compara√ß√£o OLS ‚Üí Œ≤‚ÇÅ: {beta1_m3:.6f}, Œ≤‚ÇÄ: {beta0_m3:.6f}")

# M√©tricas
y3_pred_nn = modelo3_nn.predict(X3_test_scaled, verbose=0).flatten()
r2_m3_nn   = r2_score_manual(y3_test, y3_pred_nn)
rmse_m3_nn = rmse_manual(y3_test, y3_pred_nn)
mae_m3_nn  = mae_manual(y3_test, y3_pred_nn)
print(f"\nüìä M√©tricas (Rede Neural):")
print(f"   R¬≤:   {r2_m3_nn:.6f}")
print(f"   RMSE: {rmse_m3_nn:.4f}%")
print(f"   MAE:  {mae_m3_nn:.4f}%")

### 27 ¬∑ Modelo 3: Valida√ß√£o das Premissas ‚Äî Linearidade e Homocedasticidade

In [None]:
# =============================================================================
# 27. MODELO 3 ‚Äî VALIDA√á√ÉO: LINEARIDADE E HOMOCEDASTICIDADE
# =============================================================================

residuos3 = y3_test - y3_pred

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Res√≠duos vs ≈∑ ‚Üí Homocedasticidade
axes[0].scatter(y3_pred, residuos3, alpha=0.15, s=8, color='seagreen')
axes[0].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[0].set_title('Res√≠duos vs Valores Previstos (≈∑)\nHomocedasticidade', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Valores Previstos (≈∑)')
axes[0].set_ylabel('Res√≠duos')

# Res√≠duos vs X ‚Üí Linearidade
axes[1].scatter(X3_test, residuos3, alpha=0.15, s=8, color='coral')
axes[1].axhline(y=0, color='red', linewidth=2, linestyle='--')
axes[1].set_title('Res√≠duos vs fico_score\nLinearidade', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Score FICO')
axes[1].set_ylabel('Res√≠duos')

plt.suptitle('Modelo 3 ‚Äî An√°lise de Res√≠duos', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

### 28 ¬∑ Modelo 3: Valida√ß√£o das Premissas ‚Äî Normalidade dos Res√≠duos (Q-Q Plot + Shapiro-Wilk)

In [None]:
# =============================================================================
# 28. MODELO 3 ‚Äî VALIDA√á√ÉO: NORMALIDADE DOS RES√çDUOS
# =============================================================================

fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Q-Q Plot
qqplot(residuos3, line='45', ax=axes[0], markersize=2, alpha=0.3)
axes[0].set_title('Q-Q Plot dos Res√≠duos\n(Modelo 3: fico_score)', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Histograma
sns.histplot(residuos3, kde=True, bins=50, color='seagreen', ax=axes[1])
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1].set_title('Distribui√ß√£o dos Res√≠duos\n(Modelo 3: fico_score)', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Res√≠duo')
axes[1].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

# Shapiro-Wilk
amostra_residuos3 = np.random.choice(residuos3, size=min(5000, len(residuos3)), replace=False)
stat_sw3, p_sw3 = shapiro(amostra_residuos3)
print(f"üìä Teste de Shapiro-Wilk (Modelo 3):")
print(f"   Estat√≠stica W = {stat_sw3:.6f}")
print(f"   p-value       = {p_sw3:.6e}")
if p_sw3 > 0.05:
    print("   ‚úÖ N√£o rejeitamos H‚ÇÄ: res√≠duos normais.")
else:
    print("   ‚ö†Ô∏è  H‚ÇÄ rejeitada ‚Äî desvio detectado (esperado com n grande).")

### 29 ¬∑ Modelo 3: Valida√ß√£o das Premissas ‚Äî Independ√™ncia (Durbin-Watson)

In [None]:
# =============================================================================
# 29. MODELO 3 ‚Äî VALIDA√á√ÉO: INDEPEND√äNCIA (DURBIN-WATSON)
# =============================================================================

dw3 = durbin_watson(modelo3_ols.resid)
print(f"üìä Estat√≠stica de Durbin-Watson (Modelo 3): {dw3:.4f}")
if 1.5 < dw3 < 2.5:
    print("   ‚úÖ Sem autocorrela√ß√£o significativa.")
elif dw3 <= 1.5:
    print("   ‚ö†Ô∏è  Poss√≠vel autocorrela√ß√£o positiva.")
else:
    print("   ‚ö†Ô∏è  Poss√≠vel autocorrela√ß√£o negativa.")

---
# üìä COMPARA√á√ÉO E CONCLUS√ïES

## 30 ¬∑ Tabela Comparativa dos 3 Modelos

Reunimos todas as m√©tricas lado a lado para comparar o desempenho de cada vari√°vel independente como preditora da taxa de juros.

In [None]:
# =============================================================================
# 30. TABELA COMPARATIVA DOS 3 MODELOS
# =============================================================================

# Extrair p-values dos coeficientes (Œ≤‚ÇÅ) de cada modelo OLS
p_m1 = modelo1_ols.pvalues[1]  # √çndice 1 = coeficiente de X (√≠ndice 0 = constante)
p_m2 = modelo2_ols.pvalues[1]
p_m3 = modelo3_ols.pvalues[1]

# Criar tabela comparativa
comparacao = pd.DataFrame({
    'Modelo': ['Modelo 1', 'Modelo 2', 'Modelo 3'],
    'Vari√°vel (X)': ['annual_inc', 'dti', 'fico_score'],
    'R¬≤': [r2_m1, r2_m2, r2_m3],
    'R¬≤ Ajustado': [modelo1_ols.rsquared_adj, modelo2_ols.rsquared_adj, modelo3_ols.rsquared_adj],
    'RMSE (%)': [rmse_m1, rmse_m2, rmse_m3],
    'MAE (%)': [mae_m1, mae_m2, mae_m3],
    'Coeficiente (Œ≤‚ÇÅ)': [beta1_m1, beta1_m2, beta1_m3],
    'p-value (Œ≤‚ÇÅ)': [p_m1, p_m2, p_m3],
    'Durbin-Watson': [dw1, dw2, dw3]
})

# Formatar para melhor visualiza√ß√£o
print("=" * 90)
print("üìä TABELA COMPARATIVA ‚Äî MODELOS DE REGRESS√ÉO LINEAR SIMPLES")
print("=" * 90)
comparacao_display = comparacao.copy()
comparacao_display['R¬≤'] = comparacao_display['R¬≤'].apply(lambda x: f"{x:.6f}")
comparacao_display['R¬≤ Ajustado'] = comparacao_display['R¬≤ Ajustado'].apply(lambda x: f"{x:.6f}")
comparacao_display['RMSE (%)'] = comparacao_display['RMSE (%)'].apply(lambda x: f"{x:.4f}")
comparacao_display['MAE (%)'] = comparacao_display['MAE (%)'].apply(lambda x: f"{x:.4f}")
comparacao_display['Coeficiente (Œ≤‚ÇÅ)'] = comparacao_display['Coeficiente (Œ≤‚ÇÅ)'].apply(lambda x: f"{x:.8f}")
comparacao_display['p-value (Œ≤‚ÇÅ)'] = comparacao_display['p-value (Œ≤‚ÇÅ)'].apply(lambda x: f"{x:.2e}")
comparacao_display['Durbin-Watson'] = comparacao_display['Durbin-Watson'].apply(lambda x: f"{x:.4f}")
comparacao_display

In [None]:
# --- Gr√°ficos Comparativos ---
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

nomes = ['annual_inc\n(Renda)', 'dti\n(D√≠vida/Renda)', 'fico_score\n(Score FICO)']
cores = ['steelblue', 'darkorange', 'seagreen']

# R¬≤
r2_vals = [r2_m1, r2_m2, r2_m3]
bars1 = axes[0].bar(nomes, r2_vals, color=cores, edgecolor='black', linewidth=0.5)
axes[0].set_title('Compara√ß√£o de R¬≤ (Coef. Determina√ß√£o)', fontsize=14, fontweight='bold')
axes[0].set_ylabel('R¬≤')
for bar, val in zip(bars1, r2_vals):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.005,
                 f'{val:.4f}', ha='center', va='bottom', fontweight='bold')

# RMSE
rmse_vals = [rmse_m1, rmse_m2, rmse_m3]
bars2 = axes[1].bar(nomes, rmse_vals, color=cores, edgecolor='black', linewidth=0.5)
axes[1].set_title('Compara√ß√£o de RMSE (Erro M√©dio)', fontsize=14, fontweight='bold')
axes[1].set_ylabel('RMSE (%)')
for bar, val in zip(bars2, rmse_vals):
    axes[1].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.02,
                 f'{val:.3f}%', ha='center', va='bottom', fontweight='bold')

plt.suptitle('Compara√ß√£o dos 3 Modelos de Regress√£o Linear Simples',
             fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()

# --- Ranking ---
print("\nüèÜ RANKING DOS MODELOS (por R¬≤, do melhor ao pior):")
ranking = comparacao.sort_values('R¬≤', ascending=False)
for i, (_, row) in enumerate(ranking.iterrows(), 1):
    print(f"   {i}¬∫ lugar: {row['Modelo']} ({row['Vari√°vel (X)']}) ‚Äî R¬≤ = {row['R¬≤']}")

---
## 31 ¬∑ B√¥nus: Regress√£o M√∫ltipla e C√°lculo do VIF (Multicolinearidade)

Combinamos as **3 vari√°veis** em um √∫nico modelo de **Regress√£o M√∫ltipla** para verificar se, juntas, elas explicam mais da vari√¢ncia de `int_rate`.

**Equa√ß√£o:**

$$\hat{y} = \beta_0 + \beta_1 \cdot \text{annual\_inc} + \beta_2 \cdot \text{dti} + \beta_3 \cdot \text{fico\_score}$$

**VIF (Variance Inflation Factor)** mede a **multicolinearidade** entre as vari√°veis independentes:

| VIF | Interpreta√ß√£o |
|---|---|
| 1 | Sem correla√ß√£o entre as vari√°veis |
| 1‚Äì5 | Correla√ß√£o moderada (aceit√°vel) |
| 5‚Äì10 | Correla√ß√£o alta (preocupante) |
| > 10 | Multicolinearidade severa (coeficientes inst√°veis) |

> Se o VIF for alto, os coeficientes individuais podem ser inst√°veis (mudam muito com pequenas altera√ß√µes nos dados), mesmo que o modelo geral tenha bom R¬≤.

In [None]:
# =============================================================================
# 31. B√îNUS: REGRESS√ÉO M√öLTIPLA + VIF (MULTICOLINEARIDADE)
# =============================================================================

# --- Preparar dados com todas as 3 vari√°veis ---
X_multi = df[['annual_inc', 'dti', 'fico_score']].values
y_multi = df['int_rate'].values

X_multi_train, X_multi_test, y_multi_train, y_multi_test = train_test_split_manual(
    X_multi, y_multi, test_size=0.2, random_state=RANDOM_STATE
)

# --- OLS com statsmodels ---
X_multi_train_sm = sm.add_constant(X_multi_train)
X_multi_test_sm  = sm.add_constant(X_multi_test)

modelo_multi = sm.OLS(y_multi_train, X_multi_train_sm).fit()

print("=" * 70)
print("B√îNUS: REGRESS√ÉO M√öLTIPLA (annual_inc + dti + fico_score ‚Üí int_rate)")
print("=" * 70)
print(modelo_multi.summary())

# --- Calcular VIF ---
# O VIF √© calculado para cada vari√°vel independente.
# VIF_j = 1 / (1 - R¬≤_j), onde R¬≤_j √© o R¬≤ da regress√£o de X_j contra as outras X's.
print("\n" + "=" * 50)
print("üìä VIF ‚Äî Variance Inflation Factor")
print("=" * 50)

vif_data = pd.DataFrame()
vif_data['Vari√°vel'] = ['annual_inc', 'dti', 'fico_score']
vif_data['VIF'] = [
    variance_inflation_factor(X_multi_train_sm, i) 
    for i in range(1, X_multi_train_sm.shape[1])  # Come√ßa em 1 para pular a constante
]

for _, row in vif_data.iterrows():
    status = '‚úÖ OK' if row['VIF'] < 5 else '‚ö†Ô∏è  Alta' if row['VIF'] < 10 else 'üö® Severa'
    print(f"   {row['Vari√°vel']:15s} ‚Üí VIF = {row['VIF']:.4f}  ({status})")

# --- M√©tricas do modelo m√∫ltiplo (usando OLS) ---
y_multi_pred = modelo_multi.predict(X_multi_test_sm)

r2_multi   = r2_score_manual(y_multi_test, y_multi_pred)
rmse_multi = rmse_manual(y_multi_test, y_multi_pred)
mae_multi  = mae_manual(y_multi_test, y_multi_pred)

print(f"\nüìä M√©tricas da Regress√£o M√∫ltipla (Teste):")
print(f"   R¬≤:   {r2_multi:.6f}")
print(f"   RMSE: {rmse_multi:.4f}%")
print(f"   MAE:  {mae_multi:.4f}%")
print(f"\n   Compara√ß√£o com melhor modelo simples (fico_score): R¬≤ = {r2_m3:.6f}")
print(f"   Ganho de R¬≤: +{(r2_multi - r2_m3):.6f}")

---
# üéì Como Explicar Isso Para o Seu Professor ‚Äî Guia de Defesa

## Resumo Executivo das M√©tricas

### 1. R¬≤ (Coeficiente de Determina√ß√£o)
> *"O R¬≤ nos diz qual percentual da vari√¢ncia da taxa de juros √© explicado pela vari√°vel X."*

- Se o R¬≤ do Modelo 3 (fico_score) for, por exemplo, 0.42, voc√™ diz: **"O score FICO, sozinho, explica 42% da varia√ß√£o na taxa de juros."**
- Em Regress√£o Linear **Simples**, R¬≤ entre 0.10 e 0.50 √© **informativo e esperado**, pois a taxa de juros depende de m√∫ltiplos fatores (risco, mercado, pol√≠tica da empresa).
- R¬≤ baixo **n√£o significa que o modelo √© in√∫til** ‚Äî significa que a vari√°vel √© **um** dos fatores, n√£o o √∫nico.

### 2. RMSE (Root Mean Squared Error)
> *"O RMSE nos diz, em m√©dia, quantos pontos percentuais o modelo erra na previs√£o da taxa."*

- Se o RMSE for 3.5%, significa que o modelo **tipicamente erra em ¬±3.5 pontos percentuais**. Para uma taxa real de 15%, o modelo pode prever entre 11.5% e 18.5%.
- O RMSE √© em **unidades da vari√°vel-alvo** (%), o que facilita a interpreta√ß√£o pr√°tica.
- O RMSE **penaliza mais erros grandes** (por causa da raiz do quadrado), ent√£o √© mais conservador que o MAE.

### 3. MAE (Mean Absolute Error)
> *"O MAE √© o erro m√©dio absoluto ‚Äî quanto o modelo erra, em m√©dia, sem penalizar erros grandes."*

- Se o MAE for 2.8%, o erro t√≠pico √© de 2.8 pontos percentuais.
- Se RMSE >> MAE, significa que existem alguns erros muito grandes (outliers nos res√≠duos).

### 4. p-value dos Coeficientes
> *"O p-value nos diz se a rela√ß√£o entre X e Y √© estatisticamente significativa ou se pode ser obra do acaso."*

- **p < 0.05**: H√° evid√™ncia estat√≠stica de que a vari√°vel X influencia `int_rate`. O coeficiente √© significativo.
- **p ‚â• 0.05**: N√£o podemos afirmar com confian√ßa que X influencia Y. O coeficiente pode ser zero na popula√ß√£o.
- Na pr√°tica, se os p-values de todos os 3 modelos forem < 0.001 (muito pequenos), **todas as vari√°veis escolhidas s√£o significativas**.

### 5. Coeficiente Œ≤‚ÇÅ ‚Äî Interpreta√ß√£o Pr√°tica
> *"O Œ≤‚ÇÅ nos diz quanto a taxa de juros muda para cada unidade a mais na vari√°vel X."*

Exemplos de como falar na apresenta√ß√£o:
- **annual_inc:** *"Para cada d√≥lar a mais de renda anual, a taxa de juros diminui em Œ≤‚ÇÅ pontos percentuais. Como Œ≤‚ÇÅ √© muito pequeno (ex: -0.00001), faz mais sentido dizer: para cada $10.000 a mais, a taxa cai em ~0.1 pp."*
- **dti:** *"Para cada ponto percentual a mais no DTI, a taxa de juros aumenta em Œ≤‚ÇÅ pp."*
- **fico_score:** *"Para cada ponto a mais no FICO score, a taxa de juros diminui em Œ≤‚ÇÅ pp."*

### 6. An√°lise de Res√≠duos ‚Äî Por que fizemos?
> *"As premissas do OLS (M√≠nimos Quadrados Ordin√°rios) precisam ser satisfeitas para que os intervalos de confian√ßa e p-values sejam v√°lidos."*

| Premissa | O que verificamos | O que acontece se falhar |
|---|---|---|
| **Linearidade** | Scatter de res√≠duos vs X sem padr√£o curvil√≠neo | O modelo linear √© inadequado; precisar√≠amos de transforma√ß√µes ou modelos n√£o-lineares |
| **Homocedasticidade** | Scatter de res√≠duos vs ≈∑ sem formato de funil | Erros-padr√£o ficam enviesados ‚Üí p-values n√£o confi√°veis |
| **Normalidade dos Res√≠duos** | Q-Q Plot + Shapiro-Wilk | Intervalos de confian√ßa e testes de hip√≥tese ficam imprecisos |
| **Independ√™ncia** | Durbin-Watson ‚âà 2 | Erros-padr√£o subestimados ‚Üí testes de signific√¢ncia otimistas |

### 7. Por que a Rede Neural deu resultado (quase) igual?
> *"Um neur√¥nio com ativa√ß√£o linear computa ≈∑ = Wx + b, que √© algebricamente id√™ntico √† equa√ß√£o da regress√£o linear ≈∑ = Œ≤‚ÇÅx + Œ≤‚ÇÄ. A diferen√ßa √© apenas o m√©todo de otimiza√ß√£o: OLS encontra a solu√ß√£o anal√≠tica exata; a rede neural chega ao mesmo lugar via gradient descent iterativo."*

Isso demonstra que:
- Regress√£o linear √© um **caso particular** de rede neural.
- Redes neurais ganham poder com **camadas adicionais** e **ativa√ß√µes n√£o-lineares** (ReLU, Sigmoid), que n√£o usamos aqui propositalmente.

### 8. Limita√ß√µes e Honestidade Acad√™mica
> *"R¬≤ baixo em regress√£o simples √© esperado e aceit√°vel. O objetivo n√£o √© construir o melhor modelo preditivo poss√≠vel, mas sim demonstrar que cada vari√°vel, isoladamente, possui rela√ß√£o estatisticamente significativa com a taxa de juros, validando as premissas do OLS e interpretando os resultados com rigor."*

---

**Frase de encerramento sugerida:**

> *"Este trabalho demonstrou, com rigor estat√≠stico, que renda anual, DTI e score FICO possuem rela√ß√£o significativa com a taxa de juros (todos com p < 0.05), sendo o FICO score o preditor mais forte. As premissas da regress√£o foram verificadas e discutidas, e a equival√™ncia entre regress√£o linear e rede neural de um neur√¥nio foi demonstrada matematicamente e empiricamente."*

---

<p align="center">
  <strong>üìö Projeto desenvolvido por Caio Thomas Silva Bandeira ‚Äî CEUB 2026</strong>
</p>