## ESTUDOS DE REGRESSÃO

In [None]:
import numpy as np
import pandas as pd
from matplotlib.pyplot import subplots
import statsmodels.api as sm
from ISLP import load_data
from ISLP.models import ModelSpec as MS, summarize, poly

### RESUMO INTRODUCTION TO STATISTICAL LEARNING
**3.1 Regressão Linear Simples** (p. 69)
* **Definição**:
   * Modela a relação entre uma variável resposta Y e uma única variável preditora X.
   * Equação do modelo: Y = β0 + β1X + ϵ.
   * O objetivo é estimar os coeficientes β0 (intercepto) e β1 (inclinação) que minimizam o erro quadrático (RSS - Residual Sum of Squares).    
### **3.1.1 Estimação dos Coeficientes**:
- Os coeficientes são estimados usando o método dos **mínimos quadrados**.
- Fórmulas para $ \beta_0 $ e $ \beta_1 $:
  $
  \displaystyle \beta_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}
  $
  $
  \displaystyle \beta_0 = \bar{y} - \beta_1 \bar{x}
  $
- Essas fórmulas garantem que a linha de regressão seja a que melhor se ajusta aos dados, minimizando a soma dos quadrados dos resíduos.
* **3.1.2 Avaliação do Modelo**:
   * **RSE (Residual Standard Error)**: Mede o desvio padrão dos resíduos. Quanto menor o RSE, melhor o ajuste do modelo. RSE = √(∑ᵢ₌₁ⁿ(yi−ŷi)²)/(n−p−1)
   * **R² (Coeficiente de Determinação)**: Proporção da variância em Y explicada por X. R² = 1 − RSS/TSS, TSS = ∑(yi−ȳ)²
   * Um valor de R² próximo de 1 indica que o modelo explica grande parte da variabilidade da resposta.
---

### **3.2 Regressão Linear Múltipla** (p. 81)
- **Definição**:
  - Modela a relação entre $ Y $ e várias variáveis preditoras $ X_1, X_2, \dots, X_p $.
  - Equação do modelo: $ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \epsilon $.
- **3.2.1 Estimação dos Coeficientes**:
  - Os coeficientes são estimados minimizando o RSS, agora em um espaço multidimensional.
  - A solução pode ser expressa em forma matricial:
    $ \hat{\beta} = (X^T X)^{-1} X^T Y $
  - Onde $ X $ é a matriz de preditores e $ Y $ é o vetor de respostas.
- **3.2.2 Avaliação do Modelo**:
  - **Teste F**: Verifica se pelo menos um dos preditores tem relação significativa com $ Y $.
    $ F = \frac{(TSS - RSS)/p}{RSS/(n - p - 1)} $
    Um valor grande de $ F $ sugere que pelo menos um preditor é significativo.
  - **Teste t**: Avalia a significância individual de cada coeficiente.
    $ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} $
    Um valor absoluto grande de $ t $ indica que o preditor $ X_j $ é significativo.

---

### **3.3 Seleção de Variáveis** (p. 86)
- **3.3.1 Métodos para Seleção**:
  - **Seleção Forward**: Adiciona preditores um a um, começando com o modelo vazio. Em cada passo, o preditor que mais reduz o RSS é adicionado.
  - **Seleção Backward**: Remove preditores um a um, começando com o modelo completo. Em cada passo, o preditor que menos contribui para o modelo é removido.
  - **Seleção Mista**: Combina forward e backward, permitindo que preditores sejam adicionados ou removidos em cada passo.
- **3.3.2 Critérios de Seleção**:
  - **R² Ajustado**: Penaliza a adição de preditores irrelevantes.
    $ R^2_{\text{ajustado}} = 1 - \frac{RSS/(n - p - 1)}{TSS/(n - 1)} $
  - **Cp de Mallow**, **AIC**, **BIC**: Medem o trade-off entre ajuste e complexidade.
    $ C_p = \frac{RSS}{\hat{\sigma}^2} + 2p, \quad AIC = n \log(RSS) + 2p, \quad BIC = n \log(RSS) + p \log(n) $

---

### **3.4 Interações e Termos Não Lineares** (p. 95)

- **3.4.1 Interações**:<br>
  - Permitem que o efeito de um preditor dependa do valor de outro.<br>
  - Exemplo: $ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1 X_2 + \epsilon $.<br>
  - O termo de interação $ X_1 X_2 $ captura a sinergia entre os preditores.<br>
- **3.4.2 Termos Não Lineares**:<br>
  - Podem ser incluídos usando transformações (e.g., $ X^2 $, $ \log(X) $).<br>
  - Exemplo: $ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon $.<br>
  - Isso permite que o modelo capture relações não lineares entre $ X $ e $ Y $.<br>

---

### **3.5 Problemas Potenciais em Regressão Linear** (p. 100)

- **3.5.1 Não Linearidade**:  
  A relação entre $ Y $ e $ X $ pode não ser linear. Solução: usar transformações ou modelos não lineares.  
- **3.5.2 Correlação dos Erros**:  
  Erros correlacionados podem invalidar inferências. Comum em dados temporais.  
- **3.5.3 Heterocedasticidade**:  
  Variância dos erros não é constante. Solução: transformar $ Y $ ou usar mínimos quadrados ponderados.  
- **3.5.4 Outliers e Pontos de Alavancagem**:  
  Observações extremas podem distorcer o modelo. Solução: identificar e remover outliers.  
- **3.5.5 Multicolinearidade**:  
  Preditores altamente correlacionados podem inflar a variância das estimativas. Solução: remover preditores redundantes ou usar técnicas como PCA.  

---

### **3.6 Comparação com K-Nearest Neighbors (KNN)** (p. 111)

- **3.6.1 KNN**:  
  Método não paramétrico que prevê $Y$ com base nos $K$ vizinhos mais próximos.  
  Vantagem: flexibilidade para capturar relações não lineares.  
  Desvantagem: desempenho ruim em alta dimensionalidade (maldição da dimensionalidade).
- **3.6.2 Comparação**:  
  Regressão linear é melhor quando a relação verdadeira é linear ou próxima disso.  
  KNN pode ser superior em relações não lineares, mas sofre com o aumento do número de preditores.
---

### **Equações Importantes**
1. **Regressão Simples**:
   $ Y = \beta_0 + \beta_1 X + \epsilon $
2. **Regressão Múltipla**:
   $ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \epsilon $
3. **RSS (Residual Sum of Squares)**:
   $ RSS = \sum (y_i - \hat{y}_i)^2 $
4. **R²**:
   $ R^2 = 1 - \frac{RSS}{TSS}, \quad TSS = \sum (y_i - \bar{y})^2 $
5. **Teste F**:
   $ F = \frac{(TSS - RSS)/p}{RSS/(n - p - 1)} $


#Projeto 1

In [None]:
Boston = load_data("Boston") 

In [None]:
Boston.head()