# Regressão

## 1 Regressão linear
- Supervisionado
- Linear
- S imples x Multivariada
- Paramétrico (assume um formato linear para o modelo)

Equações:
$h_{\theta}(x_i) = \theta_0 + \theta_1x_1$

$J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x_i) - y_i)$

### 1.1 Determinação dos parâmetros

- Gradient Descent: $\theta_j = \theta_j - \alpha\frac{\delta}{\delta\theta_j}J(\theta)$
    - Batch: todos os parâmetros usando todos os dados a cada iteração
    - Mini batch: usar n dados a cada iteração
    - Stochastic: todos os parâmetros usando uma linha por vez
        - Quando o dataset é muito grande
    - Least Squares <- J
    - Learning rate:
        - Pequeno: devagar
        - Grande: ultrapassar o mínimo de 3 (divergindo)
- Equação Normal: $\theta = (X^TX)^{-1}X^Ty$
    - Problema: calcular a inversa (O(n^3))
- Maximum Likelihood:
    - Baseia-se no produto das probabilidades de cada exemplo
    - Chega em uma fórmula fechada para os estimadores dos parâmetros
    - Problema: suposições na distribuição dos erros
    - $y = a + bx + \epsilon$: supomos que $\epsilon ~ N(0, \sigma^2)$. Logo $y ~ N(a+bx. \sigma^2)$.
        - $p_Y(y_i|x_i) = \frac{1}{\sqrt{s\pi\sigma^2}}e^{-\frac{(y_i - (a+bx_i))^2}{2\sigma^2}}$
        - Objetivo: maximizar a log-verossimilhança $log(\prod_{i=1}^np_Y(y_i|x_i))$

**Precisa fazer Feature scaling!!** (NORMALIZAÇÃO, e não somente simples scaling)

### 1.2 Regressão Linear Múltipla
- Melhor fazer o modelo com todas as features do que fazer vários modelos individuais com cada feature
- Remover variáveis correlacionadas (podem gerar modelos instáveis)

### 1.3 R^2
$R^2 = 1 - \frac{RSS}{TSS}$

Calcula a proporção da variância explicada pelo modelo.

RSS: Residual Sum of Squares - variabilidade do output não explicada após fazer a regressão (minimizar)

TSS: Total Sum of Squares - variabilidade do dataset

[0, 1] => R^2= 1: grande parte da variabilidade é explicada pelo modelo

Ao adicionar uma variável ao modelo ela sempre aumenta o R^2, se aumentar pouco, ela tem pouca contribuição pro modelo.
(Se for muito ruim, pode dar negativo!)

#### R^2 ajustado
Penalização pela quantidade de features.

R- assumes that every single variable explains the variation in the dependent variable. The adjusted R tells you the percentage of variation explained by only the independent variables that actually affect the dependent variable

$R_{adj}^2 = 1 - \frac{(1 - R^2)(n-1)}{n-k-1}$

**RMSE, RMSLE**

## 2. Regularização 11 e L2
Redução do overfitting por meio da diminuição dos parâmetros theta.
- Parâmetro de Regularização (Bias/Variance tradeoff)
    - Muito grande, bias grande (underfit)
    - Muito pequeno, variance grande (overfit) - caso original
- Nunca regulariza $\theta_0$ (somente os theta's associados a features)

### 2.1 Regularização L2
$J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x_i) - y_i) + \lambda\sum_{j=1}^n\theta_j^2$
- Theta nunca vai pra zero (tende a zero)
- Modelo linear: Ridge

### 2.2 Regularização L1
$J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x_i) - y_i) + \lambda\sum_{j=1}^n|\theta_j|$
- $\theta$'s podem ir pra zero: pode fazer feature selection
- Modelo linear: Lasso

OBS: Lasso + Ridge = ElasticNet

## 3. Árvore de regressão
- Supervisionado
- Não Linear
- Não Paramétrico

**Vantagens:**
- Fáceis de explicar
- Podem ser mostradas visualmente
- Não exigem feature scaling
- Lida com variáveis qualitativas sem precisar de dummy variables
- Mais robusto a outliers

**Desvantagem**:
- Alta variância (uma pequena modificação no dataset pode levar a uma série de splits diferentes) => melhorado por RF e Boosting
    - Se a decision tree for feita muuuito complexa, com todas as decisões possíveis, ela terá overfitting

**A ideia**:
- Segmentar o espaço de tal forma que a predição de um novo exemplo será a média do exemplos de treino naquela região. (Minimizar o RSS)
- Non overlapping regions

### 3.1 Construção da árvore
A cada etapa, usamos uma feature para dividir o dataset em duas regiões, escolhendo o threshold de tal forma que o RSS seja minimizado

### 3.2 Pruning
1. Partimos de uma árvore grande $T_0$, até que todos os nós terminais tenham no máximo um número n de observações (**Recursive Binary Splitting**)

2. Criamos uma sequência de subárvores, em função de alpha:
    
    a. Para cada alpha existe uma subárvore T que minimiza:

    $\sum_{m=1^{|T|}}\sum_{x_i \in R_m}(y_i - \hat{y}_{R_m})^2 + \alpha|T|$

Usamos K-fold CV para escolher o alpha que minimiza o MSE (**Cost Complexity Pruning**)

## 4. Análise de residuos
Assume premissas sobre os erros:
- $\epsilon_i$ e $\epsilon_j$ são independentes ($i \neq j$)
- $Var(\epsilon_i) = \sigma^2$ (constante)
- $\epsilon_i \approx N(0,\sigma^2)$ (normalidade)
- Modelo é linear
- Não existem outliers influentes

A ideia básica da análise dos residuos é que, se o modelo for apropriado, os residuos devem refletir as propriedades impostas pelo termo de erro do modelo.

Serve para:
- Ver o quão bem os dados se adequam ao modelo linear
- Ver se o modelo que estamos usando é apropriado (plot de resíduos pode revelar que o modelo não é o melhor)

### 4.1 Plot de Residuos
- Gráfico de residuos ($e_i = y_i - \hat{y}_i$) versus a variável dependente ($y$)
- Pode ser usado para:


#### 1. Identificar não-linearidade
- Solução: transformar a variável independente (com log X, raiz de X...)
    
![nonlinear_residual](img/nonlinear_residual.png)

#### 2. Verificar correlação entre erros numa série temporal

#### 3. Checar variância não constante em erros (plot em formato de funil)
- Heterocedasticidade
- Solução: transformar a variável dependente (com log Y, raiz de Y...)

![heterocedasticidade](img/heterocedasticidade.jpg)


####  4. Detectar outliers

## 5. KNN para Regressão
- Supervisionado
- Não paramétrico (sem suposições no decision boundary)
- Preguiçoso
- Precisa de feature scaling (pois é baseado na distância): se não alguma variável pode ser desprezada no cálculo da distância
- Curse of dimensionality

**Como funciona?**

Cada novo exemplo recebe o valor da média do dos k vizinhos mais próximos

**Diferentes distâncias:**
- Euclidiana
- Manhattan
- *Cosseno (NLP)
- Minkowski
- Hamming (variáveis categóricas)

**Como escolher K:**
- K=1: overfit
- K grande: undecit
- Testar vários Ks e pegar o que minimiza o erro

## Bonus
- Feature scaling: não muda a distribuição dos dados
- Normalização: aproxima pela normal mais próxima

Três tecnicas de padronização:
### 1. Escalonamento padrão
Subtração da média e divisão pelo desvio padrão: $\frac{X-\mu}{\sigma}$
- Outlier influencia fortemente no posicionamento da média
- Menor poder de discriminação para dados nominais (não-outliers)

### 2. Padronização para um intervalo [0,1]
Escalonamento no intervalo [0,1]: $\frac{(X - min(X)}{max(X) = min(X)}$
- Outlier desloca os outros valores para perto de 0
- Perigo: preditores podem passar a ignorar dados normais

### 3. Escalonamento robusto
Subtração da mediana e divisão pelo intervalo interquartil: $\frac{X-\bar{X}}{Range}$
- Maior poder de discriminação
- Outlier continua destoando dos dados normais