[Dumentação SkLearn: User Guide](https://scikit-learn.org/stable/user_guide.html)

# Linear Models

Veremos uma série de métodos destinados a regressão onde espera-se que o nosso alvo ($ŷ$) seja uma combinação linear das features, ou seja:

\begin{equation*}
    ŷ(w,x) = w_0 + w_1x_1 + ... + w_px_p
\end{equation*}

Onde, $w = (w_1, ..., w_p)$ são os _coef__ (coeficientes angulares) e $w_0$ _intercept__ (coeficiente linear) 

## Minimos Quadrados 

Regressões Lineares interceptam um modelo linear com os coeficientes $w$ para minimizar a soma residual dos quadrados entre o alvo observado no dataset e os alvos previstos pela aproximação linear. Matematicamente o que o _fit_ de um modelo linear procura é:

\begin{equation*}
    min_w ||X_w - y||^2_2
\end{equation*}

O modelo de regressão linear, no seu metodo _fit_ toma os vetores X e y, e armazena os coeficientes no seu  membro _coef__

In [1]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [2]:
reg.coef_

array([0.5, 0.5])

__OBS 1:__ Os coeficientes estimados dependem da _independencia das features_ , quando as features são correlacionadas e as colunas da matrix X possuem uma aproximação linear, o resultado dos minimos quadrados torna-se muito sensível a erros aleatórios nos alvos observados (alvos do dataset), produzindo assim uma alta variancia

__OBS 2:__ Complexidade - Para uma matrix (n_samples, n_features) o método tem um custo $O(n_{samples}n^2_{features})$ , assumindo que $n_{samples} \geq n_{features}$

## Ridge Regression and Classification

### Ridge Regression

_Ridge Regression_ contempla alguns dos mesmos problemas do que os Minimos quadrados porém adiciona uma penalidade para o tamanho dos coeficientes. 

\begin{equation*}
    min_w ||X_w - y||^2_2 + \alpha||w||^2_ 2
\end{equation*}

O parametro $\alpha \geq 0$ controla o "encolhimento", quanto maior o valor, maior a quantidade de encolhimento e, portanto, os coeficientes se tornam mais robustos à colinearidade.

In [3]:
reg = linear_model.Ridge(alpha=.8)
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])

Ridge(alpha=0.8, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)

In [4]:
print(reg.coef_)
print()
print(reg.intercept_)

[0.296875 0.296875]

0.16875000000000007


_Quanto maior for o valor de alpha mais próximo da reta estimada (fit) os coeficientes estarão_

### Ridge Classification

O _ridge regressor_ é uma variação do _Ridge Classifier_. Este classificador converte o alvo binário para {-1, 1} e então trata o problema como uma tarefa de regressão, otimizando o mesmo objeto como visto acima. Para uma classificação multi classes, o problema é tratado como uma regressão de multiplos outputs e a classe prevista corresponde com o output de maior valor. <br>
Mesmo utilizando uma metrica de perda por minimos quadrados (Last Squares Loss), na pratica todos esses modelos, com essa metrica ou com outras, podem lidar com validação cruzada e obter scores em accuracy, precisio/recall similares.

__OBS:__ RidgeClassifier pode ser significativamente mais eficiente que  LogisticRegression para prever um grande numero de classes, por que ele computa a matrix de projeção $(X^TX)^{-1}X^T$ apenas uma vez.

#### Validação Cruzada Generalizada

__RidgeCV__ implementa uma _ridge regression_ com validação cruzada do parametro $\alpha$. É semelhante ao GridSearchCV porem neste caso trata-se de uma _GCV (Generalized Cross-Validation)_ , ou seja, uma validação cruzada de exclusão única. 

In [5]:
import numpy as np
from sklearn import linear_model
reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])

RidgeCV(alphas=array([1.e-06, 1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01,
       1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06]),
        cv=None, fit_intercept=True, gcv_mode=None, normalize=False,
        scoring=None, store_cv_values=False)

In [7]:
#Best alpha
reg.alpha_

0.01

## LASSO

_Lasso_ é um modelo linear que estima os coeficientes de uma matriz esparsa. É útil em varios contexto devido a dar preferencia para soluções com menos zeros como coeficientes, reduzindo assim o numero de features dos quais a solução fornecida depende. <br>
Matematicamente consiste de um modelo linear com um termo de regularização, e o objetivo é minimiza-lo:

\begin{equation*}
    min_w \frac{1}{2n_{samples}}||X_w - y||^2_2 + \alpha||w||_1
\end{equation*}

Onde, neste caso $\alpha$ é uma constante e $||w||_1$ é uma _regularização_ $l_1$ do vetor coeficiente

A função Lasso é útil para tarefas simples, pois calcula os coeficientes ao longo de todo o caminho de soluções possiveis.

## Os demais modelos apresentados ja serão abordados no estudo dos mesmo através do livro do Sebastian Raschka

# Linear and Quadratic Discriminant Analysis