### 1.1.1. Ordinary Least Squares

A Ordinary Least Squares (OLS) ou Mínimos Quadrados Ordinários é um método de estimação de parâmetros em modelos de regressão linear. Em contraste com os métodos de regularização discutidos anteriormente (Lasso e Ridge), a OLS busca minimizar a soma dos quadrados dos resíduos (erros) diretamente, sem adicionar termos de penalidade.

Para um modelo de regressão linear simples, a OLS busca encontrar os coeficientes \(\beta_0\) (intercepto) e \(\beta_1\) (inclinação) que minimizam a seguinte função de custo:

\[ \text{Função de Custo OLS} = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 \cdot x_i))^2 \]

Onde:
- \(n\) é o número de observações no conjunto de dados.
- \(y_i\) é o valor observado da variável dependente para a observação \(i\).
- \(x_i\) é o valor da variável independente para a observação \(i\).
- \(\beta_0\) é o intercepto.
- \(\beta_1\) é o coeficiente associado à variável independente.

Os coeficientes que minimizam a soma dos quadrados dos resíduos podem ser encontrados analiticamente através de equações normais ou numericamente por métodos de otimização, como o Gradiente Descendente.

A OLS é um método amplamente utilizado quando a multicolinearidade não é um problema significativo e não há razão para aplicar regularização. No entanto, em situações onde há multicolinearidade ou o número de características é grande, métodos de regularização como Lasso ou Ridge podem ser preferíveis, pois ajudam a evitar overfitting e podem levar a modelos mais estáveis.

In [1]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
reg.coef_

# array([0.5, 0.5]) o resultado [0.5, 0.5] indica que o modelo treinado atribui um peso de 0.5 a cada uma das características. 
# Em outras palavras, o modelo aprendeu uma relação linear simples onde a soma ponderada das características é igual ao valor alvo.

array([0.5, 0.5])

### 1.1.2. Ridge regression and classification


A Ridge Regression (também conhecida como regressão Ridge) e a Ridge Classification (regressão Ridge para problemas de classificação) são métodos que utilizam regularização L2. A regularização L2 adiciona um termo à função de custo do modelo proporcional à soma dos quadrados dos coeficientes. Assim como o Lasso (que utiliza a regularização L1), a Ridge Regression visa evitar overfitting e lidar com a multicolinearidade, mas de uma maneira um pouco diferente.

### Ridge Regression (Regressão Ridge):

A Ridge Regression é usada em problemas de regressão linear. A função de custo da Ridge Regression é dada por:

\[ \text{Função de Custo} = \text{Soma dos Quadrados dos Resíduos} + \alpha \times \text{Soma dos Quadrados dos Coeficientes} \]

Onde:
- A "Soma dos Quadrados dos Resíduos" é a mesma que na regressão linear comum.
- A segunda parte, \(\alpha \times \text{Soma dos Quadrados dos Coeficientes}\), é o termo de regularização L2, onde \(\alpha\) controla a força da penalização.

A Ridge Regression é útil quando há multicolinearidade (alta correlação) entre as características, pois ela suaviza os coeficientes, impedindo que se tornem muito grandes. Ela não tende a zerar completamente os coeficientes como o Lasso faz.

### Ridge Classification (Regressão Ridge para Classificação):

A ideia da Ridge Regression pode ser estendida para problemas de classificação, resultando em Ridge Classification. Aqui, você pode usar a regularização L2 em algoritmos de classificação, como a Regressão Logística.

A função de custo para Ridge Classification seria semelhante à da Ridge Regression, mas aplicada a um problema de classificação. O objetivo é minimizar a soma dos quadrados dos resíduos (ou log-verossimilhança no caso da Regressão Logística) e, ao mesmo tempo, penalizar os coeficientes.

Em resumo, tanto a Ridge Regression quanto a Ridge Classification utilizam a regularização L2 para evitar overfitting e lidar com multicolinearidade. A escolha entre Ridge e Lasso (que utiliza a regularização L1) muitas vezes depende das características específicas do conjunto de dados e dos requisitos do problema. Ambas as técnicas são ferramentas valiosas em estatística e aprendizado de máquina.

In [5]:
from sklearn import linear_model
reg = linear_model.Ridge(alpha=.5) #  O parâmetro alpha é o hiperparâmetro de regularização, controlando a força da penalização. Valores maiores de alpha resultam em uma penalização mais forte.
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
print(reg.coef_) # Retorna os coeficientes (ou pesos) associados às características após o treinamento do modelo. No caso do Ridge, esses coeficientes são penalizados para evitar valores muito grandes.
print(reg.intercept_) # Retorna o termo de interceptação (também chamado de viés) associado ao modelo. O termo de interceptação em um modelo linear é o valor esperado de y quando todos os recursos são iguais a zero.

# Note que a regularização Ridge adiciona um termo de penalização à função de custo, que é controlado pelo parâmetro alpha. 
# Isso ajuda a evitar overfitting, especialmente quando há multicolinearidade nas características.

[0.34545455 0.34545455]
0.13636363636363638


#### 1.1.2.4. Definindo o parâmetro de regularização: deixar um de fora Validação cruzada

In [6]:
import numpy as np
from sklearn import linear_model
reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13)) # O RidgeCV executa a validação cruzada internamente para escolher o valor de alpha que melhor generaliza os dados fornecidos.
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1]) # O parâmetro alphas é uma lista de valores para testar. Se nenhum valor for fornecido, o objeto usará os valores padrão de np.logspace (-10, 10, 20), ou seja, os valores de alfa serão escolhidos automaticamente.
reg.alpha_

0.01

In [9]:
print(np.logspace(-6, 6, 10))
print(np.logspace(-6, 6, 3))

[1.00000000e-06 2.15443469e-05 4.64158883e-04 1.00000000e-02
 2.15443469e-01 4.64158883e+00 1.00000000e+02 2.15443469e+03
 4.64158883e+04 1.00000000e+06]
[1.e-06 1.e+00 1.e+06]


### 1.1.3. Lasso

LASSO (Least Absolute Shrinkage and Selection Operator) é um método de regularização usado em modelos de regressão linear. A técnica Lasso adiciona uma penalidade à função de custo do modelo, que é proporcional à soma dos valores absolutos dos coeficientes.

Em termos simples, o Lasso tenta minimizar a soma dos quadrados dos resíduos da regressão, da mesma forma que a regressão linear comum, mas com a adição de um termo de penalidade proporcional à soma dos valores absolutos dos coeficientes. A função de custo (ou função objetivo) da regressão Lasso é dada por:

\[ \text{Função de Custo} = \text{Soma dos Quadrados dos Resíduos} + \alpha \times \text{Soma dos Valores Absolutos dos Coeficientes} \]

O parâmetro \(\alpha\) (alfa) controla a força da penalização. Quanto maior o valor de \(\alpha\), mais forte é a penalização, e mais coeficientes são levados a zero. Isso faz com que o Lasso tenha a capacidade de realizar seleção de características, eliminando algumas das características menos importantes do modelo.

A principal vantagem do Lasso é a capacidade de lidar com conjuntos de dados com multicolinearidade (correlações elevadas entre características), eliminando algumas características e selecionando automaticamente as mais relevantes para a predição. Isso pode ser útil para evitar overfitting e simplificar modelos.

Em resumo, o Lasso é uma técnica de regularização que combina a regressão linear com a penalização dos coeficientes através da norma L1 (soma dos valores absolutos). Essa técnica é amplamente utilizada em problemas de regressão quando se deseja realizar seleção automática de características.

In [20]:
from sklearn import linear_model  # Importa o módulo de modelos lineares do sklearn
reg = linear_model.Lasso(alpha=0.1)  # Cria um objeto de regressão Lasso. O parâmetro alpha é o parâmetro de regularização que controla a complexidade do modelo.
reg.fit([[0, 0], [1, 1]], [0, 1])  # Treina o modelo com os dados de entrada [[0, 0], [1, 1]] e os correspondentes valores de saída [0, 1]
print(reg.predict([[1, 1]]))  # Usa o modelo treinado para prever a saída para a entrada [1, 1]
print(reg.coef_)  # Retorna os coeficientes (ou pesos) associados às características após o treinamento do modelo. No caso do Lasso, esses coeficientes podem ser zero, o que significa que algumas características são ignoradas pelo modelo.
# O modelo Lasso é um tipo de regressão linear que usa a regularização L1. Isso significa que ele tenta minimizar a soma dos valores 
# absolutos dos coeficientes (multiplicada pelo parâmetro de regularização alpha). 
# Isso pode levar a alguns coeficientes se tornarem exatamente zero, o que é uma forma de seleção automática de recursos.

[0.8]
[0.6 0. ]


### 1.1.10. Regressão Bayesiana

A Regressão Bayesiana é um método de modelagem estatística que incorpora conceitos da teoria de probabilidade bayesiana para fazer inferências sobre os parâmetros de um modelo. Diferentemente da abordagem frequentista, que considera os parâmetros como fixos e desconhecidos, a abordagem bayesiana trata os parâmetros como variáveis aleatórias e modela a distribuição de probabilidade a posteriori desses parâmetros.

Na Regressão Bayesiana, assume-se uma distribuição a priori para os parâmetros do modelo, representando o conhecimento ou crenças iniciais sobre esses parâmetros antes de observar os dados. Com a adição dos dados observados, a distribuição a posteriori é calculada usando o teorema de Bayes, fornecendo uma atualização das crenças sobre os parâmetros do modelo.

A principal vantagem da Regressão Bayesiana é sua capacidade de lidar com incertezas de forma natural, fornecendo distribuições de probabilidade para os parâmetros em vez de estimativas pontuais. Isso é particularmente útil em situações com conjuntos de dados pequenos ou quando a incerteza nos parâmetros é uma consideração importante.

In [23]:
from sklearn import linear_model
X = [[0., 0.], [1., 1.], [2., 2.], [3., 3.]]
Y = [0., 1., 2., 3.]
reg = linear_model.BayesianRidge()
reg.fit(X, Y)
linear_model.BayesianRidge()

In [28]:
print(reg.predict([[10., 10.]]))
print(reg.coef_)

[9.99999887]
[0.49999993 0.49999993]


a regressão Bayesiana Ridge é mais robusto para problemas mal colocados.