# Regressão Linear - Teoria

A regressão linear é uma técnica de Machine Learning (Aprendizado de Máquina) - um dos campos de Inteligência Artificial - que consiste em tentar descobrir uma relação linear entre os dados utilizados no treinamento da máquina para poder prever/inferir algo sobre esses dados. 

Em outras palavras, é tentar encontrar uma relação de caráter linear entre as variáveis dadas como entrada e as variáveis dadas como saída. 

In [1]:
import torch

### 🔢 Matemática do Modelo:

#### 💾 Dados:


A seguir estamos representando a matemática do 'modelo' em si. Vamos considerar que os dados são representados pela matriz $X \in \mathbb{R}^{n \times m}$, ou seja, temos $n$ exemplos, amostras, e cada um desses exemplos têm $m$ atributos, qualidades. Ou seja, é como se cada linha representasse um dos itens.

$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
$$

Para exemplificar, imagine que cada linha representa um local e que cada número da linha representa um atributo destes locais. Exemplo: a primeira coordenada pode indicar a temperatura média do local, a segunda a densidade populacional, a terceira o número de veículos e etc. 

#### ⚖️ Vetor de pesos & Bias:

A ideia, continuando o exemplo anterior, poderia ser medir o custo médio de hotel desses lugares pautando-se nos atributos que temos disponíveis. Assim, colocamos os dados no modelo a fim de descobrir de conseguimos estabelecer uma relação linear entre os atributos e o resultado final (o valor médio do custo de hospedagem). 

Para isso, temos um **vetor de pesos** $w \in \mathbb{R}^{m}$, que estabelece "o quão importante", o quão 'pesado', é aquele atributo para o resultado final. Por isso o vetor tem 'm' elementos, um peso para cada um dos atributos. 

Também temos um outro vetor, o **bias**, $b \in \mathbb{R}^{n}$, que serve apenas de ajuste para o que os dados possam se ajustar melhor ao modelo, dado sua simplificação. 

#### ➕ A operação:




O modelo supõe que podemos determinar os **rótulos** por uma relação linear do tipo:

$$Ŷ = Xw + b$$
$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
.
\begin{pmatrix*}[r] 
w_1 \\
\vdots \\
w_m \\
\end{pmatrix*} 

+ 
\begin{pmatrix*}[r] 
B_1 \\
\vdots \\
B_n \\
\end{pmatrix*} 

= 

\begin{pmatrix*}[r] 
ŷ_1 \\
\vdots \\
ŷ_n \\
\end{pmatrix*} 
$$

Para a representação do cálculo do rótulo de cada exemplo (linha), temos:

$$ŷ_i = w_1 . x_{i1} + ... + w_m . x_{im} + B = w^T.x + B$$

### 📊 Funções do Modelo:

#### ⏭️ Função Forward:

A ideia da função **forward** é realizar o cálculo explicado anteriormente de previsão do modelo:

$$Ŷ = Xw + b$$
$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
.
\begin{pmatrix*}[r] 
w_1 \\
\vdots \\
w_m \\
\end{pmatrix*} 

+ 
\begin{pmatrix*}[r] 
B_1 \\
\vdots \\
B_n \\
\end{pmatrix*} 

= 

\begin{pmatrix*}[r] 
ŷ_1 \\
\vdots \\
ŷ_n \\
\end{pmatrix*} 
$$

Veja um exemplo de código:

In [8]:
# Considere W -> Vetor de Pesos;
W = torch.tensor(2.0, requires_grad=True)

# Considere b -> Vetor de bias;
B = torch.tensor(-1.0, requires_grad=True)

# Função Forward:
def forward(x):
    return W * x + B

A função recebe uma entrada, multiplica ela pelo vetor de pesos e adiciona o bias, devolvendo um vetor de previsões/inferências de rótulos para aquela coletânea de dados. 

#### 📉 Função de Perda:

A **função de perda** permite calcular o quanto a sua aproximação pela relação linear exposta anteriomente está se aproximando da realidade. Existem vários tipos de funções de perda, mas a ideia é sempre a mesma, que é comparar o que foi previsto/calculado utilizando o modelo adotado com a realidade dos dados que temos. 

Nessa implementação, iremos utilizar o **erro quadrático**:

$$l^i(w, b) = \frac{1}{2} (ŷ^i - y^i)²$$

$$L(w, b) = \frac{1}{n}\sum_{i = 1}^{n}{l^i(w, B)}  = \frac{1}{n}\sum_{i = 1}^{n}{\frac{1}{2}(w^Tx^i + b - y^i)^2}$$

A primeira função, $l^i(w, b)$ representa o erro da previsão feita pelo modelo, $ŷ^i$, para o i-ésimo exemplo/linha dos dados que temos. Note que a função $l^i$ recebe $w$ e $b$ como parâmetros, pois o modelo faz inferências a partir desses parâmetros. 

O somatório abaixo representa a média dos erros de cada um dos *n* exemplos dos dados (lembrando, é claro, que os dados serão partidos em teste e treino). 

A função de perda é importantissíma, pois é ela que guia como iremos alterar o **vetor de pesos** e o **bias**, pois a ideia é tentar minimizar seu valor ao máximo. Veja a seguir a implementação do código:

In [9]:
def loss_function(y, y_pred):
    return ((y_pred - y) ** 2).mean()

### ✨ O Treino e a Otimização:

A partir disso, da função **forward** para calcular os rótulos a partir do vetor de pesos e do bias e da função de **perda** para qualificar o modelo, podemos ir atualizando o valor de pesos e treinando o modelo para tentar melhorar a relação linear que estamos tentando encontrar. 

#### 📈 Estratégia de Otimização:

Ao passarmos pelos dados, podemos obtee o **gradiente** da função de perda considerando os dados utilizados e em respeito aos parâmetros $w$ e $b$. O gradiente aponta para a direção de crescimento do valor da função. Como desejamos reduzir o valor da função de perda, iremos atualizar os valores do $w$ e do $b$ na direção oposta do gradiente. 

Após esse cálculo, vamos atualizar os parâmetros para tentar reduzir o valor do erro calculado, esse é nosso **step**. Veja abaixo a representação matemática desse passo:

$$ (w, b) = (w, b) - \alpha . \frac{1}{n_{\mathbb{b}}} \sum_{i \in \mathbb{b}}  ∂_{(w, b)} l^i(w,b)$$

$$l^i(w, b) = (w^Tx^i+ b - y^i)^2$$

Com $\alpha$ sendo o **learning rate**, que representa a 'intensidade' da atualização dos parâmetros. 

Note que o somatório é um **tensor**, e as coordenadas desse tensor representam a direção em que a função de perda cresce considerando os dados utilizados. Por tal motivo, realizamos a subtração para ir na direção oposta, ou seja, na direção em que o valor está sendo diminuído. 

#### 🏋️‍♂️ Treinos

Após codar tudo isso, basta treinar o modelo e ir atualizando o vetor de pesos e o bias até atingir um ponto que pareça ser aceitável, avaliando a precisão do modelo. 

Cada iteração completa pelos dados de treino é chamada de **Época**. Para treinar o modelo é necessário então escolher, de ínicio de forma arbitrátia/perceptiva o número de épocas e o learning rate. Interessante notar que em quanto menor for o *learning rate*, mais épocas serão necessárias para que o modelo convirja. E com um *learning rate* muito alto, há o risco de o modelo nem se quer convergir. 

É claro que esses problemas de convergimento do modelo envolvem vários outros componentes e relações, e podem surgir outros problemas que não convém explicar no momento, porém, no momento dos treinos é importante **ir testando** e analisando os resultados para poder escolher parâmetros bons para se iniciar o treinamento do modelo. 