# Regress√£o Linear - Teoria

A regress√£o linear √© uma t√©cnica de Machine Learning (Aprendizado de M√°quina) - um dos campos de Intelig√™ncia Artificial - que consiste em tentar descobrir uma rela√ß√£o linear entre os dados utilizados no treinamento da m√°quina para poder prever/inferir algo sobre esses dados. 

Em outras palavras, √© tentar encontrar uma rela√ß√£o de car√°ter linear entre as vari√°veis dadas como entrada e as vari√°veis dadas como sa√≠da. 

In [1]:
import torch

### üî¢ Matem√°tica do Modelo:

#### üíæ Dados:


A seguir estamos representando a matem√°tica do 'modelo' em si. Vamos considerar que os dados s√£o representados pela matriz $X \in \mathbb{R}^{n \times m}$, ou seja, temos $n$ exemplos, amostras, e cada um desses exemplos t√™m $m$ atributos, qualidades. Ou seja, √© como se cada linha representasse um dos itens.

$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
$$

Para exemplificar, imagine que cada linha representa um local e que cada n√∫mero da linha representa um atributo destes locais. Exemplo: a primeira coordenada pode indicar a temperatura m√©dia do local, a segunda a densidade populacional, a terceira o n√∫mero de ve√≠culos e etc. 

#### ‚öñÔ∏è Vetor de pesos & Bias:

A ideia, continuando o exemplo anterior, poderia ser medir o custo m√©dio de hotel desses lugares pautando-se nos atributos que temos dispon√≠veis. Assim, colocamos os dados no modelo a fim de descobrir de conseguimos estabelecer uma rela√ß√£o linear entre os atributos e o resultado final (o valor m√©dio do custo de hospedagem). 

Para isso, temos um **vetor de pesos** $w \in \mathbb{R}^{m}$, que estabelece "o qu√£o importante", o qu√£o 'pesado', √© aquele atributo para o resultado final. Por isso o vetor tem 'm' elementos, um peso para cada um dos atributos. 

Tamb√©m temos um outro vetor, o **bias**, $b \in \mathbb{R}^{n}$, que serve apenas de ajuste para o que os dados possam se ajustar melhor ao modelo, dado sua simplifica√ß√£o. 

#### ‚ûï A opera√ß√£o:




O modelo sup√µe que podemos determinar os **r√≥tulos** por uma rela√ß√£o linear do tipo:

$$≈∂ = Xw + b$$
$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
.
\begin{pmatrix*}[r] 
w_1 \\
\vdots \\
w_m \\
\end{pmatrix*} 

+ 
\begin{pmatrix*}[r] 
B_1 \\
\vdots \\
B_n \\
\end{pmatrix*} 

= 

\begin{pmatrix*}[r] 
≈∑_1 \\
\vdots \\
≈∑_n \\
\end{pmatrix*} 
$$

Para a representa√ß√£o do c√°lculo do r√≥tulo de cada exemplo (linha), temos:

$$≈∑_i = w_1 . x_{i1} + ... + w_m . x_{im} + B = w^T.x + B$$

### üìä Fun√ß√µes do Modelo:

#### ‚è≠Ô∏è Fun√ß√£o Forward:

A ideia da fun√ß√£o **forward** √© realizar o c√°lculo explicado anteriormente de previs√£o do modelo:

$$≈∂ = Xw + b$$
$$
\begin{pmatrix*}[r] 
x_{11} & \dots & x_{1m} \\
\vdots & \ddots & \vdots \\
x_{n1} & \dots & x_{nm} \\
\end{pmatrix*} 
.
\begin{pmatrix*}[r] 
w_1 \\
\vdots \\
w_m \\
\end{pmatrix*} 

+ 
\begin{pmatrix*}[r] 
B_1 \\
\vdots \\
B_n \\
\end{pmatrix*} 

= 

\begin{pmatrix*}[r] 
≈∑_1 \\
\vdots \\
≈∑_n \\
\end{pmatrix*} 
$$

Veja um exemplo de c√≥digo:

In [8]:
# Considere W -> Vetor de Pesos;
W = torch.tensor(2.0, requires_grad=True)

# Considere b -> Vetor de bias;
B = torch.tensor(-1.0, requires_grad=True)

# Fun√ß√£o Forward:
def forward(x):
    return W * x + B

A fun√ß√£o recebe uma entrada, multiplica ela pelo vetor de pesos e adiciona o bias, devolvendo um vetor de previs√µes/infer√™ncias de r√≥tulos para aquela colet√¢nea de dados. 

#### üìâ Fun√ß√£o de Perda:

A **fun√ß√£o de perda** permite calcular o quanto a sua aproxima√ß√£o pela rela√ß√£o linear exposta anteriomente est√° se aproximando da realidade. Existem v√°rios tipos de fun√ß√µes de perda, mas a ideia √© sempre a mesma, que √© comparar o que foi previsto/calculado utilizando o modelo adotado com a realidade dos dados que temos. 

Nessa implementa√ß√£o, iremos utilizar o **erro quadr√°tico**:

$$l^i(w, b) = \frac{1}{2} (≈∑^i - y^i)¬≤$$

$$L(w, b) = \frac{1}{n}\sum_{i = 1}^{n}{l^i(w, B)}  = \frac{1}{n}\sum_{i = 1}^{n}{\frac{1}{2}(w^Tx^i + b - y^i)^2}$$

A primeira fun√ß√£o, $l^i(w, b)$ representa o erro da previs√£o feita pelo modelo, $≈∑^i$, para o i-√©simo exemplo/linha dos dados que temos. Note que a fun√ß√£o $l^i$ recebe $w$ e $b$ como par√¢metros, pois o modelo faz infer√™ncias a partir desses par√¢metros. 

O somat√≥rio abaixo representa a m√©dia dos erros de cada um dos *n* exemplos dos dados (lembrando, √© claro, que os dados ser√£o partidos em teste e treino). 

A fun√ß√£o de perda √© importantiss√≠ma, pois √© ela que guia como iremos alterar o **vetor de pesos** e o **bias**, pois a ideia √© tentar minimizar seu valor ao m√°ximo. Veja a seguir a implementa√ß√£o do c√≥digo:

In [9]:
def loss_function(y, y_pred):
    return ((y_pred - y) ** 2).mean()

### ‚ú® O Treino e a Otimiza√ß√£o:

A partir disso, da fun√ß√£o **forward** para calcular os r√≥tulos a partir do vetor de pesos e do bias e da fun√ß√£o de **perda** para qualificar o modelo, podemos ir atualizando o valor de pesos e treinando o modelo para tentar melhorar a rela√ß√£o linear que estamos tentando encontrar. 

#### üìà Estrat√©gia de Otimiza√ß√£o:

Ao passarmos pelos dados, podemos obtee o **gradiente** da fun√ß√£o de perda considerando os dados utilizados e em respeito aos par√¢metros $w$ e $b$. O gradiente aponta para a dire√ß√£o de crescimento do valor da fun√ß√£o. Como desejamos reduzir o valor da fun√ß√£o de perda, iremos atualizar os valores do $w$ e do $b$ na dire√ß√£o oposta do gradiente. 

Ap√≥s esse c√°lculo, vamos atualizar os par√¢metros para tentar reduzir o valor do erro calculado, esse √© nosso **step**. Veja abaixo a representa√ß√£o matem√°tica desse passo:

$$ (w, b) = (w, b) - \alpha . \frac{1}{n_{\mathbb{b}}} \sum_{i \in \mathbb{b}}  ‚àÇ_{(w, b)} l^i(w,b)$$

$$l^i(w, b) = (w^Tx^i+ b - y^i)^2$$

Com $\alpha$ sendo o **learning rate**, que representa a 'intensidade' da atualiza√ß√£o dos par√¢metros. 

Note que o somat√≥rio √© um **tensor**, e as coordenadas desse tensor representam a dire√ß√£o em que a fun√ß√£o de perda cresce considerando os dados utilizados. Por tal motivo, realizamos a subtra√ß√£o para ir na dire√ß√£o oposta, ou seja, na dire√ß√£o em que o valor est√° sendo diminu√≠do. 

#### üèãÔ∏è‚Äç‚ôÇÔ∏è Treinos

Ap√≥s codar tudo isso, basta treinar o modelo e ir atualizando o vetor de pesos e o bias at√© atingir um ponto que pare√ßa ser aceit√°vel, avaliando a precis√£o do modelo. 

Cada itera√ß√£o completa pelos dados de treino √© chamada de **√âpoca**. Para treinar o modelo √© necess√°rio ent√£o escolher, de √≠nicio de forma arbitr√°tia/perceptiva o n√∫mero de √©pocas e o learning rate. Interessante notar que em quanto menor for o *learning rate*, mais √©pocas ser√£o necess√°rias para que o modelo convirja. E com um *learning rate* muito alto, h√° o risco de o modelo nem se quer convergir. 

√â claro que esses problemas de convergimento do modelo envolvem v√°rios outros componentes e rela√ß√µes, e podem surgir outros problemas que n√£o conv√©m explicar no momento, por√©m, no momento dos treinos √© importante **ir testando** e analisando os resultados para poder escolher par√¢metros bons para se iniciar o treinamento do modelo. 