# <font face="Verdana" size=6 color='#6495ED'> IAD-004 AULA 01: REGRESS√ÉO
<font face="Verdana" size=3 color='#40E0D0'> Professores Larissa Driemeier e Thiago Martins

<center><img src='https://drive.google.com/uc?export=view&id=1J3dF7v9apzpj27oOsrT8aEagtNIYwq7J' width="600"></center>

Este notebook introdut√≥rio √© sobre problemas de Regress√£o, baseado na primeira aula [IAD-004](https://alunoweb.net/moodle/pluginfile.php/141625/mod_resource/content/2/ML1_A01_Y2024.pdf), ano 2024.

In [109]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

A regress√£o linear consiste em tentar explicar o comportamento de uma vari√°vel, dita *dependente*, a partir de uma ou mais vari√°veis, ditas *independentes*, com um modelo linear.

Seja $\mathbf y = \left\{y^{(1)}, y^{(2)}, \ldots, y^{(m)}\right\}$ uma amostra do conjunto de vari√°veis dependentes e $\mathbf X = \left\{\mathbf x^{(1)}, \mathbf x^{(2)}, \ldots, \mathbf x^{(m)}\right\}$ as correspondentes vari√°veis independentes da amostra.

O modelo linear para o comportamento destas vari√°veis √© dado pela equa√ß√£o:
\begin{equation}
 y^{(i)} =  w_0 +  w_1 x_1^{(i)} + w_2 x_2^{(i)}+\cdots + w_n x_n^{(i)} + \epsilon^{(i)}
\end{equation}
onde $ w_0, \cdots, w_n$ s√£o *par√¢metros* do modelo e $\epsilon^{(i)$ √© o erro.

Na forma matricial tem-se,
\begin{equation}
\mathbf y = \begin{bmatrix}y_1\\
y_2\\
\vdots\\
y_m\end{bmatrix}
\end{equation}
um vetor de dimens√£o $m$, onde $m$ √© o n√∫mero de amostras do conjunto de dados, e
\begin{equation}
\mathbf X = \begin{bmatrix}x_{1,1} & x_{1,2} & \ldots & x_{1,n} & 1\\
x_{2,1} & x_{2,2} & \ldots & x_{2,n} & 1\\
 \vdots & \vdots & \ddots & \vdots & \vdots\\
x_{m,1} & x_{m,2} & \ldots & x_{m,n} & 1\end{bmatrix}=\begin{bmatrix}\mathbf x^{(1)}\\
\mathbf x^{(2)}\\
 \vdots \\
\mathbf x^{(m)}\end{bmatrix}
\end{equation}
uma matriz $m \times (n+1)$ cujas primeiras $n$ colunas s√£o compostas por uma amostra de cada uma das $n$ vari√°veis independetes e a sua *√∫ltima* coluna √© composta da constante 1.
Define-se tamb√©m,
\begin{equation}
\mathbf w = \begin{bmatrix}w_0\\
w_1\\
w_2\\
\vdots\\
w_n
\end{bmatrix}
\end{equation}
√© o vetor de $(n+1)$ componentes dos coeficientes de cada uma das vari√°veis independentes. Note que nesta nota√ß√£o o coeficiente $w_0$ √© o *primeiro* coeficiente (h√° nota√ß√µes distintas nas quais ele √© o √∫ltimo).

O modelo linear para o comportamento destas vari√°veis √© dado pela equa√ß√£o:
\begin{equation}
\mathbf y =  \mathbf X \mathbf w + \mathbf e
\end{equation}
onde o erro rand√¥mico $\mathbf e$ do conjunto de dados √© a diferen√ßa entre os valores observados e os valores verdadeiros, n√£o observ√°veis.

 ![](https://drive.google.com/uc?export=view&id=1mRM2uGuHlB46FuiRz6iaeV9O71P9IbIv)

Importante comentar que o erro rand√¥mico n√£o √© observ√°vel, pois sua defini√ß√£o depende do conhecimento de $ \mathbf X \mathbf w$. Como n√£o conhecemos o erro, fazemos apenas suposi√ß√µes a seu respeito.

No problema de regress√£o, estimamos os par√¢metros reais $\mathbf w$, de forma que :
\begin{equation}
\hat{\mathbf y} =  \mathbf X \hat{\mathbf w} +  \newcommand{\beps}{\boldsymbol \epsilon} \beps
\end{equation}
onde $\hat{\mathbf y}$ √© uma aproxima√ß√£o das observa√ß√µes $\mathbf y$. Define-se ainda o res√≠duo $\epsilon^{(i)}$ como a diferen√ßa entre o valor observado $ y^{(i)}$ e estimado $\hat y^{(i)}$,
\begin{equation}
\epsilon^{(i)} = y^{(i)}-\hat y^{(i)} = y^{(i)}-\left( \hat w_0 + \hat w_1 x_1^{(i)} + w_2 x_2^{(i)}+\cdots +\hat w_n x_n^{(i)} \right)
\end{equation}
de forma que $\beps$ √© o vetor de *res√≠duos* de dimens√£o $n+1$. Os res√≠duos podem ser considerados somente estimativas dos erros. No entanto, s√≥ temos acesso aos res√≠duos, ent√£o √© com isso que trabalhamos.

Daqui para frente, por brevidade, e cientes de que sempre estamos buscando um conjunto de par√¢metros que  aproxime a fun√ß√£o real, $\hat w_i = w_i$.




## As suposi√ß√µes de Gauss-Markov

Ao usar estimadores n√£o viesados para os modelos de regress√£o, i√©, $ùê∏\left(\epsilon^{(ùëñ)}\right)=0$, garantimos que pelo menos em m√©dia, estimamos o par√¢metro verdadeiro.

Ao comparar diferentes estimadores n√£o viesados, √©, ainda, interessante saber qual deles tem a maior precis√£o poss√≠vel.

O teorema de Gauss Markov nos diz que se um certo conjunto de suposi√ß√µes for atendido, a estimativa de m√≠nimos quadrados ordin√°rios para coeficientes de regress√£o fornece a mais baixa vari√¢ncia de amostragem dentro da classe dos estimadores lineares n√£o enviesados (BLUE, do ingl√™s Best Linear Unbiased Estimate) poss√≠vel.

1. **Linearidade:** $\newcommand{\my}{\mathbf y}\my=\newcommand{mX}{\mathbf{Xw}}\mX \newcommand{\mw}{\mathbf w} + \beps$, os par√¢metros que estimamos usando o m√©todo OLS devem ser lineares.
2. **Aleatoriedade:** nossos dados devem ter sido amostrados aleatoriamente na popula√ß√£o, por um mecanismo n√£o relacionado a $\beps$.
5. **Exogeneidade:** como dito no item anterior, os regressores $x^{(i)}$ n√£o s√£o correlacionados com o termo de res√≠duo $cov\left(x^{(i)},\epsilon^{(i)}\right)=0, i\ne j$.
3. **Res√≠duos com m√©dia nula:** Essa suposi√ß√£o afirma que a *m√©dia dos res√≠duos* √© $0$ para qualquer valor de $\mX$, i√©, $ùê∏(\epsilon^{(i)}|\mX)=0$. Colocado de outra forma, nenhuma observa√ß√£o das vari√°veis independentes fornece qualquer informa√ß√£o sobre o valor esperado do res√≠duo. A suposi√ß√£o implica que $E(\my) = \mX$. Isso √© importante, pois essencialmente diz que acertamos a fun√ß√£o m√©dia.
4. **Res√≠duos com covari√¢ncia nula:** Cada termo de res√≠duo √© independentemente distribu√≠do e n√£o correlacionado $cov\left(\epsilon^{(ùëñ)},\epsilon^{(ùëó)}|\mX\right)=0, i\ne j$. A suposi√ß√£o de nenhuma autocorrela√ß√£o quer dizer que: saber algo sobre o res√≠duo para uma observa√ß√£o n√£o nos diz nada sobre o res√≠duo para qualquer outra observa√ß√£o.
6. **Homocedasticidade:** a vari√¢ncia de $\epsilon^{(i)}$ √© constante para qualquer $i$, i√©, $var\left(\epsilon^{(ùëñ)}|\mX\right)=\sigma_{\epsilon}^2,\forall i$.

Ainda, para garantirmos a m√°xima verossimilhan√ßa, assume-se que o res√≠duo tem distribui√ß√£o normal com m√©dia nula e vari√¢ncia $\sigma_{\epsilon}^2$,
$$
\beps \approx N\left[ 0,\sigma_{\epsilon}^2 \mathbf I \right]
$$



Mais matem√°tica sobre o Teorema de Gauss Markov pode ser encontrada no [link](https://web.stanford.edu/~mrosenfe/soc_meth_proj3/matrix_OLS_NYU_notes.pdf).



## 1. Regress√£o Linear Simples

A regress√£o linear simples trata de apenas uma vari√°vel independente.

Seja $\mathbf y = \left\{y^{(1)}, y^{(2)}, \ldots, y^{(m)}\right\}$ uma amostra do conjunto de vari√°veis independentes e $\mathbf x = \left\{x^{(1)}, x^{(2)}, \ldots, x^{(m)}\right\}$

O modelo linear simples para o comportamento destas vari√°veis √© dado pela equa√ß√£o:

\begin{equation}
\hat y^{(i)} = w_0 + w_1 x^{(i)} + \epsilon^{(i)}
\end{equation}

A hip√≥tese do modelo linear √© a de que os res√≠duos s√£o vari√°veis aleat√≥rias *independentes* distribu√≠das de acordo com uma distribui√ß√£o *Gaussiana* de valor esperado *nulo*,
$$
\epsilon^{(i)} \approx N\left[ 0,\sigma_{\epsilon}^2 \right]
$$

Isso significa essencialmente que nossos dados t√™m uma rela√ß√£o linear que √© corrompida pelo ru√≠do gaussiano aleat√≥rio que tem m√©dia zero e varia√ß√£o constante.

Isso tem a implica√ß√£o de que $y^{(i)}$  √© uma vari√°vel aleat√≥ria gaussiana e podemos calcular sua expectativa e varia√ß√£o:
$$
E[y^{(i)}] = E[\mathbf x^{(i)T} \mathbf w + \epsilon^{(i)}] = \mathbf x^{(i)T} \mathbf w
$$

$$
Var[y^{(i)}] = Var[\mathbf x^{(i)T} \mathbf w + \epsilon^{(i)}] = \sigma^2
$$
onde $\mathbf x^{(i)}=\left[x^{(i)} \quad 1\right]^T$ e $\mathbf w=\left[w_1 \quad w_0\right]^T$.

Isso equivale a supor que as vari√°veis independentes s√£o resultado da reta $y = w_0 + w_1 x $ sobreposta a um ru√≠do Gaussiano.

Adicionando-se a hip√≥tese de que os ru√≠dos Gaussianos s√£o todos com a mesma covari√¢ncia, os par√¢metros da reta de *m√°xima verissimilhan√ßa* s√£o dados pela minimiza√ß√£o da fun√ß√£o custo dada pelo somat√≥rio quadr√°tico dos res√≠duos, i√©:

\begin{equation}
\underset{w_0, w_1}{\mbox{arg min}} \sum_i \left[\epsilon^{(i)}\right]^2= \sum_i \left(y^{(i)} - w_0 - w_1 x^{(i)}\right)^2
\end{equation}

Ent√£o:
\begin{align}
\frac{\partial EQT}{\partial w_0} &= 2  \sum_i \left(y^{(i)} - w_0 - w_1 x^{(i)}\right)(-1)=0\\
\frac{\partial EQT}{\partial w_1} &= 2  \sum_i \left(y^{(i)} - w_0 - w_1 x^{(i)}\right)(-x^{(i)})=0
\end{align}

Portanto, ap√≥s longa, e trivial, manipula√ß√£o alg√©brica,
\begin{align}
w_1 &= \frac{s_{xy}}{s_{xx}}\\
w_0 &= \bar{y} - w_1 \bar{x}
\end{align}
definindo-se,
\begin{align}
\bar{x} &= \frac{1}{n}\sum_i x^{(i)} \\
\bar{y} &= \frac{1}{n}\sum_i y^{(i)} \\
s_{xx} &= \sum_i (x^{(i)} - \bar{x})^2 \\
s_{yy} &= \sum_i (y^{(i)} - \bar{y})^2 \\
s_{xy} &= \sum_i (x^{(i)} - \bar{x})(y^{(i)} - \bar{y})
\end{align}

E finalmente, a soma total dos quadrados dos res√≠duos √© dada por:

\begin{equation}
R^2 = \sum_i \left[\epsilon^{(i)}\right]^2=s_{yy}\left(1-\frac{s_{xy}^2}{s_{xx} s_{yy}}\right)
\end{equation}

O valor

\begin{equation}
r = \frac{s_{xy}}{\sqrt{s_{xx} s_{yy}}}
\end{equation}

√© chamado de *coeficiente de correla√ß√£o de Pearson*. Este √© um valor que varia de $-1$ a $1$ e mede o qu√£o bem a vari√°vel dependente pode ser explicada por um modelo linear da vari√°vel dependente.

Valores mais pr√≥ximos de zero significam um modelo linear menos explicativo.

Valores mais pr√≥ximos de $1$ ou $-1$ significam um modelo linear mais explicativo.



### Exemplo 01

Dados de idade e press√£o,
```
idade = x = [52,59,67,73,64,74,54,61,65,46,72]
pressao = y = [132,143,153,162,154,168,137,149,159,128,166]
```

Determine:
1. Os valores de $\bar{x}$, $\bar{y}$;
2. Os valores de $s_{xx}, s_{yy}, s_{xy}$;
3. Os valores de  $w_0$ e $w_1$ no modelo $\hat y^{(i)} = w_0 + w_1 x^{(i)} + \epsilon^{(i)}$ de m√°xima verissimilhan√ßa;
4. Repita a plotagem *scatter* do enunciado sobreposta √† reta $\hat y=w_0 + w_1 x$;
5. Calcule o res√≠duo quadr√°tico total $\sum_i \left[\epsilon^{(i)}\right]^2$;
6. Calcule o coeficiente de correla√ß√£o de Pearson e compare o valor $s_{yy}(1-r^2)$ com o obtido no item anterior.

In [None]:
idade = [52,59,67,73,64,74,54,61,65,46,72]
pressao = [132,143,153,162,154,168,137,149,159,128,166]

In [None]:
x_bar = np.mean(idade)
y_bar = np.mean(pressao)
print('A m√©dia de x √©: {:6.2f}'.format(x_bar))
print('A m√©dia de y √©: {:6.2f}'.format(y_bar))


In [None]:
dx = (idade - x_bar)
dy = (pressao - y_bar)
sxx = np.sum(dx**2)
syy = np.sum(dy**2)
sxy = np.sum(dx*dy)
print('sxx: '+str(sxx))
print('syy: '+str(syy))
print('sxy: '+str(sxy))

In [None]:
w1_teo=sxy/sxx
w0_teo= y_bar-x_bar*w1_teo
print('w0: '+str(w0_teo),'w1: '+str(w1_teo))

In [None]:
plt.scatter(x=idade, y=pressao,alpha=0.75)
plt.plot(idade,w0_teo+np.asarray(idade)*w1_teo,color='crimson')
plt.show()

In [None]:
w=[]
w0,w1= 0.0,0.5
w.append([w0,w1])

alpha = 0.0005
eps = 1e-4
max_iter = 500000

m = len(idade)
grad_w0 = 0.0
grad_w1 = 0.0
for i,j in zip(idade,pressao):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
grad = [grad_w0,grad_w1]

count = 0
while np.linalg.norm(grad)>eps and count<max_iter:
  grad_w0 = 0.0
  grad_w1 = 0.0
  for i,j in zip(idade,pressao):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
  w0 = w0-alpha*grad_w0
  w1 = w1-alpha*grad_w1
  w.append([w0,w1])
  grad = [grad_w0,grad_w1]
  count += 1

print('w0: '+str(w0))
print('w1: '+str(w1))

w0: 58.19648423796317
w1: 1.4712261243031135


In [None]:
plt.scatter(x=idade, y=pressao,alpha=0.75)

plt.plot(idade,w0+np.asarray(idade)*w1,color='crimson', label = "gradiente")
plt.plot(idade,w0_teo+np.asarray(idade)*w1_teo,color='mediumvioletred', label = "teoria")
plt.legend()
plt.show()

In [None]:
eps = syy*(1.0-sxy**2/(sxx*syy))
print('eps: {:2.4f}'.format(eps))
r= sxy/(np.sqrt(sxx*syy))
print('r: {:2.4f}  syy(1-r2):  {:6.4f}  '.format(r,(syy*(1-r**2))))

Defini√ß√£o de $R^2$

$ùëÖ^2$  (R-quadrado) √© uma medida estat√≠stica de qu√£o pr√≥ximos os dados est√£o da linha de regress√£o ajustada. Tamb√©m √© conhecido como coeficiente de determina√ß√£o.

Pode-se calcular a partir de sua defini√ß√£o:
$$
\begin{align} R^2&=1-\frac{\text{SSR}}{\text{SST}},\\ &=1-\frac{\sum({y_i}-\hat{y_i})^2}{\sum(y_i-\bar{y})^2} = \frac{s_{xy}^2}{s_{xx}s_{yy}} \end{align}
$$
 onde SSR (sum squared regression) √© a soma do quadrado dos erros da regress√£o, enquanto SST (total sum of squares)  √© a soma do quadrado dos erros, quando a regress√£o coincide com a linha m√©dia ${\bar y}$

In [None]:
from sklearn.metrics import r2_score

coef = r2_score(np.array(pressao), w0+w1*np.array(idade))
print(coef)

In [None]:
SSE = (np.array(pressao)-w0-w1*np.array(idade))**2
SSy = np.sum((np.array(pressao)-np.mean(pressao))**2)
print(1-np.sum(SSE)/SSy)

In [None]:
(sxy*sxy/(sxx*syy))

### Exerc√≠cio 02

Os dados abaixo referem-se aos anos de experi√™ncia e sal√°rio de funcion√°rios de uma empresa.

Determine a curva de regress√£o e analise a correla√ß√£o entre a curva te√≥rica e os dados disponibilizados.

In [None]:
data = np.array([
[1.1,39343.00],
[1.3,46205.00],
[1.5,37731.00],
[2.0,43525.00],
[2.2,39891.00],
[2.9,56642.00],
[3.0,60150.00],
[3.2,54445.00],
[3.2,64445.00],
[3.7,57189.00],
[3.9,63218.00],
[4.0,55794.00],
[4.0,56957.00],
[4.1,57081.00],
[4.5,61111.00],
[4.9,67938.00],
[5.1,66029.00],
[5.3,83088.00],
[5.9,81363.00],
[6.0,93940.00],
[6.8,91738.00],
[7.1,98273.00],
[7.9,101302.00],
[8.2,113812.00],
[8.7,109431.00],
[9.0,105582.00],
[9.5,116969.00],
[9.6,112635.00],
[10.3,122391.00],[10.5,121872.00]])

In [None]:
w=[]
w0,w1= 0.0,0.5
w.append([w0,w1])

alpha = 0.0005
eps = 1e-4
max_iter = 500000


m = len(idade)
grad_w0 = 0.0
grad_w1 = 0.0
for i,j in zip(idade,pressao):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
grad = [grad_w0,grad_w1]

x=data[:,0]
y=data[:,1]
print(x,y)

count = 0
while np.linalg.norm(grad)>eps and count<max_iter:
  grad_w0 = 0.0
  grad_w1 = 0.0
  for i,j in zip(x,y):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
  w0 = w0-alpha*grad_w0
  w1 = w1-alpha*grad_w1
  w.append([w0,w1])
  grad = [grad_w0,grad_w1]
  count += 1

print('w0: '+str(w0))
print('w1: '+str(w1))

In [None]:
plt.scatter(x=data[:,0], y=data[:,1],alpha=0.75, label = "Dados")
media = [np.mean(data[:,1])]*len(data)
plt.plot(data[:,0], media, color='crimson', label = "M√©dia")
plt.plot(data[:,0],w0+np.asarray(data[:,0])*w1,color='forestgreen', label = "Regress√£o")
plt.legend()
plt.show()

In [None]:
data_regr = w0+np.asarray(data[:,0])*w1

x_bar = np.mean(data[:,0])
y_bar = np.mean(data[:,1])

dx = (data[:,0] - x_bar)
dy = (data[:,1] - y_bar)
dy_regr = (data[:,1] - data_regr)


sxx = np.sum(dx**2)
syy = np.sum(dy**2)
sxy = np.sum(dx*dy)
s_regr = np.sum(dy_regr**2)
r2= (sxy/(np.sqrt(sxx*syy)))**2
r2_regr = (syy - s_regr) / syy


print('R2 √©: {:6.2f}'.format(r2))
print('R2 √©: {:6.2f}'.format(r2_regr))

## 2. Regress√£o multilinear

A regress√£o multi-linear trata da rela√ß√£o de uma vari√°vel dependente com *m√∫ltiplas* vari√°veis independentes.

\begin{equation}
y^{(i)} = w_1 x_1^{(i)} + w_2 x_2^{(i)} + \dots + w_n x_n^{(i)} +w_0+\epsilon^{(i)}
\end{equation}

A fun√ß√£o perda ou custo √© definida pelo somat√≥rio da fun√ß√£o erro de cada amostra,
$$
J(\mathbf{X,w})=\frac{1}{m} \sum_{i=1}^n \textbf{L}\left(y^{(i)}, h_\mathbf w(\mathbf x^{(i)})\right)
$$

Utilizando-se a fun√ß√£o erro quadr√°tica tem-se que,
$$
\textbf{L}\left(y^{(i)}, h_\mathbf w(\mathbf x^{(i)})\right) = \| \mathbf{y} - \mathbf{X w} \|^2_2
$$

Seguindo a mesma hip√≥tese de que os res√≠duos s√£o vari√°veis aleat√≥rias *independentes* distribu√≠das de acordo com uma distribui√ß√£o *Gaussiana* de valor esperado *nulo*, o vetor $\mathbf w$ de *m√°xima verossimilhan√ßa* √© dado pela minimiza√ß√£o da fun√ß√£o custo, i√©,:
\begin{equation}
\underset{\mathbf w}{\mbox{arg min}} \parallel \mathbf \beps \parallel^2= \parallel \mathbf{y} - \mathbf{X w} \parallel^2_2
\end{equation}

Suponha que estamos interessados em minimizar, para $\newcommand{\bhat}{{\mathbf w}}\bhat \in \newcommand{\reals}{\mathbb{R}} \reals^n$ qualquer,
$$
\newcommand{\err}{\mathcal{E}}
\err = \| \beps \|^2 = (\newcommand{\my}{\mathbf y}\my - \newcommand{\mX}{\mathbf X}\mX \bhat)^T (\my - \mX \bhat),
$$
onde $\mw \in \reals^n$ s√£o os coeficientes da regress√£o. Assume-se, por simplicidade, que $n \leq m$ e $\mathrm{rank}(\mX) = n$.
\begin{align}
\err &= \my^T\my-\bhat^T\mX^T\my-\my^T\mX\bhat+\bhat^T\mX^T\mX\bhat\\
&=\my^T\my-2\bhat^T\mX^T\my+\bhat^T\mX^T\mX\bhat \tag{1}
\end{align}
onde este desenvolvimento usa o fato de que a transposi√ß√£o de um escalar √© o escalar, ou seja $\bhat^T\mX^T\my=\my^T\mX\bhat$.

Para encontrar o $\bhat$ que minimiza a soma dos res√≠duos quadrados, precisamos tirar a derivada de (1) em rela√ß√£o a $\bhat$. Isso nos d√° a seguinte equa√ß√£o:
\begin{equation}
\frac{\partial\err}{\partial \bhat} = -2\mX^T\my+ 2 \mX^T\mX\bhat = 0
\end{equation}

Da equa√ß√£o acima obtemos o que chamamos de *equa√ß√µes normais*,
\begin{equation}
\mX^T\mX\bhat = \mX^T\my \tag{2}
\end{equation}
onde, obviamente, $\mX^T\mX$ √© sempre quadrada sim√©trica.

Lembre-se de que $\mX^T\mX$ e $\mX^T\my$ s√£o conhecidos de nossos dados, mas $\bhat$ √© desconhecido. Se o inverso de $\mX^T\mX$ existe
(ou seja, $\left(\mX^T\mX\right)^{-1}$, ent√£o a pr√©-multiplica√ß√£o de ambos os lados por esse inverso nos d√° a seguinte equa√ß√£o:
\begin{align}
\left(\mX^T\mX\right)^{-1}\left(\mX^T\mX\right)\bhat &= \left(\mX^T\mX\right)^{-1}\mX^T\my \\
\bhat &= \left(\mX^T\mX\right)^{-1}\mX^T\my
\end{align}

Portanto, $\err$ √© minimizado quando $\bhat = (\mX^T \mX)^{-1} \mX^T \my$ e a matriz $\left(\mX^T \mX\right)^{-1}\mX^T$ √© dita a *pseudo-inversa* de $\mX$.

**Nota**: Em geral n√£o √© eficiente calcular explicitamente esta matriz.

Por√©m, lembre-se que definimos um res√≠duo, i√©, um erro da previs√£o em rela√ß√£o √† resposta exata $\beps$,
$$
\my=\mX\bhat+ \beps
$$

Substituindo-se em (2),
\begin{align}
\left(\mX^T\mX\right)\bhat &= \mX^T\left(\mX\bhat+ \beps\right)\\
\left(\mX^T\mX\right)\bhat &= \mX^T\mX\bhat+ \mX^T\beps \\
\therefore \mX^T\beps = 0
\end{align}

### Exemplo 03

Dadas as caracter√≠sticas ($x_1$ e $x_2$) e vari√°vel dependente ($y$),
```
x1 = np.array([4,2,1,3,1,6])
x2 = np.array([1,8,0,2,4,7])
y = np.array([2,-14,1,-1,-7,-8])
```
utilize a resposta anal√≠tica,
$$
\newcommand{\mw}{\mathbf w}\mw = (\newcommand{\mX}{\mathbf X} \mX^T \mX)^{-1} \mX^T \newcommand{\my}{\mathbf y} \my
$$
para encontrar os pesos da regress√£o linear.

In [None]:
x1 = np.array([4,2,1,3,1,6])
x2 = np.array([1,8,0,2,4,7])
y = np.array([2,-14,1,-1,-7,-8])

In [None]:
MX = np.array([np.ones(len(x1)),x1,x2]).T
W = np.linalg.solve(MX.T.dot(MX),MX.T.dot(y))
print('w0 = '+str(W[0]) + '  w1 = '+str(W[1]) + '  w2 = '+str(W[2]))

__Agora, monte um procedimento iterativo para encontrar os pesos da regress√£o.__

In [None]:
## Sua resposta##

Agora veja o exemplo abaixo...

A rela√ß√£o entre semanas de trabalho e carros vendidos da *Locadora Jack*.

In [None]:
SemanasTrabalho = np.array([168.,428.,296.,392.,80.,56.,352.,444.,168.,200.,4.,52.,20.,228.,72.])
CarrosVendidos =  np.array([272.,300.,311.,365.,167.,149.,366.,310.,192.,229.,88.,118.,62.,319.,193.])
data = []
for i,j in zip(SemanasTrabalho,CarrosVendidos):
  data.append([i,j])
data = np.array(data)

In [None]:
w=[]
w0,w1= 0.,100.
w.append([w0,w1])

alpha = 0.000025
eps = 1e-4
max_iter = 500000

x=data[:,0]
y=data[:,1]

m = len(x)
grad_w0 = 0.0
grad_w1 = 0.0
for i,j in zip(x,y):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
grad = [grad_w0,grad_w1]

count = 0
while np.linalg.norm(grad)>eps and count<max_iter:
  grad_w0 = 0.0
  grad_w1 = 0.0
  for i,j in zip(x,y):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
  w0 = w0-alpha*grad_w0
  w1 = w1-alpha*grad_w1
  w.append([w0,w1])
  grad = [grad_w0,grad_w1]
  count += 1

print('w0: '+str(w0))
print('w1: '+str(w1))

In [None]:
plt.scatter(x=SemanasTrabalho, y=CarrosVendidos,alpha=0.75, label = "Dados")
media = [np.mean(data[:,1])]*len(data)
#
plt.plot(data[:,0],w0+np.asarray(data[:,0])*w1,color='forestgreen', label = "Regress√£o")
plt.legend()
plt.show()

In [None]:
data_regr = w0+np.asarray(data[:,0])*w1

x_bar = np.mean(data[:,0])
y_bar = np.mean(data[:,1])

dx = (data[:,0] - x_bar)
dy = (data[:,1] - y_bar)
dy_regr = (data[:,1] - data_regr)


sxx = np.sum(dx**2)
syy = np.sum(dy**2)
sxy = np.sum(dx*dy)
s_regr = np.sum(dy_regr**2)
r2= (sxy/(np.sqrt(sxx*syy)))**2
r2_regr = (syy - s_regr) / syy


print('R2 √©: {:6.2f}'.format(r2))
print('R2 √©: {:6.2f}'.format(r2_regr))

In [None]:
plt.scatter(x=SemanasTrabalho, y=dy_regr,alpha=0.75)
media = [np.mean(data[:,1])]*len(data)
plt.xlabel("Semanas de Trabalho")
plt.ylabel("Res√≠duo")
plt.show()

In [None]:
w0,w1,w2 = 63.851, 1.4095, -0.0019
data_regr=w2*np.asarray(data[:,0])**2+w1*np.asarray(data[:,0])+w0
regr = []
for i,j in zip(SemanasTrabalho,data_regr):
  regr.append([i,j])
regr = np.array(regr)
matrix = regr[np.argsort(regr[:,0])]

In [None]:
plt.scatter(x=SemanasTrabalho, y=y,alpha=0.75, label = "Dados")
plt.plot(matrix[:,0],matrix[:,1], color='forestgreen', label = "Regress√£o")
plt.xlabel("Semanas de Trabalho")
plt.ylabel("Res√≠duo")
plt.legend()
plt.show()

In [None]:
x_bar = np.mean(data[:,0])
y_bar = np.mean(data[:,1])

dx = (data[:,0] - x_bar)
dy = (data[:,1] - y_bar)
dy_regr = (data[:,1] - data_regr)
sxx = np.sum(dx**2)
syy = np.sum(dy**2)
s_regr = np.sum(dy_regr**2)

r2 = (syy - s_regr) / syy
print('R2 √©: {:6.2f}'.format(r2_regr))

In [None]:
plt.scatter(x=SemanasTrabalho, y=dy_regr,alpha=0.75)
media = [np.mean(data[:,1])]*len(data)
plt.xlabel("Semanas de Trabalho")
plt.ylabel("Res√≠duo")
plt.show()

## Regress√£o Polinomial

Dado $m$ conjuntos de $n$ dados dispostos na matriz $\mathbf{X} \in {\mathbb{R}}^{m\times n+1}$ rotulados por $\mathbf{y} \in {\mathbb{R}}^m$ j√° definimos anteriormente que o erro ser√° minimizado quando
$$
\newcommand{\mw}{\mathbf w}\mw = (\newcommand{\mX}{\mathbf X} \mX^T \mX)^{-1} \mX^T \newcommand{\my}{\mathbf y} \my
$$

Derivar por um vetor pode parecer desconfort√°vel, mas n√£o h√° com o que se preocupar. Lembre-se de que aqui apenas usamos nota√ß√£o de matriz para representar convenientemente um sistema de f√≥rmulas lineares. Portanto, derivamos por cada componente do vetor e depois combinamos as derivadas resultantes em um vetor novamente,
$$
\frac{\partial}{\partial w_{k}}\sum_{i=1}^{m}\left(y^{(i)}-\sum_{j=0}^{n}x_{ij}w_{j}\right)^{2}=0
$$

$$
\sum_{i=1}^{m}2\left(y^{(i)}-\sum_{j=1}^{n}x_{ij}w_{j}\right)\left(\frac{\partial}{\partial w_{k}}\left[y^{(i)}-\sum_{j=1}^{n}x_{ij}w_{j}\right]\right)=0
$$

$$
-2\sum_{i=1}^{m}x_{ik}\left(y^{(i)}-\sum_{j=1}^{n}x_{ij}w_{j}\right)=0 \tag{1}
$$

Pode-se reescrever as equa√ß√µes (1) na forma matricial. Por exemplo, para um polin√¥mio de ordem $4$,
\begin{equation}
              \begin{pmatrix}
              m \, \, \, \, \, \, \, & \sum{x^{(i)}}\, \, & \sum{\left(x^{(i)}\right)^2} & \sum{\left(x^{(i)}\right)^3} & \sum{\left(x^{(i)}\right)^4}  \\
              \sum{x^{(i)}}\, \, & \sum{\left(x^{(i)}\right)^2} & \sum{\left(x^{(i)}\right)^3} & \sum{\left(x^{(i)}\right)^4} & \sum{\left(x^{(i)}\right)^5}  \\
              \sum{\left(x^{(i)}\right)^2} & \sum{\left(x^{(i)}\right)^3} & \sum{\left(x^{(i)}\right)^4} & \sum{\left(x^{(i)}\right)^5} & \sum{\left(x^{(i)}\right)^6}  \\
              \sum{\left(x^{(i)}\right)^3} & \sum{\left(x^{(i)}\right)^4} & \sum{\left(x^{(i)}\right)^5} & \sum{\left(x^{(i)}\right)^6} & \sum{\left(x^{(i)}\right)^7}  \\
              \sum{\left(x^{(i)}\right)^4} & \sum{\left(x^{(i)}\right)^5} & \sum{\left(x^{(i)}\right)^6} & \sum{\left(x^{(i)}\right)^7} & \sum{\left(x^{(i)}\right)^8}  \\
              \end{pmatrix}
              \begin{pmatrix}
              w_0 \\
              w_1 \\
              w_2 \\
              w_3 \\
              w_4 \\
              \end{pmatrix}
              =\begin{pmatrix}
              \sum{ y^{(i)}} \\
              \sum{x^{(i)} y^{(i)}} \\
              \sum{\left(x^{(i)}\right)^2 y^{(i)}} \\
              \sum{\left(x^{(i)}\right)^3 y^{(i)}} \\
              \sum{\left(x^{(i)}\right)^4 y^{(i)}} \\
              \end{pmatrix} \tag{2}
\end{equation}

In [None]:
w=[]
w0,w1= 0.0,0.5
w.append([w0,w1])

alpha = 0.0005
eps = 1e-4
max_iter = 500000

m = len(idade)
grad_w0 = (w0 + w1*i - j)/m
grad_w1 = (w0 + w1*i - j)*i/m
grad = [grad_w0,grad_w1]

x=data[:,0]
y=data[:,1]

count = 0
while np.linalg.norm(grad)>eps and count<max_iter:
  grad_w0 = 0.0
  grad_w1 = 0.0
  for i,j in zip(x,y):
    grad_w0 += (w0 + w1*i - j)/m
    grad_w1 += (w0 + w1*i - j)*i/m
  w0 = w0-alpha*grad_w0
  w1 = w1-alpha*grad_w1
  w.append([w0,w1])
  grad = [grad_w0,grad_w1]
  count += 1

print('w0: '+str(w0))
print('w1: '+str(w1))

In [None]:
plt.scatter(x=idade, y=pressao,alpha=0.75)
plt.plot(idade,w0_teo+np.asarray(idade)*w1_teo,color='crimson')
plt.show()

### Exemplo 04

Regress√£o polinomial √© principalmente aplic√°vel a estudos onde os ambientes s√£o altamente controlados e as observa√ß√µes s√£o feitas com um n√≠vel especificado de toler√¢ncia.

Os dados abaixo s√£o os consumos de eletricidade, em quilowatts-hora por m√™s, de dez casas e suas respectivas √°reas, em metros quadrados,

| √Årea | KW Hrs/Mes |
| ---  | --- |
| 120 | 	1182|
| 135 | 	1172|
| 147 | 	1264|
| 160 | 	1493|
| 171 | 	1571|
| 184 | 	1711|
| 198 | 	1804|
| 223 | 	1840|
| 240 | 	1956|
| 293 | 	1954|

Os dados podem ser modelados por meio de um polin√¥mio de segundo grau, com a seguinte equa√ß√£o:

\begin{equation}
consumo = w_0 + w_1 area + w_2 area^2
\end{equation}

Estime os coeficientes desconhecidos do modelo, $w_0$, $w_1$ e $w_2$, minimizando os desvios entre os dados e o resultado do modelo (ajuste de m√≠nimos quadrados).

*Nota*: Use a fun√ß√£o ```np.linalg.solve(a, b)``` para resolver o sistema $ax=b$ da equa√ß√£o (2).

In [None]:
data = np.array([[1290 , 1182],
[1350 , 1172],
[1470 , 1264],
[1600 , 1493],
[1710 , 1571],
[1840 , 1711],
[1980 , 1804],
[2230 , 1840],
[2400 , 1956],
[2930 , 1954]])

area   = data[:,0]
consumo = data[:,1]

plt.figure()
plt.plot(area, consumo, 'bo', color="black")
plt.xlabel(r'√Årea ($m^2$)')
plt.ylabel(r'Consumo ($KW h/mes$)')
plt.title('√Årea vs Consumo')
plt.show()

In [None]:
aux = np.array([len(area), np.sum(area), np.sum(area**2), np.sum(area**3), np.sum(area**4)])

b = np.array([[np.sum(consumo)],[np.sum(consumo*area)],[np.sum(consumo*area**2)]])
n=2
a=[]
for i in range(n+1):
  a.append([aux[i],aux[i+1],aux[i+2]])

W = np.linalg.solve(a,b)
print('w0 = '+str(W[0]) + '  w1 = '+str(W[1]) + '  w2 = '+str(W[2]))

Como gabarito vamos usar uma biblioteca a fun√ß√£o `numpy.polyfit(x,y,n)` retorna os coeficientes para um polin√¥mio de grau `n` que melhor se ajusta aos dados. Os coeficientes retornados pela fun√ß√£o est√£o em forma descendente (par√¢metro que acompanha a maior pot√™ncia primeiro) e seu comprimento √© $n+1$.

Depois de criar o modelo, vamos verificar se ele realmente se encaixa em nossos dados. Para fazer isso, usaremos o modelo para avaliar o polin√¥mio em tempos espa√ßados uniformemente. Para avaliar o modelo nos pontos especificados, podemos usar a fun√ß√£o `poly1d()`. Essa fun√ß√£o retorna o valor de um polin√¥mio de grau $n$ avaliado nos pontos fornecidos. O argumento de entrada √© um vetor de comprimento $n + 1$ cujos elementos s√£o os coeficientes das pot√™ncias descendentes do polin√¥mio a ser avaliado.

In [None]:
omegas = np.polyfit(area, consumo,2)
y_bar = np.poly1d(omegas)
x_bar = np.linspace(1000,3000, 1000)
print('w0: '+str(omegas[0]),'w1: '+str(omegas[1]),'w2: '+str(omegas[2]))
plt.figure()
plt.plot(area, consumo, 'bo', color="black", label='data')
plt.xlabel(r'√Årea ($m^2$)')
plt.ylabel(r'Consumo ($KW h/mes$)')
plt.title('√Årea vs Consumo')
plt.plot(x_bar, y_bar(x_bar), '-', color='darkcyan', label='regress√£o')
plt.show()

Mude o grau do polin√¥mio para `5` e veja como se comporta sua resposta.

In [None]:
omegas = np.polyfit(area, consumo,5)
y_bar = np.poly1d(omegas)
x_bar = np.linspace(1000,3000, 1000)
print('w0: '+str(omegas[0]),'w1: '+str(omegas[1]),'w2: '+str(omegas[2]))
plt.figure()
plt.plot(area, consumo, 'bo', color="black", label='data')
plt.xlabel(r'√Årea ($m^2$)')
plt.ylabel(r'Consumo ($KW h/mes$)')
plt.title('√Årea vs Consumo')
plt.plot(x_bar, y_bar(x_bar), '-', color='darkcyan', label='regress√£o')
plt.show()

## Uma breve introdu√ß√£o a overfitting e underfitting


### Vari√¢ncia (Variance)

A vari√¢ncia √© um erro definido pela alta sensibilidade a pequenas flutua√ß√µes no conjunto de treinamento. Erro devido √† tend√™ncia do algoritmo de modelar o ru√≠do aleat√≥rio nos dados de treinamento, em vez das sa√≠das pretendidas. Esse fen√¥meno √© conhecido como *overfitting*.

A vari√¢ncia ser expressa matematicamente como:

\begin{equation}
Var[\mathbf y] = E[(\mathbf y-E[\mathbf y])^2] = E[\mathbf y^2] - E[\mathbf y]^2 \tag{2}
\end{equation}

A igualdade acima √© essencial ao entendimento da rela√ß√£o entre vi√©s e vari√¢ncia e erro quadr√°tico m√©dio, e √© provada a seguir,
\begin{align}
Var[\mathbf y] =& E[(\mathbf y- E[\mathbf y])^2] \\
=& E[\mathbf y^2 - 2 \mathbf y E[\mathbf y] + E[\mathbf y]^2] \\
=& E[\mathbf y^2] - 2E[\mathbf y]^2 + E[\mathbf y]^2 \\
=& E[\mathbf y^2] - E[\mathbf y]^2
\end{align}

### Vi√©s (Bias)
Vi√©s √© a tend√™ncia de um estimador escolher um modelo para os dados que n√£o s√£o estruturalmente corretos. Um estimador tendencioso √© aquele que faz suposi√ß√µes incorretas no n√≠vel do modelo sobre o conjunto de dados.
Para o caso de nossa regress√£o, erro devido √† incapacidade da hip√≥tese $h$ de se encaixar perfeitamente em $y$. Por exemplo, suponha que usamos um modelo de regress√£o linear em uma fun√ß√£o $y$ quadr√°tica ou c√∫bica.

Matematicamente,
\begin{equation}
\text{Bias}[\hat{y}^{(i)}(\mathbf x^{(i)})] = E[\hat{y}(\mathbf x^{(i)}) - y(\mathbf x^{(i)})] \tag{1}
\end{equation}

Vi√©s tamb√©m √© conhecido como underfitting.

### MSE e sua decomposi√ß√£o em vi√©s e vari√¢ncia
Dessa forma, pode-se reescrever a f√≥rmula de $MSE$ como

\begin{align}
MSE =& E[(y- \hat{y})^2] \\
=& E[y^2 + \hat{y}^2 - 2 y\hat{y}] \\
=& \text{Var}(y) + E[y]^2 + \text{Var}[\hat{y}] + E[\hat{y}]^2 - 2 y E[\hat{y}] \\
=& \text{Var}(y) + \text{Var}(\hat{y}) + E[(y^2 - 2 y E[\hat{y}] + E[\hat{y}]^2)] \\
=& \text{Var}(y) + \text{Var}(\hat{y}) +E[(y - E[\hat{y}])^2] \\
=& e^2 + \text{Var}[\hat{y}] + \text{Bias}[\hat{y}]^2
\end{align}

Este resultado mostra que o erro quadr√°tico do estimador √© a soma da vari√¢ncia do estimador (qu√£o mal ele generaliza; seu n√≠vel de overfitting), o vi√©s (qu√£o pobre √© seu ajuste; seu n√≠vel de underfitting) e um erro irredut√≠vel no conjunto de dados subjacente, $e$.



Um modelo com __ALTO VI√âS__ aprende rela√ß√µes erradas e gera previs√µes longe do esperado. O modelo n√£o aprende corretamente com o conjunto de dados, assumindo informa√ß√µes sobre os dados que n√£o s√£o necessariamente corretas. Dessa forma, modelos com alto vi√©s possuem um problema de underfitting.

Modelos com alta __ALTA VARI√ÇNCIA__ focam excessivamente se ajustar aos dados e, inclusive, ao ru√≠do. Assim, esses modelos t√™m um problema de overfitting, ou seja, se adaptam t√£o bem ao conjunto de dados que n√£o conseguem generalizar para al√©m dele.

<center><img src='https://drive.google.com/uc?export=view&id=1QIKLgbTJofvRur0RH8V3r2aRLFWqeqaN' width="600"></center>


Dado um erro constante, isso significa que sempre haver√° uma troca entre vi√©s e vari√¢ncia. Ter muito vi√©s ou muita varia√ß√£o n√£o √© bom para um modelo, mas por diferentes motivos. Um modelo de alto vi√©s e baixa varia√ß√£o provavelmente acabar√° impreciso nos conjuntos de dados de treinamento e valida√ß√£o, e suas previs√µes provavelmente n√£o se desviar√£o muito com base na amostra de dados em que ele √© treinado. Por outro lado, um modelo de vi√©s baixo e alta vari√¢ncia provavelmente fornecer√° bons resultados em um conjunto de dados de treinamento, mas falhar√° ao tentar generalizar para um conjunto de dados de valida√ß√£o.

### Exemplo 05

Com os dados abaixo,
```
ùë• = [0., 0.18, 0.25, 0.4, 0.45, 0.55, 0.63, 0.75, 0.85, 1.]
ùë¶ = [0.3, 0.8, 1., 0.95, 0.25, 0.3, -0.9, -0.7, -0.8, 0.35]
```
modifique a ordem de aproxima√ß√£o de 0 a 9 e responda:
1. o que aconteceu com os valores dos par√¢metros a medida que o grau do polin√¥mio de interpola√ß√£o aumentou?
2. porque isso aconteceu?


In [110]:
x=np.array([0.,0.18,0.25,0.4,0.45,0.55,0.63,0.75,0.85,1.])
y=np.array([0.3,0.8,1.,0.95,0.25,0.3,-0.9,-0.7,-0.8,0.35])

In [114]:
import operator
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
from sklearn.pipeline import make_pipeline
colors = ['SkyBlue','DeepSkyBlue', 'CornflowerBlue', 'DodgerBlue', 'RoyalBlue', 'Blue', 'MediumBlue', 'DarkBlue', 'Navy']
for i in range(0,10):
  plt.scatter(x, y, color="black", label = 'dataset')
  #veja que constru√≠mos uma pipeline, para repetir a sequencia de gerar as features e calcular os par√¢metros da regress√£o
  model = make_pipeline(PolynomialFeatures(degree=i), LinearRegression())
  model.fit(np.array(x).reshape(-1, 1), y)
  x_reg = np.arange(0,1,0.01)
  y_reg = model.predict(x_reg.reshape(-1, 1))
  plt.plot(x_reg, y_reg, color=colors[i-1], label = 'degree '+str(i))
  plt.legend()
  plt.show()

In [None]:
colors = ['SkyBlue','DeepSkyBlue', 'CornflowerBlue', 'DodgerBlue', 'RoyalBlue', 'Blue', 'MediumBlue', 'DarkBlue', 'Navy']
for i in range(0,10):
  plt.scatter(x, y, color="black")
  polynomial_features= PolynomialFeatures(degree=i)
  x_poly = polynomial_features.fit_transform(x.reshape(-1,1))
  model = LinearRegression()
  model.fit(x_poly, y)
  y_poly_pred = model.predict(x_poly)

  rmse = np.sqrt(mean_squared_error(y,y_poly_pred))
  r2 = r2_score(y,y_poly_pred)
  print("RMSE:", rmse)
  print("R2:", r2)
  print("Coeficientes:", model.coef_)
  print("Intercepta√ß√£o:", model.intercept_)
  # sort the values of x before line plot
  sort_axis = operator.itemgetter(0)
  sorted_zip = sorted(zip(x,y_poly_pred), key=sort_axis)
  x_sort, y_poly_pred = zip(*sorted_zip)
  plt.plot(x_sort, y_poly_pred, color=colors[i-1], label = 'degree '+str(i))
  plt.show()