<h1> Regressão Linear - Introdução </h1> 

<div style="text-align:justify"> 
Este notebook tem por objetivo apresentar os conceitos básicos para o aprendizado da regressão linear. 
</div>

<h3> Introdução ao conceito de regressão linear e seus parâmetros </h3>

<div style="text-align:justify">
Os modelos lineares simples são a base para o entendimento de modelos mais complexos como o GLM <code>(Modelos Lineares Generalizados)</code>. Os modelos lineares são modelos de regressão a qual a se busca explicar quanto da variação da variável resposta <b>($y_i$)</b> é explicado pelas variáveis descritoras <b>($x_i$)</b>.
<br>
<br>
De modo geral podemos resumir a regressão como:
<br>
<br>
<code>1.</code> Uma análise que permite verificar relações entre variáveis.
<br>
<br>    
<code>2.</code> Uma análise que descreve a relação linear entre uma variável preditora e uma variável resposta.
<br>
<br>    
Um outro ponto importante é a discussão sobre a direção da relação entre causa e efeito. Pois nem sempre é obvio se o fator A influencia no fator B, ou se o fator B influencia em A. Quando a direção dessa relação for concluída podemo passar para  fase das descrição dessa relação utilizando uma função matemática:
<br>
<br>    
$ \hat{Y}=f(X) $
<br>
<br>    
Aqui vale ressaltar que aplicamos a função $f$ para cada valor de $X$, a qual gera um correspondente para a resposta $Y$. Ou seja, para esse exemplo podemos definir que <b> $Y$ é uma função linear de $X$</b>.
<br>
<br>
$ \hat{y} = \beta_0 + \beta_1\ x_i  + \epsilon_i $
<br>
<br>
Onde:
<br>
<br>
$ \hat{y} $ = Valores preditos pelas variáveis respostas;

$ \beta_o $ = Valor do intercepto da reta ao eixo y do plano 

$ \beta_1$ = Valor da inclinação da reta;

$ x_i $ = Variável descritora;
<br>
<br>
A equação acima descreve o gráfico de uma linha reta, ao qual o modelo tem dois parâmetros $\beta_0$ e $\beta_1$. $\beta_0$ é o resultado da função $f$ quando $X=0$. 
<br>
<br>    
O valor de $\beta_1$ é uma medida de variação, ou seja, uma taxa que é medida em unidades de $\Large{\frac{\Delta_Y} {\Delta_X}} $.
<br>
<br>    
Quando conhecemos esses dois parâmetros podemos então usar a equação $ \hat{Y} = \beta_0 + \beta_1\ x_i$ para predizer os valores $\hat{Y}$ para qualquer valor de $X$ 
<br>
<br>
A Figura abaixo mostra o posicionalmente no plano cartesiano dos parametros da regressão linear.
</div>

<h3>Representação gráfica dos parâmetros</h3>

In [1]:
from IPython.display import Image
Image(url = 'images/image1.png')

In [2]:
from IPython.display import Image
Image(url = 'images/image2.png')

<h3> Ajustamento de dados ao modelo linear </h3>

<div style="text-align:justify">
Até o momento falamos sobre os parâmetros $\beta_0$ e $\beta_1$. No entanto, na equação acima existe o termo $\large{\epsilon_i}$ que podemos denominar <code>erro</code>. Esse erro refere-se ao fato de que cada observação de uma amostra apresenta um valor de $x_i$ correspondente a um valor de $\hat{y_i}$. Dado que uma amostra contem inúmeros valores de $X$ dado que $i=(1,...,n)$ a qual sua replica $i$ para cada valor observado. Assim, devemos adicionar a equação o erro.
<br>
<br>
O valor do erro ($\large{\epsilon_i}$) é uma variável aleatório normal. Essa variavel tem uma distribuição com valor esperado igual a 0, $E(\epsilon_i=0)$ e uma variância igual zero, $V(\epsilon_i)=\sigma^2$.
<br>
<br>
Quando todos os valores caem numa linha reta temos uma $\sigma^2=0$ e assim poderemos construir os valores dos parâmetros $\beta_0$ e $\beta_1$ a partir dessa linha desenhada.
<br>
<br>
No entanto, essa situação acima é muito dificil de ocorrer em dados oriundo de fontes reais. Assim sempre haverá ruídos ou pontos que caem fora da curva tracejada. Dessa forma podemos definir que quanto maior os valores de $\sigma^2$ maior será o residuo ou erro sobre a linha da regressão.
<br> 
<br>
Nesse contexto surge a pergunta: Qual o melhor ajuste de uma linha para uma nuvem de dados? Ou seja qual o melhor ajuste para traçarmos uma linha sobre um conjunto de dados e como definimos isso? Aqui cabe um novo conceito denominado <b>resíduo quadrado</b> $(d_i^2)$.  
</div>

<h3>Resíduo Quadrado</h3>

<div style="text-align:justify">
A determinação do valor do $\Large{d_i^2}$ é a diferença quadrada entre o valor de $Y_i$ observado e o valor de $Y$ que é predito pela regressão $\hat{Y_i}$. 
<br>
<br>
De maneira formal o resíduo quadrado pode ser calculado da seguinte forma:
<br>
<br> 
$\large{d_i^2 = (Y_i - \hat{Y_i})^2}$
<br>
<br>
Nessa equação utilizamos valores elevado ao quadrado para evitar os valores negativos já que estamos interessados apenas na magnitude da diferença. Para cada valor em $Y_i$ teremos um ponto da reta que passa de modo a minimizar o resíduo $d_i=0$.
</div>

<h3>Soma dos Quadrados dos Resíduos</h3>

<div style="text-align:justify">
No entanto, como estamos trabalhando com uma nuvem de dados é importante que a reta passe por todos os pontos de modo a ter menores valores de resíduo. Assim precisamos definir a <b>soma dos quadrados dos resíduos (SQR)</b>
<br>
<br>
A SQR pode ser calculada da seguinte forma:
<br>
<br>
$SQR=\displaystyle\sum_{i=1}^{n}(Y_i - \hat{Y_i})^2$
<br>
<br>
A reta de melhor ajuste é aquela que apresente que minimize a soma dos quadrados dos resíduos. Assim garantimos que exista
uma menor diferença entre o valor ajustado $Y_i$ do valor predito $\hat{Y_i}$ na equação da reta. 
<br>
<br>
O gráfico abaixo demonstra como ocorrer o cálculo do resíduo quadrado.
</div>

<h3>Representação gráfica</h3> 

In [3]:
from IPython.display import Image
Image(url = 'images/image3.png')