# Regressão Linear -  *Em Construção*

Os modelos de regressão são frequentemente utilizados por aqueles que estão começando no mundo do aprendizado de máquina. Isso se deve, em parte, à sua relativa simplicidade e facilidade de interpretação do modelo matemático. Esses modelos têm sido fundamentais na estatística por um longo tempo e são amplamente ensinados em cursos introdutórios de estatística e ciência de dados.

## Tipos de Modelos de Regressão

Existem vários tipos de modelos de regressão, tais como:
- Regressão Linear Simples
- Regressão Linear Múltipla
- Regressão Logística
- Regressão de Poisson
- Regressão Ridge e LASSO
- Regressão Não Linear
- Regressão Polinomial

Neste notebook, nosso foco será na **regressão linear**, que é um conteúdo abrangente por si só. Para discutir os outros modelos, teremos notebooks separados.


## O que é Regressão Linear?

A regressão linear é uma fórmula matemática que modela a relação entre duas variáveis, conhecidas como variável dependente ou alvo e variável independente ou preditora. Essencialmente, usamos os dados de uma variável para prever o valor de outra variável. Esse método estatístico busca encontrar a melhor linha reta que se ajusta aos dados, minimizando a diferença entre os valores previstos pela equação e os valores reais observados nos dados.

Pode parecer um pouco complexo, mas deixe-me explicar de forma mais simples:

A regressão linear busca encontrar a linha reta, linha esta que é uma característica definidora da regressão linear, e que melhor representa a **relação entre as variáveis**. Por exemplo, ao analisarmos a relação entre o tempo de estudo de um aluno e suas notas em uma prova, a regressão linear tentará encontrar a linha que melhor descreve como as notas se relacionam com o tempo de estudo.

### Compreendendo a Relação entre Variáveis

Mas antes de prosseguirmos no estudo da regressão, devemos nos aprofundar um pouco mais no significado da "relação entre variáveis".

A "relação entre variáveis" refere-se à maneira como duas ou mais variáveis diferentes estão interconectadas ou associadas em um conjunto de dados. Quando buscamos entender essa relação, estamos interessados em compreender se as mudanças em uma variável estão relacionadas às mudanças em outra variável. Aqui é onde entra o conceito estatístico de correlação.

A correlação é uma medida estatística que avalia a força e a direção da relação entre duas variáveis. Ela nos auxilia a determinar se as variáveis se movem juntas (correlação positiva), se uma variável aumenta enquanto a outra diminui (correlação negativa) ou se não há uma relação clara entre elas (correlação fraca ou próxima de zero).

### Exemplo Prático: Tempo de Estudo e Notas da Prova

Como exemplo, podemos utilizar a relação mencionada anteriormente entre o tempo de estudo e as notas da prova. Ao analisar essa relação, estamos explorando a correlação entre essas variáveis. Uma correlação positiva significativa indicaria que mais tempo de estudo geralmente resulta em notas mais altas. Por outro lado, uma correlação negativa sugeriria que um aumento no tempo de estudo está associado a notas mais baixas. Se a correlação fosse próxima de zero, não haveria uma relação clara entre o tempo de estudo e as notas, indicando que o tempo de estudo não é um indicador forte das notas obtidas. Conforme tabela abaixo:


|   Aluno   | Tempo de Estudo (horas) | Notas na Prova |
|:---------:|:----------------------:|:--------------:|
|     A     |          2             |       75       |
|     B     |          3             |       82       |
|     C     |         1.5            |       68       |
|     D     |          4             |       90       |
|     E     |         2.5            |       78       |
|     F     |          1             |       60       |
|     G     |         3.5            |       85       |
|     H     |          2             |       76       |
|     I     |         1.75           |       70       |
|     J     |         4.5            |       92       |

Para entender de forma mais clara como a relação entre variáveis funciona, é recomendado plotar um gráfico de dispersão. Nesse sentido, uma ferramenta comum é o gráfico de dispersão (scatter plot), onde os pontos de dados são representados em um plano cartesiano. A visualização gráfica complementa a análise numérica da correlação, oferecendo uma compreensão mais profunda da relação entre as variáveis.

In [8]:
from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input type="submit" value="Clique Aqui para ver o código do gráfico"></form>''')

In [4]:
import matplotlib.pyplot as plt

plt.style.use("ggplot")

# Dados da tabela
alunos = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']
tempo_estudo = [2, 3, 1.5, 4, 2.5, 1, 3.5, 2, 1.75, 4.5]
notas_prova = [75, 82, 68, 90, 78, 60, 85, 76, 70, 92]

# Criando o gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(tempo_estudo, notas_prova, color='blue', marker='o')
plt.title('Tempo de Estudo vs. Notas na Prova')
plt.xlabel('Tempo de Estudo (horas)')
plt.ylabel('Notas na Prova')
plt.grid(True)
plt.savefig("figure/grafico_dispersao1.png")
plt.close()

<div style="text-align:center">
  <img src="figure/grafico_dispersao1.png" alt="Gráfico de Dispersão">
</div>

As linhas retas da regressão linear podem ser completamente definidicas por duas propriedades: intercepto e a inclinação

Uma vez ajustado o modelo, convém avaliar a qualidade do ajuste e um dos indicadores mais utilizados para essa finalidade é o coeficiente de determinação

- Premissa da regressão linear

Principais premissas de uma regressão linear efetiva
Premissas a serem consideradas para o sucesso com a análise de regressão linear:

- Para cada variável: Considere o número de casos válidos, médias e desvio padrão.  
- Para cada modelo: Considere coeficientes de regressão, matriz de correlação, correlações de partes e correlações parciais, múltiplos R, R2, R2 ajustado, mudança em R2, erro padrão da tabela de estimativa e análise de variância, valores previstos e resíduos. Além disso, considere intervalos de confiança de 95% para cada coeficiente de regressão, matriz de covariância-variância, fator de inflação de variância, tolerância, teste Durbin-Watson, medidas de distância (valores de Mahalanobis, Cook e utilização), DfBeta, DfFit, intervalos de previsão e informações de diagnóstico por caso.  
- Gráficos: Use gráficos de dispersão, gráficos parciais, histogramas e gráficos de probabilidade normal.
- Dados: As variáveis dependentes e independentes devem ser quantitativas. Variáveis categóricas, como religião, grande campo de estudo ou região de residência, precisam ser recodificadas para variáveis binárias (dummy) ou outros tipos de variáveis de contraste.  
- Outras hipóteses: Para cada valor da variável independente, a distribuição da variável dependente deve ser normal. A variância da distribuição da variável dependente deve ser constante para todos os valores da variável independente. O relacionamento entre a variável dependente e cada variável independente deve ser linear e todas as observações devem ser independentes.

Certifique-se de que seus dados atendam às premissas de regressão linear
Antes de tentar executar a regressão linear, é necessário certificar-se de que seus dados possam ser analisados usando este procedimento. Seus dados devem passar por determinadas premissas necessárias.

Veja como verificar essas premissas:

- As variáveis devem ser medidas a nível contínuo. Exemplos de variáveis contínuas são tempo, vendas, peso e pontuações de teste.  
- Use um gráfico de dispersão para descobrir rapidamente se há um relacionamento linear entre essas duas variáveis.
- As observações devem ser independentes umas das outras (isto é, não deve haver dependência).
- Seus dados não devem possuir valores discrepantes significativos.  
- Verifique a homoscedasticidade, que é um conceito estatístico no qual as variações ao longo da linha de regressão linear de melhor ajuste permaneçam semelhantes por toda a linha.
- Os resíduos (erros) da linha de regressão de melhor ajuste seguem a distribuição normal.

In [None]:
Modelos lineares não sabem o que é possível ou não na vida real.
Isso significa que eles podem fornecer previsões que não fazem sentido quando aplicadas aos seus dados.
Você precisa entender o que seus dados significam para determinar se uma previsão é absurda ou não.