# Introdução a regressão linear

A regressão linear é uma técnica estatística utilizada para modelar a relação entre duas ou mais variáveis. O objetivo principal da regressão linear é prever o valor de uma variável dependente (ou resposta) com base em uma ou mais variáveis independentes (ou preditoras). 



Primeiro, vamos entender o que significa o termo "linear".

Um modelo é linear quando pode ser escrito no seguinte formato:

$$
\mathrm{Resposta} = \mathrm{constante} + \mathrm{parâmetro} \times \mathrm{preditor} + ... + \mathrm{parâmetro} \times \mathrm{preditor}
$$

Ou seja, quando cada termo (no modelo) é uma constante ou o produto de um parâmetro e uma variável preditora.

Portanto, ambos abaixo são modelos lineares:

- $ y = w_0 + w_1 x_1 $ (Esta é uma linha reta)
- $ y = w_0 + w_1 x_1^2 $ (Esta é uma curva)

Se o modelo não puder ser expresso usando o formato acima, ele é não-linear.  Exemplos de modelos não-lineares:

- $ Y = w_0 + x_1^{w_1} $
- $ Y = w_0 \cdot \cos(w_1 \cdot x_1) $

## Tipos de Regressão Linear

1. **Regressão Linear Simples:**
   - Envolve uma única variável independente e uma variável dependente.
   - O modelo assume a forma:
     $$
     y = w_0 + w_1x + \epsilon
     $$
     onde:
     - $ y $ é a variável dependente.
     - $ x $ é a variável independente.
     - $ w_0 $ é o intercepto (valor de $ y $ quando $ x $ é zero).
     - $ w_1 $ é o coeficiente de inclinação (mostra a mudança em $ y $ para cada unidade de mudança em $ x $).
     - $ \epsilon $ é o termo de erro (diferença entre o valor observado e o valor previsto).

2. **Regressão Linear Múltipla:**
   - Envolve duas ou mais variáveis independentes.
   - O modelo assume a forma:
     $$
     y = w_0 + w_1x_1 + w_2x_2 + \cdots + w_nx_n + \epsilon
     $$
     onde $ x_1, x_2, \ldots, x_n $ são as variáveis independentes e $ w_1, w_2, \ldots, w_n $ são os coeficientes correspondentes.

## Objetivos da Regressão Linear

1. **Previsão:** Utilizar a relação entre as variáveis para prever o valor da variável dependente com base em novos valores das variáveis independentes.
2. **Interpretação:** Compreender a relação entre as variáveis, incluindo a direção e a magnitude dos efeitos das variáveis independentes sobre a variável dependente.
3. **Avaliação:** Avaliar a força e a significância das relações entre as variáveis através de medidas estatísticas como o coeficiente de determinação ($R^2$) e testes de significância.

### Exemplo Intuitivo

Imagine que você deseja prever o preço de venda de casas com base em seu tamanho. Você coleta dados sobre o tamanho (em metros quadrados) e os preços de várias casas vendidas recentemente. 

- Na **regressão linear simples**, você ajusta uma linha reta aos dados que melhor descreva a relação entre o tamanho da casa e o preço de venda. A equação da linha pode ser algo como:
  $$
  \text{Preço} = w_0 + w_1 \times \text{Tamanho}
  $$

- Com base nessa equação, você pode prever o preço de uma casa com um tamanho específico, entender como o tamanho afeta o preço e avaliar se a relação é forte e significativa.


### Terminologia

- **Características (features):** As características de um ponto de dados são aquelas propriedades que usamos para fazer nossa previsão. No exemplo da casa, as características são o número de quartos na casa, a taxa de criminalidade, a idade da casa, o tamanho, e assim por diante. Para nosso exemplo, decidimos por uma característica: o tamanho casa.

- **Rótulos (labels):** Este é o alvo que tentamos prever a partir das características. Neste caso, o rótulo é o preço da casa.

- **Modelo (model):** Um modelo de aprendizado de máquina é uma regra, ou uma fórmula, que prevê um rótulo a partir das características. Neste caso, o modelo é a equação que encontramos para o preço.

- **Previsão (prediction):** A previsão é a saída do modelo. Se o modelo diz: “Eu acho que a casa com quatro quartos vai custar $300”, então a previsão é 300.

- **Pesos (weights):** Na fórmula correspondente ao modelo, cada característica é multiplicada por um fator ou parâmetro correspondente. Esses parâmetros são os pesos. Na fórmula anterior, a única característica é o tamanho, e o peso correspondente é $w_1$.

- **Viés (bias):** Como você pode ver, a fórmula correspondente ao modelo tem uma constante que não está associada a nenhuma das características. Essa constante é chamada de *bias*. Neste modelo, o bias é $w_0$, e corresponde ao preço base de uma casa.

## Coeficientes de uma regressão linear simples

Em uma regressão linear simples, temos dois coeficientes:

1. **Intercepto ($w_0$):** O valor de $y$ quando $x$ é zero.
2. **Coeficiente de inclinação ($w_1$):** A mudança em $y$ para cada unidade de mudança em $x$.



![Screenshot 2024-08-07 085046.png](attachment:6e607610-cead-45c2-9510-7abe57cf8b47.png)

![Screenshot 2024-08-07 085114.png](attachment:f0d4b7e1-fd8d-4e78-b3f6-3802f1b09699.png)

### Noção de erro

![Screenshot 2024-08-07 085252.png](attachment:258063f9-4c16-4a5e-a6f4-e73cd9185821.png)

![Screenshot 2024-08-07 090313.png](attachment:809e14da-259e-48ad-9a22-73d6df9eae7c.png)

![Screenshot 2024-08-07 090351.png](attachment:4395a09e-7fb8-4840-83af-ee380bbcf143.png)

![Screenshot 2024-08-07 090407.png](attachment:00b01079-9e70-4be2-af71-8a007743916e.png)

![Screenshot 2024-08-07 090512.png](attachment:a7eafb83-6fec-4405-8e67-fad5e4ad3f1e.png)