# Linear Regression
Usamos a regressao linear para tentar prever um valor continuo, baseado nas caracteristicas fornecidas. Nela, temos a variavel dependente (y) que queremos prever, e variaveis independentes (x) que utilizamos como previsoras.

Basicamente, existem dois tipos de modelo de regressao:
- Regressao Simples: Eh quando usamos uma variavel independente para prever uma variavel dependente. Pode ser Linear ou Nao-Linear.
- Regressao Multipla: Eh quando usamos multiplas variaveis independentes para prever uma variavel dependente. Tambem pode ser Linear ou Nao-Linear

## Regressao Linear Simples
A formula da regressao linear eh dada por:
$$
\hat{y} = \beta_0 + \beta_1 x
$$
Essa formula descreve a relacao entre a variavel dependente yhat e a variavel independente x, usando uma reta. On yhat eh o valor previsto, B0 eh o coeficiente linear da reta, e o B1 eh o coeficiente angular da reta, e x eh a variavel preditora.

Dessa forma, a regressao linear tenta encontrar os valores de B0 e B1 que minimizam a distancia de erro dos valores observados e previstos, que eh onde usamos o MSE para quantificar este erro.


Abaixo, segue a formula do MSE.
$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2
$$
O MSE eh uma metrica para avaliar a precisao de um modelo de regressao. Faz isso atraves do calculo da diferenca entre os valores observados e os valores previstos pela nossa regressao. Ele eh calculado pela media dos quadrados dessas diferencas. Um MSE baixo indica que os valores previstos estao proximos dos valores observados, em contra partida, um MSE alto indica que os valores previstos estao distantes dos valores observados.

# Model Evaluation
Vamos verificar duas formas de avaliacao: treino e teste no mesmo dataset, e train_test_split.

__Treino e Teste no mesmo dataset__:

Treinamos o modelo usando o mesmo conjunto de dados. Ou seja, utilizamos todos os dados disponiveis para ajustar os parametros do modelo, e seu desempenho eh avaliado com base nesses __mesmos dados__.
- Vantagem: Simplicidade
- Desvantagem: O modelo pode facilmente acabar em Overfitting. Isso faz com que o modelo tenha uma alta acuracia nos dados de treino, mas uma acuracia ruim ao inputarmos dados que ele nao viu antes.

__Train/Test Split__:

Neste caso, separamos uma parte dos dados para treino e outra parte dos dados para teste. Essa divisao, geralmente, acaba sendo feita de forma aleatoria, usando uma proporcao de separacao padrao, como 30% para teste e 70% para treino.
- Vantagem: Avaliamos o desempenho do modelo com base em dados que ele nao viu no treinamento, o que nos da uma visao melhor da generalizacao.
- Desvantagem: Em datasets pequenos, podemos perder a capacidade de ajuste do modelo.

# Evaluation Metrics
Vamos falar um pouco sobre 3 metricas importantes: MAE (Mean Absolute Error), MSE (Mean Squared Error), RMSE (Root Mean Squared Error).

Mas antes disso, o que eh um erro? O erro eh a medida de o quao distante o valor do dado real esta da previsao realizada.  

**MAE (Erro Médio Absoluto)**

Eh a media do valor absoluto dos erros. Ela calcula a media das diferencas absolutas entre os valores reais e os valores previstos. Ou seja, verifica o quanto as previsoes estao distantes dos valores reais.

$$
\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_{\text{true}} - y_{\text{pred}}|
$$

- Vantagem: Nao amplifica grandes erros, pois trabalha com valores absolutos
- Desvantagem: Nao considera a direcao do erro.

**MSE (Erro Quadrático Médio)**

Eh a media dos quadrados das diferencas entre os valores reais e os valores previstos. Ela penaliza grandes erros de forma mais severa, pelo fato de elevar os erros ao quadrado.

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_{\text{true}} - y_{\text{pred}})^2
$$

- Vantagem: Destaca grandes erros
- Desvantagem: Pode dificultar a interpretacao, pois o MSE nao esta na mesma unidade que os dados originais.

**RMSE (Raiz do Erro Quadrático Médio)**

Eh a raiz quadrada do MSE, o que coloca a metrica de volta na mesma unidade dos dados originais. Ela tambem da mais peso a grandes erros, mas coloca esses erros na mesma unidade que os dados originais, o que facilita nossa interpretacao.

$$
\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_{\text{true}} - y_{\text{pred}})^2}
$$

- Vantagem: Eh mais interpretavel
- Desvantagem: Pode exagerar na importancia de grandes erros caso existam outliers.

**RAE (Erro Absoluto Relativo)**
Eh uma metrica que compara o erro absoluto total de um modelo com o erro absoluto total de um modelo de referencia, que geralmente eh a media dos valores observados. Ele normaliza o erro ao dividir o erro absoluto total das previsoes pelo erro absoluto total em torno da media dos dados reais. Dessa forma, ele mede o quao bem o modelo se sai em relacao a uma previsao basica, como a media de valores reais.

$$
RAE = \frac{\sum |y_i - \hat{y}_i|}{\sum |y_i - \bar{y}|}
$$

- Vantagem: Possui interpretacao simples, e nao depende da escala dos dados.
- Desvantagem: Eh muito influenciado por outliers.

**RSE (Erro Quadratico Relativo)**
Compara o erro quadratico de um modelo com o erro quadratico de um modelo de referencia, que tambem geralmente eh a media dos valores observados. 

$$
RSE = \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$

- Vantagem: Permite comparar o desempenho de um modelo com outro modelo de media, penaliza grandes diferencas entre valores reais e previstos de forma severa.
- Desvantagem: Outliers tambem afetam de forma importante essa metrica.

**R2 (Coeficiente de Determinacao R2)**

Mede a proporcao da variabilidade nos dados que eh explicada pelo modelo. O R2 varia entre valores de 0 e 1, onde 1 significa que o modelo explica toda sua variabilidade, enquanto 0 indica que o modelo nao explica nada sobre a variabilidade.

$$
R^2 = 1 - RSE
$$

- Vantagem: Eh de facil interpretacao, e nao eh influenciado pela escala dos dados.
- Desvantagem: Nao penaliza o overfitting, pois um valor alto de R2 nao significa necessariamente que o modelo esta generalizavel para novos dados. Em alguns casos, principalmente em modelos ruins, o R2 pode vir a ser negativo,  que indica que o modelo eh pior que usar simplesmente a media dos dados.

# Regressao Linear Multipla
Quando possuimos multiplas variaveis independentes, aplicamos a regressao linear multipla. 

Existem dois tipos de aplicacoes para a regressao linear multipla:
- Quando queremos identificar a forca do efeito que as variaveis independentes possuem sobre a variavel dependente.
- Prever o impacto de algumas mudancas. Ou seja, enteder como a variavel depentende muda conforme a variavel independente muda tambem.

Da mesma forma que a regressao linear simples, o objetivo da multipla eh prever um valor continuo a partir de muitas outras variaveis independentes. A equacao utilizada eh a que segue abaixo.

$$
\hat{y} = \theta^T X
$$

Para estimar os valores de theta, podemos aplicar o metodo dos Mínimos Quadrados Ordinários. Tambem podemos aplicar algoritmos de otimizacao para encontrar os melhores parametros, como o Gradiente Descendente.