# REGRESSÃO LINEAR

# DEFINIÇÕES

**TEORIA**
* Previsão de uma variável numérica (_variável independente/alvo_) com base no valor de uma (_regressão linear simples_) ou mais (_regressão linear múltipla_) variáveis (_variáveis independentes/preditoras_)


**EXPRESSÃO MATEMÁTICA**
* $ y = \alpha + \beta * X_{i} + \epsilon _{i} $
    * $ y $: variável dependente
    * $ X_{i} $: variável independente
    * $ \alpha $: constante referente à interceptação da reta com o eixo vertical
    * $ \beta $: _coeficiente linear_ referente à inclinição da reta em relação à variável independente
    * $ \epsilon _{i} $: valores residuais
* O ajuste da função busca encontrar os valores de $ \alpha $ e $ \beta $, sendo o valor de $ \epsilon $ referente à possíveis erros e desvios

**VISUALIZAÇÃO**
* Regressão linear simples: a expressão matemática é representada por uma _linha reta_
* Regressão linear múltipla: a expressão matemática é representada por uma _superfície plana_ n-dimensional

**QUANDO UTILIZAR**
* Linearidade: há relação linear, de moderada a muito forte, entre a variável dependente e a(s) variável(eis) independente(s)
* Homogeneidade da variância: a variância é constante/homogênea em todo o conjunto da amostra, sendo independente dos valores das variáveis independentes
* Multicolinearidade e Independência dos erros: as variáveis independentes, bem como seus erros, não devem ser colineares (correlacionadas)

|            Valor            |  Correlação |
|-----------------------------|-------------|
|     0.00 - $ \pm $ 0.19     | Muito fraca |
| $ \pm $ 0.20 - $ \pm $ 0.39 |    Fraca    |
| $ \pm $ 0.40 - $ \pm $ 0.69 |   Moderada  |
| $ \pm $ 0.70 - $ \pm $ 0.89 |    Forte    |
| $ \pm $ 0.90 - $ \pm $ 1.00 | Muito forte |


**AVALIAÇÃO DO MODELO**
* Independência residual: espera-se uma _distribuição normal_ dos resíduos (sem padrão identificável). É possível usar testes matemáticas, como Durbin-Watson, para determinar a independência residual
* SQR (Soma dos Quadrados dos Resíduos): variação da variável dependente que não é explicada pelo modelo
    * $ SQR = \sum_{i=1}^{n} e_{i}^{2} = \sum_{i=1}^{n} (y_{i} - \hat y)^{2} $
* $ R^2 $: coeficiente de determinação, ou coeficiente de determinação múltiplica para a regressão linear múltipla, que descreve o percentual do modelo capaz de explicar a variação dos dados observados
* MAE (Erro Médio Absoluto): média dos resíduos de todos os pontos ajustados
    * $ MAE = \frac{1}{n} \sum |y - \hat y| $
* MSE (Média dos Erros ao Quadrado): média do quadrado dos resíduos de todos os pontos ajustados
    * $ MAE = \frac{1}{n} \sum (y - \hat y)^2 $

# MACHINE LEARNING

**MODELO DE APRENDIZADO**
* Modelo de aprendizado supervisionado

**BIBLIOTECAS E PACOTES**
```python
sklearn.linear_model.LinearRegression(
    fit_intercept=True,
    copy_X=True,
    n_jobs=None,
    positive=False
)
```

**PARÂMETROS**
* *fit_intercept*:
* *copy_X*:
* *n_jobs*: parâmetro int para decisão de quantos job serão realizados no processamento (_n_jobs = -1_ utiliza todos os processadores)
* *positive*: parâmetro bool para decisão se todos os coeficientes devem ou não serem positivos

**ATRIBUTOS**
* *coef_*:
* *rank_*:
* *singular_*:
* *intercept_*:
* *n_features_in_*:
* *feature_names_in_*:

**MÉTODOS**
* *fit()*: realiza o treinamento para criação do modelo
* *get_params()*: retorna os parâmetros do modelo criado
* *predict()*: realiza o ajuste do modelo
* *score()*: retorna o coeficiente de determinação ($ R^2 $) do modelo ajustado
* *set_params()*: permite a definição dos parâmetros utilizados para ajuste do modelo

# IMPLEMENTAÇÃO