# Regressão Linear Simples

## Sumário

* <a href="">Introdução</a>

---

<h2 id="#id1">1) Introdução</h2>

A regressão linear simples modela o relacionamento entre a magnitude de uma variável e aquela de uma segunda - por exemplo, conforme X aumenta, Y também aumenta. Ou conforme X aumenta, Y diminui. A correlação é outro jeito de medir como duas variáveis estão relacionadas. A diferença é que enquanto a correlação mede a força de uma associação entre duas variáveis, a regressão quantifica a natureza do relacionamento.

É um processo de Machine Learning supervisionado. É semelhante à classificação, mas, em vez de prever um rótulo, tentamos prever um valor contínuo. Se você estiver tentando prever um número, utilize a regressão.

* **Variável independente (x) -> Variável dependente (y)**<br/>
Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas de tal forma que uma variável possa ser predita a partir de outra.

<h3 id="#id1_1">1.1) Termos-Chave</h3>

* **Resposta**: A variável que estamos tentando prever. *Sinônimos*: Variável dependente, variável Y, alvo, resultado.
* **Variável independente**: A variável usada para prever a resposta. *Sinônimos*: Variável X, característica, atributo.
* **Registro**: O vetor de valores preditor e de resultado para um indivíduo ou caso específico. *Sinônimos*: linha, caso, exemplo.
* **Intercepto**: O interceptor da linha de regressão - ou seja, o valor previsto quando X = 0. *Sinônimos*: b0, ß0.
* **Coeficiente de Regressão**: O declive da linha de regressão s. *Sinônimos*: declive, b1, ß1, estimativas de parâmetro, pesos.
* **Valores ajustados**: As estimativas Ŷi obtidas da linha de regressão. *Sinônimos*: Valores previstos.
* **Resíduo**: A diferença entre os valores observados e os valores ajustados. *Sinônimos*: erros.
* **Mínimos Quadrados**: O método de ajustar uma regressão pela minimização da soma dos quadrados dos resíduos. *Sinônimos*: mínimos quadrados ordinários.

---

<h2 id="#id2">2) A Equação de Regressão</h2>

A regressão linear simples estima exatamente o quanto Y mudará quando X mudar em uma certa quantidade. Com o coeficiente de correlação, as variáveis X e Y são intercambiáveis. Com a regressão, estamos tentando prever a variável Y a partir de X usando um relacionamento linear (ou seja, uma linha):

<img src="assets/00_linearRegression.jpg" alt="Fórmula da regressão linear" width="450">

Quando resolvida, temos um intercepto e um coeficiente. O intercepto nos dá um valor de base para uma predição, modificado pela soma do produto entre o coeficiente e o dado de entrada. Esse formato pode ser generalizado para dimensões maiores. Nesse caso, cada atributo terá um coeficiente. Quando maior o valor absoluto do coeficiente, mais impacto terá o atributo no alvo.

O modelo pressupõe que a predição é uma combinação linear dos dados de entrada. Para alguns conjuntos de dados, isso não será suficientemente flexível. Mais complexidade poderá ser acrescentada por meio da transformação dos atributos (o transformador `preprocessing.PolynomialFeatures` do sklearn é capaz de criar combinações polinomiais dos atributos). Se isso resultar em overfitting, regressões ridge e lasso poderão ser usadas para regularizar o estimador. 

Esse modelo também é suscetível a **heterocedasticidade**. A heterocedasticidade é a ideia de que, à medida que os valores de entrada mudam, o erro da predição (ou resíduos) geralmente muda também.

Outra questão que deve ser considerada é a **multicolinearidade**. Se as colunas tiverem um alto nível de correlação, será mais difícil interpretar os coeficientes. Em geral, isso não causará impactos no modelo, mas apenas no significado dos coeficientes.

<h3 id="#id2_1">2.1) Propriedades do modelo</h3>

Um modelo de regressão linear tem as seguintes propriedades:
* **Eficiência na execução**: Use n_jobs para melhorar o desempenho.
* **Pré-processamento dos dados**: Padronize os dados antes de fazer o treinamento do modelo.
* **Para evitar overfitting**: Você pode simplificar o modelo não usando ou adicionando atributos polinomiais.
* **Interpretação dos resultados**: É possível interpretar os resultados como pesos para contribuição dos atributos, mas supõe-se que os atributos tenham uma distribuição normal e sejam independentes. Você pode remover atributos colineares para facilitar a interpretação. R² informará até que ponto a variância total do resultado é explicada pelo modelo.

Parâmetros da instância:
* **n_jobs**: Número de CPUs a ser usadas. -1 se todas.

Atributos após a adequação:
* **coef_**: Coeficientes da regressão linear.
* **intercept_**: Intercepto do modelo linear.

<h3 id="#id2_2">2.2) Exemplo básico do algoritmo</h3>

In [2]:
import pandas as pd
from sklearn import model_selection, preprocessing

df = pd.read_csv('../data/bostonhousing.csv')
bos_X = df.drop(columns=['MEDV'])
bos_y = df['MEDV']

for col in bos_X:
    bos_X[col].fillna(bos_X[col].median(), inplace=True)


bos_sX = preprocessing.StandardScaler().fit_transform(bos_X)
bos_sX_train, bos_sX_test, bos_sy_train, bos_sy_test = model_selection.train_test_split(bos_sX, bos_y, test_size=0.3, random_state=42)

In [4]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(bos_sX_train, bos_sy_train)
print(lr.score(bos_sX_test, bos_sy_test))
print(lr.coef_)

0.707643863232741
[-1.06748826  0.69833808 -0.0531295   0.93616181 -1.60647927  3.07697382
 -0.66808491 -2.96024937  1.65782613 -1.19340249 -1.92582778  1.05147265
 -3.37215831]
