# Regressão Linear.
Surgiu em 1885, com o matemático estatístico Francis Galton. As primeiras aplicações surgiram na Antroprometria, ou seja, o estudo das medidas e da matemática.
$\newline$ No caso Galton observou que filhos de pais com altura baixa em relação à média tendem a ser mais altos que seus pais, e filhos de pais com estatura alta em relação à média tendem a ser mais baixos que seus pais, ou seja, as alturas dos seres humanos em geral tendem a regredir à média.
## Conceitos. 
Antes de prosseguir, há alguns conceitos importantes que precisam estar bem claros.
* Variáveis idependente ou preditora: é aquela que será passada para o modelo, tendo influência na variável que queremos encontrar.
* Variável alvo ou dependente: é a variável que queremos prever.

Regressão linear é um algoritmo supervisionado de machine learning usado para estimar o valor de algo baseado em uma série de outros dados históricos, portanto olhadno o passado você pode "prever" o futuro.


## Objetivo.
É encontrar uma reta que consiga definir bem os dados e minimiazar a difença entre valor real e a saída calculada pelo modelo.
$$f(X) = w_0 + w_1\cdot x_1$$
## Otimizando as variáveis de Decisão(Least square method).
$$E = \frac{1}{} \sum^{n}_{i=1}(y_i - h_i)^2$$
$$E = \frac{1}{n} \sum^{n}_{i=1} (y_i - (w_1 \cdot x_i + w_0))$$
* Para minimizar o erro.
$$w_1 = \frac{\partial E}{\partial w_1} = \frac{\sum^{n}_{i=1} (x_i - \overline{x})(y_i - \overline{y})}{\sum{n}{i=1} (x_i - \overline{x})^2} = 0$$
$$w_0 = \frac{\partial E }{\partial w_0} = y - w_1 \cdot \overline{x} = 0$$

## Regressão linear simples.
Refere-se quando temos somente uma variável independente X para fazermos a predição.

## Regresão linear multipla.
Refere-se a variável independentes X usadas para fazer a predição.


E com isso a forma de representação de cada regressão varia conforme  o tipo, como exemplo a representação gráfica em uma regressão linear simples é uma reta em um plano de 2 dimensões, ja em uma regressão linear multipla, sua representação é feita em um plano de n dimensões.

![img](https://miro.medium.com/max/700/1*kYeEvedeSMcI2ppvLSDaKw.png)

## Casos de uso da regressão linear.
* Predição de vendas.
* Predição de consumo de recursos.
* Predição de custo de suprimentos.
* Predição de cliclo de vida de serviços de telecomunicações.


## Pressuposto.
* Todas as variáveis continuas, numéricas, não categóricas.
* Os conjuntos de dados não pode ter outliers ou valores em branco.
* Precisa existir uma relação linear entre os preditores e o predito.
* Todos os preditores são independentes uma das outras.
* Risiduais (erro de predição) têm distribuição normal.

# Prática.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import rcParams
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import scale


In [None]:
caminho = ''
inscritos = pd.read_csv(caminho)
inscritos.columns = ['year' , 'roll', 'unem', 'hgrad', 'inc']

In [None]:
sns.pairplot(inscritos)

In [None]:
print(inscritos.corr())

In [None]:
inscritos_cols = ['unem', 'hgrad']
inscritos_data = inscritos[inscritos_cols].values

inscritos_target = inscritos['roll'].values

X, y = scalar(inscritos_data).inscritos_target

In [None]:
branco = X == np.NAN
X[branco == True]

In [None]:
Lin_reg = LinearRegression(normalize=True)

In [None]:
Lin_reg.fit(X,y)

In [None]:
print(Lin_reg.score(X,y))