# Regressão Linear

Tenta minimizar a distância de uma reta para todos os pontos.

$y = alfa + beta*x$

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import statsmodels.api as sm
import matplotlib.pyplot as plt

In [None]:
data = pd.read_excel('Regressão Linear (Housing Price).xlsx')

In [None]:
data.head()

In [None]:
data[['House Price', 'House Size (sq.ft.)']].head()

## A regressão é univariada, ou seja, trabalha somente com 2 variáveis

### Como plotar gráficos de regressões:

In [None]:
# Definindo as variáveis x e y

x = data['House Size (sq.ft.)']
y = data['House Price']

In [None]:
# Gerando um gráfico de dispersão, conseguimos ver a relação deles

plt.scatter(x,y)
plt.show()

In [None]:
# Definindo os valores de inicio e fim dos axis(eixos) 

plt.scatter(x,y)
plt.axis([0,2500,0,1500000])
plt.show()

In [None]:
# Colocando nomes nos eixos

plt.scatter(x,y)
plt.axis([0,2500,0,1500000])
plt.ylabel('House Price')
plt.xlabel('House Size (sq.ft.)')
plt.show()

### Erros em regressões:

$y = alfa + beta*x + erro$

   * No caso de regressões lineares simples, os erros são a distâncias entre os pontos.
   * Portando, o melhor jeito de traçar uma reta no gráfico, é reduzindo ao máximo o erro.
   * Esse método é chamado de MMQ.

### Teste de significância:

$R^2: $ é uma medida que mede a variabilidade da dispersão, ou seja, o quanto essa regressão faz sentido (teste de significância). Ele varia de 0 a 100 e quanto maior melhor. (30% ou mais é um bom indicador)

$R^2 = 1 - SSR/SST$


$SST: $ é a soma de quadrados entre os dados e a média.

$SST = soma(y - média(y))^2$

$SSR: $ é a soma de quadrados entre a reta traçada e a média.

$SST = soma(f(x) - média(y))^2$

### Fazendo a regressão:

In [None]:
# Adicionar a variável independente como constante

x1 = sm.add_constant(x)

# OLS = MMQ

reg = sm.OLS(y,x1).fit()

In [None]:
# Todas as informações sobre a regressão

reg.summary()

In [None]:
# Extraindo informações para variáveis.

slope, intercept, r_value, p_value, std_err = stats.linregress(x,y)

print(slope) # beta
print(intercept) # alfa
print(r_value) # r (tem q elevar ao quadrado)
print(p_value) # p
print(std_err) # erro padrão

In [None]:
# Plotando a regressão linear em um gráfico

plt.scatter(x,y)
plt.axis([0,2500,0,1500000])
plt.ylabel('House Price')
plt.xlabel('House Size (sq.ft.)')

reg_y = []

for i in range(2500):
    reg_y.append(slope*i+intercept)

plt.plot(x)
plt.plot(reg_y)

plt.show()