# Regressão linear simples

Descrever algum problema com correlação linear aqui

In [1]:
import numpy as np
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3 ,4, 5 ,6])

Podemos então definir uma hipótese a partir das constantes $\alpha$ e $\beta$ tal que:

$$y_i = \alpha x_i + \beta + \epsilon_i$$

Sendo $y_i$ é o XXXXX, $x_i$ é o XXXXXX e o termo $\epsilon_i$ é o termo de erro (esperamos que pequeno) representando que existem fatores não levados em consideração para este modelo simples.

Supondo que temos $\alpha$ e $\beta$, podemos fazer uma previsão através facilmente.

In [2]:
def predict(alpha, beta, x_i):
    return alpha*x_i + beta

Como vamos escolher as constântes $\alpha$ e $\beta$?

Sabendo que podemos calcular a saída prevista com a função "predict" e sabendo qual é a saída real, é possível calcularmos o erro de cada previsão fazendo a diferença entre a saída real e a saída prevista.

In [3]:
def error(alpha, beta, x_i, y_i):
    return y_i - predict(alpha, beta, x_i)

No entanto esta função de erro calcula apenas o erro de uma saída, e não de todas elas. Ainda que podemos ter uma saída com erro positivo cancelando uma outra saída com erro negativo. Então, devemos somar todos os erros e elevá-los ao quadrado para que todos erros sejam positivos.

In [4]:
def sum_square_error(alpha, beta, x, y):
    return sum(error(alpha, beta, x_i, y_i) ** 2 for x_i, y_i in zip(x,y))

Agora podemos ver a regressão como um problema de otimização. Devemos minimizar esta função de soma dos erros quadráticos. Isto é um problema conhecido na algebra linear como quadrados mínimos e sua resolução dá as equações:

$$\alpha = \bar{y} = \beta\bar{x}$$

$$\beta = correlação(x, y) \times \frac{\sigma(y)}{\sigma(x)}$$

Sendo $\bar{x}$ e $\bar{y}$ as médias dos valores de x e y, correlação(x, y) é a correlação entre os valores de x e y, e $\sigma(x)$, $\sigma(y)$ os desvios padrões de x e y.

Assim, vamos definir uma função para minimizar os valores de $\alpha$ e $\beta$. 

In [7]:
def least_squares(x, y):
    beta = np.corrcoef(x,y)[0,1] * y.std() / x.std()
    alpha = y.mean() - beta * x.mean()
    return alpha, beta

In [9]:
alpha, beta = least_squares(x, y)

In [10]:
sum_square_error(alpha, beta, x, y)

8.085824278515371e-30