# Regressão Linear Simples

## Modelo

Quando os dados de duas variáveis tem uma relação linear muito forte podemos criar um modelo linear

$Y_i = {\beta}x_i + \alpha +\epsilon_i$

Para preparar o modelo devemos presumir as constantes $\alpha$ e $\beta$

In [2]:
def predict(alpha: float, beta: float, x_i: float) -> float:
    return (beta * x_i) + alpha

Definição do erro

O erro prever ${\beta}x_i + \alpha$ quando o valor real é $y_i$

In [3]:
def erro (alpha: float, beta: float, x_i: float, y_i: float) -> float:
    return predict(alpha, beta, x_i)- y_i

De fato é melhor determinar o erro total no conjunto de dados. Mas não basta somar os erros, pois se a previsão para x_1 for muito alta a previsão para x_2 for muito baixa , talvez os erros se anulem

Em vez disso somaremos os erros quadráticos

In [6]:
from typing import List

Vector = List[float]

def sum_of_sqerro(alpha: float, beta: float, x: Vector, y: Vector) -> float:
    return sum(error(alpha, beta, x_i, y_i)**2
               for x_i, y_i in zip(x, y))

Nesse caso (zip(x, y)), ele serve para percorrer os vetores x e y ao mesmo tempo, pegando cada par (x_i, y_i) para calcular o erro quadrático.

## Solução dos Minimos Quadrados

Consiste em escolher o aplha e o beta de modo que o sum_of_sqerro seja o menor possivel

In [7]:
from typing import Tuple
import statistics as sts

def correlation(x: Vector, y: Vector) -> float:
    return statistics.correlation(x, y)

def standard_deviation(v: Vector) -> float:
    return statistics.pstdev(v)  # ou stdev(v), depende se quer populacional ou amostral

def mean(v: Vector) -> float:
    return statistics.mean(v)

def least_squares_fit(x: Vector, y: Vector) -> Tuple[float, float]:
    beta = correlation(x, y) * standard_deviation(y) / standard_deviation(x)
    alpha = mean(y) - beta * mean(x)
    return alpha, beta