# Regressão linear 1: solução analítica


Dado o dataset $(\mathbf{x}_{1}, y_{1}), \dots ,(\mathbf{x}_{N}, y_{N})$ onde $\mathbf{x}_i \in \mathbb{R}^{n}$ e $y_i \in \mathbb{R}$, podemos aproximar a função escondida $f:\mathbb{R}^{n} \rightarrow \mathbb{R}$ (lembrando que $y_i =f(\mathbf{x}_i)$) por meio de um modelo linear $h$:
$$
h(\mathbf{x}_{i}; \mathbf{w}, b) = \mathbf{w}^\top . \mathbf{x}_{i} + b
$$

A saída de $h$ é uma transformação linear de $\mathbf{x}_{i}$. Usamos a notação $h(\mathbf{x}_{i}; \mathbf{w}, b)$ para deixar claro que $h$ é um modelo parametrizado, i.e., a transformação $h$ é definida pelos parâmetros $\mathbf{w}$ e $b$. Podemos pensar no vetor $\mathbf{w}$ como um vetor de *pesos* controlando o efeito de cada *feauture* na predição.

Adicionando uma feature a mais na obsevação $\mathbf{x}_{i}$ (com o valor 1) podemos simplificar a notação do modelo:

$$
h(\mathbf{x}_{i}; \mathbf{w}) = \hat{y}_{i} = \mathbf{w}^\top . \mathbf{x}_{i}
$$

Procuramos os melhores parametros $\mathbf{w}$ de modo que a predição $\hat{y}_{i}$ seja a mais próxima de $y_{i}$ de acordo com alguma métrica de erro. Usando o *erro quadrárico médio* como tal métrica podemos obter a seguinte função de custo:

$$
J(\mathbf{w}) = \frac{1}{2}\sum_{i=1}^{N}(\hat{y}_{i} - y_{i})^{2}
$$

Desse modo, a tarefa de achar os parametros $\mathbf{w}$ se torna a tarefa de encontrar os valores de $\mathbf{w}$ para minimizar $J(\mathbf{w})$.

**Aqui vamos começar a explorar esse modelo olhando para um dataset bem simples**


In [None]:
# all imports
import numpy as np
from util import get_hausing_prices_data, plot_points_regression

%matplotlib inline

### O dataset

Os dados que vamos trabalhar vão ser dados artificiais. Vamos pegar 100 observações com apenas uma *feature* (metros quadrados de um imóvel) e com isso vamos associar um valor (o preço desse imóvel em $). Nossa tarefa vai ser em contruir um modelo que consiga predizer o valor de imóveis.

In [None]:
X, y = get_hausing_prices_data(N=100)

### Plotando os dados

Acima temos algumas informações sobre os dados, podemos também visualizar cada ponto.

In [None]:
title = 'Real estate prices prediction'
xlabel = "m\u00b2"
ylabel = '$'
plot_points_regression(X, y, title, xlabel, ylabel)

Um modo de resolver o problema da regressão é por meio da forma fechada, a chamada **equação normal**:

$$
\mathbf{w} = (X^T . X)^{-1} . X^T . y
$$

- Problema: os dados precisam caber na memória
- Problema: conforme cresce o número de variáveis, o tempo da inversão da matriz fica proibitivo

### Exercício
Implemente a predição usando o método de equações normais. Usando apenas a biblioteca **numpy** voce deve completar a função abaixo de modo a adicionar uma *feature* (com apenas 1s) ao dataset e realizar a computação descrita acima. Depois tire o comentário das linhas para ver o resultado.

In [None]:
def normal_equation_prediction(X, y):
    """
    Calculates the prediction using the normal equation method.
    You should add a new row with 1s.

    :param X: design matrix
    :type X: np.array
    :param y: regression targets
    :type y: np.array
    :return: prediction
    :rtype: np.array
    """
    pass

# prediction = normal_equation_prediction(X, y) 
# plot_points_regression(X, y, title, xlabel, ylabel, prediction=prediction,legend=True)