# Regressão linear: Normalização

## O que vamos fazer?
- Criar um dataset sintético com características em diferentes intervalos de valores
- Formar um modelo de regressão linear sobre o dataset original
- Normalizar o dataset original
- Formar outro modelo de regressão linear sobre o dataset normalizado
- Comparar a formação de ambos os modelos

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Criação do dataset sintético

Vamos criar de novo um dataset sintético para regressão linear pelo método manual. 

Criar um dataset sintético com um termo de erro do 10% do valor de *Y*:

In [None]:
# TODO: Copiar o código de exercícios anteriores para gerar um dataset, com termo de bias e erro

m = 1000
n = 4

X = [...]

Theta_verd = [...]

error = 0.1

Y = [...]

In [None]:
# Comprovar os valores e dimensões dos vetores

print('Theta a estimar e as suas dimensões') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()


Agora vamos modificar o dataset para assegurar que cada característica, cada coluna de X, tem uma ordem de magnitude e uma média diferente.

Para isso, multiplicar cada coluna de X (exceto a primeira, o bias) por um intervalo e somar um valor diferente. O valor que somarmos será a media dessa característica ou coluna.

P. ex., $X_1 = X_1 * 10^3 + 3.1415926$

In [None]:
# TODO: Para cada coluna de X, multiplicar por um intervalo de valores e adicionar uma média diferente.

# As séries de intervalos e médias têm de ser de comprimento n
# Criar um array com as gamas de valores, por exemplo: 1e0, 1e3, 1e-2, 1e5
rangos = [...]

medias = [...]

X = [...]

Para comprovar os novos valores de X, pode voltar a executar a célula com o código para os imprimir.

Recordar que pode executar as células Jupyter numa ordem diferente da sua posição no documento. Os parênteses retos à esquerda das células irão marcar a ordem de execução, e as variáveis irão manter sempre os seus valores após a última célula executada, por isso **tenha cuidado!**.

## Formação e avaliação do modelo

Vamos voltar a formar um modelo de regressão linear. Desta vez, vamos formar primeiro no dataset original, sem normalizar, e depois voltar a formá-lo no dataset normalizado, para comparar ambos os modelos e processos de formação e ver os efeitos da normalização.

Para tal, deve copiar as células ou código de exercícios anteriores e formar um modelo de regressão linear multivariável, otimizado por gradient descent, no subset original.

Deve também copiar as células que comprovam a formação do modelo, representando a função custo vs. o número de iterações.

Não é necessário fazer previsões sobre estes dados nem avaliar os resíduos do modelo. Para os comparar, iremos fazer apenas através do custo final.

In [1]:
# TODO: Formar um modelo de regressão linear e representar graficamente a sua função de custo.

## Normalização dos dados

Vamos normalizar os dados do dataset original.

Para tal, vamos criar uma função de normalização que aplica a transformação necessária, de acordo com a fórmula:

$x = \frac{x - \mu_{x_j}}{\sigma_{x_j}}$

In [None]:
# TODO: Implementar uma função de normalização a um intervalo comum e com média 0

def normalize(x, mu, std):
    """ Normalizar um dataset com exemplos X
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os exemplos, sem termo de bias
    mu -- vetor 1D de Numpy com a média de cada característica/coluna
    std -- vetor 1D de Numpy com o desvio típico de cada característica/coluna
    
    Devolver:
    X norm -- array 2D de Numpy com os exemplos, com as suas características normalizadas 
    """
    return [...]

In [None]:
# TODO: Normalizar o dataset original usando a sua função de normalização.

# Encontrar a média e o desvio padrão das características de X (colunas), exceto a primeira (parcialidade).
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Média e desvio típico das características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normalizar apenas a coluna 1 e as colunas seguintes, 
print(X_norm)
print(X_norm.shape)

## Re-formação do modelo e comparação de resultados

Agora, voltar a formar o modelo no dataset normalizado. Comprovar o custo final e a iteração onde convergiu.

Para tal, pode voltar às células de formação do modelo e verificar a evolução da função custo e modificar o X utilizado por X_norm.

Em muitos casos, sendo um modelo tão simples, pode não se ver qualquer melhoria. Em função da capacidade do seu ambiente, tente utilizar um número maior de características e aumentar ligeiramente o termo de erro do dataset.

## Cuidado com o Theta original

Para o dataset original, antes de o normalizar, cumprir a relação $Y = X \times \Theta$.

No entanto, agora modificámos o X dessa função.

Portanto, comprovar o que acontece se quiser voltar a computar *Y* usando o *X* normalizado:

In [None]:
#  TODO: Comprovar se existem diferenças entre o Y original e o Y usando X normalizado

# Comprovar o valor de Y ao multiplicar X_norm e Theta_verd
Y_norm = [...]

# Comprovar se há diferenças entre Y_norm e Y
diff = Y_norm - Y

print('Diferenças entre Y_norm e Y:') 
print(diff)

### Fazer previsões

Da mesma forma, o que acontece quando vamos utilizar o modelo para fazer previsões?

Gerar um novo conjunto de dados X_pred seguindo o mesmo método que usou para o dataset original X, incorporando o termo de bias, multiplicando as suas características por um intervalo e acrescentando-lhes valores diferentes.

Da mesma forma, calcular o seu Y_pred_verd (sem termo de erro):

In [None]:
# TODO: Gerar um novo dataset com menos exemplos e o mesmo número de características que o dataset original.

X_pred = [...]

Y_pred_verd = np.matmul(X_pred, Theta_verd)

Agora comprovar se haveria alguma diferença entre o *Y_pred_verd* e o *Y_pred* que o seu modelo iria prever:

In [None]:
# TODO: Comprovar as diferenças entre o Y real e o Y prevista

Y_pred = np.matmul(X_pred, theta)

print('Diferenças entre Y real e Y previsto:') 
print(Y_pred_verd - Y_pred)

Dado que as previsões não são corretas, deveríamos previamente normalizar a nova *X_pred*:

In [None]:
# TODO: Normalizar a X_pred

X_pred[...] = normalize(X_pred[...], mu, std) 

print(X_pred)
print(X_pred.shape)

Desta vez não gerámos uma nova variável diferente ao normalizar, mas continua a ser a variável *X_pred*.

Assim, pode voltar a executar as células anteriores para, agora que o *X_pred* está normalizado, comprovar se existe alguma diferença entre o *Y* real e o *Y* previsto.

Por isso, recordar sempre:
- O *Theta* calculado na formação do modelo será sempre relativo ao dataset normalizado, e não pode ser utilizado para o dataset original, uma vez que é igual a *Y* e diferente de *X*, o *Theta* deve mudar.
- Para fazer previsões sobre novos exemplos, temos primeiro de os normalizar também, usando os mesmos valores de meios e desvios padrão que usámos originalmente para formar o modelo.