# Regressão linear multivariável: Datasets sintéticos

## O que vamos fazer?
- Criar um dataset sintético (artificial) com Numpy
- Criar um dataset sintético com um termo de erro aleatório
- Criar um dataset sintético com parâmetros não considerados
- Criar um dataset sintético usando Scikit-learn

In [None]:
import numpy as np

from matplotlib import pyplot as plt

Um dataset sintético é um exemplo de dataset criado artificialmente. Estes dataset são muito úteis para comprovar algoritmos e a nossa implementação, pois podemos controlar as características do dataset em todo o momento.

Da mesma forma, uma vez que a influência do dataset de formação e a sua limpeza, pré-processamento, etc., são fundamentais para a formação de modelos ML, quando vamos fazer uma implementação pela primeira vez não seria difícil encontrar múltiplos datasets com características controladas e, em particular, estar seguro se possíveis erros na formação são causados pela nossa implementação ou pelos dados de origem.

Completar o código nas células seguintes de acordo com as instruções para criar os diferentes dataset sintéticos.

## Tarefa 1: criar um dataset sistético com Numpy

Para esta tarefa vamos criar um dataset sintético usando as funções Numpy. Com este método, podemos controlar completamente as 
características do dataset.

Recordar a equação de regressão linear múltipla e as dimensões dos vetores:

$Y = X \times \Theta^T$

m = nº de exemplos

n = número de características/coeficientes

$Y_{m \times 1}$

$X_{m \times n}$

$\Theta_{1 \times n}$: Pode transpor $\Theta$ ou implementar como um vetor coluna.

In [None]:
# TODO: Criar as seguintes matrizes que definem o dataset original

# Escolher alguns valores de m e n (tipo: int)
m = 0
n = 0

# X é um array 2D m x n de números aleatórios entre -100 e 100.
# Usar funções Numpy para gerar um array m x n de números aleatórios entre [0, 1)
# Número aleatório no intervalo [a, b): ndarray * (b - a) + a, onde a = -100 e b = 100
X = [...]

# Inserir o termo bias b ou X0 para paralelizar a equação.
# Inserir uma coluna de 1. (float) à esquerda de X com a função inserir np.insert() do Numpy
X = X

# Theta é um array 1D 1 x n que também podemos implementar como n x 1 (coluna ou linha)
# gerar com n + 1 elementos aleatórios [0, 1) para adicionar o termo bias
Theta = [...]

# Computar Y multiplicando os vetores X e Theta com np.matmul()
Y = [...]

# Verificar os valores e dimensões (forma o "shape") das matrizes com a propriedade ndarray.shape
print('Theta a estimar') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print('shape', 'shape')

In [None]:
# TODO: Representar X vs Y num gráfico de pontos Matplotlib
# A partir de agora, tentar usar etiquetas para os eixos e um título do gráfico.

plt.figure()

# O seu código aqui

plt.show()

Uma vez implementado corretamente, porque não varia os termos m e n e comprova que pode criar arrays de várias dimensões?

## Tarefa 2: Criar um dataset sintético com um termo de error aleatório

Agora vamos repetir os passos do ponto anterior, mas acrescentando um termo de erro aleatório a Y, para fazer um dataset com dados não tão precisos, mas semelhantes a uma situação real, podendo controlar este erro.

In [None]:
# TODO: Criar as seguintes matrizes que definem o dataset original com um termo de erro aleatório

# Escolher alguns valores de m e n (tipo: int)
m = 0
n = 0

# X é um array 2D m x n de números aleatórios entre -100 e 100.
# Usar funções Numpy para gerar um array m x n de números aleatórios entre [0, 1)
# Número aleatório no intervalo [a, b): ndarray * (b - a) + a, onde a = -100 e b = 100
X = [...]

# Inserir o termo bias b ou X0 para paralelizar a equação.
# Inserir uma coluna de 1. (float) à esquerda de X com a função inserir np.insert() do Numpy
X = X

# Theta é um array 1D 1 x n que também podemos implementar como n x 1 (coluna ou linha)
# Gerar com n + 1 elementos aleatórios [0, 1) para adicionar o termo bias
Theta = [...]

# Computar Y multiplicando os vetores X e Theta com np.matmul()
Y = [...]

# A partir daqui, adicionamos o termo de erro e em percentagem (0,1 = 10%, 0,25 = 25%, etc.).
e = 0.1

# Na linha seguinte, substituir “termino_error” por um termo que represente um número aleatório no ran
# Assim, o termo de erro será uma percentagem de +/- o termo de erro sobre o valor Y original.
Y_final = Y + Y * termino_error

# Verificar os valores e dimensões (forma o "shape") das matrizes com a propriedade ndarray.shape
print('Theta a estimar') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print('shape', 'shape')

Variar o termo de erro para verificar o seu efeito no Y_final.

*Atreve-se a representar graficamente Y vs X e Y_final vs X para apreciar o termo de erro?*

In [None]:
# TODO: Representar X vs Y e X vs Y_final num gráfico de pontos Matplotlib

plt.figure()

# O seu código aqui

plt.show()

## Tarefa 3: Criar um dataset sintético com parâmetros não considerados

Por vezes, com datasets da vida real, acontece que a nossa variável Y é influenciada por múltiplas características, das quais podemos nãoconsiderar todas. Imagine, por exemplo, uma avaliação de casas, mas com algumas características que os clientes têm em consideração, mas não as temos disponíveis no nosso dataset de formação. Por exemplo, a proximidade da paragem mais próxima do metro, autocarro ou comboio urbano, a hora da saída da autoestrada mais próxima, a modernidade do bairro ou a diferença nos impostos municipais em comparação com outros municípios próximos.

Nesses casos, queremos comparar a nossa implementação ou os nossos modelos com modelos que têm em conta mais ou menos 
as características que efetivamente afetam a variável Y.

Portanto, um dataset sintético muito útil nestas ocasiões seria aquele que é dado por múltiplas características (múltiplas colunas de X), mas cujas colunas são finalmente reduzidas a um número menor quando se forma o nosso modelo.

In [None]:
# TODO: Criar as seguintes matrizes que definem o dataset original com um termo de erro aleatório

# Escolher alguns valores de m e n (tipo: int)
m = 0
n = 0

# X é um array 2D m x n de números aleatórios entre -100 e 100.
# Usar funções Numpy para gerar um array m x n de números aleatórios entre [0, 1)
# Número aleatório no intervalo [a, b): ndarray * (b - a) + a, onde a = -100 e b = 100
X = [...]

# Inserir o termo bias b ou X0 para paralelizar a equação.
# Inserir uma coluna de 1. (float) à esquerda de X com a função inserir np.insert() do Numpy
X = X

# Theta é um array 1D 1 x n que também podemos implementar como n x 1 (coluna ou linha)
# Gerar com n + 1 elementos aleatórios [0, 1) para adicionar o termo bias
Theta = [...]

# Computar Y multiplicando os vetores X e Theta com np.matmul()
Y = [...]

# A partir daqui, adicionamos o termo de erro e em percentagem (0,1 = 10%, 0,25 = 25%, etc.).
e = 0.1

# Na linha seguinte, substituir “termino_error” por um termo que represente um número aleatório no ran
# Assim, o termo de erro será uma percentagem de +/- o termo de erro sobre o valor Y original.
Y = Y + Y * termino_error

# Finalmente, restringir o número de colunas X e valores Theta a serem considerados apenas aos primeiros n_final.
# Pode usar os slices Numpy/Python para isso
n_final

Y_final = [Y] 
X_final = [X]

# Verificar os valores e dimensões (forma o "shape") das matrizes com a propriedade ndarray.shape
print('Theta a estimar') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:')
print('shape', 'shape')

## Tarefa 4: Criar um dataset sintético com Scikit-learn

Scikit-learn vem com vários módulos para disponibilizar datasets para desenvolvimento ou avaliação. Normalmente utilizamos datasets gerados sinteticamente para desenvolvimento, e utilizamos alguns dos conjuntos de dados mais comuns para avaliar e comparar diferentes algoritmos e implementações, como veremos durante o curso.

As ferramentas para carregar e gerar datasets podem ser encontradas na documentação: https://scikit-learn.org/stable/datasets.html

Recordar que, habitualmente, cada página da documentação inclui vários notebooks com exemplos do seu uso.

Rever a documentação em detalhe, posto que estas funções as poderá utilizar durante o curso para qualquer dataset que 
necessite descarregar ou gerar sinteticamente.

In [None]:
# TODO: Utilizar as funções Scikit-learn para gerar um conjunto de dados sintéticos concebido para resolver um problema.
# Escolher a função certa para o mesmo

# Importar o módulo correspondente
from sklearn import [...]

# Gerar o dataset com a função correspondente
X, Y = [...]

# Obter Theta ou coeficientes utilizados para gerar o dataset
Theta = [...]

# Verificar os valores e dimensões (forma o "shape") das matrizes com a propriedade ndarray.shape
print('Theta a estimar') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:')
print('shape', 'shape')

*O que terá o m e n desse dataset?*

In [None]:
# TODO: Averiguar o m e n deste dataset
m = [...]
n = [...]

In [None]:
# TODO: Repetir os passos na célula anterior para descarregar um pequeno dataset de amostra ou “toy” concebido para
# Escolher um dos datasets corretos para este fim.

# Importar o módulo correspondente
from sklearn import [...]

# Gerar o dataset com a função correspondente
X, Y = [...]

# Obter Theta ou coeficientes utilizados para gerar o dataset
Theta = [...]

# Verificar os valores e dimensões (forma o "shape") das matrizes com a propriedade ndarray.shape
print('Theta a estimar') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print('shape', 'shape')