# Multivariate Linear Regression: Synthetic datasets
M2U1 - Exercise 2

## What are we going to do?
- Create a synthetic (artificial) dataset with NumPy
- Create a synthetic dataset with a random error term
- Create a synthetic dataset with unconsidered parameters
- Create a synthetic dataset with Scikit-learn

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

## Instructions

A synthetic dataset is a dataset of artificially created examples. These datasets are very useful for testing algorithms and our implementation, since we will be able to control the features of the dataset at all times.

Similarly, since the influence of the training dataset and its cleaning, pre-processing, etc., are key to training ML models, when we are going to perform an implementation for the first time it would not be difficult to find multiple datasets with controlled features and, in particular, to be sure whether possible errors in the training are caused by our implementation or by the source data.

Fill in the code of the following cells according to the instructions to create the different synthetic datasets.

In [None]:
import numpy as np

from matplotlib import pyplot as plt

## Task 1: Create a synthetic dataset with NumPy

For this task we are going to create a synthetic dataset using NumPy’s functions.
With this method we can completely control the features of the dataset.

Recall the multiple linear regression equation and the dimensions of the vectors:

$Y = X \times \Theta^T$

m = nº of examples

n = nº of features/coefficients

$Y_{m \times 1}$ (vector column)

$X_{m \times n}$ (2D matrix)

$\Theta_{1 \times n}$ (vector row)

*HINT:* Use the Numpy function np.random.random() for a random array

In [None]:
# TODO: Create the following arrays that define the original dataset

# Choose some values for m and n (tipo: int)
m = 0
n = 0

# X is a 2D m x n array of random nºs between -100 and 100
# Use NumPy’s functions to generate an m x n array with random nºs between [0, 1)
# Random Nº in the range [a, b): ndarray * (b - a) + a, where a = -100 and b = 100
X = [...]

# Insert the bias term b or X0 to parallelise the equation
# Insert a 1. (float) column to the left of X with Numpy's insert function np.insert()
X = X

# Theta is a 1D 1 x n array that we can also implement as n x 1(column or row)
# Generate it with n +1 random elements [0, 1) in order to add the bias term
Theta = [...]

# Compute Y by multiplying the vectors X and Theta with np.matmul()
Y = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

In [None]:
# TODO: Representa X_1 vs Y en una gráfica 2D de puntos de Matplotlib
# X_1 es la columna nº 2 de X, la primera cuyos valores no son todos 1.
# A partir de ahora, intenta usar etiquetas para los ejes y un título de la gráfica

plt.figure()

# Tu código aquí

plt.show()

Una vez implementados correctamente, *¿por qué no varías los términos m y n y compruebas que puedes crear arrays de diversas dimensiones?*

## Tarea 2: Crear un dataset sintético con un término de error aleatorio

Ahora vamos a repetir los pasos del punto anterior, pero añadiendo un término de error aleatorio a Y, para hacer un dataset con datos no tan precisos, más parecidos a una situación real, pudiendo controlar dicho error.

*PISTA:* Usa la función de Numpy np.uniform() para un valor entre el rango de +/- e

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 0
n = 0

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = [...]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = X

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = [...]

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = [...]

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (p.ej. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
# Recuerda que debemos sumar un error a cada Y entre el valor positivo y negativo de e, no sumar e directamente
Y_final = Y + Y * termino_error

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

Varía el término del error para comprobar su efecto sobre *Y_final*.

*¿Te atreves a representar gráficamente Y vs X e Y_final vs X para apreciar el término del error?*

In [None]:
# TODO: Representa X vs Y y X vs Y_final en una gráfica de puntos de Matplotlib

plt.figure()

# Tu código aquí

plt.show()

## Tarea 3: Crear un dataset sintético con parámetros no considerados

En ocasiones, con datasets de la vida real, sucede que nuestra variable Y viene influenciada por múltiples características, de las cuales puede que no estemos considerando todas. Imagina, p. ej., una tasación de viviendas, pero que haya alguna característica de las mismas que los clientes tengan en consideración pero que nosotros no la tengamos disponible en nuestro set de datos de entrenamiento.

P. ej., la cercanía a la parada de metro, bus o cercanías más próxima, el tiempo hasta la salida a la autovía más cercana, lo moderno del barrio o la diferencia en impuestos municipales frente a otros municipios cercanos.

En dichos casos, queremos comparar nuestra implementación o nuestros modelos con modelos que tengan en cuenta más o menos características de las que realmente afectan a la variable Y.

Por tanto, un dataset sintético muy útil en estas ocasiones sería aquel que viene dado por múltiples características (múltiples columnas de X), pero que sus columnas se ven reducidas a un número menor finalmente a la hora de entrenar nuestro modelo.

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 0
n = 0

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = [...]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = X

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = [...]

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = [...]

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (i.e. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
Y = Y + Y * termino_error

# Finalmente, restringe el nº de columnas de X y valores de Theta a considerar a sólo los n_final primeros
# Puedes usar los slices de Numpy/Python para ello
n_final = 1

Y_final = Y
X_final = X[...]
Theta_final = Theta[...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

## Tarea 4: Crear un dataset sintético con Scikit-learn

Scikit-learn viene con varios módulos para disponer de datasets para desarrollo o evaluación. Habitualmente usamos datasets generados sintéticamente para desarrollo, y utilizamos alguno de los datasets más comunes para evaluar y comparar diferentes algoritmos e implementaciones, como veremos durante el curso.

Las herramientas de generación de datasets puedes encontrarlas en la documentación: https://scikit-learn.org/stable/datasets/sample_generators.html

Recuerda que, habitualmente, cada página de la documentación incluye varios notebooks con ejemplos de su uso.

Revisa la documentación en detalle, puesto que estas funciones las podrás utilizar durante el curso para cualquier dataset que necesites descargarte o generar sintéticamente.

In [None]:
# TODO: Usa las funciones de Scikit-learn para generar un dataset sintético pensado para resolver un problema de regresión lineal multivariable
# Escoge la función correcta para ello

# Importa el módulo correspondiente
from sklearn import [...]

# Genera el dataset con la función correspondiente y obten la Theta o coeficientes utilizados para generar el dataset
# Habitualmente se realiza con el parámetro coef=True
# Recuerda añadir un término de error/ruido
X, Y, Theta = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

*¿Qué m y n tendrá dicho dataset?*

In [None]:
# TODO: Averigua la m y n de dicho dataset con la forma o tamaño de los arrays
m = [...]
n = [...]

Repite los pasos de la celda anterior para descargar un dataset pequeño de muestra o "toy" pensado para resolver un problema de regresión lineal multivariable.

Datasets toy: https://scikit-learn.org/stable/datasets/toy_dataset.html

In [None]:
# TODO: Repite los pasos de la celda anterior para descargar un dataset pequeño de muestra o "toy" pensado para resolver un problema de regresión lineal multivariable
# Escoge uno de los datasets correctos para ello