# Regresión lineal multivariable: Datasets sintéticos

## ¿Qué vamos a hacer?
- Crear un dataset sintético (artificial) con Numpy
- Crear un dataset sintético con un término de error aleatorio
- Crear un dataset sintético con parámetros no considerados
- Crear un dataset sinético con Scikit-learn

In [None]:
import numpy as np

from matplotlib import pyplot as plt

Un dataset sintético es un dataset de ejemplo creado artificialmente. Estos datasets son muy útiles para comprobar algoritmos y nuestra implementación, ya que podremos controlar las características del dataset en todo momento.

Del mismo modo, ya que la influencia del dataset de entrenamiento y su limpieza, preprocesamiento, etc., son claves para el entrenamiento de modelos de ML, cuando vamos a realizar una implementación por primera vez no sería difícil encontrar múltiples datasets con características controladas y, en especial, estar seguro de si los posibles errores en el entrenamiento están provocados por nuestra implementación o por los datos de origen.

Completa el código de las siguientes celdas según las instrucciones para crear los diferentes datasets sintéticos.

## Tarea 1: Crear un dataset sinético con Numpy

Para esta tarea vamos a crear un dataset sintético usando las funciones de Numpy.
Con este método podremos controlar completamente las características del dataset.

Recuerda la ecuación de la regresión lineal múltiple y las dimensiones de los vectores:

$Y = X \times \Theta^T$

m = nº de ejemplos

n = nº de características/coeficientes

$Y_{m \times 1}$

$X_{m \times n}$

$\Theta_{1 \times n}$: Puedes transponer $\Theta$ o implementarla como un vector columna

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original

# Escoge unos valores de m y n (tipo: int)
m = 0
n = 0

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = [...]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = X

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (columna o fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = [...]

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

In [None]:
# TODO: Representa X vs Y en una gráfica de puntos de Matplotlib
# A partir de ahora, intenta usar etiquetas para los ejes y un título de la gráfica

plt.figure()

# Tu código aquí

plt.show()

Una vez implementados correctamente, *¿por qué no varías los términos m y n y compruebas que puedes crear arrays de diversas dimensiones?*

## Tarea 2: Crear un dataset sintético con un término de error aleatorio

Ahora vamos a repetir los pasos del punto anterior, pero añadiendo un término de error aleatorio a Y, para hacer un dataset con datos no tan precisos, más parecidos a una situación real, pudiendo controlar dicho error.

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 0
n = 0

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = [...]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = X

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (columna o fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = [...]

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = [...]

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (i.e. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
Y_final = Y + Y * termino_error

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

Varía el término del error para comprobar su efecto sobre Y_final.

*¿Te atreves a representar gráficamente Y vs X e Y_final vs X para apreciar el término del error?*

In [None]:
# TODO: Representa X vs Y y X vs Y_final en una gráfica de puntos de Matplotlib

plt.figure()

# Tu código aquí

plt.show()

## Tarea 3: Crear un dataset sintético con parámetros no considerados

En ocasiones, con datasets de la vida real, sucede que nuestra variable Y viene influenciada por múltiples características, de las cuales puede que no estemos considerando todas. Imagina, p. ej., una tasación de viviendas, pero que haya alguna característica de las mismas que los clientes tengan en consideración pero que nosotros no la tengamos disponible en nuestro set de datos de entrenamiento. P. ej., la cercanía a la parada de metro, bus o cercanías más próxima, el tiempo hasta la salida a la autovía más cercana, lo moderno del barrio o la diferencia en impuestos municipales frente a otros municipios cercanos.

En dichos casos, queremos comparar nuestra implementación o nuestros modelos con modelos que tengan en cuenta más o menos características de las que realmente afectan a la variable Y.

Por tanto, un dataset sintético muy útil en estas ocasiones sería aquel que viene dado por múltiples características (múltiples columnas de X), pero que sus columnas se ven reducidas a un número menor finalmente a la hora de entrenar nuestro modelo.

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 0
n = 0

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = [...]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = X

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (columna o fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = [...]

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = [...]

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (i.e. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
Y = Y + Y * termino_error

# Finalmente, restringe el nº de columnas de X y valores de Theta a considerar a sólo los n_final primeros
# Puedes usar los slices de Numpy/Python para ello
n_final

Y_final = [Y]
X_final = [X]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

## Tarea 4: Crear un dataset sintético con Scikit-learn

Scikit-learn viene con varios módulos para disponer de datasets para desarrollo o evaluación. Habitualmente usamos datasets generados sintéticamente para desarrollo, y utilizamos alguno de los datasets más comunes para evaluar y comparar diferentes algoritmos e implementaciones, como veremos durante el curso.

Las herramientas de carga y generación de datasets puedes encontrarlas en la documentación: https://scikit-learn.org/stable/datasets/index.html

Recuerda que, habitualmente, cada página de la documentación incluye varios notebooks con ejemplos de su uso.

Revisa la documentación en detalle, puesto que estas funciones las podrás utilizar durante el curso para cualquier dataset que necesites descargarte o generar sintéticamente.

In [None]:
# TODO: Usa las funciones de Scikit-learn para generar un dataset sintético pensado para resolver un problema de regresión lineal multivariable
# Escoge la función correcta para ello

# Importa el módulo correspondiente
from sklearn import [...]

# Genera el dataset con la función correspondiente
X, Y = [...]

# Obtiene la Theta o coeficientes utilizados para generar el dataset
Theta = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')

*¿Qué m y n tendrá dicho dataset?*

In [None]:
# TODO: Averigua la m y n de dicho dataset
m = [...]
n = [...]

In [None]:
# TODO: Repite los pasos de la celda anterior para descargar un dataset pequeño de muestra o "toy" pensado para resolver un problema de regresión lineal multivariable
# Escoge uno de los datasets correctos para ello

# Importa el módulo correspondiente
from sklearn import [...]

# Genera el dataset con la función correspondiente
X, Y = [...]

# Obtiene la Theta o coeficientes utilizados para generar el dataset
Theta = [...]

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print('shape', 'shape')