<a href="https://colab.research.google.com/github/AndreaPardoGis/Machine.Learning/blob/main/M2U1_2_Datasets_sint%C3%A9ticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión lineal multivariable: Datasets sintéticos
M2U1 - Ejercicio 2

## ¿Qué vamos a hacer?
- Crear un dataset sintético (artificial) con Numpy
- Crear un dataset sintético con un término de error aleatorio
- Crear un dataset sintético con parámetros no considerados
- Crear un dataset sintético con Scikit-learn

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones

Un dataset sintético es un dataset de ejemplo creado artificialmente. Estos datasets son muy útiles para comprobar algoritmos y nuestra implementación, ya que podremos controlar las características del dataset en todo momento.

Del mismo modo, ya que la influencia del dataset de entrenamiento y su limpieza, preprocesamiento, etc., son claves para el entrenamiento de modelos de ML, cuando vamos a realizar una implementación por primera vez no sería difícil encontrar múltiples datasets con características controladas y, en especial, estar seguro de si los posibles errores en el entrenamiento están provocados por nuestra implementación o por los datos de origen.

Completa el código de las siguientes celdas según las instrucciones para crear los diferentes datasets sintéticos.

In [None]:
import numpy as np

from matplotlib import pyplot as plt

## Tarea 1: Crear un dataset sinético con Numpy

Para esta tarea vamos a crear un dataset sintético usando las funciones de Numpy.
Con este método podremos controlar completamente las características del dataset.

Recuerda la ecuación de la regresión lineal múltiple y las dimensiones de los vectores:

$Y = X \times \Theta^T$

m = nº de ejemplos

n = nº de características/coeficientes

$Y_{m \times 1}$ (vector columna)

$X_{m \times n}$ (matriz 2D)

$\Theta_{1 \times n}$ (vector fila)

*PISTA:* Usa la función de Numpy np.random.random() para un array aleatorio

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original

# Escoge unos valores de m y n (tipo: int)
m = 50 # Numero de ejemplos
n = 18 # Numero de caracteristicas

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = np.random.random((m, n)) * (200) + (-100) # numeros aleatorios en el rango [-100, 100]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = np.insert(X, 0, 1, axis=1) # insertar una columna de 1 en la posicion 0 (bias)

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (columna o fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = np.random.random(n+1)

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = np.matmul(X, Theta)

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print(Theta, "\n")

print("Primeras 10 filas y 5 columnas de X:")
print(X[:10, :5], "\n") # Primeras 10 filas y 5 columnas de X
print("e Y:\n", Y[:10], "\n") # Primeras 5 filas de Y

print('Dimensiones de X e Y:')
print('X:', X.shape, 'e Y:', Y.shape)

In [None]:
# TODO: Representa X_1 vs Y en una gráfica 2D de puntos de Matplotlib
# X_1 es la columna nº 2 de X, la primera cuyos valores no son todos 1.
# A partir de ahora, intenta usar etiquetas para los ejes y un título de la gráfica
X_1=X[:, 1] # Extraemos la segunda columna (1) de X

plt.figure(figsize=(10, 5))
plt.scatter(X_1, Y, color='blue', label='X1 vs Y')
plt.xlabel('X1 (Segunda columna de X)', fontsize=12)
plt.ylabel('Y', fontsize=12)
plt.title('Relación entre X1 vs Y', fontsize=14)
plt.legend()
plt.grid(True)

plt.show()

Una vez implementados correctamente, *¿por qué no varías los términos m y n y compruebas que puedes crear arrays de diversas dimensiones?*

## Tarea 2: Crear un dataset sintético con un término de error aleatorio

Ahora vamos a repetir los pasos del punto anterior, pero añadiendo un término de error aleatorio a Y, para hacer un dataset con datos no tan precisos, más parecidos a una situación real, pudiendo controlar dicho error.

*PISTA:* Usa la función de Numpy np.uniform() para un valor entre el rango de +/- e

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 100 # Numero de ejemplos
n = 6 # Numero de caracteristicas

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = np.random.random((m, n)) * (200) + (-100) # numeros aleatorios en el rango [-100, 100]

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = np.insert(X, 0, 1, axis=1) # insertar una columna de 1 en la posicion 0 (bias)

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = np.random.random(n+1)

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = np.matmul(X, Theta)

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1 # Error del 10%

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (p.ej. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
# Recuerda que debemos sumar un error a cada Y entre el valor positivo y negativo de e, no sumar e directamente
termino_error=np.random.uniform(-e, e, size=Y.shape) # Generamos un termino aleatorio entre -0.1 y +0.1 --> -e y +e
Y_final = Y + Y * termino_error # Estamos añadiendo el error a los valores de Y

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print(Theta,"\n")

print('Primeras 10 filas y 5 columnas de X:')
print(X[:10, :5],"\n")
print("e Y:\n",Y_final[:10],"\n")

print('Dimensiones de X e Y:')
print('X:', X.shape,'e Y :', Y_final.shape)


Varía el término del error para comprobar su efecto sobre *Y_final*.

*¿Te atreves a representar gráficamente Y vs X e Y_final vs X para apreciar el término del error?*

In [None]:
# TODO: Representa X vs Y y X vs Y_final en una gráfica de puntos de Matplotlib

plt.figure(figsize=(10, 5))

# Vamos a representar X vs Y, antes de añadir el error
plt.scatter(X[:, 1], Y, color='blue', label='Y original', alpha=0.7)
# Vamos a representar X vs Y_final, después de añadir el error
plt.scatter(X[:, 1], Y_final, color='red', label='Y con error', alpha=0.7)

# Añadimos los titulos y las etiquetas
plt.title('Relación entre X vs Y y X vs Y_final', fontsize=14)
plt.xlabel('X', fontsize=12)
plt.ylabel('Y', fontsize=12)
# Añadimos leyenda para distinguir entre las series
plt.legend()
plt.grid(True)

plt.show()

## Tarea 3: Crear un dataset sintético con parámetros no considerados

En ocasiones, con datasets de la vida real, sucede que nuestra variable Y viene influenciada por múltiples características, de las cuales puede que no estemos considerando todas. Imagina, p. ej., una tasación de viviendas, pero que haya alguna característica de las mismas que los clientes tengan en consideración pero que nosotros no la tengamos disponible en nuestro set de datos de entrenamiento.

P. ej., la cercanía a la parada de metro, bus o cercanías más próxima, el tiempo hasta la salida a la autovía más cercana, lo moderno del barrio o la diferencia en impuestos municipales frente a otros municipios cercanos.

En dichos casos, queremos comparar nuestra implementación o nuestros modelos con modelos que tengan en cuenta más o menos características de las que realmente afectan a la variable Y.

Por tanto, un dataset sintético muy útil en estas ocasiones sería aquel que viene dado por múltiples características (múltiples columnas de X), pero que sus columnas se ven reducidas a un número menor finalmente a la hora de entrenar nuestro modelo.

In [None]:
# TODO: Crea los siguientes arrays que definen el dataset original con un término de error aleatorio

# Escoge unos valores de m y n (tipo: int)
m = 150
n = 11

# X es un array 2D m x n de nºs aleatorios entre -100 y 100
# Usa las funciones de Numpy para generar un array m x n de nºs aleatorios entre [0, 1)
# Nº aleatorio en el rango [a, b): ndarray * (b - a) + a, donde a = -100 y b = 100
X = np.random.random((m, n)) * (200) + (-100)

# Inserta el término de bias b o X0 para paralelizar la ecuación
# Inserta una columna de 1. (float) a la izquierda de X con la función de inserción de Numpy np.insert()
X = np.insert(X, 0, 1, axis=1)

# Theta es un array 1D 1 x n que también podemos implementar como n x 1 (fila)
# Genéralo con n + 1 elementos aleatorios [0, 1) para añadir el término de bias
Theta = np.random.random(n+1)

# Computa Y multiplicando los vectores X y Theta con np.matmul()
Y = np.matmul(X, Theta)

# A partir de aquí, añadimos el término de error e en porcentaje (0.1 = 10%, 0.25 = 25%, etc.)
e = 0.1

# En la siguiente línea, sustituye "termino_error" por un término que represente un número aleatorio en el rango +/- e (i.e. +/- 10%)
# De esta forma, el término de error será un porcentaje de +/- el término de error sobre el valor de Y original
error_aleatorio=np.random.uniform(-e, e, size=Y.shape)
Y = Y + Y * error_aleatorio # He cambiado el nombre para evitar la sobreescritura de la variable "termino_error" que se usa mas arriba

# Finalmente, restringe el nº de columnas de X y valores de Theta a considerar a sólo los n_final primeros
# Puedes usar los slices de Numpy/Python para ello
n_final = 3 # Usar cualquier numero

Y_final = Y
X_final = X[:, :n_final + 1] # Esto son las primeras n_final caracteristicas + bias
Theta_final = Theta[:n_final + 1] # Y esto los primeros n_final + 1 terminos de Theta

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar:')
print(Theta_final,"\n")

print('Primeras 10 filas y 5 columnas de X:')
print(X_final[:10, :5], "\n") # Primeras 10 final y 5 columnas de X_final
print("e Y:\n", Y[:10], "\n") # Primeras 10 filas de Y

print('Dimensiones de X e Y:')
print('X:', X_final.shape, 'e Y:', Y.shape)

## Tarea 4: Crear un dataset sintético con Scikit-learn

Scikit-learn viene con varios módulos para disponer de datasets para desarrollo o evaluación. Habitualmente usamos datasets generados sintéticamente para desarrollo, y utilizamos alguno de los datasets más comunes para evaluar y comparar diferentes algoritmos e implementaciones, como veremos durante el curso.

Las herramientas de generación de datasets puedes encontrarlas en la documentación: https://scikit-learn.org/stable/datasets/sample_generators.html

Recuerda que, habitualmente, cada página de la documentación incluye varios notebooks con ejemplos de su uso.

Revisa la documentación en detalle, puesto que estas funciones las podrás utilizar durante el curso para cualquier dataset que necesites descargarte o generar sintéticamente.

In [None]:
# TODO: Usa las funciones de Scikit-learn para generar un dataset sintético pensado para resolver un problema de regresión lineal multivariable
# Escoge la función correcta para ello

# Importa el módulo correspondiente
from sklearn.datasets import make_regression

# Genera el dataset con la función correspondiente y obten la Theta o coeficientes utilizados para generar el dataset
# Habitualmente se realiza con el parámetro coef=True
# Recuerda añadir un término de error/ruido
X, Y, Theta = make_regression(n_samples=100,  # numero de muestras que tendra el dataset
                              n_features=3,  # numero de caracteristicas independientes (x)
                              noise=15,  # añade ruido/error al dataset para simular datos mas realistas
                              coef=True, # devuelve los coeficientes (Theta) usados para generar el dataset (la vaiable y)
                              random_state=42) # asi obtenemos el mismo resultado al ejecutar varias veces el mismo codigo

# Comprueba los valores y dimensiones (forma o "shape") de los arrays con la propiedad ndarray.shape
print('Theta a estimar (coeficientes reales):')
print(Theta, "\n")

print('Primeras 10 filas y 5 columnas de X:')
print(X[:10],"\n",
      "e Y:",Y[:10], "\n")

print('Dimensiones de X e Y:')
print('X:', X.shape,'e Y :', Y.shape)


*¿Qué m y n tendrá dicho dataset?*

In [None]:
# TODO: Averigua la m y n de dicho dataset con la forma o tamaño de los arrays
m = X.shape[0]
n = X.shape[1]
print("numero de filas o muestras, m:", m, "\nnumero de colimnas o caracteristicas, n:", n)

Repite los pasos de la celda anterior para descargar un dataset pequeño de muestra o "toy" pensado para resolver un problema de regresión lineal multivariable.

Datasets toy: https://scikit-learn.org/stable/datasets/toy_dataset.html

In [None]:
# TODO: Repite los pasos de la celda anterior para descargar un dataset pequeño de muestra o "toy" pensado para resolver un problema de regresión lineal multivariable
# Escoge uno de los datasets correctos para ello
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Cargamos el dataset de diabetes de sklearn
diabetes_data = load_diabetes()

# ahora vamos a definir las variables X e Y, igual que en los casos anteriores
X = diabetes_data.data # Asignamos las carateristicas o atributos array de (442, 10)
# lo que singifica que tenemos 442 muestras o pacientes y 10 caracteristicas por muestra
Y = diabetes_data.target # esta variable representa el valor objetivo o variable independiente.
# contiene una variable numerica de la progresion de la diabetes, que es lo que queremos predecir a traves de X

# comprobamos las dimensiones de X e Y
print('Primeras 5 filas de X:')
print(X[:5],"\n",
      "e Y:",Y[:5], "\n")

print('Dimensiones de X e Y:')
print('X:', X.shape,'e Y :', Y.shape)