# Regresión lineal: Normalización
M2U3 - Ejercicio 1

## ¿Qué vamos a hacer?
- Crear un dataset sintético con características en diferentes rangos de valores
- Entrenar un modelo de regresión lineal sobre el dataset original
- Normalizar el dataset original
- Entrenar otro modelo de regresión lineal sobre el dataset normalizado
- Comparar el entrenamiento de ambos modelos, normalizado y no normalizado

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Creación del dataset sintético

Vamos a crear de nuevo un dataset sintético para regresión lineal por el método manual.

Crea un dataset sintético con un término de error del 10% del valor sobre *Y* y una *X* en apróx. el rango (-1, 1), en esta ocasión de forma manual, no con los métodos específicos de Scikit-learn, con el código utilizado en ejercicios previos:

In [None]:
# TODO: Copia el código de ejercicios anteriores para generar un dataset con término de bias y error

m = 1000
n = 4

X = [...]

Theta_verd = [...]

error = 0.1

Y = [...]

In [None]:
# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

Ahora vamos a modificar el dataset para asegurarnos de que cada característica, cada columna de *X*, tiene un órden de magnitud y una media diferente.

Para ello, multiplica cada columna de *X* (excepto la primera, el bias, que debe ser todo 1.) por un rango diferente y súmale un valor de bias diferente.

El valor que sumamos luego resultará la media de dicha característica o columna, y el valor por el que multliplicamos su rango o escala.

P. ej., $X_1 = X_1 * 10^3 + 3.1415926$, donde `10^3` será la media y `3,1415926` la escala de la característica.

In [None]:
# TODO: Para cada columna de X, multiplícala por un rango de valores y súmale una media diferente

# Los arrays de rangos y medias tienen que ser de longitud n
# Crea un array con los rangos de valores, p. ej.: 1e0, 1e3, 1e-2, 1e5
rangos = [...]

medias = [...]

X = [...]

print('X con medias y escalas diferentes')
print(X)
print(X.shape)

Recuerda que puedes ejecutar celdas de Jupyter en un orden distinto a su posición en el documento. Los corchetes a la izquierda de las celdas marcarán el órden de ejecución, y las variables mantendrán en todo momento sus valores tras la última celda ejecutada, **¡cuidado!**.

## Entrenamiento y evaluación del modelo

Vamos a volver a entrenar un modelo de regresión lineal. En esta ocasión, vamos a entrenarlo primero sobre el dataset original, sin normalizar, y luego reentrenarlo sobre el dataset ya normalizado, para comparar ambos modelos y procesos de entrenamiento y ver los efectos de la normalización.

Para ello debes copiar las celdas o el código de ejercicios anteriores y entrenar un modelo de regresión lineal multivariable, optimizado por gradient descent, sobre el dataset original.

También debes copiar las celdas que comprueban el entrenamiento del modelo, representando la función de coste vs el nº de iteraciones.

No es necesario que hagas predicciones sobre estos datos ni evalues los residuos del modelo. Para compararlos, lo haremos únicamente a través del coste final.

In [None]:
# TODO: Entrena un modelo de regresión lineal y representa gráficamente la evolución de su función de coste
# Usa la X no normalizada
# Añádele el sufijo "_no_norm" a las variables Theta y j_hist que devuelve tu modelo

## Normalización de los datos

Vamos a normalizar los datos del dataset original.

Para ello, vamos a crear una función de normalización que aplique la transformación necesaria, según la fórmula:

$x_j = \frac{x_j - \mu_{j}}{\sigma_{j}}$

In [None]:
# TODO: Implementa una función de normalización a un rango común y con media 0

def normalize(x, mu, std):
    """ Normaliza un dataset con ejemplos X
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los ejemplos, sin término de bias
    mu -- vector 1D de Numpy con la media de cada característica/columna
    std -- vector 1D de Numpy con la desviación típica de cada característica/columna
    
    Devuelve:
    x_norm -- array 2D de Numpy con los ejemplos, con sus características normalizadas
    """
    return [...]

In [None]:
# TODO: Normaliza el dataset original usando tu función de normalización

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

*BONUS:*
1. Calcula las medias y desviaciones típicas de *X_norm* según sus características/columnas.
1. Compáralas con las de *X*, *mu* y *std*
1. Representa en una comparativa las distribuciones de *X* y *X_norm* con una gráfica de barras o box plot (puedes usar múltiples subplots de Matplotlib).

## Reentrenamiento del modelo y comparación de resultados

Ahora reentrena el modelo sobre el dataset normalizado. Comprueba el coste final y la iteración en la que ha convergido.

Para ello, puedes volver a las celdas de entrenar el modelo y comprobar la evolución de la función de coste y modificar la *X* utilizada por *X_norm*.

En muchos casos, al ser un modelo tan simple, puede que no se aprecie ninguna mejora. En función de la capacidad de tu entorno de trabajo, prueba a utilizar un nº mayor de características y en aumentar ligeramente el término de error del dataset.

In [None]:
# TODO: Entrena un modelo de regresión lineal y representa gráficamente la evolución de su función de coste
# Usa la X normalizada
# Añádele el sufijo "_norm" a las variables Theta y j_hist que devuelve tu modelo

*PREGUNTA: ¿Ha habido diferencias en la precisión y tiempo de entrenamiento entre el modelo sobre datos no normalizados y el modelo sobre datos normalizados? Si incrementas el término de error y la diferencia de medias y rangos entre las características, ¿se aprecia mayor diferencia?*

## Cuidado con la Theta original

Para el dataset original, antes de normalizarlo, se cumplía la relación $Y = X \times \Theta$.

Sin embargo, ahora hemos modificado la *X* de dicha función.

Por tanto, comprueba qué sucede si quieres volver a computar la *Y* usando la *X* normalizada:

In [None]:
# TODO: Comprueba si hay diferencias entre la Y original y la Y usando la X normalizada

# Comprueba el valor de Y al multiplicar X_norm y Theta_verd
Y_norm = [...]

# Comprueba si hay diferencias entre Y_norm e Y
diff = Y_norm - Y

print('Diferencias entre Y_norm e Y (primeras 10 filas):')
print(diff[:10])

# Representa en un gráfico de puntos la diferencia entre Ys vs X
[...]

### Realizar predicciones

Del mismo modo, ¿qué sucede cuando vamos a utilizar el modelo para realizar predicciones?

Genera un nuevo conjunto de datos *X_pred* siguiendo el mismo método que usaste para el dataset *X* original, incorporando el término de bias, multiplicando sus características por un rango y sumándoles valores diferentes, sin normalizarlo finalmente.

También calcula su *Y_pred_verd* (sin término de error), como valor verdadero de *Y* a intentar predecir:

In [None]:
# TODO: Genera un nuevo dataset de menor nº de ejemplos e igual nº de características que el dataset original
# Asegúrate de que tiene una media o rango normalizado entre características/columnas

X_pred = [...]

Y_pred_verd = np.matmul(X_pred, Theta_verd)

Ahora comprueba si habría alguna diferencia entre la *Y_pred_verd* y la *Y_pred* que predeciría tu modelo:

In [None]:
# TODO: Comprueba las diferencias entre la Y real y la Y predicha

Y_pred = np.matmul(X_pred, theta)

diff = Y_pred_verd - Y_pred

print('Diferencias entre la Y real y la Y predicha:')
print(diff[:10])

Dado que las predicciones no son correctas sino, deberíamos previamente normalizar la nueva *X_pred* antes de generar las predicciones:

In [None]:
# TODO: Normaliza la X_pred

X_pred[...] = normalize(X_pred[...], mu, std)

print(X_pred[:10,:])
print(X_pred.shape)

En esta ocasión no hemos generado una nueva variable diferente al normalizar, sino que sigue siendo la variable *X_pred*.

Así puedes reejecutar la celda anterior para, ahora que *X_pred* está normalizada, comprobar si hay alguna diferencia entre la *Y* real y la *Y* predicha.

Por tanto, recuerda siempre:
- La *theta* calculada al entrenar el modelo será relativa siempre al dataset normalizado, y no se podrá usar para el dataset original, ya que a igual *Y* y distinta *X*, *Theta* debe cambiar.
- Para hacer predicciones sobre nuevos ejemplos, antes tenemos que normalizarlos también, usando los mismos valores de medias y desviaciones típicas que usamos originalmente para entrenar el modelo.