# Regresión lineal: Normalización

## ¿Qué vamos a hacer?
- Crear un dataset sintético con características en diferentes rangos de valores
- Entrenar un modelo de regresión lineal sobre el dataset original
- Normalizar el dataset original
- Entrenar otro modelo de regresión lineal sobre el dataset normalizado
- Comparar el entrenamiento de ambos modelos

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Creación del dataset sintético

Vamos a crear de nuevo un dataset sintético para regresión lineal por el método manual.

Crea un dataset sintético con un término de error del 10% del valor de *Y*:

In [None]:
# TODO: Copia el código de ejercicios anteriores para generar un dataset con término de bias y error

m = 1000
n = 4

X = [...]

Theta_verd = [...]

error = 0.1

Y = [...]

In [None]:
# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

Ahora vamos a modificar el dataset para asegurarnos de que cada característica, cada columna de X, tiene un órden de magnitud y una media diferente.

Para ello, multiplica cada columna de X (excepto la primera, el bias) por un rango y súmale un valor diferente. El valor que sumemos será la media de dicha característica o columna.

P. ej., $X_1 = X_1 * 10^3 + 3.1415926$

In [None]:
# TODO: Para cada columna de X, multiplícala por un rango de valores y súmale una media diferente

# Los arrays de rangos y medias tienen que ser de longitud n
# Crea un array con los rangos de valores, p. ej.: 1e0, 1e3, 1e-2, 1e5
rangos = [...]

medias = [...]

X = [...]

Para comprobar los nuevos valores de *X*, puedes ejecutar de nuevo la celda con el código para imprimirlos.

Recuerda que puedes ejecutar celdas de Jupyter en un orden distinto a su posición en el documento. Los corchetes a la izquierda de las celdas marcarán el órden de ejecución, y las variables mantendrán en todo momento sus valores tras la última celda ejecutada, **¡cuidado!**.

## Entrenamiento y evaluación del modelo

Vamos a volver a entrenar un modelo de regresión lineal. En esta ocasión, vamos a entrenarlo primero sobre el dataset original, sin normalizar, y luego reentrenarlo sobre el dataset ya normalizado, para comparar ambos modelos y procesos de entrenamiento y ver los efectos de la normalización.

Para ello debes copiar las celdas o el código de ejercicios anteriores y entrenar un modelo de regresión lineal multivariable, optimizado por gradient descent, sobre el dataset original.

También debes copiar las celdas que comprueban el entrenamiento del modelo, representando la función de coste vs el nº de iteraciones.

No es necesario que hagas predicciones sobre estos datos ni evalues los residuos del modelo. Para compararlos, lo haremos únicamente a través del coste final.

In [None]:
# TODO: Entrena un modelo de regresión lineal y representa gráficamente su función de coste

## Normalización de los datos

Vamos a normalizar los datos del dataset original.

Para ello, vamos a crear una función de normalización que aplique la transformación necesaria, según la fórmula:

$x = \frac{x - \mu_{x_j}}{\sigma_{x_j}}$

In [None]:
# TODO: Implementa una función de normalización a un rango común y con media 0

def normalize(x, mu, std):
    return [...]

In [None]:
# TODO: Normaliza el dataset original usando tu función de normalización

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

## Reentrenamiento del modelo y comparación de resultados

Ahora reentrena el modelo sobre el dataset normalizado. Comprueba el coste final y la iteración en la que ha convergido.

Para ello, puedes volver a las celdas de entrenar el modelo y comprobar la evolución de la función de coste y modificar la *X* utilizada por *X_norm*.

En muchos casos, al ser un modelo tan simple, puede que no se aprecie ninguna mejora. En función de la capacidad de tu entorno de trabajo, prueba a utilizar un nº mayor de características y en aumentar ligeramente el término de error del dataset.

## Cuidado con la Theta original

Para el dataset original, antes de normalizarlo, se cumplía la relación $Y = X \times \Theta$.

Sin embargo, ahora hemos modificado la *X* de dicha función.

Por tanto, comprueba qué sucede si quieres volver a computar la *Y* usando la *X* normalizada:

In [None]:
# TODO: Comprueba si hay diferencias entre la Y original y la Y usando la X normalizada

# Comprueba el valor de Y al multiplicar X_norm y Theta_verd
Y_norm = [...]

# Comprueba si hay diferencias entre Y_norm e Y
diff = Y_norm - Y

print('Diferencias entre Y_norm e Y:')
print(diff)

### Realizar predicciones

Del mismo modo, ¿qué sucede cuando vamos a utilizar el modelo para realizar predicciones?

Genera un nuevo conjunto de datos *X_pred* siguiendo el mismo método que usaste para el dataset *X* original, incorporando el término de bias, multiplicando sus características por un rango y sumándoles valores diferentes.

Del mismo modo, calcula su *Y_pred_verd* (sin término de error):

In [None]:
# TODO: Genera un nuevo dataset de menor nº de ejemplos e igual nº de características que el dataset original

X_pred = [...]

Y_pred_verd = np.matmul(X_pred, Theta_verd)

Ahora comprueba si habría alguna diferencia entre la *Y_pred_verd* y la *Y_pred* que predeciría tu modelo:

In [None]:
# TODO: Comprueba las diferencias entre la Y real y la Y predicha

Y_pred = np.matmul(X_pred, theta)

print('Diferencias entre la Y real y la Y predicha:')
print(Y_pred_verd - Y_pred)

Dado que las predicciones no son correctas, deberíamos previamente normalizar la nueva *X_pred*:

In [None]:
# TODO: Normaliza la X_pred

X_pred[...] = normalize(X_pred[...], mu, std)

print(X_pred)
print(X_pred.shape)

En esta ocasión no hemos generado una nueva variable diferente al normalizar, sino que sigue siendo la variable *X_pred*.

Así puedes reejecutar las celdas anteriores para, ahora que *X_pred* está normalizada, comprobar si hay alguna diferencia entre la *Y* real y la *Y* predicha.

Por tanto, recuerda siempre:
- La *theta* calculada al entrenar el modelo será relativa siempre al dataset normalizado, y no se podrá usar para el dataset original, ya que a igual *Y* y distinta *X*, *Theta* debe cambiar.
- Para hacer predicciones sobre nuevos ejemplos, antes tenemos que normalizarlos también, usando los mismos valores de medias y desviaciones típicas que usamos originalmente para entrenar el modelo.