# Regresión logística: Regularización
M2U5 - Ejercicio 5

## ¿Qué vamos a hacer?
- Implementar la función de coste y descenso de gradiente regularizadas
- Comprobar el entrenamiento representando la evolución de la función de coste
- Hallar el parámetro de regularización *lambda* óptimo por validación

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
Una vez implementada la función de coste y gradient descent sin regularizar, vamos a regularizarlas y entrenar un modelo de regresión logística completo, comprobándolo por validación y evaluándolo sobre un subset de test.

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Crear un dataset sintético para regresión logística

Vamos a crear un dataset sintético de 2 clases únicamente (0 y 1) para comprobar esta implementación de un modelo de clasificación binaria, entrenado completamente, paso a paso.

Para ello, crea un dataset sintético para regresión logística con término de bias y error de forma manual (para tener disponible *Theta_verd*) con el código que has usado en el ejercicio anterior:

In [None]:
# TODO: Genera un dataset sintético con término de bias y error de forma manual
m = 100
n = 1

# Genera un array 2D m x n con valores aleatorios entre -1 y 1
# Insértale el término de bias como una primera columna de 1s
X = [...]

# Genera un array de theta de n + 1 valores aleatorios entre [0, 1)
Theta_verd = [...]

# Calcula Y en función de X y Theta_verd
# Transforma Y a valores de 1. y 0. (float) cuando Y >= 0.0
# Con una probabilidad como término de error, itera sobre Y y modifica la clase asignada a la contraria, 1. a 0. y 0. a 1.
error = 0.15

Y = [...]
Y = [...]
Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

## Implementar la función de activación sigmoide

Copia tu celda con la función sigmoide:

In [None]:
# TODO: Implementa la función sigmoide

## Preprocesar los datos

Al igual que hacíamos para la regresión lineal, vamos a preprocesar los datos completamente, siguiendo los 3 pasos habituales:

- Reordenarlos aleatoriamente.
- Normalizarlos.
- Dividirlos en subsets de entrenamiento, validación y test.

Puedes hacerlo manualmente o con las funciones auxiliares de Scikit-learn.

### Reordenar el dataset aleatoriamente

Reordena los datos del dataset *X* e *Y*:

In [None]:
# TODO: Reordena aleatoriamente el dataset

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Reordenamos X e Y:')
# Usa un estado aleatorio inicial de 42, para mantener la reproducibilidad
X, Y = [...]

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

### Normalizar el dataset

Implementa la función de normalización y normaliza el dataset de ejemplos *X*:

In [None]:
# TODO: Normaliza el dataset con una función de normalización

# Copia tu función de normalización utilizada en la unidad de regresión lineal
def normalize(x, mu, std):
    pass

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

*Nota*: Si habías modificado tu función *normalize* para que calculara y devolviera los valores de *mu* y *std*, puedes modificar esta celda para incluir tu código personalizado.

### Dividir el dataset en subsets de entrenamiento, validación y test

Divide el dataset de *X* e *Y* en 3 subsets con el ratio habitual, 60%/20%/20%.

Si tu nº de ejemplos es mucho más alto o bajo, siempre puedes modificar este ratio por otro como 50/25/25 o 80/10/10.

In [None]:
# TODO: Divide el dataset X e Y en los 3 subsets según los ratios indicados

ratio = [60, 20, 20]
print('Ratio:\n', ratio, ratio[0] + ratio[1] + ratio[2])

r = [0, 0]
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_val, X_test = [...]
Y_train, Y_val, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_val.shape)
print(Y_val.shape)
print(X_test.shape)
print(Y_test.shape)

## Implementar la función de activación sigmoide

Copia tu celda con la función sigmoide:

In [None]:
# TODO: Implementa la función sigmoide

## Implementar la función de coste regularizada

Vamos a implementar la función de coste regularizada. Esta función será similar a la que implementamos para regresión lineal en un ejercicio anterior.

Función de coste regularizada:

$$ Y = h_\Theta(x) = g(X \times \Theta^T) $$
$$ J(\Theta) = - [\frac{1}{m} \sum\limits_{i=0}^{m} (y^i log(h_\theta(x^i)) + (1 - y^i) log(1 - h_\theta(x^i))] + \frac{\lambda}{2m} \sum_{j=1}^{n} \Theta_j^2 $$

In [None]:
# TODO: Implementa la función de coste regularizada para regresión logística

def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    """ Computa la función de coste para el dataset y coeficientes considerados
    
    Argumentos posicionales:
    x -- ndarray 2D con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- ndarray 1D con la variable dependiente/objetivo, de tamaño m x 1 y valores 0 o 1
    theta -- ndarray 1D con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    lambda_ -- factor de regularización, por defecto 0.
    
    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = [...]
    
    # Recuerda comprobar las dimensiones de la multiplicación matricial para hacerla correctamente
    j = [...]
    
    # Regulariza para todo Theta excepto el término de bias (el primer valor)
    j += [...]
    
    return j

Comprueba tu implementación en las siguientes circunstancias:
1. Para *lambda* = 0:
    1. Usando *Theta_verd*, el coste debe ser 0.
    1. Según los valores de *theta* se alejen de *Theta_verd*, el coste debe ser mayor.
1. Para *lambda* != 0:
    1. Usando *Theta_verd*, el coste debe ser mayor de 0.
    1. Cuanto mayor es *lambda*, mayor es el coste.
    1. El crecimiento del coste en función de *lambda* es exponencial.

In [None]:
# TODO: Comprueba tu implementación sobre el dataset

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = logistic_cost_function(X, Y, theta)

print('Coste del modelo:')
print(j)
print('Theta comprobado y Theta real:')
print(theta)
print(Theta_verd)

Anota tus experimentos y resultados en esta celda (en Markdown o código):

1. Experimento 1
1. Experimento 2
1. Experimento 3
1. Experimento 4
1. Experimento 5

## Entrenar un modelo inicial sobre el subset de entrenamiento

Al igual que hacíamos en ejercicios anteriores, vamos a entrenar un modelo inicial para comprobar que nuestra implementación y el dataset trabajan correctamente, y posteriormente podremos entrenar un modelo con validación sin problema.

Para ello, sigue los mismos pasos que seguiste para la regresión lineal:
- Entrena un modelo inicial sin regularización.
- Representa el histórico de la función de coste para comprobar su evolución.
- Si es necesario, modifica cualquier parámetro y reentrena el modelo. Usarás dichos parámetros en siguientes puntos.

Copia las celdas de ejercicios anteriores donde implementabas la función de coste en regresión logística sin regularizar y la celda donde entrenabas el modelo, y modifícalas para el caso de la regresión logística regularizda.

Recuerda las funciones de descenso de gradiente para regresión logística regularizada:

$$ Y = h_\Theta(x) = g(X \times \Theta^T) $$
$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j]; \space j \in [1, n] $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

In [None]:
# TODO: Copia la celda con el descenso de gradiente para regresión logística sin regularizar y modifícala para implementar la regularización

In [None]:
# TODO: Copia la celda donde entrenamos el modelo
# Entrena tu modelo sobre el subset de entrenamiento sin regularizar y comprueba que funciona correctamente

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

### Comprobar la implementación

Comprueba de nuevo tu implementación, al igual que hiciste en el ejercicio anterior.

En esta ocasión, además, comprueba cómo con una *lambda* distinta a 0 la penalización hace que el coste sea mayor cuanto mayor sea esta *lambda*.

### Comprobar si existe desviación o sobreajuste

Al igual que hacíamos en la regresión lineal, vamos a comprobar si existe sobreajuste comparando el coste del modelo en el dataset de entrenamiento y de validación:

In [None]:
# TODO: Comprueba el coste del modelo sobre el dataset de entrenamiento y validación
# Utiliza la Theta_final del modelo entrenado en ambos casos

Recuerda que con un dataset sintético aleatorio es difícil que se diera un caso u otro, pero de esta forma podríamos apreciar dichos problemas de la siguiente forma:

- Si el coste final en ambos subsets es alto, puede haber un problema de desviación o *bias*.
- Si el coste final en ambos subsets es muy diferente entre sí, puede haber un problema de sobreajuste o *varianza*.

## Hallar el hiper-parámetro *lambda* óptimo por validación

Del mismo modo que hemos hecho en ejercicios anteriores, vamos a optimizar nuestro parámetro de regularización por validación.

Para ello vamos a entrenar un modelo diferente por cada valor de *lambda* a considerar sobre el subset de entrenamiento, y evaluar su error o coste final sobre el subset de validación.

Vamos a representar gráficamente el error de cada modelo vs el valor de *lambda* usado e implementar un código que elegirá automáticamente el modelo más óptimo de entre todos.

Recuerda entrenar todos tus modelos en igualdad de condiciones:

In [None]:
# TODO: Entrena un modelo por cada valor de lambda diferente sobre X_train y evalúalo sobre X_val

# Usa de nuevo un espacio logarítmico entre 10 y 10^3 de 10 elementos con valores que comiencen por un decimal no-cero 1 o 3
lambdas = [...]

# Completa el código para entrenar un modelo diferente para cada valor de lambda sobre X_train
# Almacena su theta y error/coste final
# Posteriormente, evalúa su coste total en el subset de validación

# Almacena dicha información en los siguientes ndarrays, del mismo tamaño que lambdas
j_train = [...]
j_val = [...]
theta_val = [...]

In [None]:
# TODO: Representa gráficamente el error final para cada valor de lambda

plt.figure(2)

# Completa con tu código

### Escoger el mejor modelo

Copia el código de ejercicios anteriores, modificándolo si es necesario, para escoger el modelo con mayor precisión sobre el subset de validación:

In [None]:
# TODO: Escoge el modelo y el valor de lambda óptimos, con el menor error sobre el subset de CV

# Itera sobre todas las combinaciones de theta y lambda y escoge las de menor coste en el subset de CV

j_final = [...]
theta_final = [...]
lambda_final = [...]

## Evaluar el modelo sobre el subset de test

Finalmente, vamos a evaluar el modelo sobre un subset de datos que no hemos usado para entrenarlo ni para escoger ningún hiper-parámetro.

Para ello, vamos a calcular el coste o error total sobre el subset de test y comprobar gráficamente los residuos sobre el mismo:

In [None]:
# TODO: Calcula el error del modelo sobre el subset de test usando la función de coste con las correspondientes theta y lambda

j_test = [...]

In [None]:
# TODO: Calcula las predicciones del modelo sobre el subset de test, calcula los residuos y represéntalos frente al índice de ejemplos (m)

# Recuerda usar la función sigmoide para transformar las predicciones
Y_test_pred = [...]

residuos = [...]

plt.figure(3)

# Completa con tu código

plt.show()

## Realizar predicciones sobre nuevos ejemplos

Con nuestro modelo ya entrenado, optimizado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo
Y_pred = [...]