# Regresión logística: Regularización y predicciones

Una vez implementada la función de coste y gradient descent regularizados, vamos a entrenar un modelo de regresión logística completo, comprobándolo por validación cruzada, evaluándolo sobre un subset de test y, finalmente, realizando predicciones sobre el mismo.

En este ejercicio vamos a continuar implementando una clasificación entre 2 únicas clases. En el siguiente ejercicio resolveremos el problema de una clasificación multiclase.

## ¿Qué vamos a hacer?
- Crear un dataset sintético para regresión logística.
- Preprocesar los datos.
- Entrenar el modelo sobre el subset de entrenamiento y comprobar su idoneidad.
- Hallar el parámetro de regularización *lambda* óptimo por CV.
- Realizar prediccioes sobre nuevos ejemplos.

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Crear un dataset sintético para regresión logística

Vamos a crear un dataset sintético de 2 únicas clases (0 y 1) para comprobar esta implementación de un modelo de clasificación binaria, entrenado completamente, paso a paso.

Para ello, crea un dataset sintético para regresión logística con término de bias y error de forma manual (para tener disponible *Theta_verd*) con el código que has usado en el último ejercicio:

In [None]:
# TODO: Genera un dataset sintético con término de bias y error de forma manual
m = 1000
n = 2

# Genera un array 2D m x n con valores aleatorios entre -1 y 1
# Insértale el término de bias como una primera columna de 1s
X = [...]

# Genera un array de theta de n + 1 valores aleatorios
Theta_verd = [...]

# Calcula Y en función de X y Theta_verd
# Añádele un término de error modificable
# Transforma Y a valores de 1. y 0. (float) cuando Y >= 0.5
error = 0.20

Y = [...]
Y = [...]
Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar:')
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

*Nota importante*: El término de error en un dataset sintético de clasificación funciona de una forma diferente al de regresión lineal. En la regresión, simplemente modificábamos el valor de *Y* en un margen.

Sin embargo, en la clasificación cuando introducimos ese error es antes de transformar ese valor numérico de *Y* a un valor de 0 o 1. Por tanto, si el término de error no hace que el valor numérico suba o baje de 0.5, la clase asociada a dicho ejemplo no cambiará.

Por tanto, si ves que tu dataset es "demasiado preciso" para poder comprobar tu implementación de clasificación regularizada, puedes volver a este punto, incrementar el término de error y ejecutar el resto de celdas de nuevo.

## Preprocesar los datos

Al igual que hacíamos para la regresión lineal, vamos a preprocesar los datos completamente, siguiendo los 3 pasos habituales:

- Reordenarlos aleatoriamente.
- Normalizarlos.
- Dividirlos en subsets de entrenamiento, CV y test.

### Reordenar el dataset aleatoriamente

Reordena los datos del dataset *X* e *Y*:

In [None]:
# TODO: Reordena aleatoriamente el dataset

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Reordenamos X e Y:')
# Si lo prefieres, puedes usar la función de conveniencia de sklearn.utils.shuffle
# Usa un estado aleatorio inicial de 42, para mantener la reproducibilidad
X, Y = [...]

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

### Normalizar el dataset

Implementa la función de normalización y normaliza el dataset de ejemplos *X*:

In [None]:
# TODO: Normaliza el dataset con una función de normalización

def normalize(x, mu, std):
    """ Normaliza un dataset con ejemplos X
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los ejemplos, sin término de bias
    mu -- vector 1D de Numpy con la media de cada característica/columna
    std -- vector 1D de Numpy con la desviación típica de cada característica/columna
    
    Devuelve:
    x_norm -- array 2D de Numpy con los ejemplos, con sus características normalizadas
    """
    return [...]

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

*Nota*: Si habías modificado tu función *normalize* para que calculara y devolviera los valores de *mu* y *std*, puedes modificar esta celda para incluir tu código personalizado.

### Dividir el dataset en subsets de entrenamiento, CV y test

Divide el dataset de *X* e *Y* en 3 subsets con el ratio habitual, 60%/20%/20%.

Si tu nº de ejemplos es mucho más alto o bajo, siempre puedes modificar este ratio por otro como 50/25/25 o 80/10/10.

In [None]:
# TODO: Divide el dataset X e Y en los 3 subsets según los ratios indicados

ratios = [60,20,20]
print('Ratios:\n', ratios, ratios[0] + ratios[1] + ratios[2])

r = [0,0]
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_cv, X_test = [...]
Y_train, Y_cv, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_cv.shape)
print(Y_cv.shape)
print(X_test.shape)
print(Y_test.shape)

## Entrenar un modelo inicial sobre el subset de entrenamiento

Al igual que hacíamos en ejercicios anteriores, vamos a entrenar un modelo inicial para comprobar que nuestra implementación y el dataset trabajan correctamente, y podremos entrenar un modelo por CV sin problema.

Para ello, sigue los mismos pasos que seguiste para la regresión lineal:
- Entrena un modelo inicial sin regularización.
- Representa el histórico de la función de coste para comprobar su evolución.
- Si es necesario, modifica cualquier parámetro y reentrena el modelo. Usarás dichos parámetros en siguientes puntos.

Copia las celdas de ejercicios anteriores donde implementabas la función de coste y gradient descent regularizados para regresión logística, y la celda donde entrenabas el modelo:

In [None]:
# TODO: Copia las celdas con las funciones de coste y gradient descent para clasificación regularizadas

In [None]:
# TODO: Copia la celda donde entrenamos el modelo
# Entrena tu modelo sobre el subset de entrenamiento sin regularizar

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

### Comprobar la idoneidad del modelo

Revisa la precisión de tu modelo y modifica los parámetros para reentrenarlo si es necesario.

Recuerda que si tu dataset es "demasiado preciso" puedes volver a la celda original e introducir un término de error superior.

### Comprobar si existe desviación o sobreajuste

Al igual que hacíamos en la regresión lineal, entrena 2 modelos en igualdad de condiciones, uno sobre los primeros datos del subset de entrenamiento y otro sobre el subset de CV (con el mismo nº de ejemplos en ambos casos):

In [None]:
# TODO: Establece una theta_ini e hiper-parámetros comunes a ambos modelos, para entrenarlos en igualdad de 
# condiciones

theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

In [None]:
# TODO: Entrena un modelo sin regularización sobre los n primeros valores de X_train, donde n es el nº de
# ejemplos disponibles en X_cv
# Usa j_hist_train y theta_train como nombres de variables para distinguirlos del otro modelo

*Nota*: Comprueba que *theta_ini* no se ha modificado, o modifica tu código para que ambos modelos usen la misma *theta_ini*.

In [None]:
# TODO: Del mismo modo, entrena un modelo sin regularización sobre X_cv con los mismos parámetros
# Recuerda usar j_hist_cv y theta_cv como nobmres de variables

Ahora representa gráficamente ambas evoluciones sobre la misma gráfica, con colores diferentes:

In [None]:
# TODO: Representa en una gráfica de líneas ambas evoluciones para compararlas

plt.figure(2)

plt.title()
plt.xlabel()
plt.ylabel()

# Usa colores diferentes para ambas series, e indica una leyenda para distinguirlos
plt.plot()
plt.plot()

plt.show()

Recuerda que con un dataset sintético aleatorio es difícil que se diera un caso u otro, pero de esta forma podríamos apreciar dichos problemas de la siguiente forma:

- Si el coste final en ambos subsets es alto, puede haber un problema de desviación o *bias*.
- Si el coste final en ambos subsets es muy diferente entre sí, puede haber un problema de sobreajuste o *varianza*.

## Hallar el hiper-parámetro *lambda* óptimo por CV

Del mismo modo que hemos hecho en ejercicios anteriores, vamos a optimizar nuestro parámetro de regularización por validación cruzada.

Para ello vamos a entrenar un modelo diferente por cada valor de *lambda* a considerar sobre el subset de entrenamiento, y evaluar su error o coste final sobre el subset de CV.

Vamos a representar gráficamente el error de cada modelo vs el valor de *lambda* usado e implementar un código que elegirá automáticamente el modelo más óptimo de entre todos.

Recuerda entrenar todos tus modelos en igualdad de condiciones:

In [None]:
# TODO: Entrena un modelo por cada valor de lambda diferente sobre X_train y evalúalo sobre X_cv

lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]

# Completa el código para entrenar un modelo diferente para cada valor de lambda sobre X_train
# Almacena su theta y error/coste final
# Posteriormente, evalúa su coste total en el subset de CV

# Almacena dicha información en los siguientes arrays, del mismo tamaño que lambdas
j_train = [...]
j_cv = [...]
theta_cv = [...]

In [None]:
# TODO: Representa gráficamente el error final para cada valor de lambda

plt.figure(3)

# Completa con tu código

### Escoger el mejor modelo

Copia el código de ejercicios anteriores, modificándolo si es necesario, para escoger el modelo con mayor precisión sobre el subset de CV:

In [None]:
# TODO: Escoge el modelo y el valor de lambda óptimos, con el menor error sobre el subset de CV

# Itera sobre todas las combinaciones de theta y lambda y escoge las de menor coste en el subset de CV

j_final = [...]
theta_final = [...]
lambda_final = [...]

## Evaluar el modelo sobre el subset de test

Finalmente, vamos a evaluar el modelo sobre un subset de datos que no hemos usado para entrenarlo ni para escoger ningún hiper-parámetro.

Para ello, vamos a calcular el coste o error total sobre el subset de test y comprobar gráficamente los resíduos sobre el mismo:

In [None]:
# TODO: Calcula el error del modelo sobre el subset de test usando la función de coste con las correspondientes
# theta y lambda

j_test = [...]

In [None]:
# TODO: Calcula las predicciones del modelo sobre el subset de test, calcula los resíduos y represéntalos

# Recuerda usar la función sigmoide para transformar las predicciones
Y_test_pred = [...]

residuos = [...]

plt.figure(4)

# Completa con tu código

plt.show()

*Bonus*: Además de los resíduos, *¿por qué no representas gráficamente también todas las predicciones sobre el subset de test para comprobar en cuántas de ellas acierta nuestro modelo?*

## Realizar predicciones sobre nuevos ejemplos

Con nuestro modelo ya entrenado, optimizado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo
Y_pred = [...]