# Regresión logística: Clasificación multiclase

Una vez implementado el entrenamiento completo de un modelo de regresión logística o clasificación binaria (2 clases), vamos a repetir el mismo ejemplo pero para 

## ¿Qué vamos a hacer?
- Crear un dataset sintético para regresión logística multiclase
- Preprocesar los datos.
- Entrenar el modelo sobre el subset de entrenamiento y comprobar su idoneidad.
- Hallar el parámetro de regularización *lambda* óptimo por CV.
- Realizar prediccioes sobre nuevos ejemplos.

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Crear un dataset sintético para regresión logística multiclase

Vamos a crear un dataset sintético de 3 clases para esta implementación completa.

Para ello, crea un dataset sintético para regresión logística con término de bias y error de forma manual (para tener disponible *Theta_verd*) con una plantilla de código ligeramente diferente a la que has usado en el último ejercicio:

### Implementa la función de activación sigmoide

Copia tu función de ejercicios anteriores:

In [None]:
# TODO: Implementa la función sigmoide

Para la clasificación multiclase vamos a calcular la Y de una forma diferente:
Y tendrá unas dimensiones 2D de (clases x m), para representar todas las clases posibles. A esta codificación de p. ej. *[0, 0, 1]* la llamamos **one-hot encoding**.

- Para cada ejemplo y clase, calcula el sigmoide con *Theta_verd* y *X.
- Transforma los valores de Y para que sean 0, y 1 en el valor máx. del sigmoide.
- Por útlimo, transforma en 1 el valor de la clase con un valor máx. del sigmoide, y en 0 los valores del resto de clases.

Para introducir un término de error, recorre todos los valores de *Y* y, con un % de error aleatorio, modifica la clase de dicho ejemplo a una clase aleatoria.

*Nota*: Cuidado, como por simplificar la implementación no cambiamos la clase de dicho % de ejemplos a otra diferente, sino que escogemos una al azar, no significa que dicho vayamos a tener dicho % de ejemplos incorrectos, sino que tendremos 1/nº clases, ya que será nuestra probabilidad de volver a escoger el mismo valor de *Y* para dicho ejemplo.

In [None]:
# TODO: Genera un dataset sintético con término de bias y error de forma manual
# Ya que vamos a entrenar tantos modelos, generamos un dataset "pequeño" para que se entrenen rápido
# Si lo necesitas, puedes hacerlo más pequeño aún, o si quieres más precisión y un reto más real, ampliarlo
m = 1000
n = 2
clases = 3

# Genera un array 2D m x n con valores aleatorios entre -1 y 1
# Insértale el término de bias como una primera columna de 1s
X = [...]

# Genera un array de theta 2D de (clases x n + 1) valores aleatorios
Theta_verd = [...]

# Y tendrá unas dimensiones 2D de (clases x m)
# Calcula la Y con el sigmoide y transforma sus valores en 0 o 1
for c in range(clases):
    Y[...] = sigmoid([...])
    
for j in range(m):
    Y[...] = [...]

# Para introducir un término de error, recorre todos los valores de Y y, con un % de error aleatorio, modifica
# la clase elegida de dicho ejemplo por una clase aleatoria
error = 0.15

for j in range(m):
    # Si un nº al azar es menor o igual que error
    if [...]:
        # Asigna una clase escogida aleatoriamente
        Y[...] = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar:')
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

## Preprocesar los datos

Al igual que hacíamos para la regresión lineal, vamos a preprocesar los datos completamente, siguiendo los 3 pasos habituales:

- Reordenarlos aleatoriamente.
- Normalizarlos.
- Dividirlos en subsets de entrenamiento, CV y test.

### Reordenar el dataset aleatoriamente

Reordena los datos del dataset *X* e *Y*:

In [None]:
# TODO: Reordena aleatoriamente el dataset

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Reordenamos X e Y:')
# Si lo prefieres, puedes usar la función de conveniencia de sklearn.utils.shuffle
# Usa un estado aleatorio inicial de 42, para mantener la reproducibilidad
X, Y = [...]

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

### Normalizar el dataset

Implementa la función de normalización y normaliza el dataset de ejemplos *X*:

In [None]:
# TODO: Normaliza el dataset con una función de normalización

def normalize(x, mu, std):
    """ Normaliza un dataset con ejemplos X
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los ejemplos, sin término de bias
    mu -- vector 1D de Numpy con la media de cada característica/columna
    std -- vector 1D de Numpy con la desviación típica de cada característica/columna
    
    Devuelve:
    x_norm -- array 2D de Numpy con los ejemplos, con sus características normalizadas
    """
    return [...]

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

*Nota*: Si habías modificado tu función *normalize* para que calculara y devolviera los valores de *mu* y *std*, puedes modificar esta celda para incluir tu código personalizado.

### Dividir el dataset en subsets de entrenamiento, CV y test

Divide el dataset de *X* e *Y* en 3 subsets con el ratio habitual, 60%/20%/20%.

Si tu nº de ejemplos es mucho más alto o bajo, siempre puedes modificar este ratio por otro como 50/25/25 o 80/10/10.

In [None]:
# TODO: Divide el dataset X e Y en los 3 subsets según los ratios indicados

ratios = [60,20,20]
print('Ratios:\n', ratios, ratios[0] + ratios[1] + ratios[2])

r = [0,0]
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r[0] = [...]
r[1] = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_cv, X_test = [...]
# ¡Cuidado con las nuevas dimensiones de Y!
Y_train, Y_cv, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_cv.shape)
print(Y_cv.shape)
print(X_test.shape)
print(Y_test.shape)

## Entrenar un modelo inicial para cada clase

Para la clasificación multiclase, debemos entrenar un modelo diferente para cada clase. Por tanto, si tenemos 3 clases debemos entrenar 3 modelos diferentes.

Cada modelo sólo considerará los valores de la variable objetivo relativos a su clase, sólo clasificará los ejemplos como pertenecientes a su clase o no (pertenecientes al resto).

Para ello, sólo le proporcionaremos los valores de *Y* para dicha clase o columna. P. ej.,
*Y* = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]

- *Y* para el modelo 1: [0, 0, 1]
- *Y* para el modelo 2: [0, 1, 0]
- *Y* para el modelo 3: [1, 0, 0]

Al igual que hacíamos en ejercicios anteriores, vamos a entrenar modelos iniciales para comprobar que nuestra implementación es correcta:

- Entrena un modelo inicial sin regularización para cada clase.
- Representa el histórico de la función de coste para comprobar su evolución para cada modelo.
- Si es necesario, modifica cualquier parámetro y reentrena los modelos. Usarás dichos parámetros en siguientes puntos.

Copia las celdas de ejercicios anteriores donde implementabas la función de coste y gradient descent regularizados para regresión logística, y la celda donde entrenabas el modelo:

In [None]:
# TODO: Copia las celdas con las funciones de coste y gradient descent para clasificación regularizadas

In [None]:
# TODO: Entrena tus modelos sobre el subset de entrenamiento sin regularizar

# Crea una theta inicial con un valor dado.
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

# Inicializa unas variables para almacenar el resultado de cada modelo con las dimensiones adecuadas
# Cuidado: los modelos pueden necesitar un nº de iteraciones hasta que convergen bastante dispar
# Dale a j_train un tamaño para almacenar hasta el nº máx. de iteraciones
j_train_ini = [...]
theta_train = [...]

t = time.time()
for c in [...]:    # Itera sobre el nº de clases
    print('\nModelo para la clase nº:', c)
    
    theta_train = [...]    # Copia profunda de theta_ini para que no se modifique
    
    t_model = time.time()
    j_train_ini[...], theta_train[...] = regularized_logistic_gradient_descent([...])
    
    print('Tiempo de entrenamiento para el modelo (s):', time.time() - t_model)
    
print('Tiempo de entrenamiento total (s):', time.time() - t)

print('\nCoste final del modelo para cada clase:')
print()

print('\nTheta final del modelo para cada clase:')
print()

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones para cada modelo

plt.figure(1)

plt.title('Función de coste en cada clase')

for c in range(clases):
    plt.subplot(clases, 1, c + 1)
    plt.xlabel('Iteraciones')
    plt.ylabel('Coste en clase {}'.format(c))
    plt.plot(j_train_ini[...])

plt.show()

### Comprobar la idoneidad de los modelos

Revisa la precisión de tus modelos y modifica los parámetros para reentrenarlos si es necesario.

Recuerda que si tu dataset es "demasiado preciso" puedes volver a la celda original e introducir un término de error superior.

Por complejidad de una clasificación multiclase, no te pediremos que compruebes si los modelos pueden estar sufriendo desviación o sobreajuste.

## Hallar el hiper-parámetro *lambda* óptimo por CV

Del mismo modo que hemos hecho en ejercicios anteriores, vamos a optimizar nuestro parámetro de regularización por validación cruzada para cada uno de las clases y modelos.

Para ello, para cada clase, vamos a entrenar un modelo diferente por cada valor de *lambda* a considerar sobre el subset de entrenamiento, y evaluar su error o coste final sobre el subset de CV.

De nuevo, vamos a representar gráficamente el error de cada modelo vs el valor de *lambda* usado e implementar un código que elegirá automáticamente el modelo más óptimo de entre todos para cada clase.

Recuerda entrenar todos tus modelos en igualdad de condiciones.

Por tanto, ahora debes modificar el código de la celda anterior para no entrenar un modelo, como anteriormente, sino entrenar un modelo por cada una de las clases, por cada uno de los valores de *lambda* a considerar:

In [None]:
# TODO: Entrena un modelo por cada valor de lambda diferente sobre X_train y evalúalo sobre X_cv
# Los valores de lambda que considerábamos anteriormente eran:
# lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]
# Si lo prefieres, modifica el nº de valores lambda para no entrenar tantos modelos y que tarde tanto tiempo
lambdas = [0., 1e-3, 3e-3, 1e-2, 3e-2, 1e-1, 3e-1, 1e0, 3e0, 1e1]

# Completa el código para entrenar un modelo diferente para cada clase y valor de lambda sobre X_train
# Almacena sus thetas y costes finales
# Posteriormente, evalúa sus costes totales en el subset de CV

# Almacena dicha información en los siguientes arrays
# Cuidado con sus dimensiones necesarias
j_train = [...]
j_cv = [...]
theta_cv = [...]

In [None]:
# TODO: Representa gráficamente el error final para cada valor de lambda con una gráfica por clase

plt.figure(3)

# Completa con tu código
for c in range(clases):
    plt.subplot(clases, 1, c + 1)
    
    plt.title('Clase:', c)
    plt.xlabel('Lambda')
    plt.ylabel('Coste final')
    plt.plot(j_train[...])
    plt.plot(j_cv[...])

plt.show()

### Escoger el mejor modelo para cada clase

Copia el código de ejercicios anteriores y modifícalo para escoger el modelo con mayor precisión sobre el subset de CV para cada clase:

In [None]:
# TODO: Escoge los modelos y valores de lambda óptimos, con el menor error sobre el subset de CV

# Itera sobre todas las combinaciones de theta y lambda y escoge las de menor coste en el subset de CV

j_final = [...]
theta_final = [...]
lambda_final = [...]

## Evaluar los modelos sobre el subset de test

Finalmente, vamos a evaluar el modelo de cada clase sobre un subset de datos que no hemos usado para entrenarlos ni para escoger ningún hiper-parámetro.

Para ello, vamos a calcular el coste o error total sobre el subset de test y comprobar gráficamente los resíduos sobre el mismo.

Recuerda usar sólo las columnas de la *Y* que "vería" cada modelo, puesto que clasifica los ejemplos en función de si pertenecen a su clase o no.

In [None]:
# TODO: Calcula el error de los modelos sobre el subset de test usando la función de coste con las 
# correspondientes thetas y lambdas

j_test = [...]

In [None]:
# TODO: Calcula las predicciones de los modelos sobre el subset de test, calcula los resíduos y represéntalos

# Recuerda usar la función sigmoide para transformar las predicciones
Y_test_pred = [...]

residuos = [...]

plt.figure(4)

# Completa con tu código

plt.show()

*Bonus*: Al igual que en el ejercicio anterior, además de los resíduos, *¿por qué no representas gráficamente también todas las predicciones sobre el subset de test para comprobar en cuántas de ellas acierta nuestro modelo?*

## Realizar predicciones sobre nuevos ejemplos

Con nuestros modelos ya entrenado, optimizado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo para cada una de las clases, o lo que es lo mismo, por cada uno de los 3 modelos.
- Escoger la clase final como la clase con mayor valor de *Y* tras el sigmoide, puesto que en algunos casos varios modelos pueden quere clasificar el ejemplo en su clase asociada a la vez.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Para comparar, antes de normalizar los datos, usa la Theta_verd para ver cuál sería la clase real asociada
Y_verd = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo para cada modelo usando el sigmoide
Y_pred = [...]

# Escoge la clase final como la de mayor valor tras el sigmoide y transfórmala a un vector de 0s y 1s
Y_pred = [...]

# Compara la clase real asociada a dicho nuevo ejemplo y la clase predicha
print('Clase real del nuevo ejemplo y clase predicha:')
print(Y_verd)
print(Y_pred)