# Regresión logística: Función de coste y entrenamiento

## ¿Qué vamos a hacer?
- Crear un dataset sintético para regresión logística de forma manual y con Scikit-learn.
- Implementar la función de actdivación logística sigmoide.
- Implementar la función de coste regularizada para regresión logística.
- Implementar el entrenamiento del modelo por gradient descent.
- Comprobar el entrenamiento representando la evolución de la función de coste.

In [1]:
import time
import random
import numpy as np
from matplotlib import pyplot as plt

## Creación de un dataset sintético para regresión logística

Vamos a crear un dataset sintético de nuevo, pero en esta ocasión para regresión logística.

Vamos a descubrir cómo hacerlo con los 2 métodos que hemos usado previamente: de forma manual y con Scikit-learn, usando la función [sklearn_datasets.make_classification](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html).

In [None]:
# TODO: Genera un dataset sintético con término de bias y error de forma manual
m = 100
n = 2

# Genera un array 2D m x n con valores aleatorios entre -1 y 1
# Insértale el término de bias como una primera columna de 1s
X = [...]

# Genera un array de theta de n + 1 valores aleatorios
Theta_verd = [...]

# Calcula Y en función de X y Theta_verd
# Añádele un término de error modificable
# Transforma Y a valores de 1. y 0. (float) cuando Y >= 0.5
error = 0.15

Y = [...]
Y = [...]
Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar:')
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

In [None]:
# TODO: Genera un dataset sintético con término de bias y error con Scikit-learn

# Usa los mismos valores de m, n y error del dataset anterior
X_sklearn = [...]
Y_sklearn = [...]

# Comprueba los valores y dimensiones de los vectores
print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

Ya que con el método de Scikit-learn no podemos recuperar los coeficientes utilizados, vamos a usar el método manual.

## Implementar la función sigmoide

Vamos a implementar la función de activación sigmoide. Usaremos esta función para implementar nuestra hipótesis, que transforma las predicciones del modelo a valores de 0 y 1.

Función sigmoide:

$g(z) = \frac{1}{1 + e^{-z}} \\
Y = h_\theta(x) = g(\Theta \times X) = \frac{1}{1 + e^{-\Theta^Tx}}$

In [None]:
# TODO: Implementa la función de activación sigmoide

def sigmoid(theta, x):
    """ Devuelve el valor del sigmoide para dicha theta y x
    
    Argumentos posicionales:
    theta -- array 1D de Numpy con la fila o columna de coeficientes de las características
    x -- array 1D de Numpy con las características de un ejemplo
    
    Devuelve:
    sigmoide -- float con el valor del sigmoide para dichos parámetros
    """
    
    return [...]

## Implementar la función de coste regularizada

Vamos a implementar la función de coste regularizada. Esta función será similar a la que implementamos para regresión lineal en un ejercicio anterior.

Función de coste regularizada:

$J(\Theta) = - [\frac{1}{m} \sum\limits_{i=0}^{m} (y^i log(h_\theta(x^i)) + (1 - y^i) log(1 - h_\theta(x^i))] \\
+ \frac{\lambda}{2m} \sum_{j=1}^{n} \Theta_j^2$

In [None]:
# TODO: Implementa la función de coste regularizada para regresión logística

def regularized_logistic_cost_function(x, y, theta, lambda_=0.):
    """ Computa la función de coste para el dataset y coeficientes considerados
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1 y valores 0 o 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    lambda_ -- factor de regularización, por defecto 0.
    
    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = [...]
    
    # Recuerda comprobar las dimensiones de la multiplicación matricial para hacerla correctamente
    j = [...]
    
    # Regulariza para todo Theta excepto el término de bias (el primer valor)
    j += [...]
    
    return j

Del mismo modo que en ejercicios anteriores, comprueba tu implementación calculando la función de coste para cada ejemplo del dataset.

Con la *Y* correcta y la *lambda* a 0, la función de coste debe ser también 0. Según se aleja la *theta* o se incrementa la *lambda*, el coste debe ser superior:

In [None]:
# TODO: Comprueba tu implementación sobre el dataset

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = regularized_logistic_cost_function(X, Y, theta, lambda_=0.)

print('Coste del modelo:')
print(j)
print('Theta comprobado y Theta real:')
print(theta)
print(Theta_verd)

## Implementar el entrenamiento por gradient descent

Ahora vamos a optimizar dicha función de coste, a entrenar nuestro modelo por gradient descent regularizado.

En el siguiente ejercicio usaremos la regularización para realizar validación cruzada.

Actualizaciones de los coeficientes *theta*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum\limits_{i=0}^{m} (h_\theta (x^i) - y^i) x_0^i + \frac{\lambda}{m} \theta_j]; \\
j \in [1, n]$

In [None]:
# TODO: Implementar la función que entrena el modelo por gradient descent regularizado

def regularized_logistic_gradient_descent(x, y, theta, alpha=1e-1, lambda_=0., e=1e-3, iter_=1e3):
    """ Entrena el modelo optimizando su función de coste por gradient descent
    
    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)
    
    Argumentos nombrados (keyword):
    alpha -- float, ratio de entrenamiento
    lambda -- float con el parámetro de regularización
    e -- float, diferencia mínima entre iteraciones para declarar que el entrenamiento ha convergido finalmente
    iter_ -- int/float, nº de iteraciones
    
    Devuelve:
    j_hist -- list/array con la evolución de la función de coste durante el entrenamiento
    theta -- array de Numpy con el valor de theta en la última iteración
    """
    iter_ = int(iter_)    # Si has declarado iter_ en notación científica (1e3) o float (1000.), conviértelo
    
    # Inicializa j_hist como una list o un array de Numpy. Recuerda que no sabemos qué tamaño tendrá finalmente
    j_hist = [...]
    
    m, n = [...]    # Obtén m y n a partir de las dimensiones de X
    
    for k in [...]:    # Itera sobre el nº de iteraciones máximo
        theta_iter = [...]    # Declara una theta para cada iteración, ya que debemos actualizarla
        
        for j in [...]:    # Itera sobre el nº de características
            # Actualiza theta_iter para cada característica, según la derivada de la función de coste
            # Incluye el ratio de entrenamiento alpha
            # Cuidado con las multiplicaciones matriciales, su órden y dimensiones
            
            if j > 0:
                pass    # Regulariza todo coeficiente excepto el del parámetro bias (primer valor)
            
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter
        
        cost = regularized_logistic_cost_function([...])    # Calcula el coste para la iteración de theta actual
        
        j_hist[...]    # Añade el coste de la iteración actual al histórico de costes
        
        # Comprueba si la diferencia entre el coste de la iteración actual y el de la última iteración en valor
        # absoluto son menores que la diferencia mínima para declarar convergencia, e
        if k > 0 and [...]:
            print('Converge en la iteración nº: ', k)
            
            break
    else:
        print('Nº máx. de iteraciones alcanzado')
        
    return j_hist, theta

### Entrenar un modelo de regresión logística no regularizado

Para comprobar la implementación de tu función, úsala para entrenar un modelo de regresión logística sobre el dataset sintético sin regularizacón (*lambda* = 0).

Comprueba que el modelo converge correctamente a *Theta_verd*:

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado.
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.
e = 1e-3
iter_ = 1e3

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_logistic_gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist[...])
print('\Coste final:')
print(j_hist[...])
print('\nTheta final:')
print(theta_final)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final - Theta_verd)

### Representar la evolución de la función de coste

Para comprobar la evolución del entrenamiento de tu modelo, representa gráficamente el histórico de la función de coste:

In [None]:
# TOOD: Representa gráficamente la función de coste vs el nº de iteraciones

plt.figure()

plt.title('Función de coste')
plt.xlabel('nº iteraciones')
plt.ylabel('coste')

plt.plot([...])    # Completa

plt.grid()
plt.show()