# Regresión logística: Entrenamiento y predicciones
M2U5 - Ejercicio 4

## ¿Qué vamos a hacer?
- Crear un dataset sintético para regresión logística
- Preprocesar los datos
- Implementar el entrenamiento del modelo por gradient descent
- Comprobar el entrenamiento representando la evolución de la función de coste
- Realizar predicciones sobre nuevos ejemplos

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
Una vez implementada la función de coste, vamos a entrenar un modelo de regresión logística por gradient descent, comprobando nuestro entrenamiento, evaluándolo sobre un subset de test y finalmente realizando predicciones sobre el mismo.

En esta ocasión trabajaremos con una regresión logística binaria, mientras que en otros ejercicios plantearemos una clasificación multiclase.

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Crear un dataset sintético para regresión logística

Vamos a crear un dataset sintético de 2 clases únicamente (0 y 1) para comprobar esta implementación de un modelo de clasificación binaria, entrenado completamente, paso a paso.

Para ello, crea un dataset sintético para regresión logística con término de bias y error de forma manual (para tener disponible *Theta_verd*) con el código que has usado en el ejercicio anterior:

In [None]:
# TODO: Genera un dataset sintético con término de bias y error de forma manual
m = 100
n = 1

# Genera un array 2D m x n con valores aleatorios entre -1 y 1
# Insértale el término de bias como una primera columna de 1s
X = [...]

# Genera un array de theta de n + 1 valores aleatorios entre [0, 1)
Theta_verd = [...]

# Calcula Y en función de X y Theta_verd
# Transforma Y a valores de 1. y 0. (float) cuando Y >= 0.0
# Con una probabilidad como término de error, itera sobre Y y modifica la clase asignada a la contraria, 1. a 0. y 0. a 1.
error = 0.15

Y = [...]
Y = [...]
Y = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

## Implementar la función de activación sigmoide

Copia tu celda con la función sigmoide:

In [None]:
# TODO: Implementa la función sigmoide

## Preprocesar los datos

Al igual que hacíamos para la regresión lineal, vamos a preprocesar los datos completamente, siguiendo los 3 pasos habituales:

- Reordenarlos aleatoriamente.
- Normalizarlos.
- Dividirlos en subsets de entrenamiento y test.

Puedes hacerlo manualmente o con las funciones auxiliares de Scikit-learn.

### Reordenar el dataset aleatoriamente

Reordena los datos del dataset *X* e *Y*:

In [None]:
# TODO: Reordena aleatoriamente el dataset

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Reordenamos X e Y:')
# Usa un estado aleatorio inicial de 42, para mantener la reproducibilidad
X, Y = [...]

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

### Normalizar el dataset

Implementa la función de normalización y normaliza el dataset de ejemplos *X*:

In [None]:
# TODO: Normaliza el dataset con una función de normalización

# Copia tu función de normalización utilizada en la unidad de regresión lineal
def normalize(x, mu, std):
    pass

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

### Dividir el dataset en subsets de entrenamiento y test

Divide el dataset de *X* e *Y* en 2 subsets con el ratio de 70%/30%.

Si tu nº de ejemplos es mucho más alto o bajo, siempre puedes modificar este ratio más adecuado.

In [None]:
# TODO: Divide el dataset X e Y en los 2 subsets según el ratio indicado

ratio = [70, 30]
print('Ratio:\n', ratio, ratio[0] + ratio[1])

# Índice de corte
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_test = [...]
Y_train, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_test.shape)
print(Y_test.shape)

## Entrenar un modelo inicial sobre el subset de entrenamiento

Al igual que hacíamos en ejercicios anteriores, vamos a entrenar un modelo inicial para comprobar que nuestra implementación y el dataset trabajan correctamente, y posteriormente podremos entrenar un modelo con validación sin problema.

Para ello, sigue los mismos pasos que seguiste para la regresión lineal:
- Entrena un modelo inicial sin implementar la regularización.
- Representa el histórico de la función de coste para comprobar su evolución.
- Si es necesario, modifica cualquier parámetro y reentrena el modelo. Usarás dichos parámetros en siguientes puntos.

Copia las celdas de ejercicios anteriores donde implementabas la función de coste en regresión logística, el gradient descent sin regularizar para regresión lineal y la celda donde entrenabas el modelo de regresión, y modifícalas para el caso de la regresión logística.

Recuerda las funciones de descenso de gradiente para regresión logística:

$$ Y = h_\Theta(x) = g(X \times \Theta^T) $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i] $$

In [None]:
# TODO: Copia la celda con la función de coste

In [None]:
# TODO: Copia la celda con la función de descenso de gradiente sin regularizar para regresión lineal y adáptala para regresión logística

In [None]:
# TODO: Copia la celda donde entrenamos el modelo
# Entrena tu modelo sobre el subset de entrenamiento sin regularizar

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

Comprueba tu implementación en estas circunstancias:
1. Usando *Theta_verd*, el coste final debe ser prácticamente 0 y converger en un par de iteraciones.
1. Según los valores de *theta* se alejen de *Theta_verd*, debe necesitar más iteraciones y la *theta_final* debe ser muy similar a la *Theta_verd*.

Para ello recuerda que puedes modificar los valores de las celdas y reejecutarlas.

Anota tus experimentos y resultados en esta celda (en Markdown o código):
1. Experimento 1
1. Experimento 2

## Evaluar el modelo sobre el subset de test

Finalmente, vamos a evaluar el modelo sobre un subset de datos que no hemos usado para entrenarlo.

Para ello, vamos a calcular el coste o error total sobre el subset de test y comprobar gráficamente los residuos sobre el mismo:

In [None]:
# TODO: Calcula el error del modelo sobre el subset de test usando la función de coste con la correspondientes theta

j_test = [...]

In [None]:
# TODO: Calcula las predicciones del modelo sobre el subset de test, calcula los residuos y represéntalos frente al índice de ejemplos (m)

# Recuerda usar la función sigmoide para transformar las predicciones
Y_test_pred = [...]

residuos = [...]

plt.figure(3)

# Completa con tu código

plt.show()

## Realizar predicciones sobre nuevos ejemplos

Con nuestro modelo ya entrenado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo
Y_pred = [...]