# Logistic Regression: Training and predictions
M2U5 - Exercise 4

## What are we going to do?
- We will create a synthetic dataset for logistic regression
- We will preprocess the data
- We will train the model using gradient descent
- We will check the training by plotting the evolution of the cost function
- We will make predictions about new examples

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

## Instructions
Once the cost function is implemented, we will train a gradient descent logistic regression model, testing our training, evaluating it on a test subset and finally, making predictions on it.

This time we will work with a binary logistic regression, while in other exercises we will consider a multiclass classification.

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Create a synthetic dataset for logistic regression

We will create a synthetic dataset with only 2 classes (0 and 1) to test this implementation of a fully trained binary classification model, step by step.

To do this, manually create a synthetic dataset for logistic regression with bias and error term (to have *Theta_true* available) with the code you used in the previous exercise:

In [None]:
# TODO: Manually generate a synthetic dataset with a bias term and an error term
m = 100
n = 1

# Generate a 2D m x n array with random values between -1 and 1
# Insert a bias term as a first column of 1s
X = [...]

# Generate a theta array with n + 1 random values between [0, 1)
Theta_true = [...]

# Calculate Y as a function of X and Theta_true
# Transform Y to values of 1 and 0 (float) when Y ≥ 0.0
# Using a probability as the error term, iterate over Y and change the assigned class to its opposite, 1 to 0, and 0 to 1
error = 0.15

Y = [...]
Y = [...]
Y = [...]

# Check the values and dimensions of the vectors
print('Theta and its dimensions to be estimated:')
print()
print()

print('First 10 rows and 5 columns of X and Y:')
print()
print()

print('Dimensions of X and Y:')
print()

## Implement the sigmoid activation function

Copy your cell with the sigmoid function:

In [None]:
# TODO: Implement the sigmoid function

## Preprocess the data

As we did for linear regression, we will preprocess the data completely, following the usual 3 steps:

- Randomly reorder the data.
- Normalise the data.
- Divide the dataset into training and test subsets.

You can do this manually or with Scikit-learn's auxiliary functions.


### Reordenar el dataset aleatoriamente

Reordena los datos del dataset *X* e *Y*:

In [None]:
# TODO: Reordena aleatoriamente el dataset

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Reordenamos X e Y:')
# Usa un estado aleatorio inicial de 42, para mantener la reproducibilidad
X, Y = [...]

print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()

print('Dimensiones de X e Y:')
print()

### Normalizar el dataset

Implementa la función de normalización y normaliza el dataset de ejemplos *X*:

In [None]:
# TODO: Normaliza el dataset con una función de normalización

# Copia tu función de normalización utilizada en la unidad de regresión lineal
def normalize(x, mu, std):
    pass

# Halla la media y la desviación típica de las características de X (columnas), excepto la primera (bias)
mu = [...]
std = [...]

print('X original:')
print(X)
print(X.shape)

print('Media y desviación típica de las características:')
print(mu)
print(mu.shape)
print(std)
print(std.shape)

print('X normalizada:')
X_norm = np.copy(X)
X_norm[...] = normalize(X[...], mu, std)    # Normaliza sólo la columna 1 y siguientes, no la 0
print(X_norm)
print(X_norm.shape)

### Dividir el dataset en subsets de entrenamiento y test

Divide el dataset de *X* e *Y* en 2 subsets con el ratio de 70%/30%.

Si tu nº de ejemplos es mucho más alto o bajo, siempre puedes modificar este ratio más adecuado.

In [None]:
# TODO: Divide el dataset X e Y en los 2 subsets según el ratio indicado

ratio = [70, 30]
print('Ratio:\n', ratio, ratio[0] + ratio[1])

# Índice de corte
# Consejo: la función round() y el atributo x.shape pueden serte útiles
r = [...]
print('Índices de corte:\n', r)

# Consejo: la función np.array_split() puede serte útil
X_train, X_test = [...]
Y_train, Y_test = [...]

print('Tamaños de los subsets:')
print(X_train.shape)
print(Y_train.shape)
print(X_test.shape)
print(Y_test.shape)

## Entrenar un modelo inicial sobre el subset de entrenamiento

Al igual que hacíamos en ejercicios anteriores, vamos a entrenar un modelo inicial para comprobar que nuestra implementación y el dataset trabajan correctamente, y posteriormente podremos entrenar un modelo con validación sin problema.

Para ello, sigue los mismos pasos que seguiste para la regresión lineal:
- Entrena un modelo inicial sin implementar la regularización.
- Representa el histórico de la función de coste para comprobar su evolución.
- Si es necesario, modifica cualquier parámetro y reentrena el modelo. Usarás dichos parámetros en siguientes puntos.

Copia las celdas de ejercicios anteriores donde implementabas la función de coste en regresión logística, el gradient descent sin regularizar para regresión lineal y la celda donde entrenabas el modelo de regresión, y modifícalas para el caso de la regresión logística.

Recuerda las funciones de descenso de gradiente para regresión logística:

$$ Y = h_\Theta(x) = g(X \times \Theta^T) $$
$$ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i] $$

In [None]:
# TODO: Copia la celda con la función de coste

In [None]:
# TODO: Copia la celda con la función de descenso de gradiente sin regularizar para regresión lineal y adáptala para regresión logística

In [None]:
# TODO: Copia la celda donde entrenamos el modelo
# Entrena tu modelo sobre el subset de entrenamiento sin regularizar

In [None]:
# TODO: Representa la evolución de la función de coste vs el nº de iteraciones

plt.figure(1)

Comprueba tu implementación en estas circunstancias:
1. Usando *Theta_verd*, el coste final debe ser prácticamente 0 y converger en un par de iteraciones.
1. Según los valores de *theta* se alejen de *Theta_verd*, debe necesitar más iteraciones y la *theta_final* debe ser muy similar a la *Theta_verd*.

Para ello recuerda que puedes modificar los valores de las celdas y reejecutarlas.

Anota tus experimentos y resultados en esta celda (en Markdown o código):
1. Experimento 1
1. Experimento 2

## Evaluar el modelo sobre el subset de test

Finalmente, vamos a evaluar el modelo sobre un subset de datos que no hemos usado para entrenarlo.

Para ello, vamos a calcular el coste o error total sobre el subset de test y comprobar gráficamente los residuos sobre el mismo:

In [None]:
# TODO: Calcula el error del modelo sobre el subset de test usando la función de coste con la correspondientes theta

j_test = [...]

In [None]:
# TODO: Calcula las predicciones del modelo sobre el subset de test, calcula los residuos y represéntalos frente al índice de ejemplos (m)

# Recuerda usar la función sigmoide para transformar las predicciones
Y_test_pred = [...]

residuos = [...]

plt.figure(3)

# Completa con tu código

plt.show()

## Realizar predicciones sobre nuevos ejemplos

Con nuestro modelo ya entrenado y evaluado, lo único que nos queda es ponerlo en funcionamiento realizando predicciones con nuevos ejemplos.

Para ello, vamos a:
- Generar un nuevo ejemplo, siguiendo el mismo patrón que el dataset original.
- Normalizar sus características antes de poder realizar predicciones sobre ellos.
- Generar una predicción para dicho nuevo ejemplo.

In [None]:
# TODO: Genera un nuevo ejemplo siguiendo el patrón original, con término de bias y error aleatorio

X_pred = [...]

# Normaliza sus características (excepto el término de bias) con las medias y desviaciones típicas originales
X_pred = [...]

# Genera una predicción para dicho ejemplo
Y_pred = [...]