# 3.6 Aprendizaje supervisado: Redes neuronales artificiales (Artificial Neural Networks - ANN)

Profesor: Juan Ramón Rico (<juanramonrico@ua.es>)

## Resumen
---

A continuación vamos a presentar los principios básicos de las redes neuronales con ejemplos sobre el MLP (Multilayer Perceptrón). Es una red sencilla donde la neuronas están completamente conectadas, estos es que todas las neuronas de una capa están conectadas con las de la siguiente.

In [1]:
import numpy as np
import pandas as pd

# Cargar datos



In [2]:
## Datos

path = 'https://www.dlsi.ua.es/~juanra/UA/datasets'
path_tennis = f'{path}/tennis-en.csv'
path_covid19 = f'{path}/covid19-en.csv'

## Perceptrón multicapa (MLP): Problema XOR

Este ejemplo está extraído de [Neural Network from scratch in Python](https://towardsdatascience.com/math-neural-network-from-scratch-in-python-d6da9f29ce65)

A continuación vamos a definir la funciones de activación y de pérdida necesarias para construir una red neuronal.

In [None]:
import numpy as np

# TODO: Añadir la función y su derivada para 'sigmoid' y 'relu' con el formato de las siguientes funciones

def tanh(x):
  # Función de activación tangente hiperbólica
  return np.tanh(x);

def tanh_derivative(x):
  # Derivada de la función de activación tangente hiperbólica
  return 1-np.tanh(x)**2;

def mse(y_true, y_pred):
  # Función de pérdida de error cuadrático medio
  return np.mean((y_true - y_pred) ** 2)

def mse_derivative(y_true, y_pred):
  # Función de pérdida de error cuadrático medio
  return 2*(y_pred - y_true) / len(y_true)

In [None]:
class Layer:
  # Definición de una capa con todas las neuronas conectadas
  def __init__(self, input_size, output_size):
    # input_size = número de neuronas de la capa de entrada
    # output_size = númewo de neuronas de la capa de salida

    self.weights = np.random.rand(input_size, output_size) - 0.5
    self.bias = np.random.rand(1, output_size) - 0.5

  def forward_propagation(self, input_data):
    # Calcula la salida (output) para una entreda dada (input_data)
    self.input = input_data
    self.output = np.dot(self.input, self.weights) + self.bias
    return self.output

  def backward_propagation(self, output_error, learning_rate):
    # Calcula la retropropagación de errores mediante las derivadas
    # dE/dW y dE/dB a partir de un error de salida dado (output_error=dE/dY)
    # Devuelve el error de entrada (input_error=dE/dX).

    input_error =   # TODO: calcular el error cometido por esta capa de la salida respecto de los pesos actuales
    weights_error = # TODO: calcular el error cometido por esta capa de la entrada respecto del error de salida

    # Actualización de los pesos y los bias (dBias = output_error)
    self.weights = # TODO: actualización de pesos
    self.bias =    # TODO: actualización de bias

    return input_error


class ActivationLayer(Layer):
  # Función de activación y su derivada para una capa
  def __init__(self, activation, activation_derivative):
    # Asignación de la función de activación y su derivada

    self.activation = activation
    self.activation_derivative = activation_derivative

  def forward_propagation(self, input_data):
    # Devuelve el cálculo de aplicar la función de activiación
    # a una entrada (input_data)

    self.input = input_data
    self.output = self.activation(self.input)
    return self.output

  def backward_propagation(self, output_error, learning_rate):
    # Devuelve la derivada, input_error=dE/dX, para un error de salida, output_error=dE/dY.
    # No usamos learning_rate porque no es un parámetro que se tenga que "aprender".
    return self.activation_derivative(self.input) * output_error


class Network:
  # Perceptrón Multicapa - MLP
  def __init__(self):
    self.layers = []
    self.loss = None
    self.loss_derivative = None

  def add(self, layer):
    # Añadir una capa oculta nueva
    self.layers.append(layer)

  def set_loss(self, loss, loss_derivative):
    # Asignar las funciones de pérdida y su derivada
    self.loss = loss
    self.loss_derivative = loss_derivative

  def predict(self, input_data):
    # Predicción de un salida para una entrada dada

    # Tamño del la entrada
    n_samples = len(input_data)
    result = []

    for i in range(n_samples):
      # Aplicar la red a todos los ejemplos

      # Propagación hacia adelante (forward propagation)
      output = input_data[i]
      for layer in self.layers:
          output = layer.forward_propagation(output)
      result.append(output)

    return np.stack(result)

  def fit(self, x_train, y_train, epochs, learning_rate, verbose=1):
    # Entrenamiento de la red (fit)

    # Tamaño de la entrada
    n_samples = len(x_train)

    for i in range(epochs):
      # Bucle de entrenamiento

      err = 0
      for j in range(n_samples):
        # Propagación hacia adelante (forward propagation)
        output = np.expand_dims(x_train[j], axis=0)
        for layer in self.layers:
          output = layer.forward_propagation(output)

        # Calcular la pérdida (solo para mostrarla)
        err += self.loss(y_train[j], output)

        # Retropropagación (backward propagation)
        error = self.loss_derivative(y_train[j], output)
        for layer in reversed(self.layers):
            error = layer.backward_propagation(error, learning_rate)

      # calculate average error on all samples
      err /= n_samples
      if verbose>0 and (i+1) % 100 == 0:
        print(f'epoch: {i+1}/{epochs}  losss: {err:.5f}')

In [None]:
np.set_printoptions(suppress=True)  # Forzar a numpy a mostrar formato sin exponente
np.random.seed(1)                   # Inciar semilla pseudo-aleatoria para verificar los cálculos

# Conjunto de entrenamiento
X_train = np.array([[0,0], [0,1], [1,0], [1,1]])
y_train = np.array([[0], [1], [1], [0]])

print('X_train.shape', X_train.shape, 'y_train.shape',y_train.shape)

# Red neuronal
model = Network()
model.add(Layer(2, 3))
model.add(ActivationLayer(tanh, tanh_derivative))

model.add(Layer(3, 1))
model.add(ActivationLayer(tanh, tanh_derivative))

# Entrenamiento
model.set_loss(mse, mse_derivative)
model.fit(X_train, y_train, epochs=1000, learning_rate=0.1)

# Test
df_out = pd.DataFrame({'y_pred':model.predict(X_train).ravel(), 'y_true':y_train.ravel()}).round(4)
print(df_out)

'''
X_train.shape (4, 2) y_train.shape (4, 1)
epoch: 100/1000  losss: 0.20690
epoch: 200/1000  losss: 0.08369
epoch: 300/1000  losss: 0.00355
epoch: 400/1000  losss: 0.00145
epoch: 500/1000  losss: 0.00088
epoch: 600/1000  losss: 0.00062
epoch: 700/1000  losss: 0.00047
epoch: 800/1000  losss: 0.00038
epoch: 900/1000  losss: 0.00032
epoch: 1000/1000  losss: 0.00027
   y_pred  y_true
0  0.0009       0
1  0.9759       1
2  0.9778       1
3 -0.0017       0
'''

## Ejercicio 1

- Modifica el ejemplo anterior para usar las funciones de activación:
  - `sigmoidea` y
  - `relu`
- Comprueba con varias ejecuciones a partir de qué número de épocas el algoritmo comienza a aprender modificando el número total de épocas y el ratio de aprendizaje, `learning_rate` (ej. valores de $error<0.1$).

In [None]:
# Solución ejercicio 1

## Ejercicio 2

Adapta los datos de `tenis` para que funcione correctamente con la red de ejemplo.
- Tendrás que convertir las etiquetas de cada categoría a valores numéricos.
- Si la categoría es binaria, ej. Sí/No se puede convertir a 1/0;
- Si la variable tiene más de dos categorías se puede representar con el formato llamado `one hot` que consiste en crear un vector de ceros de tamaño número de categorías, y un solo uno en la posición de la etiqueta que queremos representar. Ej. `[sunny, overcast, rain]` y queremos representar `overcast` sería con `[0,1,0]`.
- Revisad la documentación del paquete `Pandas` y la función `get_dummies()`.

Una vez adaptada los datos para la entrada probaremos diferentes configuraciones como:
- Número de capas ocultas 1 o 2;
- Número de neuronas por capa 4, 8 o 16;
- Funcion de activiación `sigmoidea`, `tanh` o `relu`.

In [None]:
# Datos sobre Tenis
data = pd.read_csv(path_tennis)
data.head()

Unnamed: 0,weather,temperature,humidity,wind,play
0,sunny,high,high,no,no
1,sunny,high,high,yes,no
2,overcast,high,high,no,yes
3,rain,medium,high,no,yes
4,rain,low,normal,no,yes


In [None]:
# TODO: Adaptar los datos para la entrada (X) y salida (y) del algoritmo

In [None]:
np.set_printoptions(suppress=True)  # Forzar a numpy a mostrar formato sin exponente
np.random.seed(1)                   # Inciar semilla pseudo-aleatoria para verificar los cálculos

# Red neuronal
model = Network()
model.add(Layer(8, 16))
model.add(ActivationLayer(tanh, tanh_derivative))
#model.add(ActivationLayer(sigmoid, sigmoid_derivative))
#model.add(ActivationLayer(relu, relu_derivative))
model.add(Layer(16, 1))
model.add(ActivationLayer(tanh, tanh_derivative))
#model.add(ActivationLayer(sigmoid, sigmoid_derivative))
#model.add(ActivationLayer(relu, relu_derivative))

# Entrenamiento
model.set_loss(mse, mse_derivative)
model.fit(X, y, epochs=1000, learning_rate=0.1)

# Test
y_pred = model.predict(X).ravel()
y_true = y.ravel()
acc = (y_pred>0.5) == y_true
df_out = pd.DataFrame({'y_pred':y_pred, 'y_true':y_true, 'acc':acc}).round(2)

print()
print(df_out)

'''

np.set_printoptions(suppress=True)  # Forzar a numpy a mostrar formato sin exponente
np.random.seed(1)                   # Inciar semilla pseudo-aleatoria para verificar los cálculos

# Red neuronal
model = Network()
model.add(Layer(8, 16))
model.add(ActivationLayer(tanh, tanh_derivative))
#model.add(ActivationLayer(sigmoid, sigmoid_derivative))
#model.add(ActivationLayer(relu, relu_derivative))
model.add(Layer(16, 1))

account_circle
epoch: 100/1000  losss: 0.02622
epoch: 200/1000  losss: 0.01309
epoch: 300/1000  losss: 0.00399
epoch: 400/1000  losss: 0.00150
epoch: 500/1000  losss: 0.00810
epoch: 600/1000  losss: 0.00430
epoch: 700/1000  losss: 0.00389
epoch: 800/1000  losss: 0.00109
epoch: 900/1000  losss: 0.00420
epoch: 1000/1000  losss: 0.00231

    y_pred  y_true   acc
0     0.12       0  True
1     0.08       0  True
2     1.00       1  True
3     0.97       1  True
4     0.99       1  True
5    -0.00       0  True
6     1.00       1  True
7     0.15       0  True
8     0.99       1  True
9     1.00       1  True
10    0.97       1  True
11    0.98       1  True
12    1.00       1  True
13    0.09       0  True
'''

## Ejercicio 3

Adapta los datos de `covid19` para que funcione correctamente con la red de ejemplo. Puedes aplicar transformaciones similares a las del ejercicio anterior.

Una vez adaptada la entreda probamos diferentes configuraciones de red como:
- Número de capas ocultas 1 o 2;
- Número de neuronas por capa 4,8 o 16;
- Funcion de activiación `sigmoidea`, `tanh` o `relu`.

In [None]:
# Datos sobre Covid-19
data = pd.read_csv(path_covid19, index_col=0)
data.head()

Unnamed: 0_level_0,Fever,Cough,Respiratory Problems,Infected
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,No,No,No,No
2,Yes,Yes,Yes,Yes
3,Yes,Yes,No,No
4,Yes,No,Yes,Yes
5,Yes,Yes,Yes,Yes


In [None]:
# TODO: Adaptar los datos para la entrada (X) y salida (y) del algoritmo

In [None]:
np.set_printoptions(suppress=True)  # Forzar a numpy a mostrar formato sin exponente
np.random.seed(1)                   # Inciar semilla pseudo-aleatoria para verificar los cálculos

# Red neuronal
model = Network()
model.add(Layer(3, 16))
model.add(ActivationLayer(tanh, tanh_derivative))
#model.add(ActivationLayer(sigmoid, sigmoid_derivative))
#model.add(ActivationLayer(relu, relu_derivative))
model.add(Layer(16, 1))
model.add(ActivationLayer(tanh, tanh_derivative))
#model.add(ActivationLayer(sigmoid, sigmoid_derivative))
#model.add(ActivationLayer(relu, relu_derivative))

# Entrenamiento
model.set_loss(mse, mse_derivative)
model.fit(X, y, epochs=1000, learning_rate=0.1)

# Test
y_pred = model.predict(X).ravel()
y_true = y.ravel()
acc = (y_pred>0.5) == y_true
df_out = pd.DataFrame({'y_pred':y_pred, 'y_true':y_true, 'acc':acc}).round(2)

print()
print(df_out)

'''
epoch: 100/1000  losss: 0.12176
epoch: 200/1000  losss: 0.11990
epoch: 300/1000  losss: 0.11836
epoch: 400/1000  losss: 0.11689
epoch: 500/1000  losss: 0.11595
epoch: 600/1000  losss: 0.11556
epoch: 700/1000  losss: 0.11539
epoch: 800/1000  losss: 0.11530
epoch: 900/1000  losss: 0.11524
epoch: 1000/1000  losss: 0.11520

    y_pred  y_true    acc
0     0.02       0   True
1     0.93       1   True
2     0.29       0   True
3     0.95       1   True
4     0.93       1   True
5    -0.09       0   True
6     0.95       1   True
7     0.95       1   True
8     0.68       1   True
9     0.29       1  False
10   -0.09       0   True
11    0.68       1   True
12    0.68       0  False
13    0.29       0   True
'''

# MLP (scikit-learn)

Vamos a utilizar las funciones sobre perceptrones multicapa del paquete `scikit-learn`. Concretamente usaremos la función de `MLPRegressor()` para entrenar y predecir.

A continuación tenéis un ejemplo con los datos de la función XOR.

In [None]:
import numpy as np
from sklearn.neural_network import MLPRegressor

# Creamos un dataset de ejemplo
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([0, 1, 1, 0])

# Creamos una instancia del modelo secuencial
model = MLPRegressor(hidden_layer_sizes=8, activation='tanh', max_iter=10000, random_state=0)

# Entrenamos el modelo
model.fit(X, y)

# Evaluamos el modelo
y_pred = model.predict(X).ravel()
y_true = y.ravel()
acc = (y_pred>0.5) == y_true
df_out = pd.DataFrame({'y_pred':y_pred, 'y_true':y_true, 'acc':acc}).round(2)

print(df_out)

   y_pred  y_true   acc
0    0.12       0  True
1    0.87       1  True
2    0.91       1  True
3    0.11       0  True


## Ejercicio 4

Modifica el ejemplo anterior de `MLPRegressor()` para entrenar y calcular los resultados de los conjuntos de datos de `tenis` y `covid19`.

### Tenis

In [None]:
import numpy as np
from sklearn.neural_network import MLPRegressor

data = pd.read_csv(path_tennis)

# TODO: Adaptar los datos para la entrada (X) y salida (y) del algoritmo

# Creamos una instancia del modelo secuencial
model = MLPRegressor(hidden_layer_sizes=16, activation='logistic', max_iter=1000, random_state=0)

# Entrenamos el modelo
model.fit(X, y)

# Evaluamos el modelo
# Test
# Test
y_pred = model.predict(X).ravel()
y_true = y.ravel()
acc = (y_pred>0.5) == y_true
df_out = pd.DataFrame({'y_pred':y_pred, 'y_true':y_true, 'acc':acc}).round(2)

print()
print(df_out)

'''
X.shape (14, 8) y.shape (14,)

    y_pred  y_true    acc
0     0.24       0   True
1     0.00       0   True
2     0.74       1   True
3     0.62       1   True
4     0.79       1   True
5     0.52       0  False
6     0.98       1   True
7     0.57       0  False
8     0.74       1   True
9     0.95       1   True
10    0.62       1   True
11    0.81       1   True
12    1.07       1   True
'''

X.shape (14, 8) y.shape (14,)

    y_pred  y_true    acc
0     0.24       0   True
1     0.00       0   True
2     0.74       1   True
3     0.62       1   True
4     0.79       1   True
5     0.52       0  False
6     0.98       1   True
7     0.57       0  False
8     0.74       1   True
9     0.95       1   True
10    0.62       1   True
11    0.81       1   True
12    1.07       1   True
13    0.36       0   True


### COVID-19

In [None]:
import numpy as np
from sklearn.neural_network import MLPRegressor

data = pd.read_csv(path_covid19)

# TODO: Adaptar los datos para la entrada (X) y salida (y) del algoritmo

# Creamos una instancia del modelo secuencial
model = MLPRegressor(hidden_layer_sizes=16, activation='logistic', max_iter=1000, random_state=0)

# Entrenamos el modelo
model.fit(X, y)

# Evaluamos el modelo
# Test
# Test
y_pred = model.predict(X).ravel()
y_true = y.ravel()
acc = (y_pred>0.5) == y_true
df_out = pd.DataFrame({'y_pred':y_pred, 'y_true':y_true, 'acc':acc}).round(2)

print()
print(df_out)

'''
.shape (14, 4) y.shape (14,)

    y_pred  y_true    acc
0     0.32       0   True
1     0.52       1   True
2     0.50       0  False
3     0.54       1   True
4     0.60       1   True
5     0.51       0  False
6     0.60       1   True
7     0.61       1   True
8     0.59       1   True
9     0.61       1   True
10    0.55       0  False
11    0.60       1   True
12    0.60       0  False
13    0.62       0  False
'''