# Perceptrón multicapa (MLP)

Un perceptrón multicapa, también conocido como red neuronal multicapa o MLP (por sus siglas en inglés, Multilayer Perceptron), es un tipo de red neuronal artificial que consta de múltiples capas de neuronas interconectadas, diseñadas para abordar problemas de aprendizaje automático más complejos y no lineales.

## Partes de un perceptrón

1. **Neuronas o nodos:** Son las unidades fundamentales de procesamiento. Cada neurona realiza dos operaciones principales: una suma ponderada de las entradas y la aplicación de una función de activación.

2. **Capas:** Un MLP consta de al menos tres capas: una capa de entrada, una o más capas ocultas y una capa de salida. La capa de entrada recibe los datos de entrada, la capa de salida produce los resultados finales y las capas ocultas realizan el procesamiento intermedio. Cuantas más capas ocultas tenga la red, más profunda será.

3. **Conexiones:** Cada neurona en una capa está conectada las neuronas en la capa siguiente a través de conexiones ponderadas. Estas ponderaciones determinan la fuerza y la dirección de la influencia que una neurona tiene sobre las neuronas de la capa siguiente.



## Tipos de capas

Un Perceptrón Multicapa (MLP) consta de varias capas, cada una con un propósito específico en el procesamiento de datos:

1. **Capa de Entrada:**
   - Esta es la primera capa de la red y recibe los datos de entrada. Cada nodo en esta capa representa una característica o una variable de entrada.
   - No realiza ningún cálculo, simplemente pasa las entradas a las capas ocultas.

2. **Capas Ocultas:**
   - Las capas ocultas se encuentran entre la capa de entrada y la capa de salida y son responsables de procesar y transformar los datos de entrada
   - Estas capas son las que permiten al MLP modelar relaciones complejas y extraer **características** relevantes de los datos.
   - El número y el tamaño de las capas ocultas pueden variar según el diseño de la red y la complejidad del problema.
   - Usualmenete estan totalmente conectadas, es decir, cada neurona de la capa esta conectada a todas las neuronas de la capa anterior.

4. **Capa de Salida:**
   - Esta es la última capa de la red y produce los resultados finales de la red neuronal.
   - El número de neuronas en esta capa depende de la naturaleza del problema. Por ejemplo una capa de salida de tamaño 2 está diseñada para tareas con dos posibles salidas o clases.
   - La función de activación en la capa de salida puede variar según el tipo de problema, como softmax para clasificación o lineal para regresión.

**Discusión**

¿Porque podríamos necesitar multiples neuronas en la capa de salida?

![perceptron multicapa](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fcdn.analyticsvidhya.com%2Fwp-content%2Fuploads%2F2020%2F02%2FANN-Graph.gif&f=1&nofb=1&ipt=227c207c76ad1fae69299f4b776e1e16f0c2d07592a1f81ba237e961a0dddb30&ipo=images)

## Cantidad de parámetros de un MLP

Para calcular el número de parámetros en la red neuronal multicapa anterior, debemos tener en cuenta las conexiones ponderadas entre las neuronas y los sesgos (biases) en cada capa:

1. **Capa de entrada (tamaño 3):**
   - No hay parámetros en la capa de entrada en sí, ya que simplemente toma las entradas y las pasa a las neuronas de la capa oculta.

2. **Capa oculta 1 (tamaño 4):**
   - Para cada neurona en esta capa, debemos considerar sus conexiones con las neuronas de la capa de entrada. Dado que tenemos una capa de entrada de tamaño 3, cada neurona de la capa oculta 1 tendrá 3 conexiones ponderadas (pesos) con la capa de entrada, más un sesgo (bias) único para cada neurona.
   - Entonces, para cada neurona en la capa oculta 1, se tendrá 3 pesos + 1 sesgo.
   - Como hay 4 neuronas en esta capa, el número total de parámetros será:  
     4 (neuronas) x (3 (pesos) + 1 (sesgo)) = 16 parámetros en la capa oculta 1.

3. **Capa oculta 2 (tamaño 3):**
   - De manera similar a la capa oculta 1, cada neurona en la capa oculta 2 tendrá conexiones con las 4 neuronas de la capa oculta 1, más un sesgo.
   - Entonces, para cada neurona en la capa oculta 2, se tendrá 4 conexiones (pesos) + 1 sesgo.
   - Dado que hay 3 neuronas en esta capa, el número total de parámetros será:  
     3 (neuronas) x (4 (pesos) + 1 (sesgo)) = 15 parámetros en la capa oculta 2.

4. **Capa de salida (tamaño 2):**
   - Finalmente, en la capa de salida, cada neurona tendrá conexiones con las 3 neuronas de la capa oculta 2, más un sesgo.
   - Entonces, para cada neurona en la capa de salida, se tendrá 3 conexiones (pesos) + 1 sesgo.
   - Como hay 2 neuronas en esta capa, el número total de parámetros será:  
     2 (neuronas) x (3 (pesos) + 1 (sesgo)) = 8 parámetros en la capa de salida.

Ahora, se puede sumar el número total de parámetros en todas las capas del MLP:

16 (capa oculta 1) + 15 (capa oculta 2) + 8 (capa de salida) = 39 parámetros en total.

Por lo tanto, tu MLP tiene un total de 39 parámetros, que incluyen pesos y sesgos, y estos parámetros son los valores que se ajustarán durante el proceso de entrenamiento.


**Ejericico**
¿Cuántos parámetros tendrá un MLP con capas de tamaño 10, 16, 3?          

16x(10+1) + 3x(16+1) = 227


## Propagación hacia adelante

También conocida como "forward propagation" en inglés, es el proceso mediante el cual una red neuronal toma datos de entrada y los pasa a través de sus capas de neuronas para calcular una salida o predicción.

1. **Entrada:** Los datos de entrada se proporcionan a la capa de entrada de la red neuronal. Cada característica o entrada se asocia con una neurona en esta capa.

2. **Cálculo en Capas Ocultas:** Los datos de entrada se propagan desde la capa de entrada a través de todas las capas ocultas de la red. En cada capa oculta, cada neurona calcula una suma ponderada de las entradas y aplica una función de activación a esa suma. La salida de cada neurona en una capa se convierte en la entrada de la siguiente capa.

3. **Capa de Salida:** Finalmente, la información se propaga a través de la última capa de la red, que es la capa de salida. Las neuronas en esta capa producen la salida final de la red, que puede ser una clasificación, una predicción numérica o cualquier otro tipo de resultado dependiendo de la tarea que la red esté diseñada para realizar.

Se llama así porque los datos fluyen desde la entrada hacia la salida a través de la red, calculando progresivamente representaciones más abstractas y características útiles a medida que avanzan en las capas ocultas. Cada neurona en cada capa oculta contribuye a la construcción de características más complejas y no lineales en los datos, lo que permite a la red aprender y modelar relaciones complicadas en los datos de entrada.


**Discusión**

¿Que capturan las capas de un MLP?

https://playground.tensorflow.org

## Implementación Ejemplo

In [1]:
import numpy as np

In [2]:
class Neurona():

    def __init__(self, tamanio_entrada, funcion_activacion):
        self.pesos = np.random.rand(tamanio_entrada)
        self.bias = np.random.rand()
        self.funcion_activacion = funcion_activacion

    def valor_neto(self,entrada):
        return np.matmul(entrada, self.pesos) + self.bias

    def salida(self,entrada):
        print(f"\t\tEntrada: {entrada}")
        salida = self.funcion_activacion(self.valor_neto(entrada))
        print(f"\t\tSalida: {salida}")
        return salida

In [3]:
class Capa:
    def __init__(self, tamanio_entrada, numero_neuronas, funcion_activacion):
        self.neuronas = []
        for _ in range(numero_neuronas):
            neurona = Neurona(tamanio_entrada, funcion_activacion)
            self.neuronas.append(neurona)

    def propaga_adelante(self, entrada):
        salida = []
        for i, neurona in enumerate(self.neuronas):
            print(f"\t\tNeurona {i} de {len(self.neuronas)}")
            salida_neurona = neurona.salida(entrada)
            salida.append(salida_neurona)
        return np.array(salida)

class MLP:
    def __init__(self, tamanio_entrada):
        self.tamanio_entrada = tamanio_entrada
        self.tamanio_salida = tamanio_entrada
        self.capas_ocultas = []

    def agrega_capa(self, numero_neuronas, funcion_activacion):
        capa = Capa(self.tamanio_salida, numero_neuronas, funcion_activacion)
        self.capas_ocultas.append(capa)
        self.tamanio_salida = numero_neuronas

    def propaga_adelante(self, entrada):
        print("Propagacion red")
        print(f"Entrada: {entrada}")
        salida = entrada
        for i,capa in enumerate(self.capas_ocultas):
            print(f"\tCapa {i} de {len(self.capas_ocultas)}")
            salida = capa.propaga_adelante(salida)
        print(f"Salida: {salida}")
        return salida


def funcion_activacion_sigmoid(x):
    return 1 / (1 + np.exp(-x))

def funcion_activacion_lineal(x):
    return x


entrada = np.array([0.5, 0.7])

mlp = MLP(tamanio_entrada=len(entrada))

mlp.agrega_capa(numero_neuronas=4, funcion_activacion=funcion_activacion_lineal)
mlp.agrega_capa(numero_neuronas=3, funcion_activacion=funcion_activacion_lineal)
mlp.agrega_capa(numero_neuronas=2, funcion_activacion=funcion_activacion_sigmoid)


resultado = mlp.propaga_adelante(entrada)


Propagacion red
Entrada: [0.5 0.7]
	Capa 0 de 3
		Neurona 0 de 4
		Entrada: [0.5 0.7]
		Salida: 1.5590848695171284
		Neurona 1 de 4
		Entrada: [0.5 0.7]
		Salida: 0.7022532701982452
		Neurona 2 de 4
		Entrada: [0.5 0.7]
		Salida: 1.042814715906348
		Neurona 3 de 4
		Entrada: [0.5 0.7]
		Salida: 1.1867736936764461
	Capa 1 de 3
		Neurona 0 de 3
		Entrada: [1.55908487 0.70225327 1.04281472 1.18677369]
		Salida: 2.7842511429362826
		Neurona 1 de 3
		Entrada: [1.55908487 0.70225327 1.04281472 1.18677369]
		Salida: 2.0283120117426936
		Neurona 2 de 3
		Entrada: [1.55908487 0.70225327 1.04281472 1.18677369]
		Salida: 2.6907652913707554
	Capa 2 de 3
		Neurona 0 de 2
		Entrada: [2.78425114 2.02831201 2.69076529]
		Salida: 0.9675537310495217
		Neurona 1 de 2
		Entrada: [2.78425114 2.02831201 2.69076529]
		Salida: 0.99863162173452
Salida: [0.96755373 0.99863162]


Hay muchas maneras de bajar las salidas (0.96755373 0.99863162) solo es basura, no esta entrenada, lo esperado es que los números no sean tan iguales (pueden sumar más de uno, porque no se refieren a probabilidad)

## Implementación Keras



In [4]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

2023-09-23 12:07:00.136482: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-09-23 12:07:00.530713: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-09-23 12:07:00.532508: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [5]:
#Implementación de gif de inicio de notebook
modelo = Sequential()

modelo.add(Dense(4, input_dim=3, activation='relu'))
modelo.add(Dense(3, activation='relu'))
modelo.add(Dense(2, activation='sigmoid'))

modelo.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 4)                 16        
                                                                 
 dense_1 (Dense)             (None, 3)                 15        
                                                                 
 dense_2 (Dense)             (None, 2)                 8         
                                                                 
Total params: 39 (156.00 Byte)
Trainable params: 39 (156.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


**Discusión**:

¿Qué son parametros no entrenables?        
En situaciones que no queremos entrenar toda la red entrena todas las caracteristicas bien pero la capa de salida no esta bien, entonces con los parametros no entrenables, se dejan intactos pesos y bias de ciertas capas, y se sentra en cierta sección 


Redes generativas adversariales THA FUCK!

## Entrenamiento

Recordemos que una manera de entrar una neurona es a traves de descenso de gradiente sobre la función de périda.

Cuando tenenemos varias capas, tenemos que realizar un proceso llamado Propagación hacia atras.



### Propagación hacia atras


También conocida como "backpropagation" en inglés, es el algoritmo fundamental utilizado en el entrenamiento de redes neuronales. Permite ajustar los pesos y sesgos de las neuronas en la red para que pueda aprender a hacer predicciones precisas.

1. **Inicialización de pesos y sesgos:**
   - Antes de comenzar el proceso de entrenamiento, los pesos y sesgos de todas las neuronas en la red se inicializan típicamente con valores aleatorios ***pequeños.***

2. **Paso de Propagación Hacia Adelante:**
   - Se toma un conjunto de datos de entrenamiento y se pasa a través de la red neuronal desde la capa de entrada hasta la capa de salida utilizando la propagación hacia adelante, como se explicó anteriormente.
   - Las salidas calculadas por la red se comparan con las salidas reales conocidas para calcular el error, que mide qué tan lejos están las predicciones de las respuestas correctas.

3. **Cálculo del Gradiente Descendente en la Capa de Salida:**
   - El objetivo del entrenamiento es minimizar el error entre las predicciones y las respuestas correctas. Para hacer esto, primero calculamos la derivada parcial del error con respecto a los pesos de la red.
   - Esto se hace utilizando el gradiente descendente y se basa en la derivada de la función de pérdida.

4. **Propagación Hacia Atrás de los Errores:**
   - Una vez que tenemos el gradiente en la capa de salida, lo propagamos hacia atrás a través de la red para calcular los gradientes en las capas ocultas.
   - Comenzamos calculando las derivadas parciales del error con respecto a las salidas de las neuronas en la última capa oculta.

5. **Actualización de Pesos y Sesgos:**
   - Utilizamos los gradientes calculados para ajustar los pesos y sesgos en la red neuronal. El objetivo es modificar los parámetros de manera que el error se reduzca.
   - Este proceso se repite para cada conjunto de entrenamiento en el conjunto de datos.

6. **Iteración y Convergencia:**
   - Los pasos anteriores se repiten para múltiples iteraciones (épocas) a través de todo el conjunto de datos de entrenamiento.



Si se toma de ejemplo una red de
- una entrada,
- una capa oculta con una sola neurona
- una salida

Si se quiere entrenar esta red mediante descenso de gradiente se debe calcular la derivada de la

Fórmula de Pérdida (Error Cuadrático Medio - MSE):

$$L = \frac{1}{2}(y_{\text{real}} - y_{\text{pred}})^2$$

Donde:
- $L$ es el valor de la función de pérdida (MSE).
- $y_{\text{real}}$ es el valor real o esperado de salida.
- $y_{\text{pred}}$ es el valor predicho por la red neuronal.

Si claculamos que es $y_{\text{pred}}$

$$L = \frac{1}{2}(y_{\text{real}} - f^{(2)}( w_1^{(2)} a_1 + \theta ^{(2)} ) )^2$$

Donde:
- $f^{(2)}$ es la funcion deactivación de la capa de salida
- $w_1^{(2)}$ es el peso asociado a la capa de salida
- $\theta ^{(2)}$ es el sesgo asociado a la capa de salida
- $a_1$ es la salida de la capa oculta

Yendo una capa mas profundo

$$L = \frac{1}{2}(y_{\text{real}} - f^{(2)}( w_1^{(2)} f^{(1)}(w_1^{(1)} x_1 + \theta ^{(1)} ) + \theta ^{(2)} ) )^2$$

Donde:
- $f^{(1)}$ es la funcion deactivación de la capa oculta
- $w_1^{(1)}$ es el peso asociado a la capa oculta
- $\theta ^{(1)}$ es el sesgo asociado a la oculta
- $x_1$ es el valor de la capa de entrada


Esta es la función que debemos derivar


$$\frac{\partial L}{w_1^{(2)}} = (y_{\text{real}} - y_{\text{pred}}) (-f'^{(2)}( w_1^{(2)} a_1 + \theta ^{(2)} )a_1) $$
$$\frac{\partial L}{\theta ^{(2)}} = (y_{\text{real}} - y_{\text{pred}}) (-f'^{(2)}( w_1^{(2)} a_1 + \theta ^{(2)} )) $$

$$\frac{\partial L}{w_1^{(1)}} = (y_{\text{real}} - y_{\text{pred}}) (-f'^{(2)}( w_1^{(2)} a_1 + \theta ^{(2)} ) ( w_1^{(2)}  f'^{(1)}(w_1^{(1)} x_1 + \theta ^{(1)} )) x_1 ) $$
$$\frac{\partial L}{\theta ^{(1)}} = (y_{\text{real}} - y_{\text{pred}}) (-f'^{(2)}( w_1^{(2)} a_1 + \theta ^{(2)} ) ( w_1^{(2)}  f'^{(1)}(w_1^{(1)} x_1 + \theta ^{(1)} )) ) $$


**Discusión**

¿Que sucede si agregamos mas neuronas/capas?


### Implementación Keras



In [8]:
modelo = Sequential()

modelo.add(Dense(4, input_dim=3, activation='relu'))
modelo.add(Dense(3, activation='relu'))
modelo.add(Dense(2, activation='sigmoid'))

modelo.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
modelo.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             (None, 4)                 16        
                                                                 
 dense_10 (Dense)            (None, 3)                 15        
                                                                 
 dense_11 (Dense)            (None, 2)                 8         
                                                                 
Total params: 39 (156.00 Byte)
Trainable params: 39 (156.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
