MLP: Perceptrón Multicapa, la Base de las Redes Neuronales Artificiales
Un Perceptrón Multicapa (MLP, por sus siglas en inglés) es un tipo fundamental de red neuronal artificial. Imagina una red de neuronas interconectadas, organizadas en capas, donde cada neurona procesa información y la pasa a la siguiente capa. Esta estructura le permite a la red aprender patrones complejos y realizar tareas de clasificación y regresión.

¿Cómo funciona un MLP?
Capas:

Capa de entrada: Recibe los datos de entrada.
Capas ocultas: Realizan los cálculos internos y extraen características de los datos.
Capa de salida: Produce la salida final, que puede ser una clasificación (por ejemplo, si es un gato o un perro) o un valor numérico (por ejemplo, la temperatura).
Neuronas:

Cada neurona realiza una operación simple: suma ponderada de sus entradas y aplica una función de activación.
La función de activación introduce no linealidad a la red, permitiendo aprender patrones más complejos.
Entrenamiento:

El MLP se entrena con un conjunto de datos de entrada y sus correspondientes salidas correctas.
A través de un proceso llamado retropropagación, el modelo ajusta los pesos de las conexiones entre las neuronas para minimizar el error entre las predicciones y las etiquetas reales.
¿Por qué son importantes los MLP?
Versatilidad: Pueden resolver una amplia variedad de problemas, desde clasificación hasta regresión y generación de datos.
Aprendizaje automático: Pueden aprender patrones complejos a partir de datos sin ser programados explícitamente.
Adaptabilidad: Se pueden ajustar a nuevos datos y mejorar su rendimiento con más entrenamiento.
¿Dónde se utilizan los MLP?
Reconocimiento de imágenes: Identificar objetos en imágenes.
Procesamiento de lenguaje natural: Análisis de sentimientos, traducción automática.
Series temporales: Predicción de valores futuros.
Y muchas más...
Ventajas de los MLP:
Poder de representación: Pueden aprender funciones muy complejas.
Aprendizaje supervisado: Pueden aprender de datos etiquetados.
Fácil implementación: Existen muchas librerías que facilitan su uso.
Desventajas de los MLP:
Sobreajuste: Pueden memorizar los datos de entrenamiento en lugar de generalizar a nuevos datos.
Tiempo de entrenamiento: Pueden requerir mucho tiempo para entrenar en grandes conjuntos de datos.
Selección de hiperparámetros: La elección del número de capas, neuronas y otros parámetros puede ser compleja.
En resumen, los MLP son una herramienta fundamental en el campo del aprendizaje automático. Su capacidad para aprender patrones complejos y adaptarse a nuevos datos los convierte en una elección popular para una amplia gama de aplicaciones.

¿Te gustaría profundizar en algún aspecto específico de los MLP, como la función de activación, la retropropagación o su implementación en una librería como TensorFlow o PyTorch?

In [9]:
import numpy as np

array_1 = np.array(     [ [1, 1], [-1,1] ]   )


W = np.array(     [ [1, 1], [-1,1] ]   )
print("\n W = \n", W)
#print()


array_2 = np.array (   [  [1, 5, 2],    [2, 4, 2] ]    )

X = np.array (   [  [1, 5, 2],    [2, 4, 2] ]    )
print("\n X = \n",X)
#print()

WX_1 = np.dot(W,X)
print("\n WX_1 = \n",WX_1)
#print()

WX_2 = np.matmul(W,X)
print("\n WX_2 = \n",WX_2)
#print()

#XW = np.matmul(X,W)
#print(XW)
#print()
# Lo anterior no funciona por lo siguiente:
#X_(2,3) por W_(2,2) = Resultado_(2,2)?
#porque el numero de columnas de X es diferente al numero de filas de W


 W = 
 [[ 1  1]
 [-1  1]]

 X = 
 [[1 5 2]
 [2 4 2]]

 WX_1 = 
 [[ 3  9  4]
 [ 1 -1  0]]

 WX_2 = 
 [[ 3  9  4]
 [ 1 -1  0]]



W_(2,2) por X_(2,3) = WX_(2,3)

W*x + b = Z ---> Activation = output

W_(3,4) por x_(4,5) = Z_(3,5)

Asumiendo que todos los biases son cero y que NO hay función de activación (es decir: se deja pasar la misma información)

In [10]:
W = np.array([   [1,1,0,-1], [-1,1,2,-3], [-1,1,5,0]  ])
print(W)

print()

x = np.array([ [1,5,2,-1,0], [2,4,2,1,-1], [7,5,6,-1,1], [-8,0,4,-1,3] ])
print(x)
print()

b = np.zeros((3, 5)) # suponer todos los valores de los biases en cero
print(b)
print()

Z = np.matmul(W,x) + b
print(Z)

[[ 1  1  0 -1]
 [-1  1  2 -3]
 [-1  1  5  0]]

[[ 1  5  2 -1  0]
 [ 2  4  2  1 -1]
 [ 7  5  6 -1  1]
 [-8  0  4 -1  3]]

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

[[11.  9.  0.  1. -4.]
 [39.  9.  0.  3. -8.]
 [36. 24. 30. -3.  4.]]


Explicación manual:
W =
[[ 1  1]
 [-1  1]]

x=
 [[1 5 2]
 [2 4 2]]

Entonces:

W*x + b:

b=zeros
W*x  + 0 = W*x = Z
[[ 3  9  4]
 [ 1 -1  0]]

Z-->relu-->A
A=
[[ 3  9  4]
 [ 1  0  0]]

===============
W*x =
[[ 3  9  4]
 [ 1 -1  0]]

+ b (b=ones)
W*x + b:
[[ 4  10  5]
 [ 2  0   1]]

W*x + b = Z
Z-->relu-->A

A=
[[ 4  10  5]
 [ 2  0   1]]

=========================

Comparar el resultado conocido (Supervisado)
Supongamos que el resultado conocido es:
Y_real=
[[ 4  10  5]
 [ 2  0   0]]
y sucedió que la red calculó y dio:
A=Y_estimado
[[ 4  10  5]
 [ 2  0   0]]

Error(Y_real-Y_estimada)=?
E=
[[ 0  0  0]
 [ 0  0   0]]

===============================================
O supongamos que el resultado conocido debe ser:
Y_real=
[[ -3  6  2]
 [ 0   5 -1]]
y sucedió que la red calculó y dio:

A=Y_estimado
[[ 4  10  5]
 [ 2  0   0]]

Error(Y_real-Y_estimada)=?
E=
[[ -7  -4  -3]
 [ -2  5   -1]]


HOMEWORK:
Explorar la pagína de tensorflow playground:

https://playground.tensorflow.org/

Ejemplo académico:
Definiendo funciones en python para calcular:

W x + b = Z --> relu ---> y

In [11]:
def get_output_from_MLP_input(W,x,b,activation="linear"):
  #print("W = ",end='\n')
  #print(W)
  print(f"W = \n {W} \n")
  #print()

  print("x = ",end='\n')
  print(x)
  print("b = ",end='\n')
  print(b)
  # arguments:
  # W,x and b are arrays

  # operations
  # Z = W x  +  b
  #Z = np.matmul(W,x) + b
  Z = np.dot(W,x) + b

  print("Z = ",end='\n')
  print(Z)

  if activation=="linear":
    y = Z

  if activation=="relu":
    # Ternary operator to define a relu function
    #y = Z if Z>=0 else 0
    #y = Z if Z>0 else 0
    #y = 0 if Z<0 else Z
    #y = 0 if Z<=0 else Z
    y = np.array([0 if z<=0 else z for z in Z])

  #TO-DO:
  """
  if activation=="sigmoid":
    #
  if activation=="tanh":
    #
  # Use many others
  if activation=="":
    #
  if activation=="":
    #
  ...

  """

  print("y = ",end='\n')
  print(y)

  return y

In [12]:
# Testing (linear)

W = np.array([ [1,-1,1]  , [1,1,0] ,  [0,1,1] ,  [1,0,1]    ])
x = np.array([2, 1, 3])
b = np.array([-5, 0, 1, -2])

y = get_output_from_MLP_input(W,x,b)
y

W = 
 [[ 1 -1  1]
 [ 1  1  0]
 [ 0  1  1]
 [ 1  0  1]] 

x = 
[2 1 3]
b = 
[-5  0  1 -2]
Z = 
[-1  3  5  3]
y = 
[-1  3  5  3]


array([-1,  3,  5,  3])

In [13]:
# Testing (linear)

W = np.array([ [1,-1,1]  , [1,1,0] ,  [0,1,1] ,  [1,0,1]    ])
x = np.array([2, 1, 3])
b = np.array([-5, 0, 1, -2])

y = get_output_from_MLP_input(W,x,b, activation="linear")
y

W = 
 [[ 1 -1  1]
 [ 1  1  0]
 [ 0  1  1]
 [ 1  0  1]] 

x = 
[2 1 3]
b = 
[-5  0  1 -2]
Z = 
[-1  3  5  3]
y = 
[-1  3  5  3]


array([-1,  3,  5,  3])

In [14]:

# Testing (relu)

W = np.array([ [1,-1,1]  , [1,1,0] ,  [0,1,1] ,  [1,0,1]    ])
x = np.array([2, 1, 3])
b = np.array([-5, 0, 1, -2])

y = get_output_from_MLP_input(W,x,b,"relu")
y

W = 
 [[ 1 -1  1]
 [ 1  1  0]
 [ 0  1  1]
 [ 1  0  1]] 

x = 
[2 1 3]
b = 
[-5  0  1 -2]
Z = 
[-1  3  5  3]
y = 
[0 3 5 3]


array([0, 3, 5, 3])

la multiplicacion entre matrices en general NO es conmutativa
AB=C en general es distinto de BA=D

(suponiendo que por las dimensiones se puedan operar)

Ejemplo: al intercambiar Wx con xW hay error

In [15]:
y = get_output_from_MLP_input(x,W,b)

W = 
 [2 1 3] 

x = 
[[ 1 -1  1]
 [ 1  1  0]
 [ 0  1  1]
 [ 1  0  1]]
b = 
[-5  0  1 -2]


ValueError: shapes (3,) and (4,3) not aligned: 3 (dim 0) != 4 (dim 0)