<a href="https://colab.research.google.com/github/DiploDatos/AprendizajeProfundo/blob/add_2024_content/2_Operacion_a_Corazon_Abierto_de_una_Red_Neuronal_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🐍🔥 Operación a Corazón Abierto de una Red Neuronal  👩‍⚕️💖🕵️‍♂️

En este tutorial de código, veremos:
* FeedForward
* Funciones de Activación
  * Función sigmoide
  * Función softmax
  * Función ReLu
* Descenso de Gradiente

Al finalizar habrás logrado una comprensión de los cálculos que se realizan internarmente entre las capas y sus neuronas, cuando se lleva a cabo el feed forward en una red neuronal completamente conectada (neural network fully connected). Tanto de manera matemática, empleando operaciones de matrices, como
de manera automática, empleando operaciones con nn.Sequential.

Además, habrás aprendido a aplicar diferentes tipos de funciones de activación, como la sigmoide, la softmax, la ReLu.

## Importar librerías

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn

## Feedforward

In [None]:
input_tensor = torch.Tensor([[2, 3]])       # datos de entrada de la red
wi1 = torch.Tensor([[1, 1]])                # pesos a neurona 1 de capa oculta (lineas amarillas)
wi2 = torch.Tensor([[-1, 1]])               # pesos a neurona 2 de capa oculta (lineas rojas)
wi3 = torch.Tensor([[1, -1]])               # pesos a neurona 3 de capa oculta (lineas naranjas)
bias = torch.Tensor([0])                    # bias

In [None]:
# Dimensiones vectores y pesos
input_tensor.shape, wi1.shape

(torch.Size([1, 2]), torch.Size([1, 2]))

In [None]:
# Operación Capa Oculta Neurona 1
n1 = torch.matmul(input_tensor, wi1.T) + bias
n1

tensor([[5.]])

In [None]:
# Operación Capa Oculta Neurona 2
n2 = torch.matmul(input_tensor, wi2.T) + bias
n2

tensor([[1.]])

In [None]:
# Operación Capa Oculta Neurona 3
n3 = torch.matmul(input_tensor, wi3.T) + bias
n3

tensor([[-1.]])

In [None]:
# Output de la Capa Oculta
hidden_layer_output = torch.hstack((n1, n2, n3))
hidden_layer_output

tensor([[ 5.,  1., -1.]])

In [None]:
# Output Capa de salida
wi_h_s = torch.Tensor([[2, -1, 1]])
output = torch.matmul(hidden_layer_output, wi_h_s.T) + bias
output

tensor([[8.]])

In [None]:
# Apalancarse con tensores
X = input_tensor.repeat(1, 1)
W1 = torch.vstack((wi1, wi2, wi3))
X, W1, X.shape, W1.shape

(tensor([[2., 3.]]),
 tensor([[ 1.,  1.],
         [-1.,  1.],
         [ 1., -1.]]),
 torch.Size([1, 2]),
 torch.Size([3, 2]))

In [None]:
# Output de la Capa Oculta
hidden_layer_output = torch.matmul(X, W1.T)
hidden_layer_output

tensor([[ 5.,  1., -1.]])

In [None]:
# Operación de la Capa de Salida
torch.matmul(hidden_layer_output, wi_h_s.T)  # outputs / pesos capa salida

tensor([[8.]])

### Entradas y salidas


In [None]:
# Veamos cómo serían las entradas y salidas
seed = 28
torch.manual_seed(seed)

input_tensor = torch.Tensor([[4, 5]])
n = 3
# Capa Lineal
linear_layer = nn.Linear(in_features=input_tensor.shape[1], out_features=n)  # Instanciar modelo
output_linear_layer = linear_layer(input_tensor)
print(f'Salida de la capa oculta:\n{output_linear_layer}\n')

# Capa oculta a capa de salida
output_layer = nn.Linear(in_features=output_linear_layer.shape[1], out_features=1)
output = output_layer(output_linear_layer)
print(f'Salida de la capa de salida:\n{output}')

Salida de la capa oculta:
tensor([[ 2.7539,  2.8982, -1.1063]], grad_fn=<AddmmBackward0>)

Salida de la capa de salida:
tensor([[0.8347]], grad_fn=<AddmmBackward0>)


### Pesos y Bias

In [None]:
# CAPA OCULTA: Pesos y bias (aleatorios)
# Veamos pesos y bias de una capa
for name, param in linear_layer.named_parameters():
  print(f'{name}: \n\t{param.data}\n\tDimensiones: {param.data.shape}')

weight: 
	tensor([[ 0.1803,  0.3263],
        [ 0.2508,  0.3367],
        [ 0.6952, -0.6402]])
	Dimensiones: torch.Size([3, 2])
bias: 
	tensor([ 0.4011,  0.2113, -0.6860])
	Dimensiones: torch.Size([3])


In [None]:
# CAPA DE SALIDA: Pesos y bias (aleatorios)
for name, param in output_layer.named_parameters():
  print(f'{name}: \n\t{param.data}\n\tDimensiones: {param.data.shape}')

weight: 
	tensor([[-0.1986,  0.3628, -0.0171]])
	Dimensiones: torch.Size([1, 3])
bias: 
	tensor([0.3112])
	Dimensiones: torch.Size([1])


### Cálculo manual de la red neuronal

In [None]:
# Detalle del cálculo de la capa oculta --> salida de capa oculta
pesos = linear_layer.weight
sesgos = linear_layer.bias
torch.matmul(input_tensor, pesos.T) + sesgos

tensor([[ 2.7539,  2.8982, -1.1063]], grad_fn=<AddBackward0>)

In [None]:
# Detalle del cálculo de la capa de salida
pesos = output_layer.weight
sesgos = output_layer.bias
torch.matmul(output_linear_layer, pesos.T) + sesgos

tensor([[0.8347]], grad_fn=<AddBackward0>)

### Cálculo con nn.Sequential

In [None]:
torch.manual_seed(seed)

n = 3
# Red neuronal con 2 capas (oculta y salida)
model = nn.Sequential(
                nn.Linear(in_features=input_tensor.shape[1], out_features=n),
                nn.Linear(n, 1)
                     )

output = model(input_tensor)
print(output)

tensor([[0.8347]], grad_fn=<AddmmBackward0>)


In [None]:
for name, param in model.named_parameters():
  # if param.requires_grad:
    print(f'{name}: \n\t{param.data}\n\tDimensiones: {param.data.shape}')


0.weight: 
	tensor([[ 0.1803,  0.3263],
        [ 0.2508,  0.3367],
        [ 0.6952, -0.6402]])
	Dimensiones: torch.Size([3, 2])
0.bias: 
	tensor([ 0.4011,  0.2113, -0.6860])
	Dimensiones: torch.Size([3])
1.weight: 
	tensor([[-0.1986,  0.3628, -0.0171]])
	Dimensiones: torch.Size([1, 3])
1.bias: 
	tensor([0.3112])
	Dimensiones: torch.Size([1])


In [None]:
# Pesos y sesgos de la capa de entrada (capa 0)
l1_weights = model[0].weight
l1_bias = model[0].bias
l1_output = torch.matmul(input_tensor, l1_weights.T) + l1_bias
l1_output

tensor([[ 2.7539,  2.8982, -1.1063]], grad_fn=<AddBackward0>)

In [None]:
# Función para obtener los pesos y sesgos de una capa
def get_weights_and_bias(layer_number, model):
  weights = model[layer_number].weight
  bias = model[layer_number].bias
  return weights, bias

# Pesos y sesgos de la capa de salida (capa 1)
layer_number = 1
l2_weights, l2_bias = get_weights_and_bias(layer_number, model)

# Salida de la capa 1
l2_output = torch.matmul(l1_output, l2_weights.T) + l2_bias
l2_output

tensor([[0.8347]], grad_fn=<AddBackward0>)

## Red Neuronal con varias muestras

In [None]:
# Veamos cómo serían las entradas y salidas, pesos y bias, de una capa
torch.manual_seed(seed)
                            # x1, x2,....,     xn
input_tensor = torch.Tensor([[8, 5, 6, 2, 4, 5, 7],
                            [1, 2, 3, 4, 5, 6, 7],
                             [9, 8, 7, 6, 5, 4, 3]])
n = 4
# Capa Lineal
linear_layer = nn.Linear(in_features=input_tensor.shape[1], out_features=n)
output_linear_layer = linear_layer(input_tensor)
print(f'Salida de la capa oculta:\n{output_linear_layer}\n')

# Capa oculta a capa de salida
output_layer = nn.Linear(in_features=output_linear_layer.shape[1], out_features=1)
output = output_layer(output_linear_layer)
print(f'Salida de la capa de salida:\n{output}')

Salida de la capa oculta:
tensor([[ 3.8505,  0.7403, -0.7386,  3.4482],
        [ 2.6398,  2.1073, -0.7635,  1.7878],
        [ 5.1803, -0.3644, -1.5576,  1.4235]], grad_fn=<AddmmBackward0>)

Salida de la capa de salida:
tensor([[-2.8107],
        [-1.6803],
        [-2.3069]], grad_fn=<AddmmBackward0>)


### Cálculo manual

In [None]:
# Detalle del cálculo de la capa oculta --> salida de capa oculta
pesos = linear_layer.weight
sesgos = linear_layer.bias

salida_capa_oculta = torch.matmul(input_tensor, pesos.T) + sesgos

print(f'- Pesos: \n{pesos}\n')
print(f'- Sesgos: \n{sesgos}\n')
print(f'- Salida de Capa oculta: \n{salida_capa_oculta}')

- Pesos: 
Parameter containing:
tensor([[ 0.0964,  0.1744,  0.1341,  0.1800,  0.3716, -0.3422,  0.2144],
        [ 0.1130, -0.3667, -0.1300,  0.2375, -0.0112,  0.2037,  0.1807],
        [-0.0005, -0.1739,  0.0568, -0.3228,  0.3467, -0.0809, -0.1274],
        [ 0.3532,  0.0178, -0.3653, -0.2941,  0.1710,  0.1864,  0.2185]],
       requires_grad=True)

- Sesgos: 
Parameter containing:
tensor([-0.2332, -0.2633,  0.3489,  0.1688], requires_grad=True)

- Salida de Capa oculta: 
tensor([[ 3.8505,  0.7403, -0.7386,  3.4482],
        [ 2.6398,  2.1073, -0.7635,  1.7878],
        [ 5.1803, -0.3644, -1.5576,  1.4235]], grad_fn=<AddBackward0>)


In [None]:
# Detalle del cálculo de la capa de salida
pesos = output_layer.weight
sesgos = output_layer.bias

salida_capa_salida = torch.matmul(output_linear_layer, pesos.T) + sesgos

print(f'- Pesos: \n{pesos}\n')
print(f'- Sesgos: \n{sesgos}\n')
print(f'- Salida de Capa oculta: \n{salida_capa_salida}')

- Pesos: 
Parameter containing:
tensor([[-0.2422,  0.0516,  0.0661, -0.4628]], requires_grad=True)

- Sesgos: 
Parameter containing:
tensor([-0.2718], requires_grad=True)

- Salida de Capa oculta: 
tensor([[-2.8107],
        [-1.6803],
        [-2.3069]], grad_fn=<AddBackward0>)


### Cálculo con nn.Sequential


In [None]:
torch.manual_seed(seed)

# Red neuronal con 2 capas (oculta y salida)
model = nn.Sequential(nn.Linear(in_features=input_tensor.shape[1], out_features=n),
                      nn.Linear(n, 1)
                     )

output = model(input_tensor)
print(output)

tensor([[-2.8107],
        [-1.6803],
        [-2.3069]], grad_fn=<AddmmBackward0>)


## Funciones de Activación

<img src="https://dustinstansbury.github.io/theclevermachine/assets/images/a-gentle-introduction-to-neural-networks/common_activation_functions.png" width=800>

<img src="https://www.researchgate.net/publication/335845675/figure/fig3/AS:804124836765699@1568729709680/Commonly-used-activation-functions-a-Sigmoid-b-Tanh-c-ReLU-and-d-LReLU.ppm" width=800>

https://medium.com/soldai/introducci%C3%B3n-al-deep-learning-i-funciones-de-activaci%C3%B3n-b3eed1411b20

### Función Sigmoide  📈

\begin{align}
σ(x) = \frac{1}{(1 + e^{-x})}
\end{align}

In [None]:
# Tomando los outputs de la red anterior
output_1 = -2.8107
output_2 = -1.6803
output_3 = -2.3069

# Calcular la probabilidad según función sigmoide
probability_1 = 1 / (1 + np.exp(-output_1))
probability_2 = 1 / (1 + np.exp(-output_2))
probability_3 = 1 / (1 + np.exp(-output_3))

print(f'Probabilidad de la clase 1: {round(probability_1, 4)}')
print(f'Probabilidad de la clase 2: {round(probability_2, 4)}')
print(f'Probabilidad de la clase 3: {round(probability_3, 4)}')

Probabilidad de la clase 1: 0.0567
Probabilidad de la clase 2: 0.1571
Probabilidad de la clase 3: 0.0906


In [None]:
# Instanciar función sigmoide y aplicar a la salida de la red
sigmoid = nn.Sigmoid()
probability = sigmoid(salida_capa_salida)
print(probability)

tensor([[0.0567],
        [0.1571],
        [0.0906]], grad_fn=<SigmoidBackward0>)


In [None]:
# La red neuronal con función sigmoide como salida
torch.manual_seed(seed)

model = nn.Sequential(
  nn.Linear(input_tensor.shape[1], 4),
  nn.Linear(4, 1),
  nn.Sigmoid()
)

output = model(input_tensor)
print(output)

tensor([[0.0567],
        [0.1571],
        [0.0906]], grad_fn=<SigmoidBackward0>)


### Función Softmax 📈

\begin{align}
S(z_i) = \frac{e^{z_i}}{Σe^{z_i}}
\end{align}

In [None]:
# Simulando salidas múlti-clases de una entrada (clasificación múltiple)
outputs = torch.tensor([[-3.7, -2.5, -0.2,  0.8, 1.8, 3.2]])

# Calculo de probabilidades para las salidas con función softmax
prob_1 = outputs[0][0].exp() / (outputs[0].exp().sum())
prob_2 = outputs[0][1].exp() / (outputs[0].exp().sum())
prob_3 = outputs[0][2].exp() / (outputs[0].exp().sum())
prob_4 = outputs[0][3].exp() / (outputs[0].exp().sum())
prob_5 = outputs[0][4].exp() / (outputs[0].exp().sum())
prob_6 = outputs[0][5].exp() / (outputs[0].exp().sum())

# Mostrar resultados
print(f'Probabilidad de la:')
for i in range(outputs.shape[1]):
  print(f'\tclase {i + 1}: {round(eval(f"prob_{i + 1}").item(), 4)}')
total_prob = prob_1 + prob_2 + prob_3 + prob_4 + prob_5 + prob_6
print(f'Suma de las probabilidades: {round(total_prob.item(), 4)}')

Probabilidad de la:
	clase 1: 0.0007
	clase 2: 0.0024
	clase 3: 0.0243
	clase 4: 0.066
	clase 5: 0.1793
	clase 6: 0.7273
Suma de las probabilidades: 1.0


In [None]:
# Tomando los mismos outputs anteriores
# Instanciar función sigmoide y aplicarla a las salidas simuladas
softmax = nn.Softmax(dim=-1)
probabilities = softmax(outputs)
print(probabilities)

tensor([[0.0007, 0.0024, 0.0243, 0.0660, 0.1793, 0.7273]])


In [None]:
# La red neuronal con función sigmoide como salida
model = nn.Sequential(
  nn.Linear(input_tensor.shape[1], 3),
  nn.Softmax(dim=-1)
  )

output = model(input_tensor)
print(output)

tensor([[2.4240e-01, 7.5760e-01, 6.4910e-07],
        [4.6144e-01, 5.3855e-01, 9.9658e-06],
        [3.7214e-01, 6.2786e-01, 7.5278e-08]], grad_fn=<SoftmaxBackward0>)


### Función ReLU 📈

\begin{align}
ReLU(x) = \max(0, x)
\end{align}

Demostración del contraste de resultados aplicando sólo función Lineal a la red VS aplicando la función ReLU a la salida de las capas ocultas.

In [None]:
# SIMULANDO PESOS EN LA RED NEURONAL
# Calcular la primera y segunda capa oculta
input_layer = input_tensor
# Simular pesos en la capa oculta 1 y 2, con números aleatorios
n = 3
weight_1 = torch.randn(input_layer.shape[1], n)
weight_2 = torch.randn(n, 1)
weight_3 = torch.randn(1, 1)
print(f'- Datos de entrada: \n{input_layer}\n')
print(f'- Pesos capa oculta 1: \n{weight_1}\n')
print(f'- Pesos capa oculta 2: \n{weight_2}\n')
print(f'- Pesos capa de salida: \n{weight_3}\n')
# Calcular la salida de la capa oculta 1 y 2
hidden_1 = torch.matmul(input_layer, weight_1)
hidden_2 = torch.matmul(hidden_1, weight_2)
# Calcular la salida
print(f'Datos de salida: \n{torch.matmul(hidden_2, weight_3)}\n')

# Calcular los pesos compuestos
weight_composed_1 = torch.matmul(weight_1, weight_2)
weight_composed_2 = torch.matmul(weight_composed_1, weight_3)
print(f'- Pesos compuestos: \n{weight_composed_2}\n')
# Calcular la salida con los pesos compuestos resultantes
print(f'Datos de salida: \n{torch.matmul(input_layer, weight_composed_2)}\n')

- Datos de entrada: 
tensor([[8., 5., 6., 2., 4., 5., 7.],
        [1., 2., 3., 4., 5., 6., 7.],
        [9., 8., 7., 6., 5., 4., 3.]])

- Pesos capa oculta 1: 
tensor([[-0.9298, -0.0618, -0.2064],
        [ 1.3306,  1.6108,  1.4160],
        [ 0.5211,  0.6240,  0.3232],
        [-0.2505,  1.0879, -0.5302],
        [ 0.0153,  1.9200,  1.6137],
        [-0.5760,  0.2355, -0.0933],
        [ 0.0672,  1.1395,  0.8006]])

- Pesos capa oculta 2: 
tensor([[-0.2570],
        [-0.2466],
        [ 0.2393]])

- Pesos capa de salida: 
tensor([[0.5575]])

Datos de salida: 
tensor([[-1.7072],
        [-1.8669],
        [-2.9683]])

- Pesos compuestos: 
tensor([[ 0.1142],
        [-0.2232],
        [-0.1174],
        [-0.1844],
        [-0.0509],
        [ 0.0377],
        [-0.0595]])

Datos de salida: 
tensor([[-1.7072],
        [-1.8669],
        [-2.9683]])



In [None]:
# APLICAR NO LINEALIDAD A LOS RESULTADOS DE LA RED
# Crear instancias de no linealidad - Función ReLU
relu = nn.ReLU()

# Aplicar no linealidad en las capas ocultas
hidden_1_activated = relu(torch.matmul(input_layer, weight_1))
hidden_2_activated = relu(torch.matmul(hidden_1_activated, weight_2))
# Calcular la salida
print(f'Datos de salida: \n{torch.matmul(hidden_2_activated, weight_3)}\n')

# Aplicar no linealidad en el producto de los dos primeros pesos
weight_composed_1_activated = relu(torch.matmul(weight_1, weight_2))
# Multiplicar "weight_composed_1_activated" con "weight_3"
weight = torch.matmul(weight_composed_1_activated, weight_3)
# Calcular la salida
print(f'Datos de salida: \n{torch.matmul(input_layer, weight)}\n')

Datos de salida: 
tensor([[0.],
        [0.],
        [0.]])

Datos de salida: 
tensor([[1.1022],
        [0.3405],
        [1.1786]])



## [Descenso de Gradiente](https://colab.research.google.com/drive/1rTHvHlddvZr2b3r409vUyiJp7yKM-xo8#scrollTo=-qgJUDqk1K11)