In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import numpy as np

In [3]:
# Importamos todas las funciones que tiene que implementar
from solutions import sigmoid, sigmoid_jac, softmax, softmax_jac, MSE, MSE_grad, densa_forward, forward, get_gradients

# Definición de la RED
Dados los pesos y la estructura de una red neuronal con una softmax a la salida y un MSE como Loss calcular todo lo que se pide a continuación (No es comun usar MSE con la softmax pero a fines didácticos simplifica. Queda como ejercicio adicional resolver el mismo ejercicio pero con una categorical crossentropy a la saluda)

Las funciones de activación de las capas A1 y A2 son sigmoideas (Queda como ejercicio también probar con otras funciones de activación)

![red.png](red.png)

### Pesos de la red

In [4]:
weights = np.load('weights_softmax_3_layers.npy', allow_pickle=True)
capas = ['Capa Densa 1 ws: 2x3', 'Capa Densa 1 biases:', 'Capa Densa 2 - ws: 3x3', 'Capa Densa 2 - biases', 'Capa Densa 3 - ws: 2x3', 'Capa Densa 3 - biases']
for i, layer in enumerate(weights):
    print(capas[i])
    print(layer)
    print()

Capa Densa 1 ws: 2x3
[[0.10820953 0.3432914  0.1744045 ]
 [0.05457611 0.54989725 0.34384015]]

Capa Densa 1 biases:
[-0.67943245 -0.00294854  0.15257952]

Capa Densa 2 - ws: 3x3
[[-0.7706185  -0.17550795]
 [-0.10197585  0.45046437]
 [ 0.00585397  0.3024927 ]]

Capa Densa 2 - biases
[-0.10661452 -0.34508756]

Capa Densa 3 - ws: 2x3
[[-0.49749678 -0.40208894 -0.85052264]
 [ 1.0619878   0.07141189  0.17314   ]]

Capa Densa 3 - biases
[-0.29359275 -0.7259881   0.578059  ]



La dimensión de entrada es 2

# Realizar el Forward de la RED y contestar las preguntas
### Se usará el siguiente vector de entrada para resolver el ejercicio
Nota importante: Todos los vectores de salida de las capas son vectores filas al igual que X

In [5]:
# Vector de entrada de ejemplo
X = np.array([[3.4, 2.1]])
print(X.shape)


(1, 2)


## Implementación de funciones para resolver las preguntas:
En el archivo solutions.py verá que estan todas las funciones sin completar. Completelas a medida que se vaya solicitando

### Implementación de forward capa densa

In [6]:
# implementar función densa_forward que reciba X, W, b - Entrada, pesos, bias
# Y devuelva la salida a la capa densa
# Es simplemente una multiplicación de matrices mas una suma
# La encontrará en el archivo solutions.py
D1_out = densa_forward(X, weights[0], weights[1])
print(D1_out.shape)
print(D1_out)

(1, 3)
[[-0.19691022  2.31902646  1.46761914]]


### Implementación de forward sigmoidea

In [7]:
# Implementar la función sigmoid que recibe un vector y devuelve un vector con la sigmoidea de cada componente
# Recordar que no hace falta un ciclo for
# La encontrará en el archivo solutions.py
A1_out = sigmoid(D1_out)
print(A1_out)

[[0.45093089 0.91044059 0.81269524]]


### Salida 3er capa densa para entrada X

In [8]:
D2_out = densa_forward(A1_out, weights[2], weights[3])
A2_out = sigmoid(D2_out)
D3_out = densa_forward(A2_out, weights[4], weights[5])
print(D3_out)

[[ 0.11573172 -0.8340024   0.36189705]]


### Implementación de forward softmax

In [9]:
# Implementar softmax, que recibe un vector de entrada y devuelve la softmax de la entrada (un vector con probabilidades que suman 1)
P_est = softmax(D3_out)
print(P_est)

[0.37510012 0.14510518 0.4797947 ]


### Implementación forward MSE

In [12]:
# Vector de salida de ejemplo
P_true = np.array([[1, 0, 0]])
print(P_true)

[[1 0 0]]


In [13]:
# Implementar función MSE
# debe devolver el mean square error en funcion de las probabilidades estimadas y las ground truth. 
# Recuerde que la salida es un escalar por lo que tiene que promediar
MSE(P_est, P_true)

0.2139194440951749

### Implementar la función forward(X, P_true, weights) que devuelva P_est, mse, X, A1_out, A2_out (Opcional)
Simplemente colocar todo el procedimiento anterior en una única función. 

Esta función sería un equivalente a un predict_proba mas un evaluate de keras

In [42]:
out = forward(X, P_true, weights)
print(out)

TypeError: densa_forward() missing 1 required positional argument: 'b'

El print debería arrojar lo siguiente:  
[[0.37510012 0.14510518 0.4797947 ]] 0.2139194440951749 [[3.4 2.1]] [[0.45093089 0.91044059 0.81269524]] [[0.36767696 0.55767363]]

# Backward de la RED (Backpropagation)

Realizaremos el backward completo de la red hasta llegar a la capa D1. Notar que todos los gradientes y jacabianos que calculamos salvo el último serán respecto a la entrada de cada capa

**Nota importante**: Siempre que calcule un gradiento o un jacobiano es importante que las dimensiones de las matrices sean (entrada X salida) para evitar tener que trasponer matrices

### Gradiente de la función de costo MSE

In [120]:
# Implementar MSE_grad(P_true, P_est) que devuelva el gradiente del MSE evaluado en P_est respecto a cada una de las entradas del bloque 
# No olvidar dividir por 3 (Idealmente hagalo genérico)
MSE_grad_out = MSE_grad(P_true, P_est)
print(MSE_grad_out.shape)
print(MSE_grad_out)

3
(1, 3)
[[-0.41659992  0.09673679  0.31986314]]


### Jacobiano de Softmax:

Implementar una función que devuelva el jacobiano de la softmax evaluado en un vector fila (respecto a las entradas)

Aca hay una pagina interesante: https://aimatters.wordpress.com/2019/06/17/the-softmax-function-derivative/

Solo se necesita implementar esto:

![softmax_jacobiano.png](softmax_jacobiano.png)

Donde $\sigma(x_1)$ es la salida de la primera componente de la sofmax, es decir, la primera matriz es el resultado de la softmax expresado como matriz diagonal y se puede lograr con np.diag(softmax(X).reshape(-1)). Mientras que la segunda matriz se puede implementar como el producto punto entre la salida de la softmax y su transpuesta

In [127]:
# Primera matriz
softmax_out = softmax(D3_out)
print(softmax_out)
print()
print(np.diag(softmax_out.reshape(-1)))

[0.37510012 0.14510518 0.4797947 ]

[[0.37510012 0.         0.        ]
 [0.         0.14510518 0.        ]
 [0.         0.         0.4797947 ]]


In [128]:
# Segunda matriz
softmax_out.T.dot(softmax_out)

0.39195856818466757

In [133]:
# Implemente la función
print(softmax_jac(D3_out))

[[ 0.23440002 -0.05442897 -0.17997105]
 [-0.05442897  0.12404967 -0.0696207 ]
 [-0.17997105 -0.0696207   0.24959175]]


### Calcular el error propagado hasta la salida de D3
Tener en cuenta que si ya calculó el jacobiano de la softmax y el gradiente del MSE, lo unico que tiene que hacer es realizar un producto punto entre ambos. 

In [136]:
error_D3 = softmax_jac(D3_out).dot(MSE_grad_out.T)
print(error_D3)
error_D3.shape

[[-0.16048242]
 [ 0.01240618]
 [ 0.14807624]]


(3, 1)

### Calculo de error propagado a la entrada de D3 o a la salida de A2
Calcularlo en función de error_d3

In [137]:
error_A2 = weights[4].dot(error_D3)
print(error_A2)
error_A2.shape

[[-0.05109109]
 [-0.14390649]]


(2, 1)

### Jacobiano de sigmoidea
Para calcular el error propagado a la entrada de A2 es necesario calcular el jacobiano de la sigmoidea y evaluarlo en la entrada al bloque A2 o la salida de D2. Recordar que el resultado tiene que ser una matriz diagonal.

La derivada de la función sigmoidea $\sigma(x)$ es $\sigma(x)(1- \sigma(x))$


In [146]:
sigmoid_jac(D2_out)

2
[[0.36767696 0.55767363]]
S[0][0] = 0.3676769621673232
S[0][0] = 0.3676769621673232
S[0][1] = 0.5576736348201717
S[0][1] = 0.5576736348201717


array([[0.23249061, 0.        ],
       [0.        , 0.24667375]])

### Calculo de error propagado a la entrada de A2 o a la salida de D2
Calcularlo en función de error_A2 y el jacobiano de la sigmoidea

In [147]:
error_D2 = sigmoid_jac(D2_out).dot(error_A2)
print(error_D2)

2
[[0.36767696 0.55767363]]
S[0][0] = 0.3676769621673232
S[0][0] = 0.3676769621673232
S[0][1] = 0.5576736348201717
S[0][1] = 0.5576736348201717
[[-0.0118782 ]
 [-0.03549795]]


### Calculo del error propagado a la salida de D1

Ya tiene todos los elementos para calcular el error propagado a la salida de D1

In [148]:
error_A1 = weights[2].dot(error_D2)
error_D1 = sigmoid_jac(D1_out).dot(error_A1)
print(error_D1)

3
[[0.45093089 0.91044059 0.81269524]]
S[0][0] = 0.45093089225230254
S[0][0] = 0.45093089225230254
S[0][1] = 0.9104405912789888
S[0][1] = 0.9104405912789888
S[0][2] = 0.8126952375820982
S[0][2] = 0.8126952375820982
[[ 0.00380889]
 [-0.00120508]
 [-0.00164512]]


### Calculo del gradiente de los pesos de D1
Notar que es simplemente la multiplicación matricial entre el error acumulado (error_D1) y el jacobiano de la salida de D1 respecto a los pesos. Que puede verificar que no es otra cosa que la entrada a la red X

In [170]:
print(weights)
print(weights[2])
print(weights[3])

jacob_D1=sigmoid_jac(D1_out)

print(error_A1)
print(jacob_D1)

g_1_ws = weights[0].dot(jacob_D1.dot(error_D1))
print(f'g_1_ws: {g_1_ws}')
g_1_b = 1
print(f'g_1_b: {g_1_b}')

[array([[0.10820953, 0.3432914 , 0.1744045 ],
       [0.05457611, 0.54989725, 0.34384015]], dtype=float32)
 array([-0.67943245, -0.00294854,  0.15257952], dtype=float32)
 array([[-0.7706185 , -0.17550795],
       [-0.10197585,  0.45046437],
       [ 0.00585397,  0.3024927 ]], dtype=float32)
 array([-0.10661452, -0.34508756], dtype=float32)
 array([[-0.49749678, -0.40208894, -0.85052264],
       [ 1.0619878 ,  0.07141189,  0.17314   ]], dtype=float32)
 array([-0.29359275, -0.7259881 ,  0.578059  ], dtype=float32)]
[[-0.7706185  -0.17550795]
 [-0.10197585  0.45046437]
 [ 0.00585397  0.3024927 ]]
[-0.10661452 -0.34508756]
3
[[0.45093089 0.91044059 0.81269524]]
[[ 0.01538373]
 [-0.01477927]
 [-0.01080741]]
[[0.24759222 0.         0.        ]
 [0.         0.08153852 0.        ]
 [0.         0.         0.15222169]]
g_1_ws: [[ 2.46403342e-05]
 [-8.86705816e-05]]
g_1_b: 1


### Calculo del gradiente de los pesos de D2
Tener en cuenta que es solo multiplicar una matriz de error que ya tiene guardada con el vector de entrada a la capa D2

In [28]:
g_2_ws = 
print(g_2_ws)
g_2_b = 
print(g_2_b)

### Calculo del gradiente de los pesos de D3

In [148]:
g_3_ws = 
print(g_3_ws)
g_3_b = 
print(g_3_b)

[[-0.05900569  0.00456147  0.05444422]
 [-0.08949681  0.0069186   0.08257822]]
[-0.16048242  0.01240618  0.14807624]


# Verificación de los resultados

In [28]:
from tensorflow.keras.models import load_model
import tensorflow as tf

In [29]:
model = load_model('red_softmax_lab01.hdf5')
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
D1 (Dense)                   (None, 3)                 9         
_________________________________________________________________
A1 (Activation)              (None, 3)                 0         
_________________________________________________________________
D2 (Dense)                   (None, 2)                 8         
_________________________________________________________________
A2 (Activation)              (None, 2)                 0         
_________________________________________________________________
D3 (Dense)                   (None, 3)                 9         
_________________________________________________________________
P_est (Activation)           (None, 3)                 0         
Total params: 26
Trainable params: 26
Non-trainable params: 0
____________________________________________________________

In [90]:
def get_tf_gradient(capa):
    inputs = tf.constant(X)

    with tf.GradientTape() as tape:
        preds = model(inputs) 
        loss_fn = tf.keras.losses.MeanSquaredError()
        #loss = model.loss(tf.constant(P_true), preds)        
        loss = loss_fn(tf.constant(P_true), preds)        
    
    grads = tape.gradient(loss, model.get_layer(name=capa).trainable_variables)
    return grads

In [91]:
get_tf_gradient('D1')

[<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
 array([[ 0.01295024, -0.00409727, -0.00559341],
        [ 0.00799868, -0.00253067, -0.00345476]], dtype=float32)>,
 <tf.Tensor: shape=(3,), dtype=float32, numpy=array([ 0.00380889, -0.00120508, -0.00164512], dtype=float32)>]

In [92]:
get_tf_gradient('D2')

[<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
 array([[-0.00535625, -0.01600713],
        [-0.0108144 , -0.03231878],
        [-0.00965336, -0.02884902]], dtype=float32)>,
 <tf.Tensor: shape=(2,), dtype=float32, numpy=array([-0.0118782 , -0.03549796], dtype=float32)>]

In [93]:
get_tf_gradient('D3')

[<tf.Tensor: shape=(2, 3), dtype=float32, numpy=
 array([[-0.0590057 ,  0.00456147,  0.05444423],
        [-0.08949681,  0.0069186 ,  0.08257822]], dtype=float32)>,
 <tf.Tensor: shape=(3,), dtype=float32, numpy=array([-0.16048242,  0.01240618,  0.14807625], dtype=float32)>]

### Armar una función get_gradients(X, P_true, weights) que revuelva los gradienes de cada capa densa

In [171]:
grads, loss = get_gradients(X, P_true, weights)
print(grads)
print(loss)

###################################
Tienen que implementar esta función
###################################
1
1


In [32]:
def get_updated_ws(weights, lr = 0.1):
    grads, loss = get_gradients(X, P_true, weights)
    new_w = []
    for i, w in enumerate(weights):
        new_w.append(w - lr*grads[i])
    return new_w, loss

new_w, loss = get_updated_ws(weights)
print(loss)
for i in range(50):
    new_w, loss = get_updated_ws(new_w)
    print(loss)

0.2139194440951749
0.20662613128588422
0.19947171057325727
0.1924681092888171
0.18562604333803648
0.1789549380634228
0.17246287574065775
0.16615656976223617
0.16004136458874682
0.1541212596879758
0.1483989549782366
0.1428759147709048
0.1375524468781014
0.13242779340987212
0.12750022981379402
0.12276716888239801
0.11822526673855087
0.1138705281725413
0.10969840911474449
0.10570391445541599
0.10188168984418387
0.09822610649742136
0.0947313383986826
0.0913914315876672
0.0882003654930716
0.08515210647403793
0.08224065389624931
0.0794600791863473
0.07680455838766365
0.07426839878711093
0.07184606020334172
0.06953217152552128
0.06732154307530211
0.06520917533624652
0.06319026455874395
0.0612602057074741
0.05941459317511957
0.05764921964221048
0.05596007342010118
0.054343334573122626
0.05279537007760111
0.051312728240080235
0.04989213256493353
0.04853047523265045
0.04722481032435658
0.04597234690544114
0.04477044206132039
0.04361659396113585
0.04250843501033663
0.0414437251403814
0.0404203452