In [172]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings 
warnings.filterwarnings('ignore') 

In [174]:
#Questa funzione inizializza il network e la sua struttura. Tutti i valori di W e b sono assgnati in maniera random.
#la rete ha 2 strati fully connected con 4 e 5 neuroni rispettivamente. Il numero di neuroni può essere aggiornato cambiando i
#parametri n1 e n2. Il numero di layer è invece fisso
def reset_network (n1 = 4, n2 = 5, random=np.random) :
    global W1, W2, W3, b1, b2, b3
    W1 = random.randn(n1, 1) / 2
    W2 = random.randn(n2, n1) / 2
    W3 = random.randn(1, n2) / 2
    b1 = random.randn(n1, 1) / 2
    b2 = random.randn(n2, 1) / 2
    b3 = random.randn(1, 1) / 2

#Questa funzione si occupa della parte feed forward. Restituisce le somme pesate (z) e le activations (a) per ogni layer
def network_function(a0) :
    z1 = W1 @ a0 + b1
    a1 = sigma(z1)
    z2 = W2 @ a1 + b2
    a2 = sigma(z2)
    z3 = W3 @ a2 + b3
    a3 = z3
    return a0, z1, a1, z2, a2, z3, a3

In [176]:
#activation function and its derivative
def sigma(z):
    return 1 / (1 + np.exp(-z))


def d_sigma(z):
    return np.cosh(z/2)**(-2) / 4

In [180]:
def J_W3 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = J @ a2.T / x.size
    return J

def J_b3 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J =2 * (a3 - y)
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J

In [181]:
def J_W2 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)    
    J = 2 * (a3 - y)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)
    J = J @ a1.T / x.size
    return J

def J_b2 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J

In [182]:
def J_W1 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)
    J = (J.T @ W2).T
    J = J * d_sigma(z1)
    J = J @ a0.T / x.size
    return J

def J_b1 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)
    J = (J.T @ W2).T
    J = J * d_sigma(z1)
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J

In [183]:
def training_network (x, y, iterations=10000, rate=0.05, noise=1) :
    global W1, W2, W3, b1, b2, b3
        
    while iterations>=0 :
        j_W1 = J_W1(x, y) * (1 + np.random.randn() * noise)
        j_W2 = J_W2(x, y) * (1 + np.random.randn() * noise)
        j_W3 = J_W3(x, y) * (1 + np.random.randn() * noise)
        j_b1 = J_b1(x, y) * (1 + np.random.randn() * noise)
        j_b2 = J_b2(x, y) * (1 + np.random.randn() * noise)
        j_b3 = J_b3(x, y) * (1 + np.random.randn() * noise)

        W1 = W1 - j_W1 * rate
        W2 = W2 - j_W2 * rate
        W3 = W3 - j_W3 * rate
        b1 = b1 - j_b1 * rate
        b2 = b2 - j_b2 * rate
        b3 = b3 - j_b3 * rate

        iterations -= 1
        
    return network_function(x)[-1]
