In [3]:
import tensorflow as tf
import keras
import numpy as np
import matplotlib.pyplot as plt
import numba as nb
import seaborn as sns

sns.set_theme(font_scale=1.7, style='whitegrid')

# Esercitazione 3

## 0 - Appunti e introduzione

Nella scorsa lezione abbiamo introdotto alcune strategie per aumentare le performance dei codici scritti in `Python`, tra cui in particolare utilizziamo numba. 

Estendere il `back-end` utilizzando altre strategie è importante. Se necessito una fz molto performante su `tf` posso, ad esempio, scriverla in `C++` e poi fornirla a `tf`.

#### Che framework scegliere?

Ci sono un sacco di opzioni. Diciamo che `tf` è il più utilizzato tra tutti. Seguono `keras` e `PyTorch`. Per scegliere conviene analizzare _learning curve, developement pace, community size, papers associate al framework (tf ad esempio consente agli utenti di interagire ed aprire degli issues su GitHub), stabilità nel tempo e performance_.

---

### Su TensorFlow

#### Variabili e tensori

Posso decidere dove e come allocare la memoria. se scrivo `with tf.device('CPU:0')` sto scegliendo la CPU. Alternativamente `same... ('GPU:0')`.

- `tf.Variable` è una variabile il cui valore è modificabile in futuro utilizzando `tf.assign()`;
- `tf.constant` è una variabile il cui valore viene mantenuto costante.

In `C++` non potrei fare questa operazione in meno di 50 righe.

#### Gradienti

Utilizzando `GradientTape` tf interpreta il gradiente della formula funzionale. 

HP di avere un modello lineare, in cui definisco una matrice di pesi e una di bias:

In [16]:
w = tf.Variable(tf.random.normal((3,2)), name='w')
b = tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
x = [[1.,2.,3.]]

In [17]:
with tf.GradientTape() as tape:
    y = tf.nn.sigmoid(x @ w + b)
    loss = tf.reduce_mean(tf.math.square(y))

Abbiamo costruito una loss che è una catena di operazioni. Abbiamo in qualche modo costruito un algoritmo di stocastic gradient descent in completa autonomia. Nelle slide fa un esempio di training su quattro variabili in cui si vede come il `tape` vada a tener conto solo di quelle che rimangono a tutti gli effetti delle `Variable`.

In [18]:
[dl_dw, dl_db] = tape.gradient(loss, [w, b])

In [19]:
print(dl_dw, dl_db)

tf.Tensor(
[[0.00206387 0.00033378]
 [0.00412774 0.00066756]
 [0.00619162 0.00100134]], shape=(3, 2), dtype=float32) tf.Tensor([0.00206387 0.00033378], shape=(2,), dtype=float32)


#### tf Module
Possiamo costruire una classe (di seguito alcune note utili se, come me, sei nabb*):

- `__init__` è un costruttore. Metodo invocato automaticamente nel momento in cui si va definire un oggetto che corrisponde alla classe in esame. Contiene i vari data membri, che verranno richiamati tramite il prefisso `self.`;
- `super()` invoca la classe madre quando stiamo programmando utilizzando ereditareità nelle classi. Può essere usato per evitare di ricordarsi il nome della super-classe.

In [24]:
class SimpleModule(tf.Module):
    
    #costruttore 
    def __init__(self, name=None):
        super().__init__(name=name)
        self.a_variable = tf.Variable(5.0, name='train_me')
        self.non_trainable_variable = tf.Variable(5.0, trainable=False)
    
    #azione in chiamata della classe
    def __call__(self, x):
        return self.a_variable * x + self.non_trainable_variable

In [25]:
simple_module = SimpleModule(name="simple")
simple_module(tf.constant(5.0))

<tf.Tensor: shape=(), dtype=float32, numpy=30.0>

In [28]:
# se voglio costruire un layer dense

class Dense(tf.Module):
    
    #costruttore
    def __init__(self, in_features, out_features, name=None):
        super().__init__(name=name)
        self.w = tf.Variable(tf.random.normal([in_features, out_features]), name='w')
        self.b = tf.Variable(tf.zeros([out_feature]), name='b')
    
    # azione in chiamata della classe
    def __call__(self, x):
        y = tf.matmul(x, self.w) + self.b
        return tf.nn.relu(y)

---

### Su Keras

Keras rientra nel mondo del high-level. Oggi è un modulo di `tf` che lavora come API. Un esempio di costruzione tramite Keras:

In [34]:
model = tf.keras.Sequential()
model.add(tf.keras.layers.Dense(2, activation="relu"))
model.add(tf.keras.layers.Dense(3, activation="relu"))
model.add(tf.keras.layers.Dense(1))
# ora la rete è inizializzata in modo casuale dal framework
# se la alleniamo questa si adegua ai pattern del mio campione
# però già così una risposta me la da, casuale ma me la da

y = model(tf.ones((1,1)))
model.summary()

y

Model: "sequential_5"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_12 (Dense)             (1, 2)                    4         
_________________________________________________________________
dense_13 (Dense)             (1, 3)                    9         
_________________________________________________________________
dense_14 (Dense)             (1, 1)                    4         
Total params: 17
Trainable params: 17
Non-trainable params: 0
_________________________________________________________________


<tf.Tensor: shape=(1, 1), dtype=float32, numpy=array([[0.]], dtype=float32)>

A questo punto abbiamo due metodi necessari all'utilizzo della rete:

1. `model.compile()` compila la rete;
2. `model.fit()` la allena.

Questa tecnica sequenziale potrebbe non essere sempre utile. Ad esempio quando:

- abbiamo output e input multipli;
- ogni layer ha multiple inputs and outputs;
- vogliamo condivisione tra i layers;
- vogliamo una topologia non lineare.

Ecco che entra in gioco la __API funzionale__. Usando tf dichiariamo un input e indichiamo la shape. A questo punto definiamo i layers separatamente e passiamo manualmente come input degli strati successivi gli output dei precedenti:

In [40]:
inputs = tf.keras.Input(shape=(5,))
x1 = tf.keras.layers.Dense(64, activation='relu')(inputs)
x2 = tf.keras.layers.Dense(64, activation='relu')(x1)
outputs = tf.keras.layers.Dense(1)(x2)

# e adesso trasformo la mia struttura in un modulo standard, così posso usare i metodi
# compile e fit dalla stessa API vista prima

model = tf.keras.Model(inputs=inputs, outputs=outputs, name="MyModel")
model.compile(loss='mean_squared_error', optimizer=tf.keras.optimizers.SGD())

# e se carico anche i dataset a questo punto posso eseguire il training
#history = model.fit(x_train, y_train, batch_size=32, epochs=100)

# e poi valutare il modello con evaluate(x_test, y_test)

## 1 - MLP

Per questo primo esercizio costruisco una classe che chiamo simpleMLP.

In --> h1 --> h2 --> Out

In [95]:
x = np.linspace(-1, 1, 10, dtype=np.float32).reshape(-1, 1)

In [96]:
tf.random.set_seed(0)

class simpleMLP:
    
    # costruisco tutti i pesi nella rete
    def __init__(self, n_input, n_output, n_hidden_1, n_hidden_2):
        # In --> h1    
        self.w1 = tf.Variable(tf.random.normal([n_input, n_hidden_1]), name='w1')
        self.b1 = tf.Variable(tf.random.normal([n_hidden_1]), name='b1')
        
        # h1 --> h2
        self.w2 = tf.Variable(tf.random.normal([n_hidden_1, n_hidden_2]), name='w2')
        self.b2 = tf.Variable(tf.random.normal([n_hidden_2]), name='b2')
        
        # h2 --> Out
        self.w3 = tf.Variable(tf.random.normal([n_hidden_2, n_output]), name='w3')
        self.b3 = tf.Variable(tf.random.normal([n_output]), name='b3')
        
    # chiamata della rete sul dato x    
    def __call__(self, x):
        a1 = tf.nn.sigmoid(tf.matmul(x, self.w1) + self.b1)
        a2 = tf.nn.sigmoid(tf.matmul(a1, self.w2) + self.b2)
        a3 = tf.matmul(a2, self.w3) + self.b3
        return a3
    
    def get_weights(self):
        w = []
        b = []
        for i in range(3):
            w.append(self.w1)
            b.append
    

In [97]:
# input, output, hidden1, hidden1
first_mlp = simpleMLP(1, 1, 5, 2)

In [107]:
first_mlp(x)

<tf.Tensor: shape=(10, 1), dtype=float32, numpy=
array([[1.3699194 ],
       [1.2839926 ],
       [1.1930858 ],
       [1.101919  ],
       [1.0151278 ],
       [0.9362234 ],
       [0.86713374],
       [0.80833006],
       [0.7592629 ],
       [0.7188215 ]], dtype=float32)>

## 2 - Sequential model

In [103]:
# per far sì che i pesi siano inizializzati nello stesso modo
tf.random.set_seed(0)

second_mlp = tf.keras.Sequential()
second_mlp.add(tf.keras.layers.Dense(5, input_shape=(1,), activation="sigmoid"))
second_mlp.add(tf.keras.layers.Dense(2, activation="sigmoid"))
second_mlp.add(tf.keras.layers.Dense(1, activation="linear"))

second_mlp.summary()

Model: "sequential_9"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_39 (Dense)             (None, 5)                 10        
_________________________________________________________________
dense_40 (Dense)             (None, 2)                 12        
_________________________________________________________________
dense_41 (Dense)             (None, 1)                 3         
Total params: 25
Trainable params: 25
Non-trainable params: 0
_________________________________________________________________


In [108]:
second_mlp(x)

<tf.Tensor: shape=(10, 1), dtype=float32, numpy=
array([[-0.08518803],
       [-0.07886216],
       [-0.07243189],
       [-0.06592345],
       [-0.05936563],
       [-0.05278838],
       [-0.04622245],
       [-0.03969827],
       [-0.03324482],
       [-0.02688947]], dtype=float32)>