# Benvenuti al laboratorio di Deep Learning! :)

In [None]:
import tensorflow as tf

In [None]:
tf.__version__

# Basi di manipolazione di tensori

Un tensore possiamo vederlo come una matrice multidimensionale, dove il numero di dimensioni è definito a priori.

### Creazione di tensori

Un tensore a zero dimensioni è uno __scalare__

In [None]:
scalar = tf.constant(0)
print(f"Valore del tensore = {scalar}")
print(f"Numero di dimensioni del tensore = {len(scalar.shape)}")
print(f"Forma del tensore = {scalar.shape}")

Un tensore di una dimensione è un __vettore__

In [None]:
vector = tf.constant([1, 2, 3])
print(f"Valore del tensore = {vector}")
print(f"Numero di dimensioni del tensore = {len(vector.shape)}")
print(f"Forma del tensore = {vector.shape}")

Un tensore di due dimensioni è una __matrice__

In [None]:
matrix = tf.constant(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)
print(f"Valore del tensore = \n {matrix}")
print(f"Numero di dimensioni del tensore = {len(matrix.shape)}")
print(f"Forma del tensore = {matrix.shape}")

Un tensore da n dimensioni con n > 2 è... un __tensore__ n-dimensionale 

In [None]:
n = 3
tensor = tf.random.normal(tuple(3 for i in range(n)))
print(f"Valore del tensore = \n {tensor}")
print(f"Numero di dimensioni del tensore = {len(tensor.shape)}")
print(f"Forma del tensore = {tensor.shape}")

Ogni tensore è caratterizzato anche da un __tipo__

In [None]:
tensor.dtype

... e possiamo anche cambiarlo

In [None]:
int_tensor = tf.cast(tensor, dtype=tf.int32)
print(int_tensor)

### Tensor indexing e slicing

Ok, abbiamo i nostri tensori. Molto spesso ci capita di voler prendere solo un elemento di un tensore, prenderne solo un pezzo e, magari, modificarne un altro.

Indexing e slicing ci permettono di selezionare le parti che vogliamo del tensore, e farci ciò di cui necessitiamo.

Cominciamo dal prendere un solo elemento. Avendo un tensore di tre dimensioni:
1. Se vogliamo prendere un solo scalare dobbiamo inserire un valore per __tutte__ le dimensioni;
2. Se vogliamo ricavare un vettore, dobbiamo inserire un valore per __due delle tre__ dimensioni;
3. Se vogliamo ricavare una matrice, dobbiamo inserire un valore per __una sola__ delle dimensioni.

Maggiore è il numero delle dimensioni, più possibilità avremo nella scelta degli indici.

In [None]:
print(f"Scalare = {tensor[0, 1, 0]}")
print(f"Vettore = {tensor[:, 0, -1]}") # che è 'sto -1?
print(f"Matrice = {tensor[:, 2]}") # E l'ultima dimensione?

Lo slicing, che corrisponde ad "affettare" in italiano, ci consente di prendere, appunto, delle "fette" di un tensore. Lo slicing possiamo farlo con quella notazione `:` che abbiamo appena visto.

In [None]:
print(f"Prendo solo una fetta rispetto alla prima dimensione:")
tensor_slice = tensor[1:]
print(f"tensor_slice = {tensor_slice}")
print(f"Forma di tensor_slice = {tensor_slice.shape}")
print(f"Numero dimensioni = {len(tensor_slice.shape)}") # Quante dimensioni avrà il tensore risultante?

Lo slicing può essere fatto anche rispetto a più dimensioni, e coordinato anche con indexing.

In [None]:
print(f"Affetto la prima e l'ultima dimensione:")
tensor_slice = tensor[1:, :, -1:]
print(f"tensor_slice = {tensor_slice}")
print(f"Forma di tensor_slice = {tensor_slice.shape}")
print(f"Numero dimensioni = {len(tensor_slice.shape)}") # Quante dimensioni avrà il tensore risultante?

In [None]:
print(f"Affetto la prima e l'ultima dimensione:")
tensor_slice = tensor[1:, :, 2]
print(f"tensor_slice = {tensor_slice}")
print(f"Forma di tensor_slice = {tensor_slice.shape}")
print(f"Numero dimensioni = {len(tensor_slice.shape)}") # Questa volta quante dimensioni avrà il tensore risultante?

### Concatenazione e stacking di tensori

Fino ad ora abbiamo visto come creare un tensore, e come selezionarne alcune parti. Le operazioni che vedremo adesso rientrano nella "composizione" di tensori. 
- La funzione di concatenazione prende n tensori e li concatena rispetto alla dimensione (`axis`) che vogliamo. Le dimensioni dei tensori di origine devono essere tutte uguali, __eccetto la dimensione scelta__ (ma non è obbligatorio).
- La funzione di stacking prende n tensori e li mette uno sopra l'altro rispetto a una nuova dimensione (`axis`) che vogliamo. Le domensioni dei tensori di origine devono essere __tutte__ uguali.

In [None]:
tensor_1 = tf.random.normal((2, 3, 4))
tensor_2 = tf.random.uniform((2, 6, 4))
concat_tensor = tf.concat([tensor_1, tensor_2], axis=1)
print(f"Forma del nuovo tensore = {concat_tensor.shape}")

In [None]:
stacked_tensor = tf.stack([tensor_1, tensor_2], axis=1)
print(f"Forma del nuovo tensore = {stacked_tensor.shape}")

### Your turn!

1. Create un tensore con numeri casuali di dimensione (2, 5, 3)
2. Prendete l'ultimo elemento nella dimensione 1
3. Mettetelo all'inizio alla dimensione 1 del tensore che avete affettato.

_Hint_: il tensore risultante dovrà avere forma (2, 5, 3), visto che l'ultimo elemento lo stiamo _spostando_ all'inizio della dimensione. Per debuggare, delle print della proprietà `.shape` del tensore possono sempre fare comodo.

_Nota_: il tensore che create deve essere `init_tensor`, mentre il tensore finale deve essere `final_tensor`.

In [None]:
init_tensor = None
final_tensor = None

In [None]:
if final_tensor.shape == (2, 5, 3):
    if tf.reduce_all(final_tensor[:, 0] == init_tensor[:, -1]):
        print("Ottimo lavoro!")
    else:
        print("Mh, dimensione corretta ma i valori non corrispondono")
else:
    print(f"Errato, le dimensioni sono {init_tensor.shape} e {final_tensor.shape}")

# Operazioni coi tensori

Le operazioni coi tensori sono tutte le solite operazioni matematiche comuni, ovvero somma, sottrazione, moltiplicazione e divisione.

In [None]:
tensor = tf.random.normal((3, 3, 3))
print(tensor)

In [None]:
tensor + 1

In [None]:
tensor * 5

In [None]:
tensor / 2

In [None]:
tensor_1 = tf.random.normal((3, 2))
tensor_2 = tf.random.normal((3, 2))
tensor_1 + tensor_2

In [None]:
tensor_1 @ tf.transpose(tensor_2, [1, 0])

In [None]:
tensor_1 = tf.random.normal((10, 3, 2))
tensor_2 = tf.random.normal((10, 3, 2))
tensor_1 @ tf.transpose(tensor_2, [0, 2, 1])

ok, tutto molto bello ma... è tutto qui? Giochiamo solo a fare origami di tensori?

# Learning con TensorFlow

In TensorFlow, ogni operazione che utilizziamo, dallo slicing a una qualsiasi funzione di calcolo, __crea un nuovo nodo del grafo computazionale__.

![prova](https://www.easy-tensorflow.com/files/1_2.png)

Il grafo computazionale rappresenta forse lo strumento più potente di TensorFlow, perché è quello che ci consente di fare learning in maniera infinitamente efficiente senza doverci preoccupare del calcolo del gradiente.

### Digit classification con un modello lineare

Vediamo cosa possiamo fare con ciò che sappiamo fino a qui.

In [None]:
import tensorflow.keras.datasets as kds
from PIL import Image

In [None]:
(train_x, train_y), (test_x, test_y) = kds.mnist.load_data(path='ds')

In [None]:
print(f"Label is {train_y[0]}")
Image.fromarray(train_x[0])

Abbiamo 60000 immagini per il training, ogni immagine è una matrice 28x28

In [None]:
train_x.shape

Ma a noi interessa processare vettori, quindi __appiattiamo__ le ultime due dimensioni

In [None]:
train_x = tf.reshape(train_x, [train_x.shape[0], -1])

Vediamo che valori ci sono dentro ogni immagine

In [None]:
tf.reduce_min(train_x), tf.reduce_max(train_x)

I modelli lineari (e, vedremo, anche le reti neurali) hanno difficoltà a processare dati con range di valori così ampi. Di conseguenza __riscaliamo__ tutto in modo che i valori della matrice siano fra 0 e 1.

In [None]:
train_x = train_x / 255

Ora creiamo le nostre variabili per il modello di classificazione. Le variabili sono dei __tensori dotati di stato__, che ci permettono di definire quali sono i nodi all'interno del grafo computazionale su cui il gradiente va accumulato e trattenuto.

In [None]:
W, b = tf.Variable(tf.random.normal((784, 10))), tf.Variable(tf.zeros(10))

Vediamo come possiamo fare una predizione con questa roba.

In [None]:
prediction = train_x @ W + b
prediction

Questa roba, vista in questa maniera, non significa niente. Dobbiamo tradurre questi valori in classi.

In [None]:
prediction = tf.nn.softmax(train_x @ W + b, axis=-1)

In [None]:
prediction

Ok, adesso vediamo come ci stiamo comportando nella classificazione.

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
print(f"Il valore di accuratezza è {accuracy_score(train_y, tf.argmax(prediction, axis=-1))}")

Abbiamo un accuratezza che è intorno al 10%, che è perfettamente normale non avendo allenato il nostro modello. Questo significa che su 10 classi (le dieci cifre), ne prendiamo una a caso e, ovviamente, azzecchiamo solo una volta su 10.

Proviamo ad allenare il modello e vediamo che succede. Per allenare un modello ci servono:

1. Una __funzione di loss__, che ci permette di misurare quanto bene/male stiamo performando sul nostro task di classificazione;
2. Un __ottimizzatore__ che, presi i gradienti, decide come aggiornare i pesi per minimizzare il valore della loss.

In [None]:
optimizer = tf.keras.optimizers.SGD(learning_rate=1e-1)
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()

Ora possiamo scrivere il nostro primo ciclo di training.

In [None]:
epochs = 500 # Questo valore specifica quante volte vogliamo iterare sul dataset per allenare il modello

for e in range(epochs):
    # Apriamo un GradientTape per memorizzare le operazioni eseguite
    # durante il forward. Questo ci consentirà di fare la differenziazione
    # automatica sul grafo computazionale.
    with tf.GradientTape() as tape:

        # Facciamo la nostra predizione
        prediction = tf.nn.softmax(train_x @ W + b, axis=-1)

        # Calcoliamo il valore di loss
        loss_value = loss_fn(train_y, prediction)
    
    # Calcoliamo i gradienti dal tape specificando rispetto a cosa
    # vogliamo calcolarli (la loss) e su quali parametri (W e b)
    grads = tape.gradient(loss_value, [W, b])

    # Applichiamo i gradienti facendo un passo di ottimizzazione
    optimizer.apply_gradients(zip(grads, [W, b]))

    # Ora vediamo come ci stiamo comportando nella qualità della classificazione
    prediction = tf.nn.softmax(train_x @ W + b, axis=-1)
    if e % 20 == 0:
        print(f"Epoca {e}: accuratezza = {accuracy_score(train_y, tf.argmax(prediction, axis=-1))}")

Se cambiamo il metodo di ottimizzazione, possiamo fare anche molto meglio. Rifacciamo tutto da capo mettendo tutto insieme.

In [None]:
W, b = tf.Variable(tf.random.normal((784, 10))), tf.Variable(tf.zeros(10))

optimizer = tf.keras.optimizers.Adam(learning_rate=0.1)
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy()

epochs = 500

for e in range(epochs):
    with tf.GradientTape() as tape:
        prediction = tf.nn.softmax(train_x @ W + b, axis=-1)
        loss_value = loss_fn(train_y, prediction)
    
    grads = tape.gradient(loss_value, [W, b])
    optimizer.apply_gradients(zip(grads, [W, b]))

    if e % 20 == 0:
        prediction = tf.nn.softmax(train_x @ W + b, axis=-1)
        print(f"Epoca {e}: accuratezza = {accuracy_score(train_y, tf.argmax(prediction, axis=-1))}")

### Your turn!

Provate ad allenare voi un modello lineare sul dataset che vedete di seguito. Potete approcciarlo esattamente allo stesso modo in cui abbiamo lavorato finora. L'importante è che prendiate dimestichezza con questi strumenti. :)

In [None]:
(train_x, train_y), _ = tf.keras.datasets.boston_housing.load_data()

I dati di input (`train_x`) non hanno un valore minimo e massimo come nel caso delle immagini di prima. Quindi questa volta dovrete utilizzare lo StandardScaler di scikit-learn per preprocessarli e portarli in un range "gestibile" da parte del modello lineare.

In [None]:
from sklearn.preprocessing import StandardScaler

Come vedete, questa volta non abbiamo numeri interi come "target". Questo significa che non vogliamo fare un task di classificazione ma di __regressione__. Per questa tipologia di task, la loss da usare è `"mean_squared_error"`.

In [None]:
train_y