# Fine tuning BiT

due step

1. creare un nuovo modello con un nuovo layer finale (chiamato *head*)
2. fine tuning di questo modello usando BiT-HyperRule

## 1. Creazione del nuovo modello

Per creare il nuovo modello:

1. rimuoviamo la testa originale del modello. QUesto ci lascia con l'output prima del logits. Se usiamo un modello targato come feature extractor non dobbiamof arlo, in quanto la testa è già stata rimossa
2. aggiungiamo una nuova testa con il numero di output uguali al numero di classi del nostro nuovo task. Notiamo che è importante inizializzare l'head a ttitti zero

In [1]:
import tensorflow as tf
import tensorflow_hub as hub

2023-01-17 12:34:29.953701: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-01-17 12:34:30.191715: I tensorflow/core/util/port.cc:104] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-01-17 12:34:31.248054: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory
2023-01-17 12:34:31.248190: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not l

In [2]:
model_url = 'https://tfhub.dev/google/bit/m-r50x1/1'
module = hub.KerasLayer(model_url)



2023-01-17 12:34:33.119697: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:967] could not open file to read NUMA node: /sys/bus/pci/devices/0000:01:00.0/numa_node
Your kernel may have been built without NUMA support.
2023-01-17 12:34:33.243635: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:967] could not open file to read NUMA node: /sys/bus/pci/devices/0000:01:00.0/numa_node
Your kernel may have been built without NUMA support.
2023-01-17 12:34:33.243918: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:967] could not open file to read NUMA node: /sys/bus/pci/devices/0000:01:00.0/numa_node
Your kernel may have been built without NUMA support.
2023-01-17 12:34:33.244725: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX_VNNI FMA
To enable them in other ope

dal momento che vogliamo usare BiT su un nuovo dataset, dobbiamo rimpiazzare il layer finale con uno che ha il corretto numero di classi in output, chiamato *head*. Le nuove head devono essere inizializzate a tutti zero

In [5]:
NUM_CLASSES=7

class MyBiTModel(tf.keras.Model):
    
    def __init__(self, num_classes, module):
        super().__init__()
        
        self.num_classes = num_classes
        self.head = tf.keras.layers.Dense(num_classes, kernel_initializer='zeros')
        self.bit_model = module
    
    def call(self, images):
        bit_embedding = self.bit_model(images)
        return self.head(bit_embedding)

model = MyBiTModel(num_classes=NUM_CLASSES, module=module)

## preprocessing

#### BiT Hyper-Rule

Per il fine tuning del modello usiamo BiT HyperRule, euristica per la scelta degli iperparametri per il downstream fine-tuning. Questo non è un **hyperparameters sweep**????? dato un dataset, specifichiamo un insieme di iperparametri che abbiamo visto produrre buoni risultati. Possiamo spesso ottenere risultati migliori eseguendo un hyperparameter sweep, ma la BiT HyperRule è un modo efficace per ottenere dei buoni risultati iniziali sul dataset.

##### Dettagli

Nella BiT-HyperRule, usiamo un ottimizzatore SGD standard con un learning rate iniziale di $0.003$, momentum  di 0.9, e batch size di 512. Il learning rate decade di un fattore di 10 al 30%, 60% e 90% degli step di training.

Per quello che riguarda il preprocessing delle immagini, queste vengono ridimensionate, si fa un crop casuale, e quindi si effettua un flip orizzontale in maniera casuale. I crop e i flip orizzontali sono casuali per tutti i task, ad eccezione di quelli dove questo tipo di azione distrugge la semantica delle label. Ovvero, non applichiamo il random crop casuale ai task dove è necessario contare oggetti, o il flip casuale orizzontale dove dobbiamo predire l'orientamento di un oggetto.

| Dimensione dell'immagine | Ridimensionamento | Dimensioni random crop |

| -  | - | - |

| Minore di $96 \times 96 | $160 \times 160$ | $128 \times 128$ |

| Maggiore o uguale di $96 \times 96$ | $512 \times 512$ | $480 \times 480$ | 

NEl caso il dataset abbia più di 20.000 campioni, usiamo MixUp. 


#### iperparametri del datset

Impostiamo gli iperparametri dipendenti dal dataset. Ad esempio, il nostro dataset ha XXX immagini di dimensione variabile (alcune centinaia di pixel per alcune centinai adi pixel), per cui le dimensioni dell'immagini sono maggiori di 96x96 e la dimensione del dataset è inferiore a 20k. TUttavia, per ragioni di velocità, potremmo decidere di addestrarci su immagini a risoluzione inferiore.

In [6]:
RESIZE_TO = 512
CROP_TO = 480
BATCH_SIZE=512
SCHEDULE_LENGTH = 500
SCHEDULE_BOUNDARIES = [200, 300, 400]
SCHEDULE_LENGTH = SCHEDULE_LENGTH * 512 / BATCH_SIZE
lr = 0.003 * BATCH_SIZE / 512
STEPS_PER_EPOCH = 10

SyntaxError: invalid syntax (4281100.py, line 2)

per questioni di performance possiamo cambiare BATCH_SIZE.

In [None]:
def preprocess_Train(features):
    # random crops
    features['image'] = tf.image.random_flip_left_right(features['image'])
    features['image'] = tf.image.resize(features['image'], [RESIZE_TO, RESIZE_TO])
    features['image'] = tf.image.random_crop(features['image'], [CROP_TO, CROP_TO, 3])
    features['image'] = tf.cast(features['image'], tf.float32) / 255.0
    return features

def preprocess_test(features):
    features['image'] = tf.image.resize(features['image'], [RESIZE_TO, RESIZE_TO])
    features['image'] = tf.cast(features['image'], tf.float32) / 255.0
    return features