### explication de l'architecture

Mon choix pour ce projet est d'entraîner un réseau simple inspiré d'AlexNet. Celui-ci est en effet suffisamment riche pour obtenir des résultats satisfaisants tout en étant suffisamment simple pour être facilement architecturé et estimé. La version choisie ici contient les couches suivantes:
- une couche de convolution à 3 filtres de dimension 3 et stride de 1, activation ReLU.
- une couche de max pooling de dimension 2.
- une seconde couche de convolution à 6 filtres de dimension 3 et stride de 1, activation ReLU.
- une seconde couche de max pooling de dimension 2.
- une troisième couche de convolution à 12 filtres de dimension 3 et stride de 1, activation ReLU.
- une troisième couche de max pooling de dimension 2.
- une couche de flattening pour récupérer les données sous forme vectorielle.
- une première couche fully connected de dimension 20.
- une seconde couche fully connected de sortie, de dimension 2.

### imports

In [1]:
import tensorflow as tf
import numpy as np
print("TensorFlow version: ",format(tf.__version__))
import Layers
from pathlib import Path
import DataSets as ds
import matplotlib.pyplot as plt

TensorFlow version:  2.0.0


### paramètres et chargement des données

In [2]:
LoadModel = True
experiment_size = 100
n_iter = 0

In [3]:
train = ds.DataSet(Path("/home/romain/jupyter_mla/Databases/data_%dk.bin"%experiment_size), \
                   Path("/home/romain/jupyter_mla/Databases/gender_%dk.bin"%experiment_size), 1000*experiment_size)
test = ds.DataSet(Path("/home/romain/jupyter_mla/Databases/data_test10k.bin"), \
     Path("/home/romain/jupyter_mla/Databases/gender_test10k.bin"), 10000)

nb data =  100000
nb data =  10000


### classes pour définir les couches et la structure du réseau

In [4]:
class ConvNeuralNet(tf.Module):
    def __init__(self):
        self.unflat = Layers.unflat('unflat',48, 48, 1)
        self.cv1 = Layers.conv('conv_1', output_dim=3, filterSize=3, stride=1)
        self.mp1 = Layers.maxpool('pool_1', 2)
        self.cv2 = Layers.conv('conv_2', output_dim=6, filterSize=3, stride=1)
        self.mp2 = Layers.maxpool('pool_2', 2)        
        self.cv3 = Layers.conv('conv_3', output_dim=12, filterSize=3, stride=1)
        self.mp3 = Layers.maxpool('pool_2', 2)         
        self.flat = Layers.flat()
        self.fc1 = Layers.fc('fc_1', 20)
        self.fc2 = Layers.fc('fc_2', 2)

    def __call__(self, x, log_summary):
        x = self.unflat(x, log_summary)
        x = self.cv1(x, log_summary)
        x = self.mp1(x)
        x = self.cv2(x, log_summary)
        x = self.mp2(x)
        x = self.cv3(x, log_summary)
        x = self.mp3(x)
        x = self.flat(x)
        x = self.fc1(x, log_summary)
        x = self.fc2(x, log_summary)
        return x

In [5]:
def train_one_iter(model, optimizer, image, label, log_summary):
    with tf.GradientTape() as tape:
        y = model(image,log_summary)
        y = tf.nn.log_softmax(y)
        diff = label * y
        loss = -tf.reduce_sum(diff)
        if log_summary:
            tf.summary.scalar('cross entropy', loss)
        grads = tape.gradient(loss, model.trainable_variables)
        optimizer.apply_gradients(zip(grads, model.trainable_variables))
    return loss

In [6]:
### Résumé du modèle

In [7]:
print ("-----------------------------------------------------")
print ("----------------------- %dk -------------------------"%experiment_size)
print ("-----------------------------------------------------")

-----------------------------------------------------
----------------------- 100k -------------------------
-----------------------------------------------------


In [8]:
train_summary_writer = tf.summary.create_file_writer('logs %dk'%experiment_size)
optimizer = tf.optimizers.Adam(1e-3)
simple_cnn = ConvNeuralNet()

def unflat unflat ? => 48 48 1


In [9]:
if LoadModel:
    ckpt = tf.train.Checkpoint(step=tf.Variable(1), optimizer=optimizer, net=simple_cnn)
    ckpt.restore('/home/romain/jupyter_mla/saved_model-1')

In [10]:
for iter in range(n_iter):
    tf.summary.experimental.set_step(iter)
    
    if iter % 500 == 0:
        with train_summary_writer.as_default():
            acc1 = train.mean_accuracy(simple_cnn) * 100
            acc2 = test.mean_accuracy(simple_cnn) * 100
            print("iter= %6d accuracy - train= %.2f%% - test= %.2f%%" % (iter, acc1, acc2))

    ima, lab = train.NextTrainingBatch()
    with train_summary_writer.as_default():
        loss = train_one_iter(simple_cnn, optimizer, ima, lab, iter % 10 == 0)

    if iter % 100 == 0:
        print("iter= %6d - loss= %f" % (iter, loss))

In [11]:
if not LoadModel:
    ckpt = tf.train.Checkpoint(step=tf.Variable(1), optimizer=optimizer, net=simple_cnn)
    ckpt.save('/home/romain/jupyter_mla/saved_model')