# Etude scientifique du PerceiverIO
### Sujet de Nicolas Ragot - Polytech Tours

**Etudiants :**
- Theo Boisseau (theo.boisseau@etu.univ-tours.fr)
- Sarah Denis (sarah.denis-2@etu.univ-tours.fr)

# Description:

Ce Notebook vient en complément du rapport **BOISSEAU_DENIS_Projet_PerceiverIO**.

Le but de cet exemple est d'aider à la compréhension de l'utilisation de l'outil de deep
 learning **PerceiverIO** créé par *DeepMind* en créant de l'information sur ses performances.

Les données sont récoltées à partir de ***analysis.ipynb***

Les éléments fournis sont les suivants:
- dossier de définition du modèle (perceiver)
- librairie de fonctions pour personnaliser le masquage
- notebook pour exécuter le modèle (analysis.ipynb);
- jeux de données d'exemple (./data/*Text.txt) sous la forme de fichiers textes

# Sommaire :
1. [Acquisition des données](#1-bullet)
2. [Etude des données](#2-bullet)

# [1. Acquisition des données](#1-bullet)

In [1]:
import datetime as dt
from IPython.utils import io
# Pickle est un module permettant la (dé)sérialisation
import pickle
import numpy as np

In [2]:
# On deserialise les valeurs des hyperparametres du modele.

try: params
except NameError:
    try:
        print("Chargement des hyperparametres...")
        with open("./data/language_perceiver_io_bytes.pickle", "rb") as f:
            params = pickle.loads(f.read())
    except (FileNotFoundError, pickle.UnpicklingError):
        print("Aucun trouves. Telechargement des hyperparametres.")
        !wget -O ./data/language_perceiver_io_bytes.pickle \
                https://storage.googleapis.com/perceiver_io/language_perceiver_io_bytes.pickle

assert type(params).__name__ == 'FlatMapping'
print("Les hyperparametres ont ete charges.")

Chargement des hyperparametres...
Les hyperparametres ont ete charges.


In [3]:
maskEndOfSentences = None
# Pour cacher la 'Progression dans les echantillons' il faut mettre display=True
with io.capture_output(display=False) as outputCaptured:
    %run analysis.ipynb
log = "<"+str(startTime_model)+">\n"+outputCaptured.stdout+"\n</"+str(endTime_model)+">\n"
%store log >>./results/logs.txt
'''
start,stop,step = 5,100,5
timers = [ 0.0 for percentage in range(start,stop,step) ]
efficiencies = [ 1.0 for percentage in range(start,stop,step) ]
standard_deviation = [ 0.0 for percentage in range(start,stop,step) ]

for percentage in range(start,stop,step):
    # Pour cacher la 'Progression dans les echantillons' il faut mettre display=True
    with io.capture_output(display=False) as outputCaptured:
        %run analysis.ipynb
    log = "<"+str(startTime_model)+">\n"+outputCaptured.stdout+"\n</"+str(endTime_model)+">\n"
    %store log >>./results/logs.txt

    lists_iterator = int((percentage-start)/step)
    efficiencies[lists_iterator] = model_efficiency
    timers[lists_iterator] = (endTime_model - startTime_model).total_seconds()/dataSize
    standard_deviation[lists_iterator] = np.std(efficiency_samples)
    print(f"L'execution avec un pourcentage de {percentage}% a dure {timers[lists_iterator]}s et a obtenu un score de {model_efficiency}")

    progression = int( (percentage-start+step)/(stop-start) *100 )
    if progression % ((stop-start)/step) <= 5:
        print(f"\nProgression : {progression}%\n")
'''

'Progression dans les echantillons : 10%'

'Progression dans les echantillons : 21%'

'Progression dans les echantillons : 25%'

'Progression dans les echantillons : 35%'

'Progression dans les echantillons : 46%'

'Progression dans les echantillons : 50%'

'Progression dans les echantillons : 60%'

'Progression dans les echantillons : 71%'

'Progression dans les echantillons : 75%'

'Progression dans les echantillons : 85%'

'Progression dans les echantillons : 96%'

'Progression dans les echantillons : 100%'

Writing 'log' (str) to file './results/logs.txt'.


'\nstart,stop,step = 5,100,5\ntimers = [ 0.0 for percentage in range(start,stop,step) ]\nefficiencies = [ 1.0 for percentage in range(start,stop,step) ]\nstandard_deviation = [ 0.0 for percentage in range(start,stop,step) ]\n\nfor percentage in range(start,stop,step):\n    # Pour cacher la \'Progression dans les echantillons\' il faut mettre display=True\n    with io.capture_output(display=False) as outputCaptured:\n        %run analysis.ipynb\n    log = "<"+str(startTime_model)+">\n"+outputCaptured.stdout+"\n</"+str(endTime_model)+">\n"\n    %store log >>./results/logs.txt\n\n    lists_iterator = int((percentage-start)/step)\n    efficiencies[lists_iterator] = model_efficiency\n    timers[lists_iterator] = (endTime_model - startTime_model).total_seconds()/dataSize\n    standard_deviation[lists_iterator] = np.std(efficiency_samples)\n    print(f"L\'execution avec un pourcentage de {percentage}% a dure {timers[lists_iterator]}s et a obtenu un score de {model_efficiency}")\n\n    progres

# [2. Etude des données](#2-bullet)

In [4]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')

In [5]:
'''
#debut : 21:36:43
#50% : 22:01:15 -> temps ecoule : 24:33
#fin : 22:19:30 -> temps ecoule : 42:47
print(timers)
print(min(timers),max(timers))
print(sum(timers)/len(timers))
print(efficiencies)
print(min(efficiencies),max(efficiencies))
print(sum(efficiencies)/len(efficiencies))
'''

'\n#debut : 21:36:43\n#50% : 22:01:15 -> temps ecoule : 24:33\n#fin : 22:19:30 -> temps ecoule : 42:47\nprint(timers)\nprint(min(timers),max(timers))\nprint(sum(timers)/len(timers))\nprint(efficiencies)\nprint(min(efficiencies),max(efficiencies))\nprint(sum(efficiencies)/len(efficiencies))\n'

In [6]:
'''
# Pourcentage de réussite
percentages = [i for i in range(start,stop,step)]
plt.title("Succeed percentages")
plt.xlabel("Percentages of masked words")
plt.ylabel("Efficiencies")
plt.plot(percentages, efficiencies)
plt.show()

# Temps d'exécution
plt.title("Average execution time per sentences")
plt.xlabel("Percentages of masked words")
plt.ylabel("Time (s)")
plt.plot(percentages, timers)
plt.show()

# Ecarts types
plt.title("Standard deviation of efficiency samples")
plt.xlabel("Percentages of masked words")
plt.ylabel("Standard deviation")
plt.plot(percentages, standard_deviation)
plt.show()
'''

'\n# Pourcentage de réussite\npercentages = [i for i in range(start,stop,step)]\nplt.title("Succeed percentages")\nplt.xlabel("Percentages of masked words")\nplt.ylabel("Efficiencies")\nplt.plot(percentages, efficiencies)\nplt.show()\n\n# Temps d\'exécution\nplt.title("Average execution time per sentences")\nplt.xlabel("Percentages of masked words")\nplt.ylabel("Time (s)")\nplt.plot(percentages, timers)\nplt.show()\n\n# Ecarts types\nplt.title("Standard deviation of efficiency samples")\nplt.xlabel("Percentages of masked words")\nplt.ylabel("Standard deviation")\nplt.plot(percentages, standard_deviation)\nplt.show()\n'