In [1]:
from typing import Union

# Haiku permet aux utilisateurs d'utiliser des modèles de POO tout en permettant un accès complet aux transformations de fonctions pures de JAX pour les reseaux neuronaux.
import haiku as hk
# JAX est concue pour le calcul numérique à haute performance, notamment pour la recherche en apprentissage automatique.
import jax
import jax.numpy as jnp
# NumPy ajoute un support pour les grands tableaux multidimensionnels et les matrices, ainsi qu'une grande collection de fonctions mathématiques pour opérer sur ces tableaux.
import numpy as np
# Pickle est un module permettant la (dé)sérialisation
import pickle

import perceiver
import position_encoding
import io_processors
import bytes_tokenizer
import random_masked_language

In [2]:
# On deserialise les valeurs des hyperparametres du modele.
with open("language_perceiver_io_bytes.pickle", "rb") as f:
  params = pickle.loads(f.read())

In [3]:
#@title Model config
D_MODEL = 768
D_LATENTS = 1280
MAX_SEQ_LEN = 2048

encoder_config = dict(
    num_self_attends_per_block=26,
    num_blocks=1,
    z_index_dim=256,
    num_z_channels=D_LATENTS,
    num_self_attend_heads=8,
    num_cross_attend_heads=8,
    qk_channels=8 * 32,
    v_channels=D_LATENTS,
    use_query_residual=True,
    cross_attend_widening_factor=1,
    self_attend_widening_factor=1)

decoder_config = dict(
    output_num_channels=D_LATENTS,
    position_encoding_type='trainable',
    output_index_dims=MAX_SEQ_LEN,
    num_z_channels=D_LATENTS,
    qk_channels=8 * 32,
    v_channels=D_MODEL,
    num_heads=8,
    final_project=False,
    use_query_residual=False,
    trainable_position_encoding_kwargs=dict(num_channels=D_MODEL))

# The tokenizer is just UTF-8 encoding (with an offset)
tokenizer = bytes_tokenizer.BytesTokenizer()

In [None]:
#@title Decoding Perceiver Model
def apply_perceiver(
    inputs: jnp.ndarray, input_mask: jnp.ndarray) -> jnp.ndarray:
  """Runs a forward pass on the Perceiver.

  Args:
    inputs: input bytes, an int array of shape [B, T]
    input_mask: Array of shape indicating which entries are valid and which are
      masked. A truthy value indicates that the entry is valid.

  Returns:
    The output logits, an array of shape [B, T, vocab_size].
  """
  assert inputs.shape[1] == MAX_SEQ_LEN

  # https://gdcoder.com/what-is-an-embedding-layer/
  # Une couche d'integration convertie l'input en un ensemble de vecteurs
  # d'integration dont les tailles sont optimisees pour le calcul

  # Creation de la couche d'integration selon le nombre de mots distincts dans
  # le training set et la dimension voulue des vecteurs d'integrations
  embedding_layer = hk.Embed(
      vocab_size=tokenizer.vocab_size,
      embed_dim=D_MODEL)
  # Conversion de l'input pour rentrer dans la 1ere couche (couche d'integration)
  embedded_inputs = embedding_layer(inputs)

  # Taille de la conversion de l'input
  batch_size = embedded_inputs.shape[0]

  # Parametres de construction des informations entrainables a propos de
  # la position des mots dans la phrase
  input_pos_encoding = perceiver.position_encoding.TrainablePositionEncoding(
      index_dim=MAX_SEQ_LEN, num_channels=D_MODEL)
  #print(input_pos_encoding(batch_size))
  # Ajout des informations de position des mots a l'input
  embedded_inputs = embedded_inputs + input_pos_encoding(batch_size)
  # Initialisation du PerceiverIO
  perceiver_mod = perceiver.Perceiver(
      encoder=perceiver.PerceiverEncoder(**encoder_config),
      decoder=perceiver.BasicDecoder(**decoder_config))
  # Stockage dans output du resultat de l'execution du PerceiverIO a partir de la 1ere couche
  output_embeddings = perceiver_mod(
      embedded_inputs, is_training=False, input_mask=input_mask, query_mask=input_mask)

  # Redimensionnement et decodage de l'output
  logits = io_processors.EmbeddingDecoder(
      embedding_matrix=embedding_layer.embeddings)(output_embeddings)
  return logits

# La transformation de la fonction lui permettra plus tard de lui
# passer des parametres pre-enregistres
# input_pos_encoding sera notamment ecrase par celui pre-enregistre
apply_perceiver = hk.transform(apply_perceiver).apply

In [4]:
# On prend un texte pour les textes
with open('exampleText.txt', 'r') as f:
    input_str = f.read()

#pre-traitement des donnees
input_str = input_str.replace('\n', ' ')
input_str = input_str.replace('  ', ' ')
input_str = input_str.replace('--a', '')
input_str = input_str.replace('--', '-')

In [5]:
percentage = 20
maskedwords, maskedwordsIndexesInData = random_masked_language.chooseMaskedWords(input_str, percentage)
maskedwordsIndexesInStr = random_masked_language.findIndexes(input_str, maskedwordsIndexesInData)
input_tokens = random_masked_language.stringWithMaskedWords(input_str, maskedwordsIndexesInStr)

print(maskedwords)
print(input_tokens)

['In', 'the', 'of', 'new', 'take', 'of', 'epoch', 'of', 'races', 'led', 'the', 'importance', 'the', 'Into', 'the', 'pot', 'cast', 'French,', 'Welsh,', 'negroes', 'were', 'fields', 'or', 'North.', 'The', 'of', 'and', 'fled', 'intolerant', 'the', 'to', 'to', 'dictates', 'escape', 'the', 'poverty', 'to', 'find', 'Africa,', 'here', 'The', 'of', 'and', 'banded', 'and', 'to', 'pay', 'other', 'proprietor,', 'to', 'pay', 'themselves', 'out', 'in', 'the', 'were', 'slaves.', 'for', 'their', 'however,', 'sea.', 'They', 'cut', 'houses,', 'laid', 'founded', 'schools,', 'bartered', 'New', 'and', 'firm', 'was', 'until,', 'of', 'colonial', 'Though', 'widely', 'miles', 'of', 'by', 'of', 'Protestants.', 'the', 'law,', 'furnished', 'the', 'in', 'that', 'conquering', 'To', 'of', 'added', 'to', 'the', 'French.', 'England.', 'made', 'laws', 'them', 'local', 'Common', 'forces', 'vexed', 'hopes', 'things', 'tended', 'to', 'Parliament.', 'Most', 'is,', 'who', 'owned', 'and', 'the', 'freedom.', 'were', 'of', 's

In [None]:
# Agrandit les tableaux inputs et input_mask pour qu'ils aient
# une taille de max_sequence_length, et les remplit avec des 0
def pad(max_sequence_length: int, inputs, input_mask):
  input_len = inputs.shape[1]
  assert input_len <= max_sequence_length
  pad_len = max_sequence_length - input_len
  padded_inputs = np.pad(
      inputs,
      pad_width=((0, 0), (0, pad_len)),
      constant_values=tokenizer.pad_token)
  padded_mask = np.pad(
      input_mask,
      pad_width=((0, 0), (0, pad_len)),
      constant_values=0)
  return padded_inputs, padded_mask


# inputs est le tableau d'entiers avec une dimension supplementaire
# c'est comme si on mettait le tableau inputs a l'interieur d'un nouveau tableau
inputs = input_tokens[None]

# input_mask est l'equivalent unitaire de inputs :
# pour toutes les valeurs d'inputs, on met un 1
input_mask = np.ones_like(inputs)

inputs, input_mask = pad(MAX_SEQ_LEN, inputs, input_mask)

In [None]:
rng = jax.random.PRNGKey(1)  # Unused
#print(params)
out = apply_perceiver(params, rng=rng, inputs=inputs, input_mask=input_mask)

# la prediction sous forme d'entiers est constituee des valeurs maximales
# aux coordonnees du masque sur la 1ere dimension de out

masked_tokens_predictions = out[0, input_tokens_positions[0]:input_tokens_positions[1]].argmax(axis=-1)
print("Greedy predictions:")
print(masked_tokens_predictions) #predictions sous formes de caracteres
print()
print("Predicted string:")
print(tokenizer.to_string(masked_tokens_predictions))