[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/gabays/32M7131/blob/main/Cours_04/Cours04.ipynb)

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licence Creative Commons" style="border-width:0;float:right;\" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a>

Distant Reading 2: linguistique computationnelle

# Entre normalisation et traduction

Simon Gabay

## Introduction

L'idée de ce cours est de découvrir la traduction automatique de manière détournée, en s'intéressant à un problème de philologie: celui de la normalisation du texte. En effet, la sortie d'un OCR prend une forme proche de celle-ci:

>QVe cette propoſtion, qu'vn eſpace eſt vuidé

Il est évident que personne ne va éditer un texte comme cela, d'autant que les spécialistes du XVIIe s. ont pris l'habitude, dans leurs éditions, d'aligner le système graphique ancien sur le système graphique contemporain. Il nous faudrait donc un résultat du type

>QVe cette propostion, qu'un espace est vidé

Les philologues pourront déplorer que ce résultat masque un certain nombre de faits linguistiques, ce qui est vrai, mais cela a quelques vertus pour de possibles traitement informatiques, comme de "lisser" la langue et d'en retirer des aspérités qui pourraient gêner des algorithmes, comme en stylométrie.


## 1. Préparer l'expérience
Il faut d'abord installer les paquets nécessaires
* _faireseq_ pour la gestion de l'entraînement
* _sentencepiece_ pour créer des sous-mots
* _sacrebleu_ pour l'évaluation du résultat avec un score BLEU
* etc.

In [1]:
!pip install fairseq@git+https://github.com/pytorch/fairseq.git@5a75b079bf8911a327940c28794608e003a9fa52 
!pip install sentencepiece sacrebleu hydra-core omegaconf==2.0.5 gdown==4.2.0 

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fairseq@ git+https://github.com/pytorch/fairseq.git@5a75b079bf8911a327940c28794608e003a9fa52
  Cloning https://github.com/pytorch/fairseq.git (to revision 5a75b079bf8911a327940c28794608e003a9fa52) to /tmp/pip-install-n3xtut0f/fairseq_559033242dbf46db8ed67657f79d2ed4
  Running command git clone --filter=blob:none --quiet https://github.com/pytorch/fairseq.git /tmp/pip-install-n3xtut0f/fairseq_559033242dbf46db8ed67657f79d2ed4
  Running command git rev-parse -q --verify 'sha^5a75b079bf8911a327940c28794608e003a9fa52'
  Running command git fetch -q https://github.com/pytorch/fairseq.git 5a75b079bf8911a327940c28794608e003a9fa52
  Running command git checkout -q 5a75b079bf8911a327940c28794608e003a9fa52
  Resolved https://github.com/pytorch/fairseq.git to commit 5a75b079bf8911a327940c28794608e003a9fa52
  Running command git submodule update --init --recursive -q
  From https://github.c

Télécharger les données et les modèles depuis le repo GitHub du cours et les structurer dans les dossiers `data/`, `models/`. Une partie du travail de préparation est fait via un script `structure_files.sh`.

In [2]:
!wget https://github.com/gabays/32M7131/releases/download/Norm/Normalisation-models.zip 
!unzip Normalisation-models.zip
!mv -f French-normalisation-data-models data-models
!mv data-models/structure_files.sh ./; bash structure_files.sh
!rm Normalisation-models.zip

--2023-03-05 18:02:43--  https://github.com/gabays/32M7131/releases/download/Norm/Normalisation-models.zip
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/609944064/426229d6-b699-4f7b-b942-7f27168e037f?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230305%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230305T180243Z&X-Amz-Expires=300&X-Amz-Signature=49a89e67dbcaa9597346fc070847b56b0e74d3416d1533a0acecb828d5c83e05&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=609944064&response-content-disposition=attachment%3B%20filename%3DNormalisation-models.zip&response-content-type=application%2Foctet-stream [following]
--2023-03-05 18:02:43--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/609944064/426229d6-b699-4f7b-b942-7f27168

## 2. Préparation des données à normaliser

Fonctions pour
1. lire le contenu d'un fichier ligne par ligne
2. les lire depuis un fichier

In [3]:
# lire un fichier ligne par ligne
def read_file(filename):
  list_sents = []
  with open(filename) as fp:
    for line in fp:
      list_sents.append(line.strip())
  return list_sents

# écrire une liste de phrases dans un fichier
def write_file(list_sents, filename):
    with open(filename, 'w') as fp:
        for sent in list_sents:
            fp.write(sent + '\n')

On va pouvoir charger deux textes:
1. `dev.src` qui contient un texte _source_, c'est-à-dire à normaliser
2. `dev.trg` qui contient un texte _cible_ (en anglais _target_) normalisé à la main.

In [4]:
dev_src = read_file('data/dev.src')
dev_trg = read_file('data/dev.trg')

On peu regarder à quoi ressemblent ces deux fichiers que nous venons de charger:

In [5]:
for i in range(4):
    print('src = ', dev_src[i])
    print('trg = ', dev_trg[i])
    print('--')

src =  1.
trg =  1.
--
src =  1. QVe cette propoſtion, qu'vn eſpace eſt vuidé, repugne au ſens commun.
trg =  1. QUe cette proposition, qu'un espace est vidé, répugne au sens commun.
--
src =  1. QVe tous les corps ont repugnance à ſe ſeparer l'vn de l'autre, & admettre du vuide dans leur interualle;
trg =  1. QUe tous les corps ont répugnance à se séparer l'un de l'autre, et admettre du vide dans leur intervalle;
--
src =  1. QVe tous les corps ont repugnance à ſe ſeparer l'vn de l'autre, & admettre ce vuide apparent dans leur interualle:
trg =  1. QUe tous les corps ont répugnance à se séparer l'un de l'autre, et admettre ce vide apparent dans leur intervalle:
--


On va désormais charger le modèle de segmentation en sous-mots (`bpe_joint_1000.model`). On parle de _Byte Pair Encoding_ ou "codage par paires d’octets" ([Sennrich 2016](https://aclanthology.org/P16-1162/)): à partir d'une analyse de tous les caractères, l'algorithme effectue des opérations de fusion pour les paires les plus courantes (comme `ment`, que l'on retrouve souvent dans les adverbes).

In [6]:
import sentencepiece
spm = sentencepiece.SentencePieceProcessor(model_file='data/bpe_joint_1000.model')

On applique ce modèle de segmentation sur les données à normaliser

In [7]:
dev_src_sp = spm.encode(dev_src, out_type=str)

On sauvegarde le résultat dans un nouveau fichier `dev.sp.src`

In [8]:
write_file([' '.join(phrase) for phrase in dev_src_sp], 'data/dev.sp.src')

Voilà un extrait du fichier que nous venons de créer, avec les fameux BPE ou sous-mots

In [9]:
dev_src_sp[:2]

[['▁1', '.'],
 ['▁1',
  '.',
  '▁Q',
  'V',
  'e',
  '▁cette',
  '▁prop',
  'ost',
  'ion',
  ',',
  '▁qu',
  "'",
  'vn',
  '▁esp',
  'ace',
  '▁est',
  '▁v',
  'ui',
  'd',
  'é',
  ',',
  '▁re',
  'p',
  'u',
  'gne',
  '▁au',
  '▁sens',
  '▁comm',
  'un',
  '.']]

On définitune fonction pour détokeniser une liste de phrases, c'est à dire de "recoller" les BPE pour retrouver nos phrases

In [10]:
def decode_sp(list_sents):
    return [''.join(sent).replace(' ', '').replace('▁', ' ').strip() for sent in list_sents]

Visualiser à quoi ressemble le texte détokenisé, qui doit ressembler au texte de départ

In [11]:
decode_sp(dev_src_sp[:5])

['1.',
 "1. QVe cette propostion, qu'vn espace est vuidé, repugne au sens commun.",
 "1. QVe tous les corps ont repugnance à se separer l'vn de l'autre, & admettre du vuide dans leur interualle;",
 "1. QVe tous les corps ont repugnance à se separer l'vn de l'autre, & admettre ce vuide apparent dans leur interualle:",
 '2.']

## 3. Appliquer le modèle de normalisation

### 3.1 Etape par étape
Appliquer le modèle de normalisation sur le début des données pre-traitées (ça prend moins de temps pour tester que normaliser tout le texte)

Il y aura un message "UserWarning", mais vous pouvez l'ignorer - ce n'est pas grave.

Explications:
- `head -n 10` affiche les 10 premières phrases
- ces 10 premières lignes sont donné à _fairseq-interactive_ qui effectue la traductin (dans notre cas la normlaisation)
- le résultat va dans `data/dev.sp.norm.trg.10.output`

In [12]:
!head -n 10 data/dev.sp.src | fairseq-interactive models/norm/ --source-lang src --target-lang trg --path models/norm/lstm_norm.pt > data/dev.sp.norm.trg.10.output

Regardons à quoi ressemble le résultat. Pour lire ce fichier, avec pour un exemple `i`:

- `S-i`: le texte source
- `H-i`: le score de l'hypothèse et l'hypothèse du modèle (c'est-à-dire la prédiction)
- `P-i`: les scores de chaque sous-token produit par le modèle

In [13]:
!head -n 26 data/dev.sp.norm.trg.10.output | tail -n 20

S-0	▁1 .
W-0	0.595	seconds
H-0	-0.00011481382534839213	▁1 .
D-0	-0.00011481382534839213	▁1 .
P-0	-0.0000 -0.0003 -0.0000
S-1	▁1 . ▁Q V e ▁cette ▁prop ost ion , ▁qu ' vn ▁esp ace ▁est ▁v ui d é , ▁re p u gne ▁au ▁sens ▁comm un .
W-1	0.082	seconds
H-1	-0.039981186389923096	▁1 . ▁Q U e ▁cette ▁prop ost ion , ▁qu ' un ▁esp ace ▁est ▁v ui d é , ▁rép u gne ▁au ▁sens ▁comm un .
D-1	-0.039981186389923096	▁1 . ▁Q U e ▁cette ▁prop ost ion , ▁qu ' un ▁esp ace ▁est ▁v ui d é , ▁rép u gne ▁au ▁sens ▁comm un .
P-1	-0.0000 -0.0000 -0.0043 -0.0632 -0.0006 -0.0000 -0.0001 -0.9353 -0.0001 -0.0012 -0.0000 0.0000 -0.0001 -0.0078 -0.0070 -0.0000 -0.0022 -0.1168 -0.0001 -0.0000 -0.0000 -0.0389 -0.0157 -0.0053 -0.0000 -0.0000 -0.0001 -0.0000 -0.0004 -0.0000
S-2	▁1 . ▁Q V e ▁tous ▁les ▁cor p s ▁ont ▁re p u gn ance ▁à ▁se ▁se p are r ▁l ' vn ▁de ▁l ' autre , ▁& ▁ad m ettre ▁du ▁v ui de ▁dans ▁leur ▁in ter u al le ;
W-2	0.126	seconds
H-2	-0.01945100724697113	▁1 . ▁Q U e ▁tous ▁les ▁cor p s ▁ont ▁rép u gn ance ▁

On définit une fonction pour extraire l'hypothèse (la ligne commençant par `H` donc) de ce fichier:

In [14]:
def extract_hypothesis(filename):
    outputs = []
    with open(filename) as fp:
        for line in fp:
            # seulement les lignes qui commencet par H- (pour Hypothèse)
            if 'H-' in line:
                # prendre la 3ème colonne (c'est-à-dire l'indice 2)
                outputs.append(line.strip().split('\t')[2])
    return outputs

On peut désormais extraire les hypothèses du fichier produit

In [15]:
dev_norm_10 = extract_hypothesis('data/dev.sp.norm.trg.10.output')
dev_norm_10[:3]

['▁1 .',
 "▁1 . ▁Q U e ▁cette ▁prop ost ion , ▁qu ' un ▁esp ace ▁est ▁v ui d é , ▁rép u gne ▁au ▁sens ▁comm un .",
 "▁1 . ▁Q U e ▁tous ▁les ▁cor p s ▁ont ▁rép u gn ance ▁à ▁se ▁s ép are r ▁l ' un ▁de ▁l ' autre , ▁et ▁ad m ettre ▁du ▁v ui de ▁dans ▁leur ▁in ter v és le ;"]

On peut désormais détokeniser le résultat avec la fonction `decode_sp` que nous avons défini plus haut:

In [16]:
dev_norm_10_postproc = decode_sp(dev_norm_10)
dev_norm_10_postproc[:3]

['1.',
 "1. QUe cette propostion, qu'un espace est vuidé, répugne au sens commun.",
 "1. QUe tous les corps ont répugnance à se séparer l'un de l'autre, et admettre du vuide dans leur intervésle;"]

Il ne reste plus qu'à sauvegarder le résultat

In [17]:
write_file(dev_norm_10_postproc, 'data/dev.norm.10.trg')

### 3.2 Tout d'un coup
Comme on ne va pas tout refaire étape par étape à chaque fois, maintenant que nous avons compris le fonctionnement, on crée une fonction qui permet de tout faire d'un coup.

In [18]:
def normalise(sents):
    # generate temporary file
    filetmp = 'data/tmp_norm.sp.src.tmp'
    # preprocessing
    input_sp = spm.encode(sents, out_type=str)
    # add decade token to each sentence
    input_sp_sents = [' '.join(sent) for sent in input_sp]
    write_file(input_sp_sents, filetmp)
    #print("preprocessed = ", input_sp_sents)
    # denormalisation
    !cat data/tmp_norm.sp.src.tmp | fairseq-interactive models/norm --source-lang src --target-lang trg --path models/norm/lstm_norm.pt > data/tmp_norm.sp.src.output 2> /tmp/dev
    # postprocessing
    outputs = extract_hypothesis('data/tmp_norm.sp.src.output')
    outputs_postproc = decode_sp(outputs)
    return outputs_postproc

La fonction s'utilise comme suit:

In [19]:
normalise(["1. QVe cette propostion, qu'vn espace est vuidé, repugne au sens commun.",
          "Affectoit un mépris qui marquoit ſon eſtime,"])

["1. QUe cette propostion, qu'un espace est vuidé, répugne au sens commun.",
 'Affectait un mépris qui marquait son estime,']

Si je veux traiter tout le fichier (attention, cela prend un peu de temps, même avec un GPU):

In [20]:
dev_norm = normalise(dev_src)
#Je sauvegarde
write_file(dev_norm, 'data/dev.norm.trg')

## 4. Contrôle qualité
Nous pouvons faire deux choses pour contrôler la qualité de notre travail:
1. Mesurer l'efficacité de notre modèle
2. Comparer ces résultats avec une autre méthode

### 4.1 Quelques métriques
On se rappelle que pour ce premier cas de normalisation nous avons une version _gold_, qui nous permet de comparer les prédictions avec une version "parfaite". Afin de mesurer la distance entre le résultat obtenu et le résultat attendu, nous avons plusieurs métriques à disposition:
- BLEU: la métrique d'évaluation la plus fréquemment utilisée en traduction automatique ([Papineni 2002](https://aclanthology.org/P02-1040/))
- ChrF: _Character F-score_ (comme le score BLEU mais basé sur des n-grams de caractères, cf.[Popović 2015](https://aclanthology.org/W15-3049/))
- TER: _Translation Edit Rate_ ([Snover 2006](https://aclanthology.org/2006.amta-papers.25/))

Attention : puisque nous avons seulement normalisé 10 phrases, il faut seulement comparer contre les 10 première phrases de référence. Pour un résultat plus fiable, il faudrait calculer ces scores sur un plus grand nombre de phrases.

In [21]:
from sacrebleu.metrics import BLEU, CHRF, TER
bleu = BLEU()
bleu.corpus_score(dev_norm_10_postproc, [dev_trg[:10]])

BLEU = 85.90 94.5/88.4/83.2/78.4 (BP = 1.000 ratio = 1.000 hyp_len = 199 ref_len = 199)

In [22]:
chrf = CHRF()
chrf.corpus_score(dev_norm_10_postproc, [dev_trg[:10]])

chrF2 = 95.73

In [23]:
ter = TER()
ter.corpus_score(dev_norm_10_postproc, [dev_trg[:10]])

TER = 6.55

Une évaluation plus adaptée : la précision au niveau de chaque mot

In [25]:
import align
# d'abord créer un fichier qui ne contient que les 10 première phrases du document cible
!head -n 10 data/dev.trg > data/dev.10.trg
align_dev_norm_10 = align.align('data/dev.10.trg', 'data/dev.norm.10.trg')

print(align_dev_norm_10)

[['1', '.'], ['1', '.', 'QUe', 'cette', 'proposition>propostion', ',', "qu'", 'un', 'espace', 'est', 'vidé>vuidé', ',', 'répugne', 'au', 'sens', 'commun', '.'], ['1', '.', 'QUe', 'tous', 'les', 'corps', 'ont', 'répugnance', 'à', 'se', 'séparer', "l'", 'un', 'de', "l'", 'autre', ',', 'et', 'admettre', 'du', 'vide>vuide', 'dans', 'leur', 'intervalle>intervésle', ';'], ['1', '.', 'QUe', 'tous', 'les', 'corps', 'ont', 'répugnance', 'à', 'se', 'séparer', "l'", 'un', 'de', "l'", 'autre', ',', 'et', 'admettre', 'ce', 'vide>vuide', 'apparent', 'dans', 'leur', 'intervalle>intervésle', ':'], ['2', '.'], ['2', '.', 'Que', 'cette', 'horreur', 'ou', 'répugnance', "qu'", 'ont', 'tous', 'les', 'corps', ',', "n'", 'est', 'pas', 'plus', 'grande', 'pour', 'admettre', 'un', 'grand', 'vide>vuide', ',', "qu'", 'un', 'petit', ':'], ['2', '.', 'Que', 'cette', 'horreur', 'où', 'cette', 'répugnance', "qu'", 'ont', 'tous', 'les', 'corps', "n'", 'est', 'pas', 'plus', 'grande', 'pour', 'admettre', 'un', 'grand', 

Le résultat de l'alignement est une liste de phrases, où chaque mot de la phrase est comme suit:

- le mot tout seul s'il est pareil dans les deux textes (ex : `QUe`)
- le mot du premier document et le mot du deuxième document, séparé par `>` s'ils sont différents (ex : `proposition>propostion`)

In [26]:
num_diff = 0
total = 0
for sentence in align_dev_norm_10:
    for word in sentence:
        if '>' in word:
            num_diff += 1
        total += 1
print('Accuracy = ' + str((total - num_diff)/total))

Accuracy = 0.9490740740740741


### 4.2 Utiliser ces métriques avec le test
Si vous avez bien travaillé, vous avez prévu un jeu de test, qui n'a pas été vu pendant l'entraînement. Vous pouvez donc normaliser ce jeu de données, et appliquer les métriques que nous venons de voir pour évaluer proprement l'efficacité de notre modèle


In [None]:
#METTRE ICI VOTRE CODE

### 4.3 Construire une _baseline_
La _baseline_ va être le score obtenu avec une méthode plus rudimentaire, pour bien contrôler que nous n'ontiendrions pas des résulats aussi bon sans tout le travail que nous venons de faire. Il est par exemple possible d'utiliser des expressions régulières.

In [27]:
# On crée une fonction qui va normaliser une phrase avec une fonction qui normalise un mot
import utils
from importlib import reload
reload(utils)
def normalise_sent(sent, normalise_word_function):
    norm_sent = []
    # On tokenise la phrase (de manière pas très très propre…) et on applique la normalisation choisie à chaque token
    for word in utils.basic_tokenise(sent).split():
        norm_sent.append(normalise_word_function(word))
    return utils.detokenise(' '.join(norm_sent))

Parmi les différentes options qui s'offre à nous, nous pouvons… ne rien faire

In [28]:
# function that returns the word itself
def return_word(word):
    return word

On peut désormais normaliser la phrase avec notre fonction `normalise_sent`, qui applique la fonction `return_word` pour chaque token

In [29]:
normalise_word_function = return_word
normalise_sent("QVe cette propoſtion, qu'vn eſpace eſt vuidé", normalise_word_function)

"QVe cette propoſtion, qu'vn eſpace eſt vuidé"

C'est super, mais ça sert à rien… Essayons de faire mieux avec une regex

In [30]:
def replace_long_s(word):
    word = word.replace('ſ', 's')
    return word

On peut tester cette nouvelle fonction:

In [31]:
normalise_word_function = replace_long_s
normalise_sent("QVe cette propoſtion, qu'vn eſpace eſt vuidé", normalise_word_function)

"QVe cette propostion, qu'vn espace est vuidé"

On peut maintenant tester avec plusieurs regex

In [32]:
import re
def replace_regex(word):
    word = word.replace('ſ', 's')
    word = re.sub("([Qq])v", r'\1u', word)
    word = re.sub("([Qq])V", r'\1U', word)
    word = re.sub("('?)vn(e?)", r'\1un\2', word)
    return word

normalise_word_function = replace_regex
normalise_sent("QVe cette propoſtion, qu'vn eſpace eſt vuidé", normalise_word_function)

"QUe cette propostion, qu'un espace est vuidé"

Je n'ai plus qu'à traiter tout le fichier… et évaluer le résultat avec les métriques précédentes! à vous de jouer!

In [None]:
#METTRE ICI VOTRE CODE

## 5. Entraîner un modèle

Nous allons entraîner un modèle de segmentation en sous-mots en avec le _toolkit_ [SentencePiece](https://github.com/google/sentencepiece/blob/master/README.md).

Ce sera un modèle "joint", c'est-à-dire entraîné pour segmenter la langue source et la langue cible. On peut ainsi faire des sous-mots qui peuvent être partagés par les deux langues. Ce type de modèle est particulièrement utile pour deux langues proches lexicalement, comme c'est le cas entre le français du XVIIe s. et le français contemporain, mais pas pour les langues trop distantes (du français au chinois).

La taille du vocabulaire ici est de 2000, mais ceci peut être changé. La taille du vocabulaire détermine combien de sous-tokens sont utilisés. Plus le vocabulaire est petit, plus le texte sera découpé, plus le vocabulaire est grand, moins le texte sera découpé (ça ressemblera plus à un découpage sur les espaces). La taille du vocabulaire dépend évidemment des cas (on dit qu'il est _task dependent_) et doit être testée pour être définie optimalement.

In [33]:
# On mélange la source et la cible pour faire un seul fichier
!cat data/train.src data/train.trg > data/all_train.src-trg
#On crée le vocabulaire
sentencepiece.SentencePieceTrainer.train(input='data/all_train.src-trg', 
                               model_prefix='data/bpe_joint_2000', 
                               vocab_size=2000)

Nous allons désormais préparer nos trois jeux de données (`train`, `dev` et `test`)


In [34]:
#On charge les jeux de données
train_src = read_file('data/train.src')
train_trg = read_file('data/train.trg')
dev_src = read_file('data/dev.src')
dev_trg = read_file('data/dev.trg')
test_src = read_file('data/test.src')
test_trg = read_file('data/test.trg')

# On charge le modèle que nous venons de fabriquer avec SentencePiece
spm = sentencepiece.SentencePieceProcessor(model_file='data/bpe_joint_2000.model')

# On applique le modèle aux jeux de données
train_src_sp = spm.encode(train_src, out_type=str)
train_trg_sp = spm.encode(train_trg, out_type=str)
dev_src_sp = spm.encode(dev_src, out_type=str)
dev_trg_sp = spm.encode(dev_trg, out_type=str)
test_src_sp = spm.encode(test_src, out_type=str)
test_trg_sp = spm.encode(test_trg, out_type=str)

# On contrôle le résultat (src et trg doivent avoir la même longueur pour chaque type de jeu)
print(len(train_src_sp), len(train_trg_sp))
print(len(dev_src_sp), len(dev_trg_sp))
print(len(test_src_sp), len(test_trg_sp))

# On crée les fichiers
write_file([' '.join(sent) for sent in train_src_sp], 'data/train.sp2000.src')
write_file([' '.join(sent) for sent in train_trg_sp], 'data/train.sp2000.trg')
write_file([' '.join(sent) for sent in dev_src_sp], 'data/dev.sp2000.src')
write_file([' '.join(sent) for sent in dev_trg_sp], 'data/dev.sp2000.trg')
write_file([' '.join(sent) for sent in test_src_sp], 'data/test.sp2000.src')
write_file([' '.join(sent) for sent in test_trg_sp], 'data/test.sp2000.trg')

17930 17930
2443 2443
5706 5706


Pour entrainer un modèle, il va d'abord falloir binariser les données. En gros tout devient des chiffres, ce qui permet à la machine d'aller plus vite. Ces chiffres correspondent aux entrées d'un dictionnaire où sont stockés les "vrais" mots.

In [35]:
!fairseq-preprocess --destdir data/data_norm_bin_2000/ \
                    -s trg -t src \
                    --trainpref data/train.sp2000 \
                    --validpref data/dev.sp2000 \
                    --testpref data/test.sp2000 \
                    --joined-dictionary

2023-03-05 18:19:06 | INFO | fairseq_cli.preprocess | Namespace(align_suffix=None, alignfile=None, all_gather_list_size=16384, azureml_logging=False, bf16=False, bpe=None, cpu=False, criterion='cross_entropy', dataset_impl='mmap', destdir='data/data_norm_bin_2000/', dict_only=False, empty_cache_freq=0, fp16=False, fp16_init_scale=128, fp16_no_flatten_grads=False, fp16_scale_tolerance=0.0, fp16_scale_window=None, joined_dictionary=True, log_file=None, log_format=None, log_interval=100, lr_scheduler='fixed', memory_efficient_bf16=False, memory_efficient_fp16=False, min_loss_scale=0.0001, model_parallel_size=1, no_progress_bar=False, nwordssrc=-1, nwordstgt=-1, only_source=False, optimizer=None, padding_factor=8, plasma_path='/tmp/plasma', profile=False, quantization_config_path=None, reset_logging=False, scoring='bleu', seed=1, source_lang='trg', srcdict=None, suppress_crashes=False, target_lang='src', task='translation', tensorboard_logdir=None, testpref='data/test.sp2000', tgtdict=None

Maintenant on peut appeler `fairseq-train` pour enrainer un modèle LSTM ([Hochreiter 1997](https://www.bioinf.jku.at/publications/older/2604.pdf)).

🚨 Il y en a pour plusieurs heures!

Pour l'entraînement, plusieurs paramètres sont à disposition:

- `--save-dir` permet de dire où le modèle sera traité. Le meilleur modèle, sauvegardé dans le dossier indiqué, prendra le nom de `checkpoint_best.pt`.
- `--save-interval` permet de définir la fréquence de sauvegarde (_checkpoint_), la valeur fournie déterminant le nombre _n_ d'_epochs_ entre deux _checkpoints_. La dernière sauvegarde est disponible avec le nom `checkpoint_last.pt`.
- `--arch lstm` permet de préciser que nous voulons une archicture LSTM et non _transformer_ (il faudrait alors utiliser `--arch transformer`).
- Une série de paramètres va permettre de déterminer le nombre de couches pour l'encodeur (`--encoder-layers`) et le décodeur (`--decoder-layers`). Une couche convient aux problèmes très simples: plus on augmente le nombre de couches (2 ou 3 par exemple), meilleurs seront (théoriquement) les résultats mais plus dur sera l'entraînement.
- On va ensuite définir la taille des _embeddings_ (vecteurs) qui représentent les tokens pour l'encodeur (`--encoder-embed-dim`), le décodeur (`--decoder-embed-dim`) et la sortie (`--decoder-out-embed-dim`) et la sortie. La valeur se situe entre 100 et 1000 (et tourne généralement autour de 300). Plus on augmente ce chiffre plus on ajoute d'information (mais la quantité d'information ajoutée va decrescendo), plus on réduit la valeur, moins on retient d'information (et on perd donc en sémantisme).
- Il faut aussi définir la taille de la couche/représentation cachée pour l'encodeur (`--encoder-hidden-size`) et le décodeur (`--decoder-hidden-size`), soit le nombre de _features_ retenu.
- `--encoder-bidirectional` précise que l'encodeur est bidirectionnel (Bi-LSTM) et non unidirectionnel (LSTM): on utilise le contexte gauche _et droit_ du token. La représentation finale des mots de l'entrée est la concaténation des représentations gauche-droite et droite-gauche.
- `--dropout` permet de déterminer la proportion de neurones désactivés lors de l'entraînement pour éviter l'_overfitting_.
- `--optimizer` permet de déterminer l'optimiseur pour la descente de gradient.
- `--lr` définit le taux d'apprentissage (_learning rate_).
- `--lr-scheduler` va déterminer l'ajustement du _lrearning rate_.
- `--warmup-updates` va permettre d'utiliser un taux d'apprentissage très faible au début du processus d'entraînement, avant de passer au _lr_ normal. On va ainsi limiter l'effet des premières données vues par le modèle.
- `--share-all-embeddings` précise que l'on choisit de partager les _embeddings_ entre l'encodeur et le décodeur pour profiter de la similarité lexicale entre la langue source et langue cible (et pour accélerer l'entraînement).
- `--max-tokens` définit la _batch size_, soit le nombre d'exemples envoyés en une seule fois au modèle lors de l'apprentissage.

In [None]:
# create an empty model folder to store the model in
!mkdir models/new_norm_lstm

# call fairseq-train
!fairseq-train \
        data/data_norm_bin_2000 \
        --save-dir models/new_norm_lstm \
        --save-interval 1 --patience 12 \
        --arch lstm \
        --encoder-layers 3 --decoder-layers 3 \
        --encoder-embed-dim 384 --decoder-embed-dim 384 --decoder-out-embed-dim 384 \
        --encoder-hidden-size 768 --encoder-bidirectional --decoder-hidden-size 768 \
        --dropout 0.3 \
        --criterion cross_entropy --optimizer adam --adam-betas '(0.9, 0.98)' \
        --lr 0.0001 --lr-scheduler inverse_sqrt \
        --warmup-updates 4000 \
        --share-all-embeddings \
        --max-tokens 3000 \
        --batch-size-valid 64

2023-03-05 18:19:30 | INFO | fairseq_cli.train | {'_name': None, 'common': {'_name': None, 'no_progress_bar': False, 'log_interval': 100, 'log_format': None, 'log_file': None, 'tensorboard_logdir': None, 'wandb_project': None, 'azureml_logging': False, 'seed': 1, 'cpu': False, 'tpu': False, 'bf16': False, 'memory_efficient_bf16': False, 'fp16': False, 'memory_efficient_fp16': False, 'fp16_no_flatten_grads': False, 'fp16_init_scale': 128, 'fp16_scale_window': None, 'fp16_scale_tolerance': 0.0, 'min_loss_scale': 0.0001, 'threshold_loss_scale': None, 'user_dir': None, 'empty_cache_freq': 0, 'all_gather_list_size': 16384, 'model_parallel_size': 1, 'quantization_config_path': None, 'profile': False, 'reset_logging': False, 'suppress_crashes': False, 'use_plasma_view': False, 'plasma_path': '/tmp/plasma'}, 'common_eval': {'_name': None, 'path': None, 'post_process': None, 'quiet': False, 'model_overrides': '{}', 'results_path': None}, 'distributed_training': {'_name': None, 'distributed_worl

Il est possible de tester le modèle que nous venons de créer:

In [None]:
!head -n 10 data/dev.sp2000.src | \
    fairseq-interactive data/data_norm_bin_2000 \
        --source-lang src \
        --target-lang trg \
        --path models/new_norm_lstm/checkpoint_best.pt \
    > data/dev.sp2000.norm.output 2> /tmp/dev

Ceux qui voudraient créer un modèle à base de transformeurs peuvent utiliser le code suivant:

In [None]:
# create an empty model folder to store the model in
!mkdir models/new_norm_transformer

# call fairseq-train
!fairseq-train \
        data/data_norm_bin_2000 \
        --save-dir models/new_norm_transformer \
        --save-interval 1 --patience 25 \
        --arch transformer \
        --encoder-layers 2 --decoder-layers 4 --encoder-attention-heads 4 \
        --encoder-embed-dim 256 --encoder-ffn-embed-dim 1024 --dropout 0.3 \
        --criterion cross_entropy --optimizer adam --adam-betas '(0.9, 0.98)' \
        --lr 0.001 --lr-scheduler inverse_sqrt \
        --warmup-updates 4000 \
        --max-tokens 3000 --max-tokens 3000 \
        --share-all-embeddings --batch-size-valid 64

# 6. Générer des données artificielles
Si l'on peut normaliser des données, il est possible de faire le processus inverse: les dé-normaliser, c'est-à-dire de créer des "fausses" phrases écrites comme on l'aurait fait dans le passé. Cela peut être utile pour créer des données d'entraînement par exemple.

1. D'abord on prépare les données normalisées pour la dénormalisation avec la même fonction `spm.encode` qui transforme la phrase en sous-mots/BPE.
2. Ensuite, notre modèle de dénormalisation prévoyant cette option, on spécifie le système graphique de quelle décennie nous visons (`162` pour les années 20 du XVIIe s.)
3. On sauvegarde le résultat

In [None]:
dev_trg_sp = spm.encode(dev_trg, out_type=str)
decade_token = '▁<decade=162> '
write_file([' '.join([decade_token] + phrase) for phrase in dev_trg_sp], 'data/dev.sp.trg')

### Dénormaliser le texte

(10 premières phrases seulement. Vous pouvez faire plus de phrases en modifiant le 10. Vous pouvez tout normaliser en changeant `head -n 10` en `cat`.)

In [None]:
!head -n 10 data/dev.sp.trg | fairseq-interactive models/denorm --source-lang trg --target-lang src --path models/denorm/lstm_denorm.pt > data/dev.sp.denorm.src.10.output

### Post-traiter la sortie du modèle

In [None]:
dev_denorm_10 = extract_hypothesis('data/dev.sp.denorm.src.10.output')
dev_denorm_10_postproc = decode_sp(dev_denorm_10)
write_file(dev_denorm_10_postproc, 'data/dev.sp.denorm.10.src')
dev_denorm_10_postproc[:3]

Il y a pas mal d'étapes, donc pour faciliter le traitement, voici une fonction qui prend en entrée une liste de phrases et qui fait tout :

In [None]:
def denormalise(sents, decade):
    # ntre modèle de dénormalisation ne fonctionne que pour le XVIIe s., on contrôle donc la décennie demandée
    assert int(decade) >=1600 and int(decade) < 1700, 'Your decade must be between 1600 and 1690'
    # on génère un fichier temporaire pour stocker les résultats
    filetmp = 'data/tmp_denorm.sp.trg.tmp'
    # On transforme en BPE
    input_sp = spm.encode(sents, out_type=str)
    # On ajoute le token de décennie à chaque phrase
    decade_token = '▁<decade=' + str(decade)[:3] + '>'
    input_sp_sents = [' '.join([decade_token] + sent) for sent in input_sp]
    write_file(input_sp_sents, filetmp)
    #print("preprocessed = ", input_sp_sents)
    # On déormalise
    !cat data/tmp_denorm.sp.trg.tmp | fairseq-interactive models/denorm --source-lang trg --target-lang src --path models/denorm/lstm_denorm.pt > data/tmp_denorm.sp.trg.output 2> /tmp/dev
    # On passe au post-processing: extraction de la prédiction/hypothèse
    outputs = extract_hypothesis('data/tmp_denorm.sp.trg.output')
    #On transforme les sous-mots/BPE en mots
    outputs_postproc = decode_sp(outputs)
    return outputs_postproc

On peut désormais utiliser notre fonction de la manière suivante:

In [None]:
print(denormalise(["Je ne savais pas qu'il ferait si beau.",
                  "Parti plus tôt que ses rivaux du parti Les Républicains et longtemps considéré comme favori, le président des Hauts-de-France a été balayé au terme d'une campagne interne marquée par le thème de l'immigration."],
                  1640))
print(denormalise(["Je ne savais pas qu'il ferait si beau.",
                  "Parti plus tôt que ses rivaux du parti Les Républicains et longtemps considéré comme favori, le président des Hauts-de-France a été balayé au terme d'une campagne interne marquée par le thème de l'immigration."], 
                  1690))

Et voici une fonction similaire pour la normalisation :