# Introduction à MT avec OpenNMT.

![OPENNMT](https://avatars.githubusercontent.com/u/23035727?s=200&v=4)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)]("https://github.com/s7d11/indabax-practicals")

Présenté par:

- Sebastien Diarra, Michael Leventhal

Procédure :

- IndabaX Mali 2022

## Agenda
- À savoir
- Introduction
- Prérequis
- Configuration de l'Environnement
- Préparation des données
- Architecture du modèle
- Entraînement
- Essai & Évaluation des performances [BLEU, Tensorboard]
- Questions et Réponses


## Buts et objectifs
- Pour que vous compreniez le MT. Pipeline
- Apprenez à configurer l'environnement OpenNMT
- Pour vous intéresser à notre initiative Bayɛlɛmabaga & MT pour les langues locales

**IMPORTANT REMARKS**: 

- This practical is intented for those with no background in MT or ML for that matter.
- Pratical is Focused more on doing rather telling.
- Hopefully you'll leave this session with an eager to contribute to MT work for Mali.
    - You do not need to be an expert to contribute. You can contribute Data !

*NB*: Join someone with a computer if did not bring your own.

## Introduction

Dans cette pratique, nous découvrirons OpenNMT et comment former un modèle de traduction automatique bilingue pour le bambara - français. Ceci est un tutoriel d'introduction pour se mouiller les pieds. Une approche pratique est fortement recommandée, tous les participants sont encouragés à suivre. Le code source de cet atelier peut être exécuté via Colab à l'URL suivante :

[https://github.com/robotsmali-ai/rmai/]()


### [OpenNMT](https://opennmt.net/)

"OpenNMT - est un écosystème open source pour la traduction automatique neuronale et l'apprentissage des séquences neuronales"

C'est un framework, ou toolkit, qui permet d'entrainer un modèle de langage.

OpenNMT est pour :
- Débutants
- Amateur
- Experts

### MT (Traduction Automatique)

Processus automatisé de traduction d'une langue à une autre par machine sans intervention humaine. La traduction est généralement effectuée par un programme informatique. Il existe différents types de MT :

- MT basée sur des règles : règles de grammaire et de langue utilisées comme base pour un logiciel pour effectuer la traduction.

![RULE-IMAGE](https://i.ibb.co/7XbQV0H/grammar-rules.png)

- SMT : MT statistique : apprentissage basé sur la distribution de probabilité.


<div>
<img alt="SMT" width="300"; height="250" src="https://www.researchgate.net/profile/Andy-Way/publication/220418877/figure/fig5/AS:669019598245898@1536518110475/A-Statistical-Machine-Translation-System-adapted-from-Figure-1-in-Brown-et-al-13.png" />

<sub>Courtesy of: https://www.researchgate.net/publication/220418877_Hybrid_data-driven_models_of_machine_translation</sub>
</div>

- NMT : Neural Machine Translation : Apprentissage basé sur les réseaux de neurones artificiels.

**NMT : c'est ce qui nous intéresse dans cet atelier**

### NMT

Est-ce l'utilisation de techniques d'apprentissage en profondeur (réseaux de neurones) pour former un modèle de traduction. Cette approche est devenue l'approche dominante pour faire de la traduction automatique. NMT s'est avéré très efficace dans la traduction automatique ces dernières années.

<div>
<img width="300" height="250" src="https://1.cms.s81c.com/sites/default/files/2021-01-06/ICLH_Diagram_Batch_01_03-DeepNeuralNetwork-WHITEBG.png">
</div>

OpenNMT -- nous aide à expérimenter rapidement la NMT, ainsi qu'à créer des systèmes/solutions de MT en moins de temps.

NMT englobe les deux autres approches dans une certaine mesure.

**NB** : ***Venez à l'événement PNL samedi, pour apprendre ces concepts en détail.***

## Prérequis
- Compréhension de la CLI Unix (aide)
- Compréhension de Python (JupyterNB)
- Les concepts de base de ML (tels que Pipeline, Models, NN) aident mais ne sont pas obligatoires



## Configuration de l'Environnement

### Paquets

- `OpenNMT-py` : paquet opennmt principal (version pytorch)
- `rmaipkg` : Package pour les ensembles de données et les modèles de RobotsMaliAI (Later)
- `Daba` (non requis) : une version modifiée de [daba](https://github.com/maslinych/daba)

In [None]:
%pip install OpenNMT-py subword_nmt sentencepiece # Main OpenNMT Package (No Need for subword_nmt sentencepiece)
%pip install --no-cache-dir https://github.com/RobotsMali-AI/rmai/releases/download/0.0.3/rmaipkg-0.0.3.tar.gz # RobotsMaliAI's Datasets and Models
%pip install -U https://github.com/s7d11/daba/releases/download/v0.0.1-alpha/daba-0.9.2.tar.gz # Non-UI Version of Daba
%pip install sacrebleu

### Configuration de l'espace de travail (Google Colab)

- Qu'est-ce que Colab ?

- Local vs Google Drive
    - Experimentation vs Persistence

In [None]:
import os
import pathlib
# TODO: validate that user works on Colab

# Select your environment
WORK_ENV = 1 # 0=Local 1=Drive

CWD = os.getcwd()
WORK_DIR_Lo = CWD+"/onmt"#"/content/onmt"

if(WORK_ENV):
    if os.path.exists("/content"):
        from google.colab import drive
        WORK_DIR_Dr = "/content/drive/MyDrive/onmt"
        drive.mount('/content/drive') # Mounting your Google drive
    else:
        print("Colab not detected. Reverting to local environment")
        WORK_DIR_Dr = WORK_DIR_Lo

WORK_DIR = WORK_DIR_Dr if WORK_ENV else WORK_DIR_Lo
DATA_DIR = f"{WORK_DIR}/data"

if(not os.path.exists(WORK_DIR) and pathlib.Path(".").parent != "onmt"):
    !mkdir -p $DATA_DIR
    print(f"Environment Created: {WORK_DIR}")
else:
    print("Environment already exists...")

os.chdir(WORK_DIR) # Naviting to Work-environment

### Activer le GPU

- Édition > Paramètres du bloc-notes > GPU > Enregistrer
- Exécution > GPU


**IMPORTANT** : Gardez le GPU détaché jusqu'à ce que vous fassiez quelque chose qui nécessite des GPU (c'est-à-dire de l'entrainement)

In [None]:
# GPU's information

!nvidia-smi 

## Préparation des données

`rmaipkg` a des textes Bambara parallèles que nous utiliserons pour cette étape. Vous échangez facilement cela avec votre source de données.


Sachez à l'avance : ***Le texte n'est pas entièrement nettoyé si vous rencontrez des problèmes, il est préférable de générer un échantillon différent***

In [None]:
# Import the 'parralel' module from rmaipkg
from rmai.datasets.text import parallel

texts = parallel.get_text(max_len=10000, randomize=True) # Load texts in memory

# Show first 10 lines
print(texts[:10])

- `parallel` : module pour les textes parallèles de RobotsMali
- `parallèle.get_text` :
    - retourne `max_len` nombre de lignes
    - `randomize` lorsqu'il est défini, mélange les textes. Bon pour générer un ordre différent pour les textes à chaque exécution.

In [None]:

train, valid = parallel.random_split(texts, 80) # Split Data into training and validation 80/20

print(
    "Splitted correctly: ", 
    len(train)+len(valid) == len(texts)) # Sanity Check
 
"""
TASK I: Create the following variables containing unique language for each set
- trainbam: train set bambara
- trainfra: train set francais
- validbam: valid set bambara
- validfra: valid set francais
"""

# CODE HERE (Discuss in pseudo code)

- `parallel.random_split` : divise l'objet texte en ratios pour l'entraînement et la validation, il renvoie un type de tuple.
    - Le premier argument est les "textes"
    - Le deuxième argument est le taux auquel c'est divisé

In [None]:
#@title
# Task I - Solution
x_extractor = lambda x, dset: [i[x] for i in dset]

trainbam = x_extractor(0, train)
trainfra = x_extractor(1, train)
validbam = x_extractor(0, valid)
validfra = x_extractor(1, valid)

- `x_extractor` est une fonction lambda pour la tâche de séparer les valeurs.

In [None]:
# Optional Work - Further Cleaning the Data

import string

def clean_lines(lines):
  nlines = []
  for i in lines:
    for j in string.punctuation + "«»":
      if(not j in r"!.:?()[]"):
        i = i.replace(j, " ")
    nlines.append(i)
  return " ".join("".join(nlines).strip().split())

trainbam = [clean_lines(i) for i in trainbam]
trainfra = [clean_lines(i) for i in trainfra]
validbam = [clean_lines(i) for i in validbam]
validfra = [clean_lines(i) for i in validfra]


- Écrivons maintenant nos données dans des fichiers réels sur le système. `rmaipkg` a une méthode appelée `write_to` qui le fait pour nous.

In [None]:
parallel.write_to(lines=trainbam, name="src-train", path=DATA_DIR)
parallel.write_to(lines=trainfra, name="tgt-train", path=DATA_DIR)
parallel.write_to(lines=validbam, name="src-val", path=DATA_DIR)
parallel.write_to(lines=validfra, name="tgt-val", path=DATA_DIR)


Maintenant que nous avons écrit nos données et que nous avons un ensemble de données, adaptons-le maintenant à la traduction automatique.

In [None]:

model_name = "bam2fr" # Name you are giving to your model
config_name = f"{WORK_DIR}/cool_config.yaml"

config = f"""

# IndabaX - Mali 2022 (Configuration)

save_data: {model_name}/run/{model_name}

overwrite: True # Toggle this for rewritting

data:  
    robotsmali:
        path_src: data/src-train.txt # DataPath
        path_tgt: data/tgt-train.txt
        transforms: []
        weight: 1
    valid:
        path_src: data/src-val.txt
        path_tgt: data/tgt-val.txt
        transforms: []
        weight: 1

src_seq_length: 250
tgt_seq_length: 250

src_vocab: {model_name}/run/{model_name}.vocab.src.txt
tgt_vocab: {model_name}/run/{model_name}.vocab.tgt.txt
skip_empty_level: silent

"""

# Write config file
with open(config_name, "w") as fp:
    fp.write(config)


Ici, nous avons créé un fichier de configuration `cool_config.yaml` contenant des informations générales sur le jeu de données. Qu'avons-nous fait:

- Nous avons attribué le nom de notre modèle à une variable
- Générez un fichier de configuration avec quelques détails de base tels que :
    - où se trouvent les données
    - où générer les fichiers de vocabulaire

In [None]:
# OpenNMT Building the vocabulary

!onmt_build_vocab -c $config_name -n_sample -1 --dump_samples # -1 full corpus, bpe, sentencepiece

La commande `onmt_build_vocab` construit le vocabulaire nécessaire à la formation. Ici, nous l'avons appelé avec trois paramètres

- `-c config_file` : chemin du fichier de configuration à utiliser pour le processus de création de vocabulaire

- `-n_sample -1` : la construction d'un vocabulaire à l'aide du corpus complet peut remplacer **-1** par n'importe quel nombre, lorsque l'argument est omis, sa valeur par défaut est 5000.

- `-- dump_sampes` : (argument facultatif) Écrire des échantillons lors de la construction du vocabulaire, trouvés dans `model_name/run/model_name`

Nous n'avons pas besoin de construire un vocabulaire en utilisant le `onmt_build_vocab`, nous pouvons le construire nous-mêmes souvent cela est nécessaire, `tokenization` varie selon la langue, chaque langue a ses caractéristiques uniques. Un exemple de ceci est montré ci-dessous.

In [None]:
# Custom Tokenization (rm-daba-tokenizer) 
# - Shown as example, CELL can be skipped

from rmai.utils import daba

dabautil = daba.DabaUtils()
dabautil.tokenize_line(trainbam+validbam)[:20]

[`Daba`](https://github.com/maslinych/daba) est un outil incroyable développé par des linguistes de l'INALCO. Daba est une ceinture à outils pour les linguistes, et par conséquent pour nous, les gens des sciences informatiques qui cherchons à travailler avec la langue bambara.

- Si vous cherchez à travailler avec Bambara, nous vous le recommandons fortement.


(Retour à OpenNMT)

### Entraînement


#### Architecture d'un modèle

Nous "concevons" le modèle à travers la configuration que nous avons générée précédemment. Dans la cellule de code ci-dessous, nous écrivons comment nous nous attendons à ce que notre modèle soit.

*Bien que le fichier de configuration puisse être mis à jour et ajusté.* Nous limiterons notre modification à quelques options, car nous n'avons pas assez de temps pour en discuter.

Vous pouvez appeler cette configuration comme ingrédients de la sorcière.

- save_model : est le chemin dans lequel le point de contrôle de notre modèle est enregistré.
- save_checkpoint_steps : X, à chaque étape X de l'entraînement, un point de contrôle est enregistré.
- train_steps : Nombre d'étapes d'entraînement
- valid_steps : exécuter la validation, toutes les X étapes
- warmup_step : étape permettant d'ajuster le taux d'apprentissage après le début de l'entraînement.
- GPU : basculer si vous utilisez GPU ou CPU

BTW : Il s'agit d'une architecture de modèle de transformateur (transformer).

Inspiré de :
- [https://github.com/OpenNMT/OpenNMT-py/blob/master/config/config-transformer-base-1GPU.yml](https://github.com/OpenNMT/OpenNMT-py/blob/master/config/config-transformer-base-1GPU.yml)
- Travail effectué par [A. A. Tapo](https://github.com/israaar)

In [None]:
save_freq =  5 #100 # Checkpoint saving steps
training_steps = 10 #500 # Number of steps for the training
valid_steps = 2# 50 # Steps to validate training perfomance
warmup_step = 3 #125 # Warmup 1/4th of training total
GPU = 0 # 0: CPU or 1:GPU

config += f"""

# Training
save_model: {model_name}/{model_name}
save_checkpoint_steps: {save_freq}
keep_checkpoint: 3 # Better for this activity
seed: 1234
train_steps: {training_steps}
valid_steps: {valid_steps}
warmup_steps: {warmup_step}
report_every: {int(training_steps / 5)}
external_evaluators: BLEU
tensorboard: true
tensorboard_log_dir: {model_name}/logs

# Model
encoder_type: transformer
decoder_type: transformer
word_vec_size: 256 # Word embedding size
hidden_size: 256
layers: 6
transformer_ff: 1024
heads: 4
dropout: 0.3

# HyperParams
accum_count: 8
optim: adam
adam_beta1: 0.9
adam_beta2: 0.998
decay_method: noam
learning_rate: 0.0004
max_grad_norm: 0.0

batch_size: 4096
batch_type: tokens
normalization: tokens
label_smoothing: 0.2

max_generator_batches: 0

param_init: 0.0
param_init_glorot: 'true'
position_encoding: 'true'

"""

if(GPU):
    config += """
world_size: 1 # CPU
gpu_ranks: [0] # Change to number of GPU if more than 1 GPU
"""

"""
TASK II - Rewrite the config with this new configuration
"""

# CODE HERE

In [None]:
#@title

with open(config_name, "w") as fp:
    fp.write(config)


- **NOW LET THE MAGIC BEGIN**

We will be running our experiment but prior to launching the training command we will start tensorboard. *Tensorboard* helps us visualize what is happening with our model training.

In [None]:
%load_ext tensorboard

%tensorboard --logdir {model_name}/logs

The `onmt_train` takes the configuration file as argument. Hopefully if we did everything prior, the training should start without any issue. Training duration depends on the training steps, computing power, and data_size.

In [None]:
!onmt_train -config $config_name

## Essai & Évaluation des performances [BLEU, Tensorboard]

### Task 3
- Create own test file (10 sentences)
    - Create a new with file in the `data` directory then write 10 bambara lines onto the file.
    - Create another file in the `data` directory then write the french translation for the bambara text file.

### You can use our test set, if you feel lazy, or uninspired
- Copy our test file from [Repo](https://github.com/robotsmali-ai/)

In [None]:
# Test Set
!wget $PATH_TO_TEXTS -p data # Bam
!wget $PATH_TO_TEXTS -p data # Fr

`onmt_translate` command is used to conduct translation with the trained model. Here we are using five parameters:
- `model`: a model checkpoint file
- `src` : our test file the source language
- `output`: where we want to write our model's predictions
- `gpu`: Number of GPU's to run on
- `verbose`: Display the scores per prediction

In [None]:
!onmt_translate -model {model_name}/b2f_step_1000.pt -src data/src-test.txt -output {model_name}/pred_{model_name}_1000.txt # -gpu -1 -verbose

**Ta-da! Let's see how our model did, now.**

In [None]:
!cat {model_name}/pred_{model_name}

Bleu (BiLingual Evaluation Understudy) score is automatic metric to evaluate machine translation. It is useful, as it allows us to have a general idea about how our model's doing if we are working with a larger model, and larger datasize.

In our case we will use our own translation as reference to determine how well our model did.

In [None]:
!sacrebleu {reference} -i {predicion} -m bleu -b -w 4

Next step: Go back and ajust the params for your own personalization.

>>> **Thank you for joining us. Come to the N.L.P event on Saturday to learn about NLP, ASR in details.**

<div>
<img width="250" src="https://sp-ao.shortpixel.ai/client/to_webp,q_glossy,ret_img/https://indabax.robotsmali.org/wp-content/uploads/2022/11/robotsmali.png" />
</div>