# MARIAN MT

Celia Botella López

## 0. PREREQUISITOS

In [None]:
## Si se está utilizando como entorno de trabajo Google Colab, hay que ejecutar esta celda
from google.colab import drive
drive.mount('/content/drive/')
%cd /content/drive/My Drive/LSEGloss2SpanishText/Gloss2Text Translator

In [None]:
!pip install sacrebleu
!pip install rouge_score
!pip install datasets
!pip install sentencepiece
!pip install accelerate
!pip install transformers
!pip install optuna

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sacrebleu
  Downloading sacrebleu-2.3.1-py3-none-any.whl (118 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m118.9/118.9 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting portalocker (from sacrebleu)
  Downloading portalocker-2.7.0-py2.py3-none-any.whl (15 kB)
Collecting colorama (from sacrebleu)
  Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Installing collected packages: portalocker, colorama, sacrebleu
Successfully installed colorama-0.4.6 portalocker-2.7.0 sacrebleu-2.3.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting rouge_score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge_score
  Building wheel for rouge_score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge_

## 1. PUESTA INICIAL

### 1.1. CARGA DEL MODELO

Se carga uno de los modelos MarianMT, concretamente el modelo preentrenado "Helsinki-NLP/opus-mt-en-es".

In [None]:
from transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainingArguments, Seq2SeqTrainer

model_marian = "Helsinki-NLP/opus-mt-en-es"

def model_init():
    return AutoModelForSeq2SeqLM.from_pretrained(model_marian)

model = model_init()

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

### 1.2. PREPROCESAMIENTO DE DATOS

Se carga el dataset que contiene pares de frases en lenguaje natural del castellano (LOE) y en lengua de signos española representada con glosas (LSE).

In [None]:
import pandas as pd
import datasets
from datasets import Dataset, DatasetDict

In [None]:
dataset_df = pd.read_csv('../Corpus/corpus-spanish-gloss-10K.csv', names=["LOE", "LSE"], encoding='utf-8')
dataset_df = dataset_df.dropna()
print("Total rows: ", dataset_df.shape[0])
dataset_df[:10]

Total rows:  10000


Unnamed: 0,LOE,LSE
0,efectuaba un vuelo entre bombay y nueva york,YORK NUEVO EFECTUAR VUELO BOMBAY
1,entre otros sitios de comercio,SITIO-PL OTRO COMERCIO
2,es un edificio exento de estilo neorrománico o...,EDIFICIO EXENTO ESTILO OBRA NEORROMÁNICO MANUE...
3,esto inició un feudo con ambos equipos interca...,PASADO ESTE ATAQUE-PL FÍSICO ÉL INICIAR FEUDO ...
4,se trata de una iglesiafortaleza construida ju...,ÉL TORRE ANTERIOR TRATAR IGLESIAFORTALEZA CONS...
5,llegó a el quinto lugar en las listas,PASADO LISTA-PL LLEGAR LUGAR QUINTO
6,con el permiso de un juzgado de menores torres...,PASADO PERMISO JUZGADO TORRE-PL MENOR ACTUAR C...
7,desde la niñez fue una apasionada por la danza,PASADO NIÑEZ APASIONADO DANZA
8,sin embargo es desterrado de el bosque por su ...,EMBARGO HERMANO SU PARTE DEMONIO DESTERRAR BOS...
9,ha escrito y es coautora de varios libros sobr...,CIENCIA ESCRIBIR COAUTORA LIBRO-PL VARIOS


El dataset se divide en dos subconjuntos: uno que se va a utilizar para entrenamiento, con 3500 pares de frases, y otro para pruebas, con 750 pares de frases.

In [None]:
train_dataset = Dataset.from_dict(dataset_df[:3500])
test_dataset = Dataset.from_dict(dataset_df[3500:4250])
dataset = datasets.DatasetDict({"train":train_dataset,"test":test_dataset})

Estos datos, hay que prepararlos para que el modelo pueda procesarlos. Para ello, se hace uso de un tokenizador, que se encarga de darle el formato que el modelo espera como entrada. Por tanto, obtenemos el tokenizador correspondiente al modelo MarianMT previamente definido.

In [None]:
from transformers import AutoTokenizer, MarianTokenizer

tokenizer= None
tokenizer = MarianTokenizer.from_pretrained(model_marian)

Downloading (…)olve/main/source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading (…)olve/main/target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]



Seguidamente, se define la función _`preprocess_function()`_ que prepara los datos haciendo uso del tokenizador. Con los argumentos `max_lenght` y `truncation=True`conseguimos limitar la longitud de los datos para que se trunquen a la longitud máxima cuando lo supere.

In [None]:
def preprocess_function(examples, max_input_length = 128, max_target_length = 128):
    inputs = examples["LSE"]
    targets = examples["LOE"]

    model_inputs = tokenizer(inputs, max_length=max_input_length, truncation=True)

    # Setup the tokenizer for targets
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(targets, max_length=max_target_length, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

Finalmente, se tokenizan los datos utilizando la función _`preprocess_function()`_, quedando listos para pasarselos al modelo.

In [None]:
tokenized_datasets = dataset.map(preprocess_function, batched=True)
tokenized_datasets

Map:   0%|          | 0/3500 [00:00<?, ? examples/s]



Map:   0%|          | 0/750 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['LOE', 'LSE', 'input_ids', 'attention_mask', 'labels'],
        num_rows: 3500
    })
    test: Dataset({
        features: ['LOE', 'LSE', 'input_ids', 'attention_mask', 'labels'],
        num_rows: 750
    })
})

El modelo también requiere un recopilador de datos (o data collator), por lo que se crea uno para el modelo que se va a utilizar e indicando el tokenizador que dará el formato correcto a los datos.

In [None]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

### 1.3. DEFINICIÓN DE MÉTRICA

Se define la función _`compute_metrics_bleu()`_ para calcular las métricas BLEU de las predicciones realizadas por un modelo.

In [None]:
import datasets
import numpy as np

def compute_metrics_bleu(eval_preds):
    preds, labels = eval_preds
    bleu_metric = datasets.load_metric("sacrebleu")

    if isinstance(preds, tuple):
        preds = preds[0]

    decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    decoded_preds = [pred.strip() for pred in decoded_preds]
    decoded_labels = [[label.strip()] for label in decoded_labels]

    result = bleu_metric.compute(predictions=decoded_preds, references=decoded_labels)
    result = {"score_bleu": result["score"], "bleu_1": result["precisions"][0],
              "bleu_2": result["precisions"][1], "bleu_3": result["precisions"][2], "bleu_4": result["precisions"][3]}

    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in preds]
    result["gen_len"] = np.mean(prediction_lens)

    return {k: round(v,4) for k, v in result.items()}

Se define la función _`compute_metrics_rouge()`_ para calcular las métricas ROUGE de las predicciones realizadas por un modelo.

In [None]:
import nltk
nltk.download('punkt')
def compute_metrics_rouge(eval_pred):
    predictions, labels = eval_pred
    rouge_metric = datasets.load_metric("rouge")

    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]

    result = rouge_metric.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}

    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)

    return {k: round(v,4) for k, v in result.items()}

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


La función _`compute_metrics()`_ invoca a las dos funciones (BLEU y ROUGE) para calcular dichas métricas e imprimir su valor por consola.

In [None]:
def compute_metrics(eval_pred):
  metric_bleu = compute_metrics_bleu(eval_pred)
  metric_rouge = compute_metrics_rouge(eval_pred)

  print("\nMetric BLEU: ", metric_bleu)
  print("Metric ROUGE: ", metric_rouge)

  return  {'score': metric_bleu["score_bleu"]}

## 2. AJUSTE DE HIPERPARÁMETROS

El ajuste de hiperparámetros es la búsqueda de la configuración de los parámetros de un modelo que produzce el mejor rendimiento en el proceso de aprendizaje. Para ello, se realizan varios ensayos de entrenamiento y evaluación del modelo, probando a entrenarlo con distintos valores de hiperparámetros.


En primer lugar, hay que especificar los argumentos para personalizar el entrenamiento:
* output_dir (str) — Directorio de salida donde se escribirán las predicciones del modelo y los puntos de control.
* save_total_limit (int) *opcional* — Limita la cantidad total de puntos de control y elimina los más antiguos en output_dir.
* predict_with_generate (bool) *opcional, predeterminado=False* — Indica si se va a calcular métricas generativas (ROUGE, BLEU).
* eval_accumulation_steps (int) *opcional* — Número de pasos de predicción para acumular los tensores de salida, antes de mover los resultados a la CPU. Si no se configura, todas las predicciones se acumulan en GPU/TPU antes de trasladarse a la CPU (más rápido pero requiere más memoria).
* fp16 (bool) *opcional, predeterminado=False* — Indica si se va a usar el entrenamiento de precisión fp16 de 16 bits (mixto) en lugar del entrenamiento de 32 bits.

In [None]:
args = Seq2SeqTrainingArguments(
    "prueba_hiperparametros-3500",
    save_total_limit=1,
    predict_with_generate=True,
    eval_accumulation_steps=3,
    fp16=True,
)

Seguidamente, se implementa la función _`my_hp_space()`_, que devuelve una configuración aleatoria de valores para cada uno de los hiperparámetros en el rango indicado. Los hiperparámetros que se van a tratar de ajustar, junto con su rango de valores límite son los siguientes:
* learning_rate (1e-5, 1e-3). La tasa de aprendizaje permite regular los pesos respecto al gradiente de la pérdida, estableciendo la frecuencia con la que la red neuronal actualiza los valores de los pesos en el aprendizaje.
* num_train_epochs [5, 10, 15]. Número de iteraciones completas (o epochs) que se realiza sobre el conjunto de datos de entrenamiento durante el proceso de aprendizaje del modelo.
* batch_size [16, 32, 64]. El tamaño del lote indica la cantidad de muestras de datos que se utilizan cada vez que se actualizan los pesos en el entrenamiento de un modelo.
* weight_decay (1e-3, 1e-1). El decaimiento de peso es una penalización que se aplica en la actualización de los pesos, siempre que sea distinto de cero.

In [None]:
def my_hp_space(trial):
    return{
        "learning_rate": trial.suggest_float("learning_rate", 1e-5, 1e-3, log=True),
        "num_train_epochs": trial.suggest_categorical("num_train_epochs", [5, 10, 15]),
        "per_device_train_batch_size": trial.suggest_categorical("per_device_train_batch_size", [16, 32, 64]),
        "weight_decay":  trial.suggest_float("weight_decay", 1e-3, 1e-1)
    }

Finalmente, se entrena el modelo invocando al método _`hyperparameter_search()`_, que realiza tantos ensayos como se especifique en el argumento `n_trials` probando con distintas combinaciones de hiperparámetros (que se eligen de forma aleatoria con la función _`my_hp_space()`_) y localizando aquella con la que se obtiene la mejor métrica.

In [None]:
trainer = Seq2SeqTrainer(
    model_init=model_init,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

best_trial = trainer.hyperparameter_search(direction="maximize", n_trials=20, hp_space=my_hp_space)

Del proceso de exploración de hiperparámetros del modelo se obtiene que la combinación de valores que mejor rendimiento consigue es la siguiente:
* learning_rate = 4.8e-5
* num_epochs = 15
* batch_size = 64
* weight_decay = 0.092

## 3. ENTRENAMIENTO Y EVALUACIÓN DEL MODELO

### 3.1. Entrenamiento del modelo

Se definen los argumentos con los que se va a entrenar el modelo, utilizando los valores de hiperparámetros que mejores resultados obtuvieron en la exploración.

In [None]:
learning_rate = 4.8e-5
num_epochs = 15
batch_size = 64
weight_decay = 0.092

args = Seq2SeqTrainingArguments(
    "experimentos-3500/full_dataset",
    evaluation_strategy = "epoch",
    learning_rate=learning_rate,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    weight_decay=weight_decay,
    save_total_limit=1,
    num_train_epochs=num_epochs,
    predict_with_generate=True,
    eval_accumulation_steps=3,
    fp16=True,
)

Se entrena el modelo con los argumentos predefinidos.

In [None]:
trainer = Seq2SeqTrainer(
    model_init=model_init,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

trained = trainer.train()



Epoch,Training Loss,Validation Loss,Score
1,No log,2.050705,1.0973
2,No log,1.750912,1.2161
3,No log,1.632001,1.4931
4,No log,1.58844,1.7062
5,No log,1.561053,1.7885
6,No log,1.530985,1.6481
7,No log,1.530104,1.6285
8,No log,1.537364,1.6442
9,No log,1.542623,1.7076
10,1.273500,1.54118,1.778


  bleu_metric = datasets.load_metric("sacrebleu")


Downloading builder script:   0%|          | 0.00/2.85k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/2.17k [00:00<?, ?B/s]


Metric BLEU:  {'score_bleu': 1.0973, 'bleu_1': 51.9393, 'bleu_2': 21.9722, 'bleu_3': 10.4151, 'bleu_4': 5.1931, 'gen_len': 15.8787}
Metric ROUGE:  {'rouge1': 57.9004, 'rouge2': 27.9474, 'rougeL': 49.7445, 'rougeLsum': 49.8297, 'gen_len': 15.8787}

Metric BLEU:  {'score_bleu': 1.2161, 'bleu_1': 59.6661, 'bleu_2': 28.3032, 'bleu_3': 14.882, 'bleu_4': 8.6188, 'gen_len': 15.1373}
Metric ROUGE:  {'rouge1': 64.2778, 'rouge2': 34.0236, 'rougeL': 55.7882, 'rougeLsum': 55.8078, 'gen_len': 15.1373}

Metric BLEU:  {'score_bleu': 1.4931, 'bleu_1': 63.6563, 'bleu_2': 33.1524, 'bleu_3': 18.874, 'bleu_4': 11.7989, 'gen_len': 14.6387}
Metric ROUGE:  {'rouge1': 66.8603, 'rouge2': 37.8794, 'rougeL': 58.3109, 'rougeLsum': 58.4081, 'gen_len': 14.6387}

Metric BLEU:  {'score_bleu': 1.7062, 'bleu_1': 63.5376, 'bleu_2': 33.2323, 'bleu_3': 19.1339, 'bleu_4': 12.0125, 'gen_len': 14.8027}
Metric ROUGE:  {'rouge1': 67.6487, 'rouge2': 38.7484, 'rougeL': 59.0192, 'rougeLsum': 59.0588, 'gen_len': 14.8027}

Metric 

### 3.2. Evaluación del modelo

Cálculo de las métricas obtenidas de las predicciones realizadas por el modelo sobre el conjunto de datos de entrenamiento.

In [None]:
predictions = trainer.predict(tokenized_datasets["train"])
print(predictions.metrics)


Metric BLEU:  {'score_bleu': 2.8353, 'bleu_1': 92.9426, 'bleu_2': 83.9534, 'bleu_3': 77.5276, 'bleu_4': 72.6444, 'gen_len': 13.5426}
Metric ROUGE:  {'rouge1': 92.3943, 'rouge2': 83.8929, 'rougeL': 90.4733, 'rougeLsum': 90.5028, 'gen_len': 13.5426}
{'test_loss': 0.24392560124397278, 'test_score': 2.8353, 'test_runtime': 118.8583, 'test_samples_per_second': 29.447, 'test_steps_per_second': 0.463}


Cálculo de las métricas obtenidas de las predicciones realizadas por el modelo sobre el conjunto de datos de prueba.

In [None]:
predictions = trainer.predict(tokenized_datasets["test"])
print(predictions.metrics)


Metric BLEU:  {'score_bleu': 1.6893, 'bleu_1': 67.2365, 'bleu_2': 37.3924, 'bleu_3': 22.4008, 'bleu_4': 14.4917, 'gen_len': 14.1413}
Metric ROUGE:  {'rouge1': 69.801, 'rouge2': 41.7415, 'rougeL': 61.4421, 'rougeLsum': 61.4771, 'gen_len': 14.1413}
{'test_loss': 1.5691314935684204, 'test_score': 1.6893, 'test_runtime': 27.1498, 'test_samples_per_second': 27.625, 'test_steps_per_second': 0.442}


### 3.3. Pruebas de traducción

Carga de datos de testeo y tokenización de los mismos.

In [None]:
corpus_test = pd.read_csv('../Corpus/corpus-test.csv', header=0, names=["LOE", "LSE"], encoding='utf-8')
corpus_test_df = Dataset.from_dict(corpus_test)
tokenized_test = corpus_test_df.map(preprocess_function, batched=True)

Map:   0%|          | 0/60 [00:00<?, ? examples/s]



Se utiliza el modelo para predecir la traducción a español de cada una de las frases cargadas en glosa.

In [None]:
n_sent = 15
short_dataset_tokenized = Dataset.from_dict(tokenized_test[0:n_sent])
predictions = trainer.predict(short_dataset_tokenized)

for i in range(n_sent):
  print("\nInput LSE: ", corpus_test_df[i]["LSE"])
  print("Output LOE: ", tokenizer.decode(predictions.predictions[i], skip_special_tokens=True))


Metric BLEU:  {'score_bleu': 3.4874, 'bleu_1': 40.0, 'bleu_2': 14.6667, 'bleu_3': 10.0, 'bleu_4': 6.5217, 'gen_len': 9.5333}
Metric ROUGE:  {'rouge1': 64.6313, 'rouge2': 26.4341, 'rougeL': 54.8602, 'rougeLsum': 54.9005, 'gen_len': 9.5333}

Input LSE:  PASADO PEPE-NP COCHE COMPRAR PEPA-NP 
Output LOE:  pepe coche compró pepa

Input LSE:  MAÑANA NOSOTROS LLEGAR LUGAR PREVISTO 
Output LOE:  la mañana llegó a un lugar previsor

Input LSE:  PASADO CERVANTES-NP QUIJOTE-NP ESCRIBIR 
Output LOE:  escribió cervantes quijote

Input LSE:  JESÚS-NP CAMISA SUCIO MUCHO LLEVAR 
Output LOE:  jesús lleva una camisa de mucho sucio

Input LSE:  RUBÉN-NP FERNANDO-NP IR QUERER NO CINE 
Output LOE:  rubens no quiere ir a el cine ni a fernando

Input LSE:  PASADO CARLOS-NP CARTA CERTIFICADO DAR ÉL 
Output LOE:  carlos le dio una carta certificado

Input LSE:  PELÍCULA APTO MENOR 
Output LOE:  la película es apta para ser menor

Input LSE:  PASADO YO LESIÓN TU INFORMAR GABRIEL-NP 
Output LOE:  me informó sob