# Trabalho Final da disciplina LinguÃ­stica Computacional

Aluno: Ariel Augusto dos Santos

Data: 27/09/21

## Tema: GeraÃ§Ã£o de ParÃ¡frases

Neste trabalho, treinamos um modelo transformer para tranformar sentenÃ§as arbitrÃ¡rias em parÃ¡frases aproximandamente equivalentes. A geraÃ§Ã£o automÃ¡tica de parÃ¡frases de uma determinada frase Ã© uma tarefa importante porÃ©m desafiadora no processamento de linguagem natural (PNL) \[[Li et al., 2018](https://aclanthology.org/D18-1421/)\].

Utilizei a biblioteca de NLP [Hugging Face](https://huggingface.co) e o modelo de linguagem desenvolvido pelo Google [T5](https://arxiv.org/abs/1910.10683).

Este notebook Ã© um passo a passo do cÃ³digo e demonstraÃ§Ã£o do trabalho desenvolvido. O relatÃ³rio final estÃ¡ disponÃ­vel [aqui]().

## Setup

DependÃªncias Python:
- ðŸ¤— Datasets
- [simpleT5](https://github.com/Shivanandroy/simpleT5)


#### simpleT5
simpleT5 Ã© um *wrapper* em torno das bibliotecas `ðŸ¤— Transformers` e `PyTorch lightning` que facilita o treinamento e inferÃªncia de modelos T5.

In [1]:
! pip install datasets simplet5 numpy

import numpy as np
import pandas as pd




## Dataset

Para treinamento do parafraseador, usamos o [TaPaCo Corpus](https://zenodo.org/record/3707949#.X9Dh0cYza3I):
> a freely available paraphrase corpus for 73 languages extracted from the Tatoeba database

O Tatoeba Ã© um banco online de sentenÃ§as voltado para estudantes de idiomas estrangeiros, criado no JapÃ£o.

In [2]:
from datasets import load_dataset

paraphrase_dataset = load_dataset("tapaco", "pt")

paraphrases_data = paraphrase_dataset['train'].remove_columns(
    ['sentence_id', 'lists', 'tags', 'language']
).to_pandas()
print('NÂº de sentenÃ§as:', len(paraphrases_data))

paraphrase_groups = paraphrases_data.groupby(['paraphrase_set_id'])
print('NÂº de sentenÃ§as equivalentes:', len(paraphrase_groups.groups))


Reusing dataset tapaco (/root/.cache/huggingface/datasets/tapaco/pt/1.0.0/71d200534b520a174927a8f0479c06220a0a6fb5201a84ebfce19006c6354698)


  0%|          | 0/1 [00:00<?, ?it/s]

NÂº de sentenÃ§as: 78430
NÂº de sentenÃ§as equivalentes: 29949


### PreparaÃ§Ã£o e split de datasets

Realizamos o fine-tuning do T5 passando duas sentenÃ§as: a sequÃªncia original e a saÃ­da desejada. Utilizei um split 10/90 para avaliaÃ§Ã£o e treinamento, com 29949 entradas totais.

Separo as entradas do dataset original em grupos de parÃ¡frases equivalentes e entÃ£o crio tuplas de sentenÃ§as equivalentes a partir de uma janela deslizante. Se necessÃ¡rio, Ã© adicionado uma cÃ³pia da primeira sentenÃ§a no grupo para completar a janela final.

In [3]:
import os.path
from tqdm.autonotebook import tqdm

tqdm.pandas()


def datasets():
    """
    generates tuples consisting of source_text and target_text
    returns (evaluation set, training set)
    """
    if os.path.isfile("tapaco-pairs-pt.csv"):
        sentence_pairs = pd.read_csv("tapaco-pairs-pt.csv")
    else:
        sentence_pairs = pd.DataFrame(columns=["source_text", "target_text"])
        for group_key in tqdm(paraphrase_groups.groups.keys()):
            paraphrases = paraphrase_groups.get_group(
                group_key)["paraphrase"].tolist()
            if len(paraphrases) % 2 != 0:
                paraphrases = np.pad(paraphrases, (0, 1),
                                     constant_values=paraphrases[-1])
            for idx, sentence in enumerate(paraphrases[:len(paraphrases) // 2]):
                sentence_pairs = sentence_pairs.append({
                    "source_text": "paraphrase: "+sentence,
                    "target_text": paraphrases[-(idx + 1)]
                }, ignore_index=True)

        sentence_pairs.to_csv("tapaco-pairs-pt.csv")

    test = sentence_pairs.sample(frac=0.1)
    train = sentence_pairs.drop(test.index)

    return (test, train)


test_df, train_df = datasets()


## Modelo de Linguagem: T5

Utilizamos a arquitetura *Text-To-Text Transfer Transformer* (T5), um transformer "clÃ¡ssico" desenvolvido no Google e descrito em *"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"* (Raffel et al., 2019).

O modelo especÃ­fico que utilizei foi o mT5, uma versÃ£o massivamente multilÃ­ngue do T5 descrito em "mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer" (Xue et al., 2021). O mT5 foi treinado com 101 linguagens e o checkpoint usado neste trabalho (mT5-base) possui 580 milhÃµes de parÃ¢metros.

### Treinamento

* Como o mT5 ocupa muita memÃ³ria, Ã© necessÃ¡rio limitar o tamanho das sequÃªncias de entrada
* O treinamento converge rapidamente, provavelmente devido ao dataset, mas Ã© necessÃ¡rio mais experimentaÃ§Ã£o com os hiperparÃ¢metros

In [None]:
from simplet5 import SimpleT5
import torch
import gc

gc.collect()
torch.cuda.empty_cache()

model = SimpleT5()
model.from_pretrained("mt5", "google/mt5-base")

model.train(
    train_df=train_df,
    eval_df=test_df,
    max_epochs=1,  # em apenas 1 Ã©poca jÃ¡ converge
    batch_size=6,  # variar de acordo com memÃ³ria disponÃ­vel
    source_max_token_len=72,  # devido ao tamanho dos embeddings multilÃ­ngues,
    target_max_token_len=72,  # Ã© necessÃ¡rio limitar o tamanho das sequÃªncias
    use_gpu=True
)


Global seed set to 42
GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]

  | Name  | Type                        | Params
------------------------------------------------------
0 | model | MT5ForConditionalGeneration | 582 M 
------------------------------------------------------
582 M     Trainable params
0         Non-trainable params
582 M     Total params
2,329.605 Total estimated model params size (MB)


Validation sanity check: 0it [00:00, ?it/s]

  f"The dataloader, {name}, does not have many workers which may be a bottleneck."
Global seed set to 42
  f"The dataloader, {name}, does not have many workers which may be a bottleneck."


Training: -1it [00:00, ?it/s]

Validating: 0it [00:00, ?it/s]