# NLP con Hugging Face

## Procesando los datos para NLP

### Descargando el dataset

In [None]:
%%capture
!pip install datasets transformers evaluate

Usaremos el dataset MRPC. Este es uno de los 10 datasets que componen el [benchmark (punto de referencia) GLUE](https://huggingface.co/datasets/glue). Se utiliza para medir el rendimiento de los modelos ML en 10 tareas de clasificaci√≥n de texto diferentes.

En otras palabras, seleccionamos el subset `mrpc` del dataset `glue`:

In [1]:
from datasets import load_dataset

ds = load_dataset("glue", "mrpc")

As√≠ se ve un ejemplo. Notamos que `mrpc` est√° compuesto de dos oraciones y una etiqueta que indica si los dos enunciados son equivalentes.

In [4]:
ex = ds["train"][400]
ex

{'sentence1': 'U.S. Agriculture Secretary Ann Veneman , who announced Tuesdays ban , also said Washington would send a technical team to Canada to help .',
 'sentence2': "U.S. Agriculture Secretary Ann Veneman , who announced yesterday 's ban , also said Washington would send a technical team to Canada to assist in the Canadian situation .",
 'label': 1,
 'idx': 446}

In [5]:
labels = ds["train"].features["label"]

In [6]:
labels.int2str(1)

'equivalent'

### Tokenizando

¬øRecuerdas que con visi√≥n descargamos el feature extractor directamente del repositorio del modelo pre-entrenado que vamos a usar como base?

Podemos pensar en la funci√≥n tokenizadora como el equivalente en el NLP.

Descargamos el tokenizador directamente del repo del modelo que usaremos.

In [2]:
from transformers import AutoTokenizer

repo_id = "bert-base-uncased"

tokenizer = AutoTokenizer.from_pretrained(repo_id)

Para preprocesar el conjunto de datos necesitamos convertir el texto en n√∫meros que el modelo pueda entender. Esto se hace con un tokenizador. 

Pasar de texto a n√∫meros se conoce como codificaci√≥n o encoding. El encoding se realiza en un proceso de dos pasos: la tokenizaci√≥n, seguida de la conversi√≥n a input ids. Por el momento nos basta saber que estamos traduciendo texto a n√∫meros llamados como input ids. Estos estar√°n en el formato adecuado para alimentar nuestro modelo.

Podemos alimentar al tokenizador con una oraci√≥n o una lista de oraciones, por lo que podemos tokenizar directamente todas las primeras oraciones y todas las segundas oraciones de cada par de esta manera:

In [7]:
tokenized_sentence_1 = tokenizer(ds["train"]["sentence1"][2])
tokenized_sentence_1

{'input_ids': [101, 2027, 2018, 2405, 2019, 15147, 2006, 1996, 4274, 2006, 2238, 2184, 1010, 5378, 1996, 6636, 2005, 5096, 1010, 2002, 2794, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Necesitamos manejar los dos enunciados como un par y no separados. El tokenizador puede tomar un par de secuencias y prepararlas de la manera que espera nuestro modelo:

In [8]:
inputs = tokenizer("This is the first", "This is the second")
inputs

{'input_ids': [101, 2023, 2003, 1996, 2034, 102, 2023, 2003, 1996, 2117, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

¬øQu√© significa cada uno de los valores que nos retorna el tokenizador?
- `input_ids` es la traducci√≥n de palabras a n√∫meros.
- `attention_mask` es un tensor con la misma forma que `input_ids`, pero lleno de 0 y 1: los 1 indican que se debe atender a los tokens correspondientes y los 0 indican que no se deben atender. Es decir, deben ser ignorados por el modelo.
- `token_type_ids` dice al modelo qu√© parte de la entrada es la primera oraci√≥n y cu√°l es la segunda oraci√≥n.

El modelo espera que las entradas sean de la forma [CLS] oraci√≥n 1 [SEP] oraci√≥n 2 [SEP] cuando hay dos oraciones.

In [9]:
tokenizer.convert_ids_to_tokens(inputs["input_ids"])

['[CLS]',
 'this',
 'is',
 'the',
 'first',
 '[SEP]',
 'this',
 'is',
 'the',
 'second',
 '[SEP]']

Si seleccionamos otro modelo en el Hub no necesariamente tendremos `token_type_ids` en las entradas tokenizadas (por ejemplo, no se devuelven si usa un modelo `DistilBERT`). Solo se devuelven cuando el modelo sabr√° qu√© hacer con ellas, porque los ha visto durante su preentrenamiento.

En general, no necesitamos preocuparnos por si hay o no `token_type_ids` en nuestras entradas tokenizadas, siempre que usemos el tokenizador correspondiente al modelo, todo estar√° bien ya que el tokenizador sabe qu√© proporcionar al modelo.

Por ejemplo, durante esta clase utilizaremos un modelo [`distilroberta-base`](https://huggingface.co/distilroberta-base) por su tama√±o y efectividad. Pero no cuenta con `token_type_ids` y a√∫n as√≠ nos regresa excelentes resultados.

En la organizaci√≥n del Platzi en el Hub puedes encontrar un [modelo BERT](https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel) afinado siguiendo el mismo proceso que usamos en esta clase.

In [10]:
repo_id = "distilroberta-base"

tokenizer = AutoTokenizer.from_pretrained(repo_id)

Creamos una funci√≥n tokenizadora. Recibe un ejemplo y lo tokeniza.

In [11]:
def tokenize_fn(example):
  return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

In [12]:
prepared_ds = ds.map(tokenize_fn, batched=True)

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

### Definiendo el data collator: Dynamic padding

Necesitamos que nuestros tensores tengan una forma rectangular. Es decir que tengan el mismo tama√±o cada uno de los ejemplos. Sin embargo, los textos no necesariamente tienen el mismo tama√±o. 

Para ello usamos el relleno o padding. El padding se asegura de que todas nuestras oraciones tengan la misma longitud al agregar una palabra especial llamada padding token a las oraciones con menos valores. Por ejemplo, si tenemos 10 oraciones con 10 palabras y 1 oraci√≥n con 20 palabras, el relleno garantizar√° que todas las oraciones tengan 20 palabras.

Dejamos el argumento de `padding` del tokenizer vac√≠o en nuestra funci√≥n de tokenizaci√≥n por ahora. Esto se debe a que rellenar (hacer padding) todas las muestras hasta la longitud m√°xima del dataset no es eficiente, es mejor rellenar las muestras cuando estamos construyendo un batch, ya que entonces solo necesitamos rellenar hasta la longitud m√°xima en ese batch, y no la longitud m√°xima en todo el dataset. ¬°Esto puede ahorrar mucho tiempo y potencia de procesamiento cuando las entradas tienen longitudes muy variables!

Usaremos un DataCollator para esto.

Rellenemos (hagamos padding) todos los ejemplos con la longitud del elemento m√°s largo del batch. A esta t√©cnica se le conoce como relleno din√°mico o dynamic padding.

In [13]:
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

## Entrenamiento y evaluaci√≥n

Definamos el resto de los argumentos necesarios para `Trainer`.

### Definiendo la m√©trica 

In [14]:
import evaluate
import numpy as np

def compute_metrics(eval_pred):
  metric = evaluate.load("glue", "mrpc")
  logits, labels = eval_pred
  predictions = np.argmax(logits, axis=-1)
  return metric.compute(predictions=predictions, references=labels)

### Configurando `Trainer`


In [15]:
from transformers import AutoModelForSequenceClassification

labels = ds["train"].features["label"].names

model = AutoModelForSequenceClassification.from_pretrained(
    repo_id,
    num_labels=len(labels),
    id2label={str(i): c for i, c in enumerate(labels)},
    label2id={c: str(i) for i, c in enumerate(labels)}
)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at distilroberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [16]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir = "./platzi-distilroberta-base-mrpc-glue-omar-espejel",
    evaluation_strategy="steps",
    num_train_epochs=3,
    push_to_hub_organization="platzi",
    push_to_hub=True,
    load_best_model_at_end=True
)



In [None]:
!huggingface-cli login


        _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
        _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
        _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
        _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
        _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

        To login, `huggingface_hub` now requires a token generated from https://huggingface.co/settings/tokens .
        
Token: 
Login successful
Your token has been saved to /root/.huggingface/token
[1m[31mAuthenticated through git-credential store but this isn't the helper defined on your machine.
You might have to re-authenticate when pushing to the Hugging Face Hub. Run the following command in yo

In [17]:
from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=prepared_ds["train"],
    eval_dataset=prepared_ds["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

### Entrenamiento

In [None]:
train_results = trainer.train()
trainer.save_model()
trainer.log_metrics("train", train_results.metrics)
trainer.save_metrics("train", train_results.metrics)

The following columns in the training set don't have a corresponding argument in `RobertaForSequenceClassification.forward` and have been ignored: idx, sentence2, sentence1. If idx, sentence2, sentence1 are not expected by `RobertaForSequenceClassification.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 3668
  Num Epochs = 3
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 1377


Step,Training Loss,Validation Loss,Accuracy,F1
500,0.5076,0.746438,0.813725,0.867133
1000,0.3443,0.63318,0.843137,0.886121


The following columns in the evaluation set don't have a corresponding argument in `RobertaForSequenceClassification.forward` and have been ignored: idx, sentence2, sentence1. If idx, sentence2, sentence1 are not expected by `RobertaForSequenceClassification.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 408
  Batch size = 8


Downloading builder script:   0%|          | 0.00/5.75k [00:00<?, ?B/s]

Saving model checkpoint to ./platzi-distilroberta-base-mrpc-glue-omar-espejel/checkpoint-500
Configuration saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/checkpoint-500/config.json
Model weights saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/checkpoint-500/pytorch_model.bin
tokenizer config file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/checkpoint-500/tokenizer_config.json
Special tokens file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/checkpoint-500/special_tokens_map.json
tokenizer config file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/tokenizer_config.json
Special tokens file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/special_tokens_map.json
The following columns in the evaluation set don't have a corresponding argument in `RobertaForSequenceClassification.forward` and have been ignored: idx, sentence2, sentence1. If idx, sentence2, sentence1 are not expected by `RobertaForSequenceClassific

Upload file pytorch_model.bin:   0%|          | 3.34k/313M [00:00<?, ?B/s]

Upload file runs/Jul29_20-49-42_cc51138c70be/events.out.tfevents.1659128639.cc51138c70be.71.0:  64%|######3   ‚Ä¶

To https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel
   4aeb4e5..ac0dc3c  main -> main

   4aeb4e5..ac0dc3c  main -> main

To https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel
   ac0dc3c..29957fb  main -> main

   ac0dc3c..29957fb  main -> main



***** train metrics *****
  epoch                    =        3.0
  total_flos               =   191920GF
  train_loss               =     0.3627
  train_runtime            = 0:01:46.91
  train_samples_per_second =    102.919
  train_steps_per_second   =     12.879


### Evaluaci√≥n

In [None]:
metrics = trainer.evaluate(prepared_ds["validation"])
trainer.log_metrics("eval", metrics)
trainer.save_metrics("eval", metrics)

The following columns in the evaluation set don't have a corresponding argument in `RobertaForSequenceClassification.forward` and have been ignored: idx, sentence2, sentence1. If idx, sentence2, sentence1 are not expected by `RobertaForSequenceClassification.forward`,  you can safely ignore this message.
***** Running Evaluation *****
  Num examples = 408
  Batch size = 8


***** eval metrics *****
  epoch                   =        3.0
  eval_accuracy           =     0.8431
  eval_f1                 =     0.8861
  eval_loss               =     0.6332
  eval_runtime            = 0:00:01.50
  eval_samples_per_second =    270.917
  eval_steps_per_second   =     33.865


### Compartimos en el Hub

In [None]:
kwargs = {
    "finetuned_from": model.config._name_or_path,
    "tasks": "text-classification",
    "dataset": "datasetX",
    "tags": ["text-classification"]
}

trainer.push_to_hub(commit_message="Lo logramos de nuevo equipo Platzi! ü§ó", **kwargs)

Saving model checkpoint to ./platzi-distilroberta-base-mrpc-glue-omar-espejel
Configuration saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/config.json
Model weights saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/pytorch_model.bin
tokenizer config file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/tokenizer_config.json
Special tokens file saved in ./platzi-distilroberta-base-mrpc-glue-omar-espejel/special_tokens_map.json


Upload file runs/Jul29_20-49-42_cc51138c70be/events.out.tfevents.1659129486.cc51138c70be.71.2: 100%|##########‚Ä¶

To https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel
   29957fb..b61c5f8  main -> main

   29957fb..b61c5f8  main -> main

To https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel
   b61c5f8..cd46619  main -> main

   b61c5f8..cd46619  main -> main



'https://huggingface.co/platzi/platzi-distilroberta-base-mrpc-glue-omar-espejel/commit/b61c5f87244a9631be12d2c93946b004697acac2'