# 9. Transformers via Hugging Face

![](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fmedia2.giphy.com%2Fmedia%2FTw0rSdQs4fbJC%2Fgiphy.gif&f=1&nofb=1&ipt=f07b4382bc4ac4352b1ae008a847fca249f95f46816f6427add49ed63c1b0062&ipo=images)

## Transformers

- Es una arquitectura alternativa a redes recurrentes y convolucionales
- Introducida en 2017 en el paper [*Attention Is All You Need*](https://arxiv.org/abs/1706.03762)
- Esta arquitectura influenció una gran cantidad de modelos. Podemos agruparlos como se muestra a continuación:
    - GPT-like
    - BERT-like
    - BART/T5-like

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg)
> Tomada de [Huggin Face - NLP Course](https://huggingface.co/learn/nlp-course/chapter1/4)

### Los transformers son modelos del lenguaje

- Se entrenan de forma self-supervised
- El objetivo se determina automaticamente computado de los inputs
  - Precisa grandes corpus de entrenamiento
  - Permite entendimiento estadistico del lenguaje


### El problema de los transformers

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/model_parameters.png)

- Entrenarlos no es sencillos, requiere muchos datos y computo
- Tienen un [impacto ambiental considerable](https://www.youtube.com/watch?v=ftWlj4FBHTg)
- Compartir los modelos es una forma de reducir tiempo, costos e impacto ambiental
    - [Hugging Face](https://huggingface.co/)
    - https://paperswithcode.com/
    - https://www.kaggle.com/models

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint.svg)

### Transfer learning y fine-tuning

- Estos modelos pre-entrenados pasan por un proceso llamado *transfer learning*
- Durante este se realiza el proceso de *fine-tuning* con datos anotados por humanos (aprendizaje supervisado)
  - Por ejemplos: Si se tiene un modelo entrenado con un gran corpus en español se puede realizar el *fine-tuning* con un corpus de textos cientificos obtendremos un modelo especializado en *science/research*

### Arquitectura

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg)

- Solo encoder: Tareas que precisan entendimiento del input como etiquetadores
- Solo decoder: Tareas Que realizan generación de texto
- Encoder-decoder (seq2seq transformers): Tareas de generación de texto que requiere el input como traducción automática

### Atención

- Es un componente crucial que consiste en son capas especiales llamadas *attention layers*
- A grosso modo, esta capa le dirá al modelo como prestar atención solo a algunas partes de la oración cuando se crea la representación vectorial de cada palabra
  - En el ejemplo "it" hace alusión a "animal" por lo que se tiene que poner más atención a esa sección de la oración


![](https://jalammar.github.io/images/t/transformer_self-attention_visualization.png)

> Tomada de [Illustated Transformer](https://jalammar.github.io/illustrated-transformer/)

In [None]:
!pip install -U transformers
!pip install datasets
!pip install evaluate

Collecting evaluate
  Downloading evaluate-0.4.2-py3-none-any.whl (84 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: evaluate
Successfully installed evaluate-0.4.2


### Ejemplos

- [Tareas disponibles](https://huggingface.co/docs/transformers.js/en/pipelines#available-tasks)
- Modelos chiquitos - https://huggingface.co/distilbert

In [None]:
import transformers
from transformers import pipeline

transformers.logging.set_verbosity_error()

In [None]:
classifier = pipeline("sentiment-analysis", model="distilbert/distilbert-base-uncased-finetuned-sst-2-english")
classifier(["i think this is amazing", "my bag is awful", "i want pizza"])

[{'label': 'POSITIVE', 'score': 0.9998804330825806},
 {'label': 'NEGATIVE', 'score': 0.9996931552886963},
 {'label': 'POSITIVE', 'score': 0.9801234602928162}]

In [None]:
generator = pipeline("text-generation", model="distilbert/distilgpt2", num_return_sequences=2, max_length=30)
generator("I think that")

[{'generated_text': 'I think that with this new approach, we\'ve got to go in more directions."'},
 {'generated_text': 'I think that the only reason we can do something like that is because the only reason we can do something like that is because we have a lot of'}]

In [None]:
question_answerer = pipeline("question-answering", model="distilbert/distilbert-base-uncased-distilled-squad")
question_answerer(
    question="What is the course about?",
    context="I think this course Computer Linguistic was life changing stuff!!!",
)

{'score': 0.9101327657699585,
 'start': 20,
 'end': 39,
 'answer': 'Computer Linguistic'}

In [None]:
ner = pipeline("token-classification", model="dslim/bert-base-NER", aggregation_strategy="simple")
ner("My name is Diego and I live on Mexico City. I work at Mercado Libre doing software development and I teach a course at Universidad Nacional Autonoma de Mexico.")

[{'entity_group': 'PER',
  'score': 0.9990382,
  'word': 'Diego',
  'start': 11,
  'end': 16},
 {'entity_group': 'LOC',
  'score': 0.9995446,
  'word': 'Mexico City',
  'start': 31,
  'end': 42},
 {'entity_group': 'ORG',
  'score': 0.9988357,
  'word': 'Mercado Libre',
  'start': 54,
  'end': 67},
 {'entity_group': 'ORG',
  'score': 0.9988647,
  'word': 'Universidad Nacional Autonoma de Mexico',
  'start': 119,
  'end': 158}]

### Explicando que hay detras de `pipeline()`

![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/full_nlp_pipeline.svg)

In [None]:
raw_inputs = [
    "I think my bike is awesome",
    "I hate when you talk like goofy :("
]

In [None]:
classifier = pipeline("sentiment-analysis")
classifier(raw_inputs)

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9998179078102112},
 {'label': 'NEGATIVE', 'score': 0.9928321838378906}]

Vamos a desmenuzar esto suavecito. Vemos que en el `pipeline()` hay tres elementos importantes:

- Preprocesamiento
- Modelo

- Posprocesamiento

### 1. Preprocesamiento y tokenización

- Tokenización
- Mapeo de tokens a números
- Agregar elemento que sean útiles al modelo

Estos pasos deben ser exactamente los mismos que los del modelo pre-entrenado. Para obtener esta información utilizaremos `AutoTokeninzer`

In [None]:
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

In [None]:
inputs = tokenizer(raw_inputs, padding=True, truncation=False, return_tensors="pt")
inputs

{'input_ids': tensor([[  101,  1045,  2228,  2026,  7997,  2003, 12476,   102,     0,     0,
             0],
        [  101,  1045,  5223,  2043,  2017,  2831,  2066, 27243,  1024,  1006,
           102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

#### Tokenizers

Los transformers solo aceptan tensores como entrada. Para modificar el tipo de tensor usamos `return_tensors=`

Recordemos que hay varios tipos de tokenizadores:

- Word base
- Character base
- Subword tokenizers

Cargar y guardar tokenizadores puede realizarse mediante los métodos `from_pretrained` y `save_pretrained` respectivamente.

In [None]:
tokenizer.save_pretrained("my_tokenizer")

('my_tokenizer/tokenizer_config.json',
 'my_tokenizer/special_tokens_map.json',
 'my_tokenizer/vocab.txt',
 'my_tokenizer/added_tokens.json',
 'my_tokenizer/tokenizer.json')

In [None]:
!ls my_tokenizer

special_tokens_map.json  tokenizer_config.json	tokenizer.json	vocab.txt


##### Encoding tokenization

Convertir los token a números es conocido como un proceso de *encoding* (NO confundir con *encoders* de los transformers) y consta de dos pasos:

1. Tokenizar
2. Mapear los tokens a números únicos (*ids*).

Hay muchas formas de obtener los tokens por lo que es importante utilizar el mismo proceso de tokenizado con el que fue entrenado el modelo que queramos utilizar.

In [None]:
sentence = raw_inputs[0] + " like tokenizers"
tokens = tokenizer.tokenize(sentence)
tokens

['i', 'think', 'my', 'bike', 'is', 'awesome', 'like', 'token', '##izer', '##s']

Para mapear de tokens a números se necesita el vocabulario (*vocab.txt*). Es importante tener el mismo vocabulario con el que el modelo fue creado.

In [None]:
ids = tokenizer.convert_tokens_to_ids(tokens)
ids

[1045, 2228, 2026, 7997, 2003, 12476, 2066, 19204, 17629, 2015]

##### Decoding tokenization

Decodificar es tomar los ids y pasarlos a su representación textual. Notemos que además de pasar a texto mergeamos los subwords

In [None]:
decoded_string = tokenizer.decode(ids)
decoded_string

'i think my bike is awesome like tokenizers'

### 2. El Modelo

Asi como obtuvimos el tokenizador podemos obtener el modelo con el que queramos trabajar. Para ello usaremos `AutoModel`

In [None]:
from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

El modelo nos regresará los estados ocultos (*hidden states*) que será la representación **contextual** del texto de entrada.

La salida contendrá usualmente:

- Batch size: Oraciones procesadas
- Sequence length: Longitud de la representación númerica de las oraciones
- Hidden size: ?

In [None]:
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

torch.Size([2, 11, 768])


![](https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/transformer_and_head.svg)

Dependiendo de la tarea a resolver cambiará la capa de *Head*. Siendo más específicos cambiaremos nuestro código para usar `AutoModelForSequenceClassification`

In [None]:
from transformers import AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)
print(outputs.logits.shape)

torch.Size([2, 2])


Se puede instanciar un modelo para entrenarlo desde cero (aunque ya vimos que no es recomendable por la cantidad de datos y computo necesarios)

In [None]:
from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

print(config)

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.40.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}



Generalmente obtendremos mejores resultados si cargamos un modelo previamente entrenado

In [None]:
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased")

Guardar un modelo es sencillo, solo usamos el análogo a `from_pretrained` que es `save_pretrainded`

In [None]:
model.save_pretrained("my_model")

In [None]:
!ls my_model

config.json  model.safetensors


#### Padding y Attention Masks

##### Padding

Hasta ahora nuestro modelo realizó una predicción tomando en cuenta un par de oraciones de entrada:

In [None]:
raw_inputs

['I think my bike is awesome', 'I hate when you talk like goofy :(']

In [None]:
inputs

{'input_ids': tensor([[  101,  1045,  2228,  2026,  7997,  2003, 12476,   102,     0,     0,
             0],
        [  101,  1045,  5223,  2043,  2017,  2831,  2066, 27243,  1024,  1006,
           102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [None]:
print(inputs["input_ids"])
print(inputs["attention_mask"])

tensor([[  101,  1045,  2228,  2026,  7997,  2003, 12476,   102,     0,     0,
             0],
        [  101,  1045,  5223,  2043,  2017,  2831,  2066, 27243,  1024,  1006,
           102]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [None]:
tokenizer.pad_token_id

0

¿Qué pasa cuando nuestras oraciones no tienen la misma longitud? Nuestros tensores deben tener una forma rectangular para poder ser creados a partir de un *batch*.

Para ello usamos un *padding* que será de utilidad para lograr tener vectores de forma rectangular

In [None]:
another_ids = [
    [200, 200, 200],
    [200, 200]
]
torch.tensor(another_ids)

ValueError: expected sequence of length 3 at dim 1 (got 2)

In [None]:
another_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id]
]
torch.tensor(another_ids)

tensor([[200, 200, 200],
        [200, 200,   0]])

Mandamos los ids de nuestras secuencias de forma individual y en batch:

In [None]:
sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)

tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward0>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)
tensor([[ 1.5694, -1.3895],
        [ 1.3374, -1.2163]], grad_fn=<AddmmBackward0>)


Podemos ver que no estamos obteniendo el mismo resultado para los logits de la secuencia 2 ¿Porqué?

##### Attention mask

Las *attention masks* son vectores del mismo tamaño que los vectores de ids con 1's y 0's para indicar que tokens seran tomados en cuenta.

In [None]:
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]

outputs = model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)
print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)
tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward0>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)


#### Truncation

Los modelos de transformers tienen limitaciones en cuanto a la longitud de la oración se refiere. Muchos modelos solo pueden lidiar con entre 512 y 1024 tokens. Es importante tomar en cuenta esto:

```python
sequence = sequence[:max_sequence_length]
```

In [None]:
tokenizer.model_max_length

512

### 3. Posprocesamiento

In [None]:
outputs.logits

tensor([[-4.1352,  4.4754],
        [ 2.6819, -2.2491]], grad_fn=<AddmmBackward0>)

Necesitamos posprocesar estos valores llamados *logits* (scores no normalizados). Para obtener probabilidades necesitamos usar la capa [*SoftMax*](https://en.wikipedia.org/wiki/Softmax_function).

In [None]:
import torch

logits = outputs.logits
softmax = torch.nn.Softmax(dim=-1)
probs = softmax(logits)
print(probs)

tensor([[1.8213e-04, 9.9982e-01],
        [9.9283e-01, 7.1678e-03]], grad_fn=<SoftmaxBackward0>)


In [None]:
model.config.id2label

{0: 'NEGATIVE', 1: 'POSITIVE'}

Con esta información podemos concluir que el modelo asigno las siguientes labels:
1. *NEGATIVE*: 0.00001, *POSITIVE*: 0.99982
2. *NEGATIVE*: 0.99283, *POSITIVE*: 0.00071

### Fine-tuneando modelos

Para el fine-tuning usaremos el modelo de `bert-base-uncased`. Podemos encontrar la información del modelo en su [model-card](https://huggingface.co/google-bert/bert-base-uncased)

In [None]:
checkpoint = "bert-base-uncased"

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model=checkpoint)
unmasker("This linguistics course will teach you all about [MASK] models", top_k=2)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

[{'score': 0.08629286289215088,
  'token': 8045,
  'token_str': 'mathematical',
  'sequence': 'this linguistics course will teach you all about mathematical models'},
 {'score': 0.051469720900058746,
  'token': 2653,
  'token_str': 'language',
  'sequence': 'this linguistics course will teach you all about language models'}]

#### Dataset

El dataset que utilizaremos sera el **MRPC (Microsoft Research Paraphrase Corpus)** introducido en este [paper](https://www.aclweb.org/anthology/I05-5002.pdf).

Consiste en ~5.8k oraciones con sus etiquetas indicando si son oraciones parafraseadas o no (o sea que ambas oraciones quieren decir lo mismo). Mas infromación en la [página del dataset](https://huggingface.co/datasets/nyu-mll/glue#mrpc).

In [None]:
from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

In [None]:
train_dataset = raw_datasets["train"]
train_dataset[0]

{'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .',
 'label': 1,
 'idx': 0}


Obtengamos mas información hacerca del `'label'`

In [None]:
train_dataset.features

{'sentence1': Value(dtype='string', id=None),
 'sentence2': Value(dtype='string', id=None),
 'label': ClassLabel(names=['not_equivalent', 'equivalent'], id=None),
 'idx': Value(dtype='int32', id=None)}

In [None]:
checkpoint

'bert-base-uncased'

#### Preprocesamiento

La tarea requiere que le pasemos al modelo un par de oraciones para determinar si efectivamente si quieren decir lo mismo. `tokenizer()` puede lidiar con este caso

In [None]:
inputs = tokenizer("The first sentence", "The second sentence!!!")
inputs

{'input_ids': [101, 1996, 2034, 6251, 102, 1996, 2117, 6251, 999, 999, 999, 102], 'token_type_ids': [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

`token_types_ids` le indica al modelo que tokens corresponden a la primera oración y cuales a la segunda

In [None]:
tokenizer.convert_ids_to_tokens(inputs["input_ids"])

['[CLS]',
 'the',
 'first',
 'sentence',
 '[SEP]',
 'the',
 'second',
 'sentence',
 '!',
 '!',
 '!',
 '[SEP]']

Vemos que además el tokenizador agrego los tokens especiales `[CLS]` y `[SEP]`

In [None]:
from datasets.dataset_dict import DatasetDict

def do_tokenization(example: DatasetDict) -> dict:
    # Dejamos fuera padding=True por una buena razón ¿Cúal?
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

Queremos mantener los datos del tipo `DatasetDict` por ellos utilizaremos el método `Dataset.map()` aplicando una función de tokenizado

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(checkpoint)

tokenized_dataset = raw_datasets.map(do_tokenization, batched=True)
tokenized_dataset



Map:   0%|          | 0/408 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})

##### Dynamic padding

No aplicamos el pagging en la función de tokenizado porque no es optimo

El *dynamic padding* permite aplicar padding dependiendo de la oración más grande en el batch

Aplicar esta técnica puede no ser optima para cierto hardware como las *TPUs* que esperan siempre un padding fijo


In [None]:
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer)

In [None]:
samples = tokenized_dataset["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}
[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]

In [None]:
batch = data_collator(samples)
{k: v.shape for k, v in batch.items()}

{'input_ids': torch.Size([8, 67]),
 'token_type_ids': torch.Size([8, 67]),
 'attention_mask': torch.Size([8, 67]),
 'labels': torch.Size([8])}

Vemos como en este batch simulado de 8 elementos el padding queda en 67

#### Entrenamiento

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments("my-trainer")

In [None]:
!ls

sample_data


In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

##### Fine-tuning time!!!

In [None]:
trainer.train()

Step,Training Loss
500,0.5048
1000,0.2606


TrainOutput(global_step=1377, training_loss=0.3093994406573393, metrics={'train_runtime': 215.1792, 'train_samples_per_second': 51.139, 'train_steps_per_second': 6.399, 'total_flos': 405114969714960.0, 'train_loss': 0.3093994406573393, 'epoch': 3.0})

El modelo solo muestra el `loss` pero no nos dice que tan bien o mal esta prediciendo nuestro modelo ya que no indicamos una forma de hacerlo.

#### Probando el modelo manualmente

In [None]:
other_model = AutoModelForSequenceClassification.from_pretrained("my-trainer/checkpoint-500", local_files_only=True)

In [None]:
raw_inputs = [
    "This bike is just like other but without breaks. I called it fixie gear",
    #"Fixie bikes are bikes that does not have breaks"
    "I like turtles"
]
inputs = tokenizer(raw_inputs[0], raw_inputs[1], return_tensors='pt')
outputs = other_model(**inputs)
outputs.logits

tensor([[ 1.3052, -1.6113]], grad_fn=<AddmmBackward0>)

In [None]:
import torch

logits = outputs.logits
softmax = torch.nn.Softmax(dim=-1)
probs = softmax(logits)
print(probs)

tensor([[0.9487, 0.0513]], grad_fn=<SoftmaxBackward0>)


#### Evaluación

In [None]:
tokenized_dataset["validation"]

Dataset({
    features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 408
})

In [None]:
predictions = trainer.predict(tokenized_dataset["validation"])
print(predictions.predictions.shape, predictions.label_ids.shape)

(408, 2) (408,)


In [None]:
predictions.metrics

{'test_loss': 0.6822932958602905,
 'test_runtime': 5.2332,
 'test_samples_per_second': 77.964,
 'test_steps_per_second': 9.745}

In [None]:
import numpy as np

preds = np.argmax(predictions.predictions, axis=-1)

In [None]:
preds

array([1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1,

Para obtener el golden standard vamos a descargar las metricas asociadas al dataset. Utilizaremos el método `compute()`

In [None]:
import evaluate

metric = evaluate.load("glue", "mrpc")
metric.compute(predictions=preds, references=predictions.label_ids)

Downloading builder script:   0%|          | 0.00/5.75k [00:00<?, ?B/s]

{'accuracy': 0.8578431372549019, 'f1': 0.901023890784983}

Con esto podemos crear una función que compute las métricas de evaluación para reportar el desempeño del modelo en el entrenamiento

In [None]:
def compute_metrics(eval_preds: np.array) -> dict:
    metric = evaluate.load("glue", "mrpc")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [None]:
training_args = TrainingArguments("my-metric-trainer", evaluation_strategy="epoch")
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    # Esto es nuevo O:
    compute_metrics=compute_metrics,
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy,F1
1,No log,0.683756,0.637255,0.696721
2,0.622000,0.466078,0.784314,0.841727
3,0.492400,0.493502,0.835784,0.887395


Epoch,Training Loss,Validation Loss


TrainOutput(global_step=1377, training_loss=0.5080210257026712, metrics={'train_runtime': 218.0946, 'train_samples_per_second': 50.455, 'train_steps_per_second': 6.314, 'total_flos': 540526718800080.0, 'train_loss': 0.5080210257026712, 'epoch': 3.0})

## Limitaciones y Bias de modelos

Recordemos que estamos utilizando modelos preentrenados con grande cantidades de datos, mucho con datos de internet.

Esto implica que los modelos pueden estar cesgados

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


['carpenter', 'lawyer', 'farmer', 'businessman', 'doctor']
['nurse', 'maid', 'teacher', 'waitress', 'prostitute']


Es importante tener en cuenta que estos cesgos presentes en los modelos que pueden arrojar predicciones sexistas, homofobicas, racistas por mencionar algunas.

Realizar fine-tuning no hará que estos cesgos intrinsecos desaparezcan.

#### Una última cosa

![](https://media.giphy.com/media/v1.Y2lkPTc5MGI3NjExdjg4b3Z1bXh4Y3ZwcXBtaXJ4eTE5aHhmaTJtY3RqYjljeHk4c2Z5OSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/5IT69msgpaOcg/giphy.gif)

# Referencias

- El código e imagenes presentadas en esta práctica son una adaptación de las secciones 1, 2 y 3 del [curso NLP de Hugging Face](https://huggingface.co/learn/nlp-course/chapter1/1)