# Clasificación de textos con 🤗 Transformers

> Cómo afinar un modelo de RoBERTa en español para clasificar las reseñas de Amazon.

## TODO

* Add push to Hub section
* Add try it out suggestions
* Add label2id

## Configuración

Si ejecuta este notebook en Colab, ejecute la celda siguiente para instalar las bibliotecas:

In [None]:
!pip install transformers datasets

## Cargue las bibliotecas

In [1]:
import random
import numpy as np
import pandas as pd
from IPython.display import display, HTML
from datasets import load_dataset, load_metric, ClassLabel
from transformers import AutoTokenizer, AutoModelForSequenceClassification

## Cargar y explorar los datos

In [2]:
dataset = load_dataset("amazon_reviews_multi", "es")
dataset

Reusing dataset amazon_reviews_multi (/home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609)


DatasetDict({
    train: Dataset({
        features: ['review_id', 'product_id', 'reviewer_id', 'stars', 'review_body', 'review_title', 'language', 'product_category'],
        num_rows: 200000
    })
    validation: Dataset({
        features: ['review_id', 'product_id', 'reviewer_id', 'stars', 'review_body', 'review_title', 'language', 'product_category'],
        num_rows: 5000
    })
    test: Dataset({
        features: ['review_id', 'product_id', 'reviewer_id', 'stars', 'review_body', 'review_title', 'language', 'product_category'],
        num_rows: 5000
    })
})

In [3]:
def show_random_elements(dataset, num_examples=10):
    "Taken from https://github.com/huggingface/notebooks/blob/master/examples/text_classification.ipynb"
    
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

show_random_elements(dataset["train"])

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0793277,product_es_0911710,reviewer_es_0001144,3,"La funda viene envuelta en un plástico protector. Es tipo libro como se ve en la foto. Lo bueno, tiene para tarjetas. Lo malo, el cierre queda al revés (pero te acostumbras) y, al menos la que yo tengo, es demasiado justa para el Redmi 2S. Costó meterlo.",Ni fu ni fa,es,home
1,es_0243134,product_es_0652914,reviewer_es_0693702,4,precio diseño moderno pero sencillo y encima marca grohe pues esta bien dentro de lo que hay en el mercado,monomando presentable,es,home_improvement
2,es_0203081,product_es_0427037,reviewer_es_0029859,4,Relación calidad precio correcta.,Recomendable,es,pc
3,es_0064962,product_es_0653877,reviewer_es_0679376,1,"No duran nada, se rompen con mirarlos.",Un timo.,es,home
4,es_0253068,product_es_0519782,reviewer_es_0606204,4,"Compré un pack de 10 calcetines y estoy contento con ellos. Tiene un tacto correcto, son cómodos y se ven de buena calidad. Los volvería a comprar",Buenos calcetines,es,apparel
5,es_0499235,product_es_0687243,reviewer_es_0526115,4,"Vestido es de tela muy fina, mas para verano. En la cintura queda un poco suelto pero no queda mal. Lo malo es que en la imagen parece que tiene bolsillos pero no los tiene",Vestido fresquito,es,apparel
6,es_0526646,product_es_0382986,reviewer_es_0076142,2,"Es un rotulador con dos puntas, una fina y una mas gruesa y larga, pero nada de pincel como te lo venden",no tiene punta de pincel,es,wireless
7,es_0373174,product_es_0357187,reviewer_es_0606284,1,"Me llegó rápido, la usé y era una maravilla pero la segunda vez que la usé el botón fallaba. No pude utilizarla una tercera vez porque el botón ya no encendía.",No la compraría más,es,beauty
8,es_0424626,product_es_0137308,reviewer_es_0918855,5,"Muy buena, dosis automática, tactil.",Correcta.,es,home
9,es_0982309,product_es_0787572,reviewer_es_0334671,1,"No me ha venido el cable de alimentación,por lo tanto que no me sirve porque no puedo enchufarlo ala luz",Viene sin la mitad de las cosas,es,electronics


In [4]:
dataset.set_format("pandas")
df = dataset["train"][:]
df.head()

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category
0,es_0491108,product_es_0296024,reviewer_es_0999081,1,Nada bueno se me fue ka pantalla en menos de 8...,television Nevir,es,electronics
1,es_0869872,product_es_0922286,reviewer_es_0216771,1,"Horrible, nos tuvimos que comprar otro porque ...",Dinero tirado a la basura con esta compra,es,electronics
2,es_0811721,product_es_0474543,reviewer_es_0929213,1,Te obligan a comprar dos unidades y te llega s...,solo llega una unidad cuando te obligan a comp...,es,drugstore
3,es_0359921,product_es_0656090,reviewer_es_0224702,1,"No entro en descalificar al vendedor, solo pue...",PRODUCTO NO RECIBIDO.,es,wireless
4,es_0068940,product_es_0662544,reviewer_es_0224827,1,Llega tarde y co la talla equivocada,Devuelto,es,shoes


In [5]:
df["product_category"].value_counts()

home                        26962
wireless                    25886
toy                         13647
sports                      13189
pc                          11191
home_improvement            10879
electronics                 10385
beauty                       7337
automotive                   7143
kitchen                      6695
apparel                      5737
drugstore                    5513
book                         5264
furniture                    5229
baby_product                 4881
office_product               4771
lawn_and_garden              4237
other                        3937
pet_products                 3713
personal_care_appliances     3573
luggage                      3328
camera                       3029
shoes                        2754
digital_ebook_purchase       1843
video_games                  1733
jewelry                      1598
musical_instruments          1530
watch                        1490
industrial_supplies          1482
grocery       

In [6]:
df["stars"].value_counts()

1    40000
2    40000
3    40000
4    40000
5    40000
Name: stars, dtype: int64

In [7]:
dataset.reset_format()

## Fusionar las clasificaciones por estrellas

In [8]:
dataset = dataset.filter(lambda x : x["stars"] != 3)

Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-9593cf0948d4f539.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-48e312ff9c17ae46.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-22bca18e576e3ef2.arrow


In [9]:
def merge_star_ratings(examples):
    if examples["stars"] <= 2:
        label = 0
    else:
        label = 1
    return {"labels": label}

In [10]:
dataset = dataset.map(merge_star_ratings)

Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-bcdebbad383c8b3f.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-4ceba60057897618.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-8afdc3fe1e246b00.arrow


In [11]:
show_random_elements(dataset["train"], num_examples=3)

Unnamed: 0,review_id,product_id,reviewer_id,stars,review_body,review_title,language,product_category,labels
0,es_0332022,product_es_0440971,reviewer_es_0278311,4,"Típicos y casi únicos boligrafos multicolor, un clásico muy útil.",Útil multicolor,es,office_product,1
1,es_0581499,product_es_0726735,reviewer_es_0712036,1,No funciona!!! Ya es el segundo estoy muy molesto!! Y encima tengo que gastar mas tiempo y dinero para devolverlo!!! No es posible!!! Amazon !!!!,Defectuoso!! Es el segundo!!,es,home,0
2,es_0634819,product_es_0675890,reviewer_es_0199794,4,"No se ajustaba muy bien a mis necesidades, podía atarlo a los barrotes verticales pero a nada en altura por lo que casi nunca estaba bien puesto. El material estaba bien",No se adaptaba a mi cuna,es,baby_product,1


## Tokenizar las reseñas

In [12]:
model_checkpoint = "BSC-TeMU/roberta-base-bne"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [13]:
tokenizer.vocab_size

50262

In [14]:
text = "¡hola, me llamo lewis!"
tokenized_text = tokenizer.encode(text)

for token in tokenized_text:
    print(token, tokenizer.decode([token]))

0 <s>
1465 ¡
12616 hola
66 ,
503  me
17111  llamo
532  le
19514 wis
55 !
2 </s>


In [15]:
encoded_text = tokenizer(text, return_tensors="pt")
encoded_text

{'input_ids': tensor([[    0,  1465, 12616,    66,   503, 17111,   532, 19514,    55,     2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [16]:
def tokenize_reviews(examples):
    return tokenizer(examples["review_body"], truncation=True)

In [17]:
columns = dataset["train"].column_names
columns.remove("labels")
encoded_dataset = dataset.map(tokenize_reviews, batched=True, remove_columns=columns)
encoded_dataset

Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-fd6211328c270752.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-310f36bb4cf95611.arrow
Loading cached processed dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-27c48d0c72d51279.arrow


DatasetDict({
    train: Dataset({
        features: ['attention_mask', 'input_ids', 'labels'],
        num_rows: 160000
    })
    validation: Dataset({
        features: ['attention_mask', 'input_ids', 'labels'],
        num_rows: 4000
    })
    test: Dataset({
        features: ['attention_mask', 'input_ids', 'labels'],
        num_rows: 4000
    })
})

In [18]:
encoded_dataset["train"][0]

{'attention_mask': [1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1],
 'input_ids': [0,
  10626,
  3383,
  361,
  503,
  847,
  36181,
  4747,
  334,
  1111,
  313,
  1369,
  1635,
  342,
  403,
  1594,
  4162,
  2957,
  369,
  10925,
  2],
 'labels': 0}

## Cargar el modelo preentrenado

In [19]:
num_labels = 2
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels)

Some weights of the model checkpoint at BSC-TeMU/roberta-base-bne were not used when initializing RobertaForSequenceClassification: ['lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'lm_head.dense.bias', 'lm_head.bias', 'lm_head.decoder.weight', 'lm_head.decoder.bias', 'lm_head.dense.weight']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at BSC-TeMU/roberta-base-bne and are newly initialized: ['classifier.dense.bias', 'classifier.out_proj.b

### De las input IDs a los hidden states

In [20]:
outputs = model(**encoded_text)
outputs

SequenceClassifierOutput(loss=None, logits=tensor([[ 0.0652, -0.0262]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)

## Definir las métricas de rendimiento

In [21]:
metric = load_metric("accuracy")
metric

Metric(name: "accuracy", features: {'predictions': Value(dtype='int32', id=None), 'references': Value(dtype='int32', id=None)}, usage: """
Args:
    predictions: Predicted labels, as returned by a model.
    references: Ground truth labels.
    normalize: If False, return the number of correctly classified samples.
        Otherwise, return the fraction of correctly classified samples.
    sample_weight: Sample weights.
Returns:
    accuracy: Accuracy score.
Examples:

    >>> accuracy_metric = datasets.load_metric("accuracy")
    >>> results = accuracy_metric.compute(references=[0, 1], predictions=[0, 1])
    >>> print(results)
    {'accuracy': 1.0}
""", stored examples: 0)

In [22]:
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)

## Afinar el modelo preentrenado

In [23]:
from transformers import TrainingArguments

model_name = model_checkpoint.split("/")[-1]

batch_size = 16
num_train_epochs=2
num_train_samples = 20_000
train_dataset = encoded_dataset["train"].shuffle(seed=42).select(range(num_train_samples))
logging_steps = len(train_dataset) // (2 * batch_size * num_train_epochs)

training_args = TrainingArguments(
    output_dir="results",
    num_train_epochs=num_train_epochs,     
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    load_best_model_at_end=True,
    metric_for_best_model="accuracy",
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch", 
    logging_steps=logging_steps,
    push_to_hub=True,
    push_to_hub_model_id=f"{model_name}-finetuned-amazon_reviews_multi"
)

Loading cached shuffled indices for dataset at /home/lewis/.cache/huggingface/datasets/amazon_reviews_multi/es/1.0.0/724e94f4b0c6c405ce7e476a6c5ef4f87db30799ad49f765094cf9770e0f7609/cache-98a28664b1adea9d.arrow


In [24]:
from transformers import Trainer

trainer = Trainer(
    model=model, 
    args=training_args, 
    compute_metrics=compute_metrics,
    train_dataset=train_dataset,
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer
)

In [25]:
trainer.train()

***** Running training *****
  Num examples = 20000
  Num Epochs = 2
  Instantaneous batch size per device = 16
  Total train batch size (w. parallel, distributed & accumulation) = 32
  Gradient Accumulation steps = 1
  Total optimization steps = 1250


Epoch,Training Loss,Validation Loss,Accuracy
1,0.1776,0.176088,0.9295
2,0.0924,0.200465,0.93075


***** Running Evaluation *****
  Num examples = 4000
  Batch size = 32
Saving model checkpoint to results/checkpoint-625
Configuration saved in results/checkpoint-625/config.json
Model weights saved in results/checkpoint-625/pytorch_model.bin
tokenizer config file saved in results/checkpoint-625/tokenizer_config.json
Special tokens file saved in results/checkpoint-625/special_tokens_map.json
***** Running Evaluation *****
  Num examples = 4000
  Batch size = 32
Saving model checkpoint to results/checkpoint-1250
Configuration saved in results/checkpoint-1250/config.json
Model weights saved in results/checkpoint-1250/pytorch_model.bin
tokenizer config file saved in results/checkpoint-1250/tokenizer_config.json
Special tokens file saved in results/checkpoint-1250/special_tokens_map.json


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from results/checkpoint-1250 (score: 0.93075).


TrainOutput(global_step=1250, training_loss=0.1513079273223877, metrics={'train_runtime': 223.1055, 'train_samples_per_second': 179.287, 'train_steps_per_second': 5.603, 'total_flos': 2744100307436160.0, 'train_loss': 0.1513079273223877, 'epoch': 2.0})

## Empuje hacia el Hugging Face Hub

In [26]:
trainer.push_to_hub()

Saving model checkpoint to results
Configuration saved in results/config.json
Model weights saved in results/pytorch_model.bin
tokenizer config file saved in results/tokenizer_config.json
Special tokens file saved in results/special_tokens_map.json


'https://huggingface.co/lewtun/roberta-base-bne-finetuned-amazon_reviews_multi/commit/0e74f9c0068eb69400f45fab3e89242b3ecd85f0'