<a href="https://colab.research.google.com/github/ManelSoengas/NLP_Curs/blob/main/Utilitzant_Transformers_Ajuntant_ho_tot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ajuntant-ho tot**

---
Els Transformers poden gestionar tot el procés per a nosaltres amb una funció d'alt nivell. Quan es crida al tokenizer directament amb la frase, s'obtenen les entrades a punt per passar pel vostre model.


In [None]:
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)

Aquí, la variable model_inputs conté tot el que és necessari perquè un model funcioni bé. Per a DistilBERT, això inclou els ID d'entrada així com la màscara d'atenció. Altres models que accepten entrades addicionals també tindran les sortides per l'objecte tokenizer.

Es pot "pad" segons diversos objectius:



In [None]:
# Will pad the sequences up to the maximum sequence length
model_inputs = tokenizer(sequences, padding="longest")

# Will pad the sequences up to the model max length
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, padding="max_length")

# Will pad the sequences up to the specified max length
model_inputs = tokenizer(sequences, padding="max_length", max_length=8)

També pot truncar seqüències:

In [None]:
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Will truncate the sequences that are longer than the model max length
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, truncation=True)

# Will truncate the sequences that are longer than the specified max length
model_inputs = tokenizer(sequences, max_length=8, truncation=True)

L'objecte tokenizer pot gestionar la conversió a tensors de marc específics, que després es poden enviar directament al model. Per exemple, a la mostra de codi següent, demanem al tokenitzador que retorni tensors dels diferents marcs: "pt" retorna tensors PyTorch, "tf" retorna tensors TensorFlow i "np" retorna matrius NumPy:

In [None]:
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# Returns PyTorch tensors
model_inputs = tokenizer(sequences, padding=True, return_tensors="pt")

# Returns TensorFlow tensors
model_inputs = tokenizer(sequences, padding=True, return_tensors="tf")

# Returns NumPy arrays
model_inputs = tokenizer(sequences, padding=True, return_tensors="np")

# **Tokens especials**

---

Fent un cop d'ull als ID d'entrada retornats pel tokenizer, veurem que són una mica diferents del que teníem anteriorment:

In [None]:
sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)
print(model_inputs["input_ids"])



In [None]:


tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

In [None]:
print(tokenizer.decode(model_inputs["input_ids"]))

In [None]:
print(tokenizer.decode(ids))


# **Embolcall: del tokenitzador al model**

---
Ara que hem vist tots els passos individuals que utilitza l'objecte tokenizer quan s'aplica als textos, veiem per darrera vegada com pot gestionar múltiples seqüències (padding!), seqüències molt llargues (truncament!) i múltiples tipus de tensors amb la seva API principal:


In [None]:
import tensorflow as tf
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = TFAutoModelForSequenceClassification.from_pretrained(checkpoint)
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="tf")
output = model(**tokens)

1. **tensorflow** és la llibreria de machine learning de Google, molt usada per entrenar i executar models.

1. **transformers** és la llibreria de Hugging Face, que facilita l’ús de models preentrenats com BERT, GPT, etc.

1. **AutoTokenizer** s’encarrega de convertir text en tokens numèrics.

1. **TFAutoModelForSequenceClassification** carrega un model preentrenat per fer classificació de frases o textos en TensorFlow (versió TF, no PyTorch).

1. **Checkpoint** fa referència a un model DistilBERT (versió més lleugera de BERT) que ja està entrenat per fer anàlisi de sentiment sobre el conjunt de dades SST-2 (Stanford Sentiment Treebank).
1. Finalment es carregua el tokenitzador (per convertir textos en nombres que el model entén). I també el model de classificació preentrenat.
