<a href="https://colab.research.google.com/github/ManelSoengas/NLP_Curs/blob/main/Utilitzant_Transformers_Tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Tokenizador**

---

Els tokenizers són un dels components bàsics del gasoducte NLP. Tenen una finalitat: traduir text en dades que puguin ser processades pel model. Els models només poden processar números, de manera que els tokenitzadors han de convertir les nostres entrades de text en dades numèriques. En aquesta secció, explorarem exactament què passa en el pipeline de tokenització.

# **Tokenizador basat en paraules**

---
És un tokenitzador que divideix el text per paraules (normalment usant espais i puntuació com delimitadors). Cada paraula es considera un token únic.
Out-of-vocabulary (OOV): si una paraula no és al diccionari, no es pot tokenitzar correctament.

1. Gran memòria: el vocabulari pot arribar a milions de paraules.

2. Difícil d’optimitzar per inferència, ja que cada paraula necessita un embedding.


In [None]:
tokenized_text = "Manel is a great person".split()
print(tokenized_text)

['Manel', 'is', 'a', 'great', 'person']


# **Tokenizador basat en caràcters**

---

Un tokenizer basat en caràcters divideix el text en tokens d’un sol caràcter.
Això vol dir que cada lletra, número, espai o símbol es tracta com un token independent.

**Avantatges :**
1. No té problemes de vocabulari desconegut (OOV)
2. Vocabulari extremadament compacte
3. Apte per idiomes amb morfologia rica

**Inconvenients:**
1. Seqüències molt llargues
2. No capta fàcilment la semàntica de paraules
3. Apte per idiomes amb morfologia rica	Més cost computacional

# **Tokenització de subparaules**

---

Els algorismes de tokenització de subparaules es basen en el principi que les paraules d'ús freqüent no s'han de dividir en subparaules més petites, però les paraules rares s'han de descompondre en subparaules significatives.

Aquestes subparaules acaben proporcionant molt significat semàntic: per exemple, a l'exemple anterior, "tokenization" es va dividir en "token" i "ization", dos fitxes que tenen un significat semàntic alhora que són eficients en l'espai (només es necessiten dos fitxes per representar una paraula llarga)

In [1]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [2]:
tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [4]:
tokenizer.save_pretrained("/content")

('/content/tokenizer_config.json',
 '/content/special_tokens_map.json',
 '/content/vocab.txt',
 '/content/added_tokens.json')

In [5]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']


In [6]:
ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 13809, 23763, 2443, 1110, 3014]


**attention_mask**:

Indica quines parts del text han de ser "ateses" pel model.

1. Valor 1 → el token és vàlid i s'ha de tenir en compte.

2. Valor 0 → el token és padding (farciment) i no s'ha de processar.

En el teu exemple: tot són 1, vol dir que no hi ha padding i tots els tokens són útils.

**token_type_ids**:

Utilitzat sobretot en models com BERT que poden treballar amb dues frases (segments) en la mateixa entrada.

Cada token rep un ID:

1. 0: Pertany a la primera frase (segment A).

1. 1: Pertany a la segona frase (segment B).

Tot són 0, per tant, és només una frase (cap comparació entre frases).

In [7]:
decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)

Using a transformer network is simple
