# Conteggio Token

### Utilità
Il conteggio dei token è un'attività necessaria in diversi task, tra cui:
* Preprocessing del testo per rispettare i limiti dei modelli
* Ottimizzazione del contesto per modelli di completamento
* Suddivisione di documenti lunghi
* Determinazione del costo delle API
* Prompt engineering e fine-tuning
* Compattazione di informazioni strutturate
* Interfacce utente o chatbot con limiti di lunghezza



In [1]:
# TikToken è un tokenizer open source fornito da OpenAI
import tiktoken  # pip install tiktoken

In [2]:
encoding = tiktoken.encoding_for_model("gpt-4o-mini")

In [3]:
# generazione token

encoded = encoding.encode(" vediamo vediamo vediamo quanti token si producono con questa frase e come possono essere eventualmente suddivise in token le singole parole, comprese parole inesistenti come frangullapporeo")

print(len(encoded), "token")
print(encoded)

42 token
[13162, 26823, 13162, 26823, 13162, 26823, 8237, 72, 6602, 1784, 2443, 61144, 406, 40897, 65236, 319, 3063, 72713, 29919, 185272, 10332, 862, 1096, 306, 6602, 505, 6211, 1491, 58354, 11, 48769, 344, 58354, 173382, 421, 14989, 3063, 1441, 516, 754, 903, 164779]


In [4]:
# decodifica del testo originale codificato

encoding.decode(encoded)

' vediamo vediamo vediamo quanti token si producono con questa frase e come possono essere eventualmente suddivise in token le singole parole, comprese parole inesistenti come frangullapporeo'

In [5]:
# stampa dei singoli token

print("-", end="")
for tok in encoded:
    print(encoding.decode_single_token_bytes(tok).decode("utf-8") + "___", end="")

- ved___iamo___ ved___iamo___ ved___iamo___ quant___i___ token___ si___ produ___cono___ con___ questa___ frase___ e___ come___ possono___ essere___ eventualmente___ sud___div___ise___ in___ token___ le___ sing___ole___ parole___,___ compre___se___ parole___ ines___ist___enti___ come___ fr___ang___ull___app___oreo___

### Analisi della tokenizzazione

Notiamo la parola `producono` suddivisa nei token `produ` e `cono`    
    
La suddivisione in token non segue una logica morfologica o semantica del linguaggio naturale, ma è influenzata dalla frequenza statistica delle sottoparti delle parole presenti nel corpus di addestramento del modello. In questo caso, è probabile che "produ" e "cono" siano stati trovati come segmenti ricorrenti in altre parole (ad esempio, "produ" in "produrre" o "produzione", e "cono" in "cono" stesso o altre parole).    
    
Questo processo di creazione di **sub-words** avviene per:
* **Frequenza statistica**: Il modello ha trovato "produ" e "cono" come unità più frequenti e quindi li tratta come segmenti indipendenti.
* **Efficienza**: La tokenizzazione mira a ridurre il numero complessivo di token. Se "produ" e "cono" sono parti frequenti di altre parole, tenerli come token separati può ridurre il numero totale di token necessari nel vocabolario del modello.
* **Flessibilità**: Dividere in token sub-word permette al modello di gestire parole rare o non viste durante l'addestramento. Se una parola come "producono" fosse estremamente rara, avere un token per ogni sotto-segmento (ad esempio, "produ" e "cono") permette al modello di gestirla anche se non ha visto esattamente quella parola completa durante l'addestramento.    
    
La parola inesistente utilizzata, `frangullapporeo` dimostra ancora meglio la capacità di tokenizzare anche parole non incontrate durante il processo di addestramento.