# Conteggio dei Token

### Significato e Utilità

Il conteggio dei token rappresenta un'operazione fondamentale in molteplici ambiti legati all'elaborazione del linguaggio naturale, in particolare quando si lavora con modelli di linguaggio avanzati. Le principali applicazioni includono:

- **Preprocessing dei dati**: garantisce che il testo rientri nei limiti massimi di token gestibili dal modello, evitando tagli indesiderati o errori di input.
- **Ottimizzazione del contesto**: permette di massimizzare le informazioni fornite al modello, migliorando la qualità delle risposte nei sistemi di completamento o generazione.
- **Gestione di documenti lunghi**: agevola la suddivisione di testi estesi in segmenti compatibili con le finestre di contesto del modello.
- **Controllo dei costi**: i costi di utilizzo delle API di molti modelli di linguaggio sono calcolati sulla base del numero di token elaborati; un conteggio accurato è quindi essenziale per la gestione e la previsione delle spese.
- **Prompt engineering e fine-tuning**: consente di progettare prompt e dataset di addestramento efficienti e aderenti alle specifiche tecniche del modello.
- **Compattazione di informazioni strutturate**: aiuta a sintetizzare dati complessi in una rappresentazione compatta e ottimizzata per il modello.
- **Sviluppo di interfacce conversazionali**: rende possibile implementare limiti dinamici di lunghezza nei chatbot e nelle interfacce utente, migliorando l’usabilità e il controllo del sistema.

Il conteggio dei token non è soltanto un requisito tecnico, ma una pratica strategica per il controllo, la scalabilità e la sostenibilità di qualsiasi applicazione basata su modelli di linguaggio.


In [13]:
# TikToken è un tokenizer open source fornito da OpenAI
import tiktoken  # pip install tiktoken

In [14]:
encoding = tiktoken.encoding_for_model("gpt-4o-mini")

In [23]:
# generazione token
encoded = encoding.encode("Voglio una vita spericolata.Voglio una vita come quelle dei film.")

print(len(encoded), "token")
print(encoded)

16 token
[53, 198549, 1969, 27565, 49450, 19040, 546, 5970, 198549, 1969, 27565, 3063, 47442, 12749, 5586, 13]


In [24]:
for i in encoded:
    print(encoding.decode([i]), end="/")

V/oglio/ una/ vita/ sper/icol/ata/.V/oglio/ una/ vita/ come/ quelle/ dei/ film/./

In [25]:
# decodifica del testo originale codificato
encoding.decode(encoded)

'Voglio una vita spericolata.Voglio una vita come quelle dei film.'

In [26]:
# stampa dei singoli token

print("-", end="")
for tok in encoded:
    print(encoding.decode_single_token_bytes(tok).decode("utf-8") + "___", end="")

-V___oglio___ una___ vita___ sper___icol___ata___.V___oglio___ una___ vita___ come___ quelle___ dei___ film___.___