Questo notebook rappresenta un esempio di utilizzo della libreria transformer per interagire con LLM Open Source.<br>
Tutti questi esempi sono tratti dal libro "Hand-on Large Language Models"

In [3]:
from transformers import AutoModelForCausalLM, AutoTokenizer

In [4]:
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Phi-4-mini-instruct",
    torch_dtype="auto",
    trust_remote_code="True",
)
tokenizer = AutoTokenizer.from_pretrained( "microsoft/Phi-4-mini-instruct")

Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:00<00:00, 74.54it/s]


## Pipeline

Il modo pi√π semplice √® quello di utilizzare una pipeline: in questo caso per text-generation

In [5]:
from transformers import pipeline

generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False,
    max_new_tokens=500,
    do_sample=False,
)

messages = [
    {"role":     "user",
     "content" : "Create a funny joke about chickens."}
]

output=generator(messages)
print(output[0]["generated_text"])

Device set to use cpu
The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


Why don't chickens play poker in the jungle? Too many pecking problems!


## Tokenization

Per capire il concetto di tokenizzazione √® possibile scendere di livello rispetto alla pipeline ed utilizzare prima il tokenizer per tokenizzare l'input e poi il model per elaborare l'input tokenizzato

In [6]:
prompt = "Write an email apologizing to Sarah for the tragic gardening mishap. Explain how it happened.<|assistant|>"

# Tokenize the input prompt
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cpu")

# Generate the text
generation_output = model.generate(
  input_ids=input_ids,
  max_new_tokens=20
)

# Print the output
print(tokenizer.decode(generation_output[0]))

The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


Write an email apologizing to Sarah for the tragic gardening mishap. Explain how it happened.<|assistant|>Subject: Sincere Apologies for the Gardening Mishap


Dear Sarah,


I hope this message


Avendo spezzato il processo tra tokenizzazione e generazione √® possibile verificare come l'input viene trasformato dal tokenizer in un array di interi

In [7]:
input_ids

tensor([[ 10930,    448,   3719,  39950,   6396,    316,  32145,    395,    290,
          62374,  66241,  80785,    403,     13, 115474,   1495,    480,  12570,
             13, 200019]])

Sempre utilizzando il tokenizer √® possibile riconvertire questi interi nei rispettivi token

In [8]:
for id in input_ids[0]:
   print(tokenizer.decode(id))

Write
 an
 email
 apolog
izing
 to
 Sarah
 for
 the
 tragic
 gardening
 mish
ap
.
 Explain
 how
 it
 happened
.
<|assistant|>


Anche l'output generato dal modello √® costituito da token.<br>
Questi token contengono sia l'input al modello che l'output generato

In [9]:
generation_output

tensor([[ 10930,    448,   3719,  39950,   6396,    316,  32145,    395,    290,
          62374,  66241,  80785,    403,     13, 115474,   1495,    480,  12570,
             13, 200019,  18174,     25,    336,   2768,    512,   6537,  10384,
            395,    290, 193145, 147276,    403,   2499,  36210,  32145, 123200,
             40,   5498,    495,   3176]])

In [10]:
print(tokenizer.decode(3176))

 message


# Confronto tra tokenizers

Test di come un testo venga tokenizzato diversamente a seconda del tokenizer utilizzato

In [11]:
text = """

English and CAPITALIZATION

üéµÈ∏ü
show_tokens False None elif == >= else: two tabs:" " Three tabs: "   "

12.0*50=600

"""

In [12]:
colors_list = [
    '102;194;165', '252;141;98', '141;160;203', 
    '231;138;195', '166;216;84', '255;217;47'
]

def show_tokens(sentence, tokenizer_name):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors_list[idx % len(colors_list)]}m' + 
            tokenizer.decode(t) + 
            '\x1b[0m', 
            end=' '
        )

Come primo esempio vediamo <b>WordPiece</b> (usato per Bert)

Da notare cone tutte le lettere siano minuscole, di come non vengano considerate le newline e l'esistenza di unknow tokens[UNK]

In [13]:
show_tokens(text, "bert-base-uncased")

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98menglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84m##ization[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtoken[0m [0;30;48;2;166;216;84m##s[0m [0;30;48;2;255;217;47mfalse[0m [0;30;48;2;102;194;165mnone[0m [0;30;48;2;252;141;98meli[0m [0;30;48;2;141;160;203m##f[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84m=[0m [0;30;48;2;255;217;47m>[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98melse[0m [0;30;48;2;141;160;203m:[0m [0;30;48;2;231;138;195mtwo[0m [0;30;48;2;166;216;84mtab[0m [0;30;48;2;255;217;47m##s[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98m"[0m [0;30;48;2;141;160;203m"[0m [0;30;48;2;231;138;195mthree[0m [0;30;48;2;166;216;84mtab[0m [0;30;48;2;255;217;47m##s[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;25

Vediamo il tokenizer <b>BPE</b> utilizzato da GPT-2

Da notare il carattere newline, la presenza di maiuscole e la tokenizzazione dei caratteri simbolici


In [14]:
show_tokens(text, "gpt2")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mEnglish[0m [0;30;48;2;231;138;195m and[0m [0;30;48;2;166;216;84m CAP[0m [0;30;48;2;255;217;47mITAL[0m [0;30;48;2;102;194;165mIZ[0m [0;30;48;2;252;141;98mATION[0m [0;30;48;2;141;160;203m
[0m [0;30;48;2;231;138;195m
[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47mÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_[0m [0;30;48;2;252;141;98mt[0m [0;30;48;2;141;160;203mok[0m [0;30;48;2;231;138;195mens[0m [0;30;48;2;166;216;84m False[0m [0;30;48;2;255;217;47m None[0m [0;30;48;2;102;194;165m el[0m [0;30;48;2;252;141;98mif[0m [0;30;48;2;141;160;203m ==[0m [0;30;48;2;231;138;195m >=[0m [0;30;48;2;166;216;84m else[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;165m two[0m [0;30;48;2;252;141;98m 

Vediamo ora Flan-T5 che utilizza <b>SentencePiece</b>

Anche in questo caso non viene gestito newline e abbiamo unknown per i token non Inglesi e Emoji

In [15]:
show_tokens(text, "google/flan-t5-small")

[0;30;48;2;102;194;165mEnglish[0m [0;30;48;2;252;141;98mand[0m [0;30;48;2;141;160;203mCA[0m [0;30;48;2;231;138;195mPI[0m [0;30;48;2;166;216;84mTAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m[0m [0;30;48;2;141;160;203m<unk>[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mto[0m [0;30;48;2;102;194;165mken[0m [0;30;48;2;252;141;98ms[0m [0;30;48;2;141;160;203mFal[0m [0;30;48;2;231;138;195ms[0m [0;30;48;2;166;216;84me[0m [0;30;48;2;255;217;47mNone[0m [0;30;48;2;102;194;165m[0m [0;30;48;2;252;141;98me[0m [0;30;48;2;141;160;203ml[0m [0;30;48;2;231;138;195mif[0m [0;30;48;2;166;216;84m=[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165m>[0m [0;30;48;2;252;141;98m=[0m [0;30;48;2;141;160;203melse[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84mtwo[0m [0;30;48;2;255;217;47mtab[0m [0;30;48;2;102;194;165ms[0m [0;30;48;2;252;141;98m:[0m [0;30;48;2;141;16

Infine vediamo il tokenization schema di phi4 che utilizza anche lui BPE

In [16]:
show_tokens(text, "microsoft/Phi-4-mini-instruct")

[0;30;48;2;102;194;165m

[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m

[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÈ∏ü[0m [0;30;48;2;231;138;195m
[0m [0;30;48;2;166;216;84mshow[0m [0;30;48;2;255;217;47m_tokens[0m [0;30;48;2;102;194;165m False[0m [0;30;48;2;252;141;98m None[0m [0;30;48;2;141;160;203m elif[0m [0;30;48;2;231;138;195m ==[0m [0;30;48;2;166;216;84m >=[0m [0;30;48;2;255;217;47m else[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98m two[0m [0;30;48;2;141;160;203m tabs[0m [0;30;48;2;231;138;195m:"[0m [0;30;48;2;166;216;84m "[0m [0;30;48;2;255;217;47m Three[0m [0;30;48;2;102;194;165m tabs[0m [0;30;48;2;252;141;98m:[0m [0;30;48;2;141;160;203m "[0m [0;30;48;2;231;138;195m  [0m [0;30;48;2;166;216;84m "

[0m [0;30;48;2;255;217;47m12[0m [0;30;48;2;102;194;165m.[0m 

# EMBEDDINGS
Dopo aver suddiviso il testo iniziale in tokens, √® necessario convertire questi tokens in una rappresentazione numerica in modo che poi questa rappresentazione possa essere passata al modello per il training.
Il modello contiene l'embedding matrix che mappa i token creati col tokenizer ai rispettivi embeddings. Questo √® il motivo per cui ogni modello deve utilizzare il rispettivo tokenizer.<br>
All'inizio del training questa matrice contiene valori random che vengono aggiornati nel corso del training


Verifico come utilizzare un modello transformer per generare dei contextualized token embeddings, cio√® degli embeddings in cui il valore dipende dal contesto della frase.

In [17]:
from transformers import AutoModel, AutoTokenizer

# Load a tokenizer
tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-base")

# Load a language model
model = AutoModel.from_pretrained("microsoft/deberta-v3-xsmall")

# Tokenize the sentence
tokens = tokenizer('Hello world', return_tensors='pt')

# Process the tokens
output = model(**tokens)[0]

In [18]:
output.shape

torch.Size([1, 4, 384])

In questo caso la frase Hello World √® stata rappresentata da 4 tokens e ciascun token √® stato rappresentato da un vettore di 384 VALORI

In [19]:
for token in tokens['input_ids'][0]:
    print(tokenizer.decode(token))

[CLS]
Hello
 world
[SEP]


L'output del language model √® quindi il seguente

In [20]:
output

tensor([[[-3.4816,  0.0861, -0.1819,  ..., -0.0612, -0.3911,  0.3017],
         [ 0.1898,  0.3208, -0.2315,  ...,  0.3714,  0.2478,  0.8048],
         [ 0.2071,  0.5036, -0.0485,  ...,  1.2175, -0.2292,  0.8582],
         [-3.4278,  0.0645, -0.1427,  ...,  0.0658, -0.4367,  0.3834]]],
       grad_fn=<NativeLayerNormBackward0>)

# TEXT Embeddings

Dopo aver visto come un model pu√≤ produrre token embeddings, √® necessario capire come creare embeddings che rappresentino testi come frasi, paragrafi o interi documenti.<br>
Anche per questo scopo vengono utilizzati modelli di cui viene fatto un training per questo scopo specifico.<br>

Per utilizzare questi pretrained text embedding model si utilizza il package <b>SENTENCE-TRANSFORMERS</B>

In [23]:
from sentence_transformers import SentenceTransformer

# Load model
model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")

# Convert text to text embeddings
vector = model.encode("Best movie ever!")

vector.shape

(768,)

Si pu√≤ quindi vedere come il testo in input sia stato convertito in un vettore di 768 interi che ne identificano il significato semantico