In [12]:
#Installazione di sentence_trasformers
!pip install sentence_transformers



In [13]:
# Importiamo Word2Vec
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt') # stai scaricando i dati e i modelli necessari per utilizzare il tokenizzatore Punkt di NLTK

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [14]:
# Definiamo il corpus di testo su cui addestrare il modello Word2Vec
corpus = [
    "we went to the river bank",
    "I need to go to bank to make a deposit"
]
corpus

['we went to the river bank', 'I need to go to bank to make a deposit']

In [4]:
# Tokenizzazione del corpus
tokenized_corpus = [word_tokenize(sentence) for sentence in corpus]
tokenized_corpus

[['we', 'went', 'to', 'the', 'river', 'bank'],
 ['I', 'need', 'to', 'go', 'to', 'bank', 'to', 'make', 'a', 'deposit']]

In [15]:
# Addestramento del modello Word2Vec
model = Word2Vec(tokenized_corpus,
                 vector_size=100, #dimensione dei vettori. Ogni parola un vettore da 100 dimensioni
                 window=5,        #contesto su una slice di 5 parole (contesto locale. non relazioni a lungo raggio come i TRASFORMERS)
                 min_count=1,     #numero minimo di volte che una parola deve apparire nel corpus per essere inclusa nel vocabolario del modello
                 sg=0)            #Un valore di 0 (sg=0) indica l'uso dell'algoritmo Continuous Bag of Words (CBOW), mentre un valore di 1 (sg=1) indica l'uso dell'algoritmo Skip-gram




In [16]:
# Calcolo degli embedding per le due frasi
sentence1 = "we went to the river bank"
sentence2 = "I need to go to bank to make a deposit"

tokens1 = word_tokenize(sentence1)
tokens2 = word_tokenize(sentence2)
print(tokens1)
print(tokens2)

['we', 'went', 'to', 'the', 'river', 'bank']
['I', 'need', 'to', 'go', 'to', 'bank', 'to', 'make', 'a', 'deposit']


In [17]:
# Lista embedding che contiene gli embedding delle parole dalla lista tokens, ma solo se queste parole sono presenti nel vocabolario del modello Word2Vec
embedding1 = [model.wv[word] for word in tokens1 if word in model.wv.index_to_key]
embedding2 = [model.wv[word] for word in tokens2 if word in model.wv.index_to_key]

In [20]:
# Stampa i risultati
#print("Embedding della prima frase:")
#print(embedding1)
print(embedding1[-1]) # --> parola bank

#print("Embedding della seconda frase:")
#print(embedding2)
#print(len(embedding2))
#print(embedding2[5]) # --> parola bank
#print(len(embedding2[0]))
#type(embedding1)

[-8.6196875e-03  3.6657380e-03  5.1898835e-03  5.7419385e-03
  7.4669183e-03 -6.1676754e-03  1.1056137e-03  6.0472824e-03
 -2.8400505e-03 -6.1735227e-03 -4.1022300e-04 -8.3689485e-03
 -5.6000124e-03  7.1045388e-03  3.3525396e-03  7.2256695e-03
  6.8002474e-03  7.5307419e-03 -3.7891543e-03 -5.6180597e-04
  2.3483764e-03 -4.5190323e-03  8.3887316e-03 -9.8581640e-03
  6.7646410e-03  2.9144168e-03 -4.9328315e-03  4.3981876e-03
 -1.7395747e-03  6.7113843e-03  9.9648498e-03 -4.3624435e-03
 -5.9933780e-04 -5.6956373e-03  3.8508223e-03  2.7866268e-03
  6.8910765e-03  6.1010956e-03  9.5384968e-03  9.2734173e-03
  7.8980681e-03 -6.9895042e-03 -9.1558648e-03 -3.5575271e-04
 -3.0998408e-03  7.8943167e-03  5.9385742e-03 -1.5456629e-03
  1.5109634e-03  1.7900408e-03  7.8175711e-03 -9.5101865e-03
 -2.0553112e-04  3.4691966e-03 -9.3897223e-04  8.3817719e-03
  9.0107834e-03  6.5365066e-03 -7.1162102e-04  7.7104042e-03
 -8.5343346e-03  3.2071066e-03 -4.6379971e-03 -5.0889552e-03
  3.5896183e-03  5.37033

In [21]:
# Otteniamo l'embedding per la parola "bank" dal modello
embedding_bank = model.wv["bank"] #model."word-vector" of ["bank"]

# Stampa l'embedding
print("Embedding della parola 'bank':")
print(embedding_bank) #-->  è uno per entrambi i contesti

Embedding della parola 'bank':
[-8.6196875e-03  3.6657380e-03  5.1898835e-03  5.7419385e-03
  7.4669183e-03 -6.1676754e-03  1.1056137e-03  6.0472824e-03
 -2.8400505e-03 -6.1735227e-03 -4.1022300e-04 -8.3689485e-03
 -5.6000124e-03  7.1045388e-03  3.3525396e-03  7.2256695e-03
  6.8002474e-03  7.5307419e-03 -3.7891543e-03 -5.6180597e-04
  2.3483764e-03 -4.5190323e-03  8.3887316e-03 -9.8581640e-03
  6.7646410e-03  2.9144168e-03 -4.9328315e-03  4.3981876e-03
 -1.7395747e-03  6.7113843e-03  9.9648498e-03 -4.3624435e-03
 -5.9933780e-04 -5.6956373e-03  3.8508223e-03  2.7866268e-03
  6.8910765e-03  6.1010956e-03  9.5384968e-03  9.2734173e-03
  7.8980681e-03 -6.9895042e-03 -9.1558648e-03 -3.5575271e-04
 -3.0998408e-03  7.8943167e-03  5.9385742e-03 -1.5456629e-03
  1.5109634e-03  1.7900408e-03  7.8175711e-03 -9.5101865e-03
 -2.0553112e-04  3.4691966e-03 -9.3897223e-04  8.3817719e-03
  9.0107834e-03  6.5365066e-03 -7.1162102e-04  7.7104042e-03
 -8.5343346e-03  3.2071066e-03 -4.6379971e-03 -5.08895

In [22]:
# Usiamo un Trasformer....e vediamo la differenza!!!

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Definisci le frasi contenenti diverse occorrenze della parola "bank"
sentence1 = "I went to the bank to deposit some money."
sentence2 = "The river bank was a peaceful place for a walk."

# Embedding delle frasi (leggi: conversione da testo a numero)
embedding1 = model.encode([sentence1])
embedding2 = model.encode([sentence2])

# Stampa gli embedding
print("Embedding della prima frase:")
print(embedding1)

print("Embedding della seconda frase:")
print(embedding2)


Embedding della prima frase:
[[ 6.32090643e-02  5.22743128e-02 -4.06320533e-03  5.03417663e-02
   3.96230370e-02 -6.06488325e-02  7.72237033e-02 -1.62505545e-03
   2.78252773e-02 -2.48362776e-02  3.81239578e-02 -1.54452780e-02
  -1.73772275e-02  4.25712718e-03 -9.17293970e-03 -7.33819082e-02
  -1.69323441e-02 -3.25590521e-02 -1.61325019e-02  2.48571858e-02
  -2.50509158e-02 -3.44274305e-02 -4.76198420e-02  7.82929827e-03
   5.91122136e-02  6.49636313e-02 -1.94869842e-02 -1.27603102e-03
  -4.51587141e-02 -8.64801463e-03 -1.69115234e-02  4.74348962e-02
  -9.23231095e-02 -1.05147377e-01  6.37024790e-02  1.98642854e-02
   2.10864898e-02  3.47249862e-03  7.32519552e-02 -3.58118489e-03
  -9.41104349e-03 -4.97220419e-02  9.03290063e-02  2.17400938e-02
   8.83790664e-03 -4.59264126e-03  2.79887691e-02  6.22412190e-02
   1.06648266e-01  7.33149797e-02  8.37258250e-02 -6.51484206e-02
  -1.93301234e-02  1.03957597e-02 -6.79869950e-02 -1.80929583e-02
   8.78399387e-02  4.46983539e-02 -2.64682458e-

In [23]:
print(len(embedding1[0]))
print(len(embedding2))

384
1
