# Embedding non English Data

Un progetto per testare come i modelli language-agnostici di sentence-transformers possano fare l'embedding di testo diverso dall'inglese. Si inizia partendo dal modello `LaBSE`, ossia language-agnostic BERT sentence embedding, sviluppato dai ragazzi dell'UKPLab. Il codice qui sotto scarica il modello, quindi richiede il suo tempo se lo stai eseguendo per la prima volta. 

In [15]:
# ! pip install sentence-transformers

from sentence_transformers import SentenceTransformer
import scipy

model = SentenceTransformer('LaBSE')

una volta scaricato il modello, lo si puè applicare a del testo, per produrre i document embeddings. Iniziamo con una frase in inglese. Come vediamo, stampare il modello altro non ci ritorna che i numeri che lo vanno a omporre.

In [2]:
sentence = "My name is Sarah and I work in London"

embedding = model.encode(sentence)

print(embedding)

[-6.20829128e-02 -2.15540212e-02 -5.45022860e-02 -6.54675066e-02
 -5.02217896e-02 -4.37777042e-02  4.31217859e-03 -5.42846844e-02
  4.04367372e-02  3.02293152e-02  1.20048961e-02 -5.44917956e-02
 -3.18827592e-02 -6.08681329e-03 -1.44706503e-03 -8.45323689e-03
 -5.95330186e-02  3.03854910e-03 -6.14053123e-02 -1.40951741e-02
  3.53100449e-02 -6.08945861e-02 -1.24862902e-02 -3.85141298e-02
 -4.04240564e-02 -1.82939582e-02 -2.89497077e-02  1.19153168e-02
  9.82630346e-03 -5.63682541e-02 -6.18271120e-02 -3.54741663e-02
  4.19978201e-02  4.70846407e-02 -1.88031383e-02 -3.43948565e-02
 -3.16490270e-02  2.04092469e-02  5.32493629e-02 -4.56456728e-02
 -4.26200517e-02  1.57625321e-02 -4.70149517e-02  2.16726456e-02
 -4.63634804e-02 -3.89709920e-02  1.53604876e-02 -4.38446254e-02
 -5.82968555e-02 -3.31949294e-02 -5.78435846e-02 -1.89068820e-02
  1.74180157e-02  4.01222706e-02 -2.56618354e-02  7.67524727e-03
  1.11516872e-02 -4.14608568e-02 -4.96068187e-02  4.77772653e-02
 -3.80982831e-02 -3.72563

In [4]:
# la dimensione dell'embedding è di 768 dimensioni
print(len(embedding))

768


## Possibili applicazioni

Esploriamo alcune delle applicazioni che questo modello può metterci a disposizione

In [11]:
### English sentence similaritu

In [12]:
sentences_english =  ["My name is Sarah and I work in London",
                      "I'm Sarah and my office is in London"]

embeddings_english = model.encode(sentences_english)

# The model produces two embeddings, one per sentence.
print(embeddings_english)


# Now let us calculate the cosine similarity between the two embeddings (equal to 1 - cosine distance)
similarity = 1 - scipy.spatial.distance.cdist([embeddings_english[0]], [embeddings_english[1]], "cosine")

print(similarity)

[[-6.2082916e-02 -2.1554006e-02 -5.4502297e-02 ...  3.4874658e-05
  -4.4153690e-02 -4.9972575e-02]
 [-5.8445241e-02 -1.0755540e-02 -6.0959272e-02 ...  6.2562795e-03
  -5.4287940e-02 -4.2722564e-02]]
[[0.91301388]]


## Similarity su altre lingue

Il modello è multilingua, e può creare embeddings anche su altri linguaggi, oltre che l'inglese. Proviamo con frasi in italiano simili a quelle di prima. COme vediamo, il modello è tale che la cosine similarity tra gli embedding delle due frasi è alta.

In [14]:
sentences_english =  ["Il mio nome è Sara, e lavoro a Londra",
                      "Sono Sara e il mio ufficio è a Londra"]

embeddings_english = model.encode(sentences_english)

# The model produces two embeddings, one per sentence.
print(embeddings_english)


# Now let us calculate the cosine similarity between the two embeddings (equal to 1 - cosine distance)
similarity = 1 - scipy.spatial.distance.cdist([embeddings_english[0]], [embeddings_english[1]], "cosine")

print(similarity)

[[-0.05935936 -0.0301187  -0.05692349 ... -0.01699343 -0.05302916
  -0.04457728]
 [-0.0517055  -0.02105641 -0.06220435 ...  0.01292728 -0.05453622
  -0.03447361]]
[[0.89038692]]


## Cross-language similarity

Non solo. Dato che è "language agnostic", il modello permette di creare embedding per lingue diverse (peraltro senza nemmeno specificare la lingua), e comunque ottenere degli embeddings che, se originati da frasi con significato simile, presenteranno a loro volta significati simili. 

In [13]:
sentences_english =  ["My name is Sarah and I work in London",
                      "Il mio nome è Sara, lavoro a Londra"]

embeddings_english = model.encode(sentences_english)

# The model produces two embeddings, one per sentence.
print(embeddings_english)


# Now let us calculate the cosine similarity between the two embeddings (equal to 1 - cosine distance)
similarity = 1 - scipy.spatial.distance.cdist([embeddings_english[0]], [embeddings_english[1]], "cosine")

print(similarity)

[[-6.2082916e-02 -2.1554006e-02 -5.4502297e-02 ...  3.4874658e-05
  -4.4153690e-02 -4.9972575e-02]
 [-6.2427260e-02 -2.8382916e-02 -6.0631610e-02 ... -5.8134729e-03
  -4.6869900e-02 -4.6268467e-02]]
[[0.95179564]]
