# Embeddings: Semantics of the language

We have some sentences and want to compare the semantic distance of them.

## 1. The data

In [4]:
sentences = [
    'Die Hunde spielen mit dem Ball auf der Wiese',
    'Das Rudel rollt das runde Spielgerät auf dem Rasen herum',
    'The dogs play with the ball on the grass',
    'Der Ballon fliegt in den Himmel',
    'Die Taube kehrt zum Nest zurück',
]

## 2. Create embeddings using Huggingface models

Models can, for example, be found at the [https://huggingface.co/spaces/mteb/leaderboard](https://huggingface.co/spaces/mteb/leaderboard)

In [5]:
from sentence_transformers import SentenceTransformer

model_name = 'intfloat/multilingual-e5-large'
embedding_model = SentenceTransformer(model_name)

embeddings = embedding_model.encode(sentences)

print(embeddings[0])
for embedding in embeddings:
    print(len(embedding))


[ 0.03449271  0.00409269 -0.02714954 ... -0.00595034 -0.02732472
  0.00877537]
1024
1024
1024
1024
1024


In [6]:
import numpy as np

def cosine_similarity(left, right):
    return np.dot(left, right) / (np.linalg.norm(left) * np.linalg.norm(right))

for i, left in enumerate(sentences):
    for j, right in enumerate(sentences):
        if j < i:
            continue
        similarity = cosine_similarity(embeddings[i], embeddings[j])
        print(f'{similarity:.4f}: {left} <-> {right}')


1.0000: Die Hunde spielen mit dem Ball auf der Wiese <-> Die Hunde spielen mit dem Ball auf der Wiese
0.8659: Die Hunde spielen mit dem Ball auf der Wiese <-> Das Rudel rollt das runde Spielgerät auf dem Rasen herum
0.8993: Die Hunde spielen mit dem Ball auf der Wiese <-> The dogs play with the ball on the grass
0.8146: Die Hunde spielen mit dem Ball auf der Wiese <-> Der Ballon fliegt in den Himmel
0.7427: Die Hunde spielen mit dem Ball auf der Wiese <-> Die Taube kehrt zum Nest zurück
1.0000: Das Rudel rollt das runde Spielgerät auf dem Rasen herum <-> Das Rudel rollt das runde Spielgerät auf dem Rasen herum
0.8116: Das Rudel rollt das runde Spielgerät auf dem Rasen herum <-> The dogs play with the ball on the grass
0.8299: Das Rudel rollt das runde Spielgerät auf dem Rasen herum <-> Der Ballon fliegt in den Himmel
0.7906: Das Rudel rollt das runde Spielgerät auf dem Rasen herum <-> Die Taube kehrt zum Nest zurück
1.0000: The dogs play with the ball on the grass <-> The dogs play wit