# Embeddings: Semantics of the language

We have some sentences and want to compare the semantic distance of them.

In [1]:
%pip install sentence-transformers
%pip install numpy

Collecting sentence-transformers
  Downloading sentence_transformers-3.4.1-py3-none-any.whl.metadata (10 kB)
Collecting transformers<5.0.0,>=4.41.0 (from sentence-transformers)
  Using cached transformers-4.49.0-py3-none-any.whl.metadata (44 kB)
Collecting torch>=1.11.0 (from sentence-transformers)
  Using cached torch-2.6.0-cp311-none-macosx_11_0_arm64.whl.metadata (28 kB)
Collecting scikit-learn (from sentence-transformers)
  Using cached scikit_learn-1.6.1-cp311-cp311-macosx_12_0_arm64.whl.metadata (31 kB)
Collecting scipy (from sentence-transformers)
  Using cached scipy-1.15.2-cp311-cp311-macosx_14_0_arm64.whl.metadata (61 kB)
Collecting huggingface-hub>=0.20.0 (from sentence-transformers)
  Downloading huggingface_hub-0.29.3-py3-none-any.whl.metadata (13 kB)
Collecting Pillow (from sentence-transformers)
  Using cached pillow-11.1.0-cp311-cp311-macosx_11_0_arm64.whl.metadata (9.1 kB)
Collecting filelock (from huggingface-hub>=0.20.0->sentence-transformers)
  Downloading filelock-

## 1. The data

In [3]:
sentences = [
    'Wie lang muss ein Langbogen sein?',
    'Wie lang muss ein Langbogen mindestens sein?',
    'Mensch',
    'Human',
    'Die Hunde spielen mit dem Ball auf der Wiese',
    'Das Rudel rollt das runde Spielgerät auf dem Rasen herum',
    'The dogs play with the ball on the grass',
    'Der Ballon fliegt in den Himmel',
    'Die Taube kehrt zum Nest zurück',
]

## 2. Create embeddings using Huggingface models

Models can, for example, be found at the [https://huggingface.co/spaces/mteb/leaderboard](https://huggingface.co/spaces/mteb/leaderboard)

In [4]:
from sentence_transformers import SentenceTransformer

model_name = 'intfloat/multilingual-e5-large'
embedding_model = SentenceTransformer(model_name)

embeddings = embedding_model.encode(sentences)

print(embeddings[0])
for embedding in embeddings:
    print(len(embedding))


[ 0.0218505  -0.01280628 -0.03129406 ... -0.0346019  -0.02073702
  0.02748242]
1024
1024
1024
1024
1024
1024
1024
1024
1024


In [5]:
import numpy as np

def cosine_similarity(left, right):
    return np.dot(left, right) / (np.linalg.norm(left) * np.linalg.norm(right))

for i, left in enumerate(sentences):
    for j, right in enumerate(sentences):
        if j < i:
            continue
        similarity = cosine_similarity(embeddings[i], embeddings[j])
        print(f'{similarity:.4f}: {left} <-> {right}')


1.0000: Wie lang muss ein Langbogen sein? <-> Wie lang muss ein Langbogen sein?
0.9874: Wie lang muss ein Langbogen sein? <-> Wie lang muss ein Langbogen mindestens sein?
0.7513: Wie lang muss ein Langbogen sein? <-> Mensch
0.7260: Wie lang muss ein Langbogen sein? <-> Human
0.7208: Wie lang muss ein Langbogen sein? <-> Die Hunde spielen mit dem Ball auf der Wiese
0.7564: Wie lang muss ein Langbogen sein? <-> Das Rudel rollt das runde Spielgerät auf dem Rasen herum
0.6436: Wie lang muss ein Langbogen sein? <-> The dogs play with the ball on the grass
0.7806: Wie lang muss ein Langbogen sein? <-> Der Ballon fliegt in den Himmel
0.7600: Wie lang muss ein Langbogen sein? <-> Die Taube kehrt zum Nest zurück
1.0000: Wie lang muss ein Langbogen mindestens sein? <-> Wie lang muss ein Langbogen mindestens sein?
0.7475: Wie lang muss ein Langbogen mindestens sein? <-> Mensch
0.7197: Wie lang muss ein Langbogen mindestens sein? <-> Human
0.7157: Wie lang muss ein Langbogen mindestens sein? <-> D