In [1]:
import numpy as np

# Пример корпуса (текст приводится к нижнему регистру и разбивается на слова)
corpus = "это пример предложения для эмбеддинга слов. слова должны быть представлены в виде векторов.".lower().replace('.', '').split()

# Создание словаря
vocab = list(set(corpus))
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for word, idx in word2idx.items()}

# Параметры
window_size = 2  # размер окна для контекста
vocab_size = len(vocab)

# Инициализация матрицы со-встречаемости
cooccurrence_matrix = np.zeros((vocab_size, vocab_size))

# Заполнение матрицы со-встречаемости
for i, word in enumerate(corpus):
    word_idx = word2idx[word]
    # Определяем границы окна
    start = max(i - window_size, 0)
    end = min(i + window_size + 1, len(corpus))
    for j in range(start, end):
        if i != j:
            context_word = corpus[j]
            context_idx = word2idx[context_word]
            cooccurrence_matrix[word_idx, context_idx] += 1

# Выполнение SVD-разложения матрицы со-встречаемости
U, s, Vt = np.linalg.svd(cooccurrence_matrix)

# Задаём размерность эмбеддинга (например, 2 измерения для наглядности)
embedding_dim = 2
word_embeddings = U[:, :embedding_dim]

# Вывод эмбеддингов для каждого слова
print("Слово - эмбеддинг:")
for word, idx in word2idx.items():
    print(f"{word:10s} {word_embeddings[idx]}")

Слово - эмбеддинг:
пример     [-0.17157166  0.30034104]
слов       [-0.36176224  0.1541295 ]
виде       [-0.17157166 -0.30034104]
это        [-0.1097333  0.2144271]
векторов   [-0.1097333 -0.2144271]
предложения [-0.24215223  0.3685566 ]
эмбеддинга [-0.33668817  0.28101156]
слова      [-3.70504438e-01  2.48305538e-16]
для        [-0.29498552  0.35391936]
быть       [-0.33668817 -0.28101156]
представлены [-0.29498552 -0.35391936]
в          [-0.24215223 -0.3685566 ]
должны     [-0.36176224 -0.1541295 ]
