# код демонстрирует использование модели трансформера для получения векторных представлений текстов и последующего анализа их сходства. 

Этот код полезен для анализа семантической близости текстов на основе их векторных представлений. Модель трансформера используется для преобразования текстов в векторы, а затем вычисляются косинусные расстояния между этими векторами. Полученные данные могут быть использованы для поиска похожих текстов, анализа распределения расстояний и других задач анализа текстовых данных.

In [9]:
!pip install -U sentence-transformers



In [10]:
# Импорт необходимых библиотек
import pandas as pd
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
import numpy as np
from scipy.spatial.distance import pdist, squareform
from matplotlib import pyplot as plt






In [11]:
# Загрузка данных с текстами песен из JSON-файла
df_lyrics = pd.read_json("/kaggle/input/yandex-muz/lyrics.json", lines=True)
df_lyrics.head()  # Просмотр первых строк данных

# Получение размера DataFrame
df_lyrics.shape


(11414, 3)

можно взять и больше модель

In [12]:
# Инициализация модели трансформера для получения векторных представлений текстов
model = SentenceTransformer('all-MiniLM-L6-v2')

.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

data_config.json:   0%|          | 0.00/39.3k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

train_script.py:   0%|          | 0.00/13.2k [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

In [None]:
# Кодирование текстов песен в векторные представления
sentence_embeddings = model.encode(df_lyrics["text"])

# Проверка типа и размера полученных векторных представлений
type(sentence_embeddings)
sentence_embeddings.shape

In [None]:
# Сохранение векторных представлений в файл
np.savez("sentence_embs.npz", sentence_embeddings)

Batches:   0%|          | 0/357 [00:00<?, ?it/s]

In [None]:
# Вычисление попарных косинусных расстояний между векторными представлениями
dist_v = pdist(sentence_embeddings, metric="cosine")

# Получение размера и формы массива расстояний
dist_v.size

In [None]:
dist_v.shape

In [None]:
# Преобразование массива расстояний в квадратную форму
dist = squareform(dist_v)
dist.shape

In [None]:
# Получение индексов ближайших соседей для каждого текста
argsort = np.argsort(dist, axis=1)

In [None]:
# Примеры использования полученных данных
# Просмотр текста песни и сравнение с другими текстами
df_lyrics.iloc[0]


In [None]:
df_lyrics.iloc[7209]

In [None]:
cos_sim(sentence_embeddings[0, :], sentence_embeddings[7209, :])

In [None]:
df_lyrics.iloc[1]["text"]

In [None]:
df_lyrics.loc[3419]["text"]

In [None]:
df_lyrics.loc[9137]["text"]

In [None]:
cos_sim(sentence_embeddings[1, :], sentence_embeddings[3419, :])

In [None]:
cos_sim(sentence_embeddings[1, :], sentence_embeddings[9137, :])

In [None]:
# Визуализация распределения расстояний
np.random.shuffle(dist_v)
dist_sample = dist_v[:100000]
plt.hist(dist_sample, bins=50)
plt.xlim([0, 0.4])
plt.ylim([0, 200])

In [None]:
# Идентификация пар текстов с определенным расстоянием
flat_idx = np.abs(dist - 0.1).argmin()
idx1, idx2 = np.unravel_index(flat_idx, dist.shape)
print("=========================== \n Text1: ")
print(df_lyrics.loc[idx1]["text"])
print("=========================== \n Text2: ")
print(df_lyrics.loc[idx2]["text"])

In [None]:
flat_idx = np.abs(dist - 0.089).argmin()
idx1, idx2 = np.unravel_index(flat_idx, dist.shape)
print("=========================== \n Text1: ")
print(df_lyrics.loc[idx1]["text"])
print("=========================== \n Text2: