# Text Similarity Scaling for NLP

## Описание
В этом ноутбуке мы будем загружать датасет `deepvk/ru-HNP`, выполнять предобработку текстов и готовить данные для дальнейшего моделирования.

---

## Установка необходимых библиотек

Если у вас еще не установлены некоторые из этих библиотек, вы можете установить их с помощью `pip`. Раскомментируйте и выполните следующую ячейку, если необходимо.


In [1]:
# !pip install pandas numpy nltk pymorphy3 scikit-learn torch matplotlib seaborn datasets tqdm os

In [2]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import pymorphy3
from datasets import load_dataset
from sklearn.feature_extraction.text import TfidfVectorizer
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.model_selection import train_test_split
from torch.utils.data import Dataset, DataLoader
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
import os

In [3]:
# Загрузка необходимых ресурсов NLTK
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('punkt_tab')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\q\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\q\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\q\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\q\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [4]:
ds = load_dataset("deepvk/ru-HNP")

In [5]:
ds

DatasetDict({
    train: Dataset({
        features: ['query', 'pos', 'neg'],
        num_rows: 100000
    })
    validation: Dataset({
        features: ['query', 'pos', 'neg'],
        num_rows: 590
    })
    test: Dataset({
        features: ['query', 'pos', 'neg'],
        num_rows: 2000
    })
})

In [6]:
# Преобразование тренировочного набора в DataFrame
df_train = pd.DataFrame(ds['train'])

# Преобразование тестового набора в DataFrame
df_test = pd.DataFrame(ds['test'])

# Просмотр первых нескольких строк
df_train.head()


Unnamed: 0,query,pos,neg
0,С 1952 года после окончания Куйбышевского инду...,[После окончания Куйбышевского индустриального...,[До 1952 года перед окончанием Куйбышевского и...
1,Впадающие реки: Гаронна и Дордонь (образующие ...,[Эстуарий Жиронда формируют впадающие реки: Га...,"[Нет впадающих рек в эстуарий Жиронда, только ..."
2,После смерти отца в 1709 году Людовик унаследо...,"[В 1709 году, после смерти отца, Людовик унасл...",[После смерти отца в 1709 году Людовик лишился...
3,С началом Второй мировой войны клиника перешла...,[После начала Второй мировой войны клиника ста...,[С началом Второй мировой войны клиника перешл...
4,"Родники являются местом паломничества, так как...","[Место паломничества - родники, освященные мит...","[Родники не являются местом паломничества, так..."


In [7]:
# Установка опции для отображения всех строк
pd.set_option('display.max_colwidth', None)  # Показывать полный текст в столбцах

# Просмотр полного содержимого первой строки столбца pos_1
print(df_train['pos'].iloc[0])

['После окончания Куйбышевского индустриального института им. В. В. Куйбышева он начал работать в системе атомной промышленности СССР с 1952 года.', 'С 1952 года после выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он трудился в системе атомной промышленности СССР.', 'После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он поступил на работу в систему атомной промышленности СССР в 1952 году.', 'С 1952 года после получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он приступил к работе в системе атомной промышленности СССР.', 'После выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он стал работать в системе атомной промышленности СССР с 1952 года.']


In [8]:
def clean_text(text):
    """
    Очищает текст от специальных символов, оставляя буквы и цифры.
    """
    text = re.sub(r'[^а-яА-ЯёЁ0-9\s]', '', text)
    text = text.lower()
    return text

def tokenize(text):
    """
    Токенизирует текст.
    """
    return nltk.word_tokenize(text)

def lemmatize(tokens):
    """
    Лемматизирует токены с помощью pymorphy3.
    """
    morph = pymorphy3.MorphAnalyzer()
    return [morph.parse(token)[0].normal_form for token in tokens]

def remove_stopwords(tokens):
    """
    Удаляет стоп-слова из токенов.
    """
    stop_words = set(stopwords.words('russian'))
    return [token for token in tokens if token not in stop_words]

def preprocess_text(text):
    """
    Полная предобработка текста.
    """
    text = clean_text(text)
    tokens = tokenize(text)
    tokens = remove_stopwords(tokens)
    tokens = lemmatize(tokens)
    return ' '.join(tokens)


In [9]:
df_train

Unnamed: 0,query,pos,neg
0,С 1952 года после окончания Куйбышевского индустриального института им. В. В. Куйбышева работал в системе атомной промышленности СССР.,"[После окончания Куйбышевского индустриального института им. В. В. Куйбышева он начал работать в системе атомной промышленности СССР с 1952 года., С 1952 года после выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он трудился в системе атомной промышленности СССР., После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он поступил на работу в систему атомной промышленности СССР в 1952 году., С 1952 года после получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он приступил к работе в системе атомной промышленности СССР., После выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он стал работать в системе атомной промышленности СССР с 1952 года.]","[До 1952 года перед окончанием Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР., После окончания Куйбышевского индустриального института им. В. В. Куйбышева он не устроился на работу в систему атомной промышленности СССР с 1952 года., До получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР., После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он не приступил к работе в системе атомной промышленности СССР в 1952 году., До выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он не трудился в системе атомной промышленности СССР.]"
1,"Впадающие реки: Гаронна и Дордонь (образующие эстуарий Жиронда), Луара, Адур, Бидасоа.","[Эстуарий Жиронда формируют впадающие реки: Гаронна и Дордонь, а также Луара, Адур и Бидасоа., Гаронна и Дордонь впадают в эстуарий Жиронда вместе с реками Луара, Адур и Бидасоа., Реки Луара, Адур и Бидасоа присоединяются к Гаронне и Дордони, формируя эстуарий Жиронда., Дордонь и Гаронна, а также Луара, Адур и Бидасоа - важные реки, формирующие эстуарий Жиронда., Луара, Адур и Бидасоа впадают в эстуарий Жиронда вместе с Гаронной и Дордонью.]","[Нет впадающих рек в эстуарий Жиронда, только одна большая река., Эстуарий Жиронда формируется только одной рекой, без других впадающих рек., Гаронна и Дордонь не имеют никакого отношения к эстуарию Жиронда, это совершенно разные реки., Луара, Адур и Бидасоа не соединяются с эстуарием Жиронда, они течут в другом направлении., Эстуарий Жиронда образуется только одной рекой, Гаронной, без участия других рек.]"
2,"После смерти отца в 1709 году Людовик унаследовал его титулы, должности и владения.","[В 1709 году, после смерти отца, Людовик унаследовал его титулы, должности и владения., Людовик унаследовал титулы, должности и владения от отца после его смерти в 1709 году., После смерти отца в 1709 году Людовик получил его титулы, должности и владения., Владения, титулы и должности были унаследованы Людовиком после смерти отца в 1709 году., Унаследовав титулы, должности и владения после смерти отца в 1709 году, Людовик стал их обладателем.]","[После смерти отца в 1709 году Людовик лишился его титулов, должностей и владений., Людовик отказался от титулов, должностей и владений своего отца после его смерти в 1709 году., После смерти отца в 1709 году Людовик отрёкся от его титулов, должностей и владений., В 1709 году, после смерти отца, Людовик потерял его титулы, должности и владения., Людовик не наследовал титулы, должности и владения от отца после его смерти в 1709 году.]"
3,"С началом Второй мировой войны клиника перешла в ведение Немецкого института психологических исследований и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон трудился вместе с Вернером Кемпером, занимаясь не только исследованиями, но оказывая помощь евреям и интернированным иностранным рабочим.","[После начала Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии, возглавляемого Маттиасом Генрихом Гёрингом. Там Джон работал совместно с Вернером Кемпером, занимаясь не только научными исследованиями, но и помогая евреям и иностранным рабочим в интернировке., После начала Второй мировой войны клинику возглавил Немецкий институт исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон совместно с Вернером Кемпером занимался исследованиями и оказывал помощь евреям и интернированным рабочим., В начале Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон работал вместе с Вернером Кемпером, занимаясь исследованиями и помогая евреям и интернированным рабочим., С началом Второй мировой войны клиника перешла под контроль Немецкого института исследований психологии и психотерапии, возглавляемого Маттиасом Генрихом Гёрингом. Здесь Джон работал вместе с Вернером Кемпером, занимаясь исследованиями и помогая евреям и интернированным рабочим., В период Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон усердно трудился вместе с Вернером Кемпером, оказывая помощь евреям и интернированным рабочим.]","[С началом Второй мировой войны клиника перешла в ведение антифашистской организации, где Джон участвовал в дезинформации и шпионаже против Гёринга., После начала Второй мировой войны клинику закрыли из-за связей с фашистскими организациями, а Джон был арестован за сотрудничество с интернированными евреями и рабочими., С началом Второй мировой войны клиника стала центром пропаганды фашистского режима и перестала помогать интернированным людям, включая евреев., В начале Второй мировой войны клиника перешла под контроль фашистских структур, где Джон с Вернером Кемпером проводил пропагандистскую работу против евреев и интернированных., После начала Второй мировой войны клиника стала местом пропаганды и насилия, а Джон и Вернер Кемпер преследовали евреев и иностранных рабочих.]"
4,"Родники являются местом паломничества, так как были освящены митрополитом Волгоградским и Камышинским Германом, а местные жители установили каменную икону святого великомученика Пантелеимона Целителя.","[Место паломничества - родники, освященные митрополитом Волгоградским и Камышинским Германом, где местные жители установили каменную икону святого великомученика Пантелеимона Целителя., Родники, освященные митрополитом Волгоградским и Камышинским Германом, стали местом паломничества после установки каменной иконы святого великомученика Пантелеимона Целителя местными жителями., Освященные митрополитом Волгоградским и Камышинским Германом, родники стали популярным местом паломничества после установки каменной иконы святого великомученика Пантелеимона Целителя., Место паломничества - родники, освященные митрополитом Волгоградским и Камышинским Германом, где была установлена каменная икона святого великомученика Пантелеимона Целителя местными жителями., Родники, освященные митрополитом Волгоградским и Камышинским Германом, привлекают паломников после установки каменной иконы святого великомученика Пантелеимона Целителя местными жителями.]","[Родники не являются местом паломничества, так как не были освящены митрополитом Волгоградским и Камышинским Германом, и местные жители не установили каменную икону святого великомученика Пантелеимона Целителя., Родники - не место паломничества, так как не имеют освящения от митрополита Волгоградского и Камышинского Германа, и на них нет каменной иконы святого великомученика Пантелеимона Целителя, установленной местными жителями., Освящение митрополитом Волгоградским и Камышинским Германом не делает родники местом паломничества, а установка каменной иконы святого великомученика Пантелеимона Целителя местными жителями не имеет значения., Местные жители не установили каменную икону святого великомученика Пантелеимона Целителя на родниках, поэтому это не место паломничества, несмотря на освящение митрополитом Волгоградским и Камышинским Германом., Родники, не освященные митрополитом Волгоградским и Камышинским Германом, и без каменной иконы святого великомученика Пантелеимона Целителя, установленной местными жителями, не привлекают паломников.]"
...,...,...,...
99995,"При разработке программы ресурсы помещаются в текстовый файл с суффиксом .rc, написанный на некоем несложном языке.","[При создании программы ресурсы сохраняются в файл с расширением .rc, написанный на простом языке., Разрабатывая программу, ресурсы заносятся в текстовый файл с окончанием .rc, написанный на несложном языке., При программировании ресурсы складываются в файл .rc, написанный на простом языке., Ресурсы при написании программы сохраняются в файл .rc, написанный на доступном языке., При работе над программой ресурсы добавляются в файл .rc, написанный на простом языке.]","[При разработке программы ресурсы не помещаются в текстовый файл с суффиксом .rc, написанный на сложном языке., При разработке программы ресурсы удаляются из текстового файла с суффиксом .rc, написанный на сложном языке., При разработке программы ресурсы перемещаются в бинарный файл без суффикса .rc, написанный на несложном языке., При разработке программы ресурсы сохраняются в текстовом файле с другим суффиксом, написанный на сложном языке., При разработке программы ресурсы хранятся в базе данных вместо текстового файла с суффиксом .rc, написанный на несложном языке.]"
99996,"Выйдя на пенсию в 1978 году, Шеннон много времени уделял своему давнему увлечению - жонглированию.","[Шеннон, вышедший на пенсию в 1978 году, много времени проводил, занимаясь своим давним увлечением - жонглированием., Вышедший на пенсию в 1978 году, Шеннон с удовольствием занимался своим давним увлечением - жонглированием., Шеннон после выхода на пенсию в 1978 году уделял много времени своему старому увлечению - жонглированию., После выхода на пенсию в 1978 году, Шеннон стал активно заниматься своим давним увлечением - жонглированием., Шеннон на пенсии с 1978 года активно развивал своё старое увлечение - жонглирование.]","[Работая на полную ставку в 1978 году, Шеннон почти не имел времени на своё давнее увлечение - жонглирование., Шеннон, не выходивший на пенсию в 1978 году, часто упускал возможность заниматься своим старым увлечением - жонглированием., Не находя времени из-за работы в 1978 году, Шеннон почти не занимался своим давним увлечением - жонглированием., Шеннон, продолжавший работать после 1978 года, отказался от своего старого увлечения - жонглирования., Несмотря на возможность выхода на пенсию в 1978 году, Шеннон предпочёл не тратить время на своё давнее увлечение - жонглирование.]"
99997,"В 214 году до н.э. он был направлен с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами.","[С пятьюдесятью пятью кораблями он был направлен в 214 году до н.э. на помощь осаждённым римлянами Сиракузам., В 214 году до н.э. его направили с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами., Он был отправлен в 214 году до н.э. с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами., Пятьдесят пять кораблей были направлены в 214 году до н.э. на помощь Сиракузам, осаждённым римлянами., Сиракузы, осаждённые римлянами, получили помощь в виде пятидесяти пяти кораблей в 214 году до н.э.]","[В 214 году до н.э. он был направлен без кораблей на помощь Сиракузам, которые не были осаждены римлянами., Он был отправлен в 214 году до н.э. с пятьюдесятью пятью кораблями не на помощь Сиракузам, не осаждённым римлянами., С пятьюдесятью пятью кораблями его не направили в 214 году до н.э. на помощь осаждённым римлянами Сиракузам., В 214 году до н.э. его не отправили с пятьюдесятью пятью кораблями на помощь Сиракузам, не осаждённым римлянами., Сиракузы, не осаждённые римлянами, не получили помощь в виде пятидесяти пяти кораблей в 214 году до н.э.]"
99998,"Рельеф района большей частью холмисто-равнинный, лишь на северо-востоке горный (хребты Акшатау, Тарбагатай).","[Большей частью рельеф района холмисто-равнинный, только на северо-востоке горный (хребты Акшатау, Тарбагатай)., Холмисто-равниным является большая часть рельефа района, лишь на северо-востоке можно найти горные хребты (Акшатау, Тарбагатай)., Рельеф района в основном представлен холмисто-равнинной местностью, только на северо-востоке можно встретить горы (хребты Акшатау, Тарбагатай)., Холмисто-равниным является основной рельеф района, лишь на северо-востоке можно увидеть горы (хребты Акшатау, Тарбагатай)., Большая часть района имеет холмисто-равнинный рельеф, только на северо-востоке преобладают горы (хребты Акшатау, Тарбагатай).]","[Рельеф района представлен в основном гористыми местностями, лишь на юго-западе можно найти равнины., Большей частью района преобладает гористый рельеф, только на юге можно встретить равнины., Гористо-лесистый рельеф является основным для района, лишь на западе можно найти равнины., Район характеризуется в основном гористым рельефом, только на юго-востоке преобладают равнины., Горы преобладают в рельефе района, лишь на востоке можно найти холмисто-равнинные местности.]"


In [10]:
df_test

Unnamed: 0,query,pos,neg
0,Отвечал за работу партии и внес свой вклад в 1936 году в урегулирование инцидента Сиань.,"[Внес свой вклад в урегулирование инцидента Сиань и отвечал за работу партии в 1936 году., В 1936 году отвечал за работу партии и активно участвовал в урегулировании инцидента Сиань., В урегулировании инцидента Сиань в 1936 году принимал участие и отвечал за работу партии., В 1936 году активно участвовал в урегулировании инцидента Сиань и отвечал за работу партии., Ответственно относился к работе партии и внёс свой вклад в урегулирование инцидента Сиань в 1936 году.]","[Не занимался работой партии и не принимал участия в урегулировании инцидента Сиань в 1936 году., Игнорировал работу партии и не вносил никакого вклада в урегулирование инцидента Сиань в 1936 году., Не участвовал в урегулировании инцидента Сиань и не отвечал за работу партии в 1936 году., Не имел никакого вклада в урегулирование инцидента Сиань и не отвечал за работу партии в 1936 году., Был равнодушен к работе партии и не принимал участия в урегулировании инцидента Сиань в 1936 году.]"
1,"Более сложные модели с поддержкой шифрования данных и аутентификацией используются в ситуациях, где важна безопасность, таких как удаленное управление критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность имеет первостепенное значение.","[Более сложные модели, обладающие функциями шифрования и аутентификации, применяются в условиях, где безопасность играет ключевую роль, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет, где безопасность находится на первом месте., В ситуациях, где безопасность является приоритетной, используются более сложные модели с возможностью шифрования данных и проверки подлинности, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет., Более сложные модели, оснащенные шифрованием данных и аутентификацией, применяются в ситуациях, где безопасность играет важную роль, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая Интернет, где безопасность имеет высший приоритет., Более сложные модели, которые поддерживают шифрование данных и аутентификацию, используются в ситуациях, где безопасность имеет большое значение, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, в том числе через Интернет., Модели с расширенными возможностями шифрования данных и проверки подлинности применяются в ситуациях, где безопасность является ключевым аспектом, таким как удаленное управление критическими системами, управление механизмами на производственных предприятиях и в других сферах, включая использование Интернета, где безопасность играет важную роль.]","[Простые модели без шифрования данных и аутентификации используются в ситуациях, где безопасность не так важна, например, для управления не критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность не на первом плане., Модели без шифрования данных и проверки подлинности используются в ситуациях, где безопасность не стоит на первом месте, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет., Простые модели без поддержки шифрования данных и аутентификации применяются в условиях, где безопасность не является первоочередной задачей, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, в том числе через Интернет., Простые модели, которые не обеспечивают шифрование данных и аутентификацию, используются в ситуациях, где безопасность не столь важна, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая Интернет., Модели без сложной защиты данных и аутентификации применяются в условиях, где безопасность не имеет высокого приоритета, например, для управления не критическими системами, управления механизмами на заводе и в других отраслях, включая использование Интернета, где безопасность не играет ключевую роль.]"
2,"В это время отплыли две лодки: лодка самого генерала Уиллера и вторая, получившая пробоину у ватерлинии ядром, пущенным с берега.","[Две лодки отправились в плавание: лодка генерала Уиллера и другая, которая получила пробоину от ядра, выпущенного с берега., Отплыли две лодки: лодка генерала Уиллера и еще одна, которую пробили ядром у ватерлинии, брошенным с берега., Лодка самого генерала Уиллера и вторая лодка, пораженная ядром у ватерлинии и отплывшие в это время., В это время две лодки вышли в море: лодка генерала Уиллера и другая, поврежденная ядром, запущенным с берега., Две лодки покинули берег: лодка генерала Уиллера и другая, пораженная ядром у ватерлинии.]","[В это время пришвартовались две лодки: лодка самого генерала Уиллера и другая, без повреждений на ватерлинии ядром., Лодка генерала Уиллера осталась на месте, в то время как вторая лодка получила пробоину от ядра, брошенного с берега., Две лодки стояли у берега: лодка генерала Уиллера и другая, которая не получила повреждений от ядра у ватерлинии., Лодка генерала Уиллера не покидала места, в то время как вторая лодка была атакована ядром, выпущенным с берега., В это время только одна лодка покинула берег, а вторая осталась на месте: лодка генерала Уиллера.]"
3,Первым юридически обязывающим и добровольным документом со стороны Киргизии дошедшим до наших дней являются решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи.,"[Решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи являются первым юридически обязывающим и добровольным документом, дошедшим до наших дней., С первыми решениями 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи познакомились дошедшие до нас документы, являющиеся юридически обязывающими и добровольными., Документами решений 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи, пришедшими к нам, являются первыми юридически обязывающими и добровольными документами., Решения о добровольном вхождении Киргизии в состав Российской Империи в период 1855—1863 годов являются первыми юридически обязывающими и добровольными документами, дошедшими до нас., Первыми юридически обязывающими и добровольными документами, дошедшими до наших дней, являются решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи.]","[Киргизия отказалась от вхождения в состав Российской Империи и не подписала решения 1855—1863 об этом., Документы о добровольном вхождении Киргизии в состав Российской Империи не имеют юридической силы и не являются обязательными., Решения 1855—1863 о включении Киргизии в состав Российской Империи не являются юридически обязывающими и добровольными., Киргизия никогда не принимала решений о добровольном вхождении в состав Российской Империи в 1855—1863 годах., Решения о добровольном вхождении Киргизии в состав Российской Империи в 1855—1863 годах были аннулированы, и их действие не распространилось до наших дней.]"
4,"Длина переднего крыла 45—52 мм. Размах крыльев 100—125 мм. Передние крылья с беловатыми и розовыми волнистыми полосками и большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья от основания до средины черноватые, а от средины до края зеленовато-бурые; оба цвета разделяются белою полосою; нижняя сторона крыльев зеленоватая.","[Переднее крыло имеет длину 45—52 мм, размах крыльев составляет 100—125 мм. На передних крыльях присутствуют беловатые и розовые волнистые полоски, а также крупное тёмно-фиолетовое продольное пятно у внутреннего угла. Задние крылья чёрные от основания до середины и зеленовато-бурые от середины до края, разделённые белой полосой. Нижняя сторона крыльев имеет зеленоватый оттенок., Крыло на переднем конце имеет длину 45—52 мм, а размах крыльев - 100—125 мм. Передние крылья украшены беловатыми и розовыми волнистыми полосами, а также крупным тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья чёрные от основания до середины и зеленовато-бурые от середины до края, разделённые белой полосой. Нижняя сторона крыльев зеленоватая., Средняя длина переднего крыла составляет 45—52 мм, а размах крыльев - 100—125 мм. На передних крыльях присутствуют беловатые и розовые волнистые полоски, а также крупное тёмно-фиолетовое продольное пятно у внутреннего угла. Задние крылья окрашены от черного до середины и от середины до края в зеленовато-бурые; оба цвета разделены белой полосой. Нижняя сторона крыльев зеленоватая., Длина переднего крыла варьируется от 45 до 52 мм, а размах крыльев составляет от 100 до 125 мм. Передние крылья украшены беловатыми и розовыми волнистыми полосами, а также большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья меняют свой цвет от черного до середины, а от середины до края - зеленовато-бурые; оба цвета разделены белой полосой. Нижняя сторона крыльев имеет зеленоватый оттенок., Передние крылья имеют длину от 45 до 52 мм, размах крыльев составляет от 100 до 125 мм. Они украшены беловатыми и розовыми волнистыми полосами и большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья окрашены в черный цвет от основания до середины и в зеленовато-бурый от середины до края; два цвета разделяет белая полоса; нижняя сторона крыльев зеленоватая.]","[Длина переднего крыла составляет 20—25 мм, размах крыльев - 50—75 мм. Передние крылья с бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла; задние крылья от основания до середины розовые, а от середины до края голубые; оба цвета разделяются жёлтой полосой; нижняя сторона крыльев голубая., Переднее крыло имеет длину 30—35 мм, размах крыльев - 80—105 мм. Передние крылья украшены бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла. Задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая., Передние крылья имеют длину 30—35 мм, а размах крыльев - 80—105 мм. На передних крыльях присутствуют бежевые и голубые прямые полосы и небольшое светло-розовое круглое пятно у внешнего угла; задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая., Длина переднего крыла составляет 20—25 мм, а размах крыльев - 50—75 мм. Передние крылья украшены бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла; задние крылья окрашены от розового до середины и от середины до голубого; оба цвета разделены жёлтой полосой; нижняя сторона крыльев голубая., Переднее крыло имеет длину 25—30 мм, а размах крыльев - 70—95 мм. На передних крыльях бежевые и голубые прямые полосы и небольшое светло-розовое круглое пятно у внешнего угла; задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая.]"
...,...,...,...
1995,"Болтон, как предполагает конгрессмен от демократов Генри Уоксмэн, в 2003 году повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера.","[В 2003 году Болтон, по мнению конгрессмена от демократов Генри Уоксмэна, оказал влияние на решение Буша заявить, что британская разведка установила, что Ирак пытается перевезти уран из Нигера., Генри Уоксмэн считает, что влияние Болтона в 2003 году привело к тому, что Буш заявил, что британская разведка выявила попытки Ирака перевезти уран из Нигера., По мнению конгрессмена Уоксмэна, в 2003 году Болтон повлиял на решение Буша сообщить, что британская разведка установила, что Ирак пытается перевезти уран из Нигера., Болтон, судя по словам конгрессмена Уоксмэна, в 2003 году оказал влияние на решение Буша о том, что британская разведка установила, что Ирак пытается перевезти уран из Нигера., В 2003 году Болтон повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера, считает конгрессмен Уоксмэн.]","[Болтон никоим образом не повлиял на решение Буша заявить, что британская разведка определила, что Ирак не пытается перевозить уран из Нигера., По мнению конгрессмена Уоксмэна, Болтон не оказал никакого влияния на решение Буша о том, что британская разведка установила, что Ирак не пытается перевезти уран из Нигера., Генри Уоксмэн считает, что Болтон не оказал никакого влияния на решение Буша сообщить, что британская разведка установила, что Ирак не пытается перевезти уран из Нигера., Болтон в 2003 году не оказал влияние на решение Буша о заявлении, что британская разведка определила, что Ирак пытается перевезти уран из Нигера, по мнению конгрессмена Уоксмэна., По мнению Генри Уоксмэна, Болтон не повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера.]"
1996,Дом № 11с1 — Тип здания: спортивное сооружение; Этажность: 1,"[Спортивное сооружение дома № 11с1 находится на первом этаже., На первом этаже расположено спортивное сооружение дома № 11с1., Дом № 11с1 имеет один этаж и является спортивным сооружением., Спортивное сооружение дома № 11с1 всего на одном этаже., Первый этаж дома № 11с1 предназначен для спортивных мероприятий.]","[Дом № 11с1 — Тип здания: жилой дом; Этажность: 5, Спортивное сооружение дома № 11с1 находится на пятом этаже., На пятом этаже расположено жилое здание дома № 11с1., Дом № 11с1 состоит из пяти этажей и предназначен для жилья., Спортивное сооружение дома № 11с1 находится в жилом здании.]"
1997,"Пермь II (до 1909 года - 'Заимки', до 1911 года - 'Пермь-Заимки') - железнодорожная станция Пермского региона Свердловской железной дороги, находящаяся в городе Перми, административном центре Пермского края.","[Железнодорожная станция Пермь II (ранее известная как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года) расположена в городе Перми, который является административным центром Пермского края., В городе Перми находится железнодорожная станция Пермь II, изначально названная 'Заимки' до 1909 года, а затем 'Пермь-Заимки' до 1911 года., Пермь II - это название железнодорожной станции в городе Перми, которая ранее была известна как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года., Железнодорожная станция Пермь II расположена в Перми, административном центре Пермского края, и ранее носила название 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года., В Перми находится железнодорожная станция Пермь II, которая была известна как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года.]","[Пермь II - это автобусная остановка в городе Перми, не имеющая отношения к железнодорожной станции., В городе Перми нет железнодорожной станции с названием Пермь II, это ошибка., Железнодорожная станция Пермь II находится не в Перми, а в другом городе., Пермь II - это название аэропорта, а не железнодорожной станции, расположенной в Перми., Пермь II - это обычное название жилого района в Перми, а не железнодорожной станции.]"
1998,До оконца жизни оставался президентом публиковавшей «Atlantis» компании.,"[Оставался президентом компании «Atlantis» до конца своей жизни., До конца своей жизни оставался президентом компании, издающей журнал «Atlantis»., Президентом компании, выпускающей журнал «Atlantis», он оставался до самого конца жизни., До конца своих дней он был президентом компании, издающей журнал «Atlantis»., Президентом компании «Atlantis» он оставался до своего последнего дня.]","[Сразу после назначения он покинул пост президента компании «Atlantis»., В тот же день он ушел с поста президента компании, выпускающей журнал «Atlantis»., Никогда не был президентом компании, публикующей журнал «Atlantis»., Вскоре после назначения он объявил об отставке с поста президента компании «Atlantis»., Недолго пробыл на посту президента компании, выпускающей журнал «Atlantis».]"


In [11]:
# Разделение на новые столбцы
pos_df = pd.DataFrame(df_test['pos'].tolist(), index=df_test.index).add_prefix('pos_')
neg_df = pd.DataFrame(df_test['neg'].tolist(), index=df_test.index).add_prefix('neg_')

# Объединение обратно с оригинальным DataFrame
df_test = pd.concat([df_test.drop(['pos', 'neg'], axis=1), pos_df, neg_df], axis=1)

df_test


Unnamed: 0,query,pos_0,pos_1,pos_2,pos_3,pos_4,neg_0,neg_1,neg_2,neg_3,neg_4
0,Отвечал за работу партии и внес свой вклад в 1936 году в урегулирование инцидента Сиань.,Внес свой вклад в урегулирование инцидента Сиань и отвечал за работу партии в 1936 году.,В 1936 году отвечал за работу партии и активно участвовал в урегулировании инцидента Сиань.,В урегулировании инцидента Сиань в 1936 году принимал участие и отвечал за работу партии.,В 1936 году активно участвовал в урегулировании инцидента Сиань и отвечал за работу партии.,Ответственно относился к работе партии и внёс свой вклад в урегулирование инцидента Сиань в 1936 году.,Не занимался работой партии и не принимал участия в урегулировании инцидента Сиань в 1936 году.,Игнорировал работу партии и не вносил никакого вклада в урегулирование инцидента Сиань в 1936 году.,Не участвовал в урегулировании инцидента Сиань и не отвечал за работу партии в 1936 году.,Не имел никакого вклада в урегулирование инцидента Сиань и не отвечал за работу партии в 1936 году.,Был равнодушен к работе партии и не принимал участия в урегулировании инцидента Сиань в 1936 году.
1,"Более сложные модели с поддержкой шифрования данных и аутентификацией используются в ситуациях, где важна безопасность, таких как удаленное управление критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность имеет первостепенное значение.","Более сложные модели, обладающие функциями шифрования и аутентификации, применяются в условиях, где безопасность играет ключевую роль, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет, где безопасность находится на первом месте.","В ситуациях, где безопасность является приоритетной, используются более сложные модели с возможностью шифрования данных и проверки подлинности, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет.","Более сложные модели, оснащенные шифрованием данных и аутентификацией, применяются в ситуациях, где безопасность играет важную роль, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая Интернет, где безопасность имеет высший приоритет.","Более сложные модели, которые поддерживают шифрование данных и аутентификацию, используются в ситуациях, где безопасность имеет большое значение, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, в том числе через Интернет.","Модели с расширенными возможностями шифрования данных и проверки подлинности применяются в ситуациях, где безопасность является ключевым аспектом, таким как удаленное управление критическими системами, управление механизмами на производственных предприятиях и в других сферах, включая использование Интернета, где безопасность играет важную роль.","Простые модели без шифрования данных и аутентификации используются в ситуациях, где безопасность не так важна, например, для управления не критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность не на первом плане.","Модели без шифрования данных и проверки подлинности используются в ситуациях, где безопасность не стоит на первом месте, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет.","Простые модели без поддержки шифрования данных и аутентификации применяются в условиях, где безопасность не является первоочередной задачей, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, в том числе через Интернет.","Простые модели, которые не обеспечивают шифрование данных и аутентификацию, используются в ситуациях, где безопасность не столь важна, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая Интернет.","Модели без сложной защиты данных и аутентификации применяются в условиях, где безопасность не имеет высокого приоритета, например, для управления не критическими системами, управления механизмами на заводе и в других отраслях, включая использование Интернета, где безопасность не играет ключевую роль."
2,"В это время отплыли две лодки: лодка самого генерала Уиллера и вторая, получившая пробоину у ватерлинии ядром, пущенным с берега.","Две лодки отправились в плавание: лодка генерала Уиллера и другая, которая получила пробоину от ядра, выпущенного с берега.","Отплыли две лодки: лодка генерала Уиллера и еще одна, которую пробили ядром у ватерлинии, брошенным с берега.","Лодка самого генерала Уиллера и вторая лодка, пораженная ядром у ватерлинии и отплывшие в это время.","В это время две лодки вышли в море: лодка генерала Уиллера и другая, поврежденная ядром, запущенным с берега.","Две лодки покинули берег: лодка генерала Уиллера и другая, пораженная ядром у ватерлинии.","В это время пришвартовались две лодки: лодка самого генерала Уиллера и другая, без повреждений на ватерлинии ядром.","Лодка генерала Уиллера осталась на месте, в то время как вторая лодка получила пробоину от ядра, брошенного с берега.","Две лодки стояли у берега: лодка генерала Уиллера и другая, которая не получила повреждений от ядра у ватерлинии.","Лодка генерала Уиллера не покидала места, в то время как вторая лодка была атакована ядром, выпущенным с берега.","В это время только одна лодка покинула берег, а вторая осталась на месте: лодка генерала Уиллера."
3,Первым юридически обязывающим и добровольным документом со стороны Киргизии дошедшим до наших дней являются решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи.,"Решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи являются первым юридически обязывающим и добровольным документом, дошедшим до наших дней.","С первыми решениями 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи познакомились дошедшие до нас документы, являющиеся юридически обязывающими и добровольными.","Документами решений 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи, пришедшими к нам, являются первыми юридически обязывающими и добровольными документами.","Решения о добровольном вхождении Киргизии в состав Российской Империи в период 1855—1863 годов являются первыми юридически обязывающими и добровольными документами, дошедшими до нас.","Первыми юридически обязывающими и добровольными документами, дошедшими до наших дней, являются решения 1855—1863 о добровольном вхождении Киргизии в состав Российской Империи.",Киргизия отказалась от вхождения в состав Российской Империи и не подписала решения 1855—1863 об этом.,Документы о добровольном вхождении Киргизии в состав Российской Империи не имеют юридической силы и не являются обязательными.,Решения 1855—1863 о включении Киргизии в состав Российской Империи не являются юридически обязывающими и добровольными.,Киргизия никогда не принимала решений о добровольном вхождении в состав Российской Империи в 1855—1863 годах.,"Решения о добровольном вхождении Киргизии в состав Российской Империи в 1855—1863 годах были аннулированы, и их действие не распространилось до наших дней."
4,"Длина переднего крыла 45—52 мм. Размах крыльев 100—125 мм. Передние крылья с беловатыми и розовыми волнистыми полосками и большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья от основания до средины черноватые, а от средины до края зеленовато-бурые; оба цвета разделяются белою полосою; нижняя сторона крыльев зеленоватая.","Переднее крыло имеет длину 45—52 мм, размах крыльев составляет 100—125 мм. На передних крыльях присутствуют беловатые и розовые волнистые полоски, а также крупное тёмно-фиолетовое продольное пятно у внутреннего угла. Задние крылья чёрные от основания до середины и зеленовато-бурые от середины до края, разделённые белой полосой. Нижняя сторона крыльев имеет зеленоватый оттенок.","Крыло на переднем конце имеет длину 45—52 мм, а размах крыльев - 100—125 мм. Передние крылья украшены беловатыми и розовыми волнистыми полосами, а также крупным тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья чёрные от основания до середины и зеленовато-бурые от середины до края, разделённые белой полосой. Нижняя сторона крыльев зеленоватая.","Средняя длина переднего крыла составляет 45—52 мм, а размах крыльев - 100—125 мм. На передних крыльях присутствуют беловатые и розовые волнистые полоски, а также крупное тёмно-фиолетовое продольное пятно у внутреннего угла. Задние крылья окрашены от черного до середины и от середины до края в зеленовато-бурые; оба цвета разделены белой полосой. Нижняя сторона крыльев зеленоватая.","Длина переднего крыла варьируется от 45 до 52 мм, а размах крыльев составляет от 100 до 125 мм. Передние крылья украшены беловатыми и розовыми волнистыми полосами, а также большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья меняют свой цвет от черного до середины, а от середины до края - зеленовато-бурые; оба цвета разделены белой полосой. Нижняя сторона крыльев имеет зеленоватый оттенок.","Передние крылья имеют длину от 45 до 52 мм, размах крыльев составляет от 100 до 125 мм. Они украшены беловатыми и розовыми волнистыми полосами и большим тёмно-фиолетовым продольным пятном у внутреннего угла; задние крылья окрашены в черный цвет от основания до середины и в зеленовато-бурый от середины до края; два цвета разделяет белая полоса; нижняя сторона крыльев зеленоватая.","Длина переднего крыла составляет 20—25 мм, размах крыльев - 50—75 мм. Передние крылья с бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла; задние крылья от основания до середины розовые, а от середины до края голубые; оба цвета разделяются жёлтой полосой; нижняя сторона крыльев голубая.","Переднее крыло имеет длину 30—35 мм, размах крыльев - 80—105 мм. Передние крылья украшены бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла. Задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая.","Передние крылья имеют длину 30—35 мм, а размах крыльев - 80—105 мм. На передних крыльях присутствуют бежевые и голубые прямые полосы и небольшое светло-розовое круглое пятно у внешнего угла; задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая.","Длина переднего крыла составляет 20—25 мм, а размах крыльев - 50—75 мм. Передние крылья украшены бежевыми и голубыми прямыми полосами и небольшим светло-розовым круглым пятном у внешнего угла; задние крылья окрашены от розового до середины и от середины до голубого; оба цвета разделены жёлтой полосой; нижняя сторона крыльев голубая.","Переднее крыло имеет длину 25—30 мм, а размах крыльев - 70—95 мм. На передних крыльях бежевые и голубые прямые полосы и небольшое светло-розовое круглое пятно у внешнего угла; задние крылья розовые от основания до середины и голубые от середины до края, разделённые жёлтой полосой. Нижняя сторона крыльев голубая."
...,...,...,...,...,...,...,...,...,...,...,...
1995,"Болтон, как предполагает конгрессмен от демократов Генри Уоксмэн, в 2003 году повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера.","В 2003 году Болтон, по мнению конгрессмена от демократов Генри Уоксмэна, оказал влияние на решение Буша заявить, что британская разведка установила, что Ирак пытается перевезти уран из Нигера.","Генри Уоксмэн считает, что влияние Болтона в 2003 году привело к тому, что Буш заявил, что британская разведка выявила попытки Ирака перевезти уран из Нигера.","По мнению конгрессмена Уоксмэна, в 2003 году Болтон повлиял на решение Буша сообщить, что британская разведка установила, что Ирак пытается перевезти уран из Нигера.","Болтон, судя по словам конгрессмена Уоксмэна, в 2003 году оказал влияние на решение Буша о том, что британская разведка установила, что Ирак пытается перевезти уран из Нигера.","В 2003 году Болтон повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера, считает конгрессмен Уоксмэн.","Болтон никоим образом не повлиял на решение Буша заявить, что британская разведка определила, что Ирак не пытается перевозить уран из Нигера.","По мнению конгрессмена Уоксмэна, Болтон не оказал никакого влияния на решение Буша о том, что британская разведка установила, что Ирак не пытается перевезти уран из Нигера.","Генри Уоксмэн считает, что Болтон не оказал никакого влияния на решение Буша сообщить, что британская разведка установила, что Ирак не пытается перевезти уран из Нигера.","Болтон в 2003 году не оказал влияние на решение Буша о заявлении, что британская разведка определила, что Ирак пытается перевезти уран из Нигера, по мнению конгрессмена Уоксмэна.","По мнению Генри Уоксмэна, Болтон не повлиял на решение Буша заявить, что британская разведка определила, что Ирак пытается перевезти уран из Нигера."
1996,Дом № 11с1 — Тип здания: спортивное сооружение; Этажность: 1,Спортивное сооружение дома № 11с1 находится на первом этаже.,На первом этаже расположено спортивное сооружение дома № 11с1.,Дом № 11с1 имеет один этаж и является спортивным сооружением.,Спортивное сооружение дома № 11с1 всего на одном этаже.,Первый этаж дома № 11с1 предназначен для спортивных мероприятий.,Дом № 11с1 — Тип здания: жилой дом; Этажность: 5,Спортивное сооружение дома № 11с1 находится на пятом этаже.,На пятом этаже расположено жилое здание дома № 11с1.,Дом № 11с1 состоит из пяти этажей и предназначен для жилья.,Спортивное сооружение дома № 11с1 находится в жилом здании.
1997,"Пермь II (до 1909 года - 'Заимки', до 1911 года - 'Пермь-Заимки') - железнодорожная станция Пермского региона Свердловской железной дороги, находящаяся в городе Перми, административном центре Пермского края.","Железнодорожная станция Пермь II (ранее известная как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года) расположена в городе Перми, который является административным центром Пермского края.","В городе Перми находится железнодорожная станция Пермь II, изначально названная 'Заимки' до 1909 года, а затем 'Пермь-Заимки' до 1911 года.","Пермь II - это название железнодорожной станции в городе Перми, которая ранее была известна как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года.","Железнодорожная станция Пермь II расположена в Перми, административном центре Пермского края, и ранее носила название 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года.","В Перми находится железнодорожная станция Пермь II, которая была известна как 'Заимки' до 1909 года и 'Пермь-Заимки' до 1911 года.","Пермь II - это автобусная остановка в городе Перми, не имеющая отношения к железнодорожной станции.","В городе Перми нет железнодорожной станции с названием Пермь II, это ошибка.","Железнодорожная станция Пермь II находится не в Перми, а в другом городе.","Пермь II - это название аэропорта, а не железнодорожной станции, расположенной в Перми.","Пермь II - это обычное название жилого района в Перми, а не железнодорожной станции."
1998,До оконца жизни оставался президентом публиковавшей «Atlantis» компании.,Оставался президентом компании «Atlantis» до конца своей жизни.,"До конца своей жизни оставался президентом компании, издающей журнал «Atlantis».","Президентом компании, выпускающей журнал «Atlantis», он оставался до самого конца жизни.","До конца своих дней он был президентом компании, издающей журнал «Atlantis».",Президентом компании «Atlantis» он оставался до своего последнего дня.,Сразу после назначения он покинул пост президента компании «Atlantis».,"В тот же день он ушел с поста президента компании, выпускающей журнал «Atlantis».","Никогда не был президентом компании, публикующей журнал «Atlantis».",Вскоре после назначения он объявил об отставке с поста президента компании «Atlantis».,"Недолго пробыл на посту президента компании, выпускающей журнал «Atlantis»."


In [12]:
# Разделение на новые столбцы
pos_df = pd.DataFrame(df_train['pos'].tolist(), index=df_train.index).add_prefix('pos_')
neg_df = pd.DataFrame(df_train['neg'].tolist(), index=df_train.index).add_prefix('neg_')

# Объединение обратно с оригинальным DataFrame
df_train = pd.concat([df_train.drop(['pos', 'neg'], axis=1), pos_df, neg_df], axis=1)

df_train


Unnamed: 0,query,pos_0,pos_1,pos_2,pos_3,pos_4,neg_0,neg_1,neg_2,neg_3,neg_4
0,С 1952 года после окончания Куйбышевского индустриального института им. В. В. Куйбышева работал в системе атомной промышленности СССР.,После окончания Куйбышевского индустриального института им. В. В. Куйбышева он начал работать в системе атомной промышленности СССР с 1952 года.,С 1952 года после выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он трудился в системе атомной промышленности СССР.,После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он поступил на работу в систему атомной промышленности СССР в 1952 году.,С 1952 года после получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он приступил к работе в системе атомной промышленности СССР.,После выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он стал работать в системе атомной промышленности СССР с 1952 года.,До 1952 года перед окончанием Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР.,После окончания Куйбышевского индустриального института им. В. В. Куйбышева он не устроился на работу в систему атомной промышленности СССР с 1952 года.,До получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР.,После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он не приступил к работе в системе атомной промышленности СССР в 1952 году.,До выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он не трудился в системе атомной промышленности СССР.
1,"Впадающие реки: Гаронна и Дордонь (образующие эстуарий Жиронда), Луара, Адур, Бидасоа.","Эстуарий Жиронда формируют впадающие реки: Гаронна и Дордонь, а также Луара, Адур и Бидасоа.","Гаронна и Дордонь впадают в эстуарий Жиронда вместе с реками Луара, Адур и Бидасоа.","Реки Луара, Адур и Бидасоа присоединяются к Гаронне и Дордони, формируя эстуарий Жиронда.","Дордонь и Гаронна, а также Луара, Адур и Бидасоа - важные реки, формирующие эстуарий Жиронда.","Луара, Адур и Бидасоа впадают в эстуарий Жиронда вместе с Гаронной и Дордонью.","Нет впадающих рек в эстуарий Жиронда, только одна большая река.","Эстуарий Жиронда формируется только одной рекой, без других впадающих рек.","Гаронна и Дордонь не имеют никакого отношения к эстуарию Жиронда, это совершенно разные реки.","Луара, Адур и Бидасоа не соединяются с эстуарием Жиронда, они течут в другом направлении.","Эстуарий Жиронда образуется только одной рекой, Гаронной, без участия других рек."
2,"После смерти отца в 1709 году Людовик унаследовал его титулы, должности и владения.","В 1709 году, после смерти отца, Людовик унаследовал его титулы, должности и владения.","Людовик унаследовал титулы, должности и владения от отца после его смерти в 1709 году.","После смерти отца в 1709 году Людовик получил его титулы, должности и владения.","Владения, титулы и должности были унаследованы Людовиком после смерти отца в 1709 году.","Унаследовав титулы, должности и владения после смерти отца в 1709 году, Людовик стал их обладателем.","После смерти отца в 1709 году Людовик лишился его титулов, должностей и владений.","Людовик отказался от титулов, должностей и владений своего отца после его смерти в 1709 году.","После смерти отца в 1709 году Людовик отрёкся от его титулов, должностей и владений.","В 1709 году, после смерти отца, Людовик потерял его титулы, должности и владения.","Людовик не наследовал титулы, должности и владения от отца после его смерти в 1709 году."
3,"С началом Второй мировой войны клиника перешла в ведение Немецкого института психологических исследований и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон трудился вместе с Вернером Кемпером, занимаясь не только исследованиями, но оказывая помощь евреям и интернированным иностранным рабочим.","После начала Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии, возглавляемого Маттиасом Генрихом Гёрингом. Там Джон работал совместно с Вернером Кемпером, занимаясь не только научными исследованиями, но и помогая евреям и иностранным рабочим в интернировке.","После начала Второй мировой войны клинику возглавил Немецкий институт исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон совместно с Вернером Кемпером занимался исследованиями и оказывал помощь евреям и интернированным рабочим.","В начале Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон работал вместе с Вернером Кемпером, занимаясь исследованиями и помогая евреям и интернированным рабочим.","С началом Второй мировой войны клиника перешла под контроль Немецкого института исследований психологии и психотерапии, возглавляемого Маттиасом Генрихом Гёрингом. Здесь Джон работал вместе с Вернером Кемпером, занимаясь исследованиями и помогая евреям и интернированным рабочим.","В период Второй мировой войны клиника стала частью Немецкого института исследований психологии и психотерапии под руководством Маттиаса Генриха Гёринга, где Джон усердно трудился вместе с Вернером Кемпером, оказывая помощь евреям и интернированным рабочим.","С началом Второй мировой войны клиника перешла в ведение антифашистской организации, где Джон участвовал в дезинформации и шпионаже против Гёринга.","После начала Второй мировой войны клинику закрыли из-за связей с фашистскими организациями, а Джон был арестован за сотрудничество с интернированными евреями и рабочими.","С началом Второй мировой войны клиника стала центром пропаганды фашистского режима и перестала помогать интернированным людям, включая евреев.","В начале Второй мировой войны клиника перешла под контроль фашистских структур, где Джон с Вернером Кемпером проводил пропагандистскую работу против евреев и интернированных.","После начала Второй мировой войны клиника стала местом пропаганды и насилия, а Джон и Вернер Кемпер преследовали евреев и иностранных рабочих."
4,"Родники являются местом паломничества, так как были освящены митрополитом Волгоградским и Камышинским Германом, а местные жители установили каменную икону святого великомученика Пантелеимона Целителя.","Место паломничества - родники, освященные митрополитом Волгоградским и Камышинским Германом, где местные жители установили каменную икону святого великомученика Пантелеимона Целителя.","Родники, освященные митрополитом Волгоградским и Камышинским Германом, стали местом паломничества после установки каменной иконы святого великомученика Пантелеимона Целителя местными жителями.","Освященные митрополитом Волгоградским и Камышинским Германом, родники стали популярным местом паломничества после установки каменной иконы святого великомученика Пантелеимона Целителя.","Место паломничества - родники, освященные митрополитом Волгоградским и Камышинским Германом, где была установлена каменная икона святого великомученика Пантелеимона Целителя местными жителями.","Родники, освященные митрополитом Волгоградским и Камышинским Германом, привлекают паломников после установки каменной иконы святого великомученика Пантелеимона Целителя местными жителями.","Родники не являются местом паломничества, так как не были освящены митрополитом Волгоградским и Камышинским Германом, и местные жители не установили каменную икону святого великомученика Пантелеимона Целителя.","Родники - не место паломничества, так как не имеют освящения от митрополита Волгоградского и Камышинского Германа, и на них нет каменной иконы святого великомученика Пантелеимона Целителя, установленной местными жителями.","Освящение митрополитом Волгоградским и Камышинским Германом не делает родники местом паломничества, а установка каменной иконы святого великомученика Пантелеимона Целителя местными жителями не имеет значения.","Местные жители не установили каменную икону святого великомученика Пантелеимона Целителя на родниках, поэтому это не место паломничества, несмотря на освящение митрополитом Волгоградским и Камышинским Германом.","Родники, не освященные митрополитом Волгоградским и Камышинским Германом, и без каменной иконы святого великомученика Пантелеимона Целителя, установленной местными жителями, не привлекают паломников."
...,...,...,...,...,...,...,...,...,...,...,...
99995,"При разработке программы ресурсы помещаются в текстовый файл с суффиксом .rc, написанный на некоем несложном языке.","При создании программы ресурсы сохраняются в файл с расширением .rc, написанный на простом языке.","Разрабатывая программу, ресурсы заносятся в текстовый файл с окончанием .rc, написанный на несложном языке.","При программировании ресурсы складываются в файл .rc, написанный на простом языке.","Ресурсы при написании программы сохраняются в файл .rc, написанный на доступном языке.","При работе над программой ресурсы добавляются в файл .rc, написанный на простом языке.","При разработке программы ресурсы не помещаются в текстовый файл с суффиксом .rc, написанный на сложном языке.","При разработке программы ресурсы удаляются из текстового файла с суффиксом .rc, написанный на сложном языке.","При разработке программы ресурсы перемещаются в бинарный файл без суффикса .rc, написанный на несложном языке.","При разработке программы ресурсы сохраняются в текстовом файле с другим суффиксом, написанный на сложном языке.","При разработке программы ресурсы хранятся в базе данных вместо текстового файла с суффиксом .rc, написанный на несложном языке."
99996,"Выйдя на пенсию в 1978 году, Шеннон много времени уделял своему давнему увлечению - жонглированию.","Шеннон, вышедший на пенсию в 1978 году, много времени проводил, занимаясь своим давним увлечением - жонглированием.","Вышедший на пенсию в 1978 году, Шеннон с удовольствием занимался своим давним увлечением - жонглированием.",Шеннон после выхода на пенсию в 1978 году уделял много времени своему старому увлечению - жонглированию.,"После выхода на пенсию в 1978 году, Шеннон стал активно заниматься своим давним увлечением - жонглированием.",Шеннон на пенсии с 1978 года активно развивал своё старое увлечение - жонглирование.,"Работая на полную ставку в 1978 году, Шеннон почти не имел времени на своё давнее увлечение - жонглирование.","Шеннон, не выходивший на пенсию в 1978 году, часто упускал возможность заниматься своим старым увлечением - жонглированием.","Не находя времени из-за работы в 1978 году, Шеннон почти не занимался своим давним увлечением - жонглированием.","Шеннон, продолжавший работать после 1978 года, отказался от своего старого увлечения - жонглирования.","Несмотря на возможность выхода на пенсию в 1978 году, Шеннон предпочёл не тратить время на своё давнее увлечение - жонглирование."
99997,"В 214 году до н.э. он был направлен с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами.",С пятьюдесятью пятью кораблями он был направлен в 214 году до н.э. на помощь осаждённым римлянами Сиракузам.,"В 214 году до н.э. его направили с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами.","Он был отправлен в 214 году до н.э. с пятьюдесятью пятью кораблями на помощь Сиракузам, осаждённым римлянами.","Пятьдесят пять кораблей были направлены в 214 году до н.э. на помощь Сиракузам, осаждённым римлянами.","Сиракузы, осаждённые римлянами, получили помощь в виде пятидесяти пяти кораблей в 214 году до н.э.","В 214 году до н.э. он был направлен без кораблей на помощь Сиракузам, которые не были осаждены римлянами.","Он был отправлен в 214 году до н.э. с пятьюдесятью пятью кораблями не на помощь Сиракузам, не осаждённым римлянами.",С пятьюдесятью пятью кораблями его не направили в 214 году до н.э. на помощь осаждённым римлянами Сиракузам.,"В 214 году до н.э. его не отправили с пятьюдесятью пятью кораблями на помощь Сиракузам, не осаждённым римлянами.","Сиракузы, не осаждённые римлянами, не получили помощь в виде пятидесяти пяти кораблей в 214 году до н.э."
99998,"Рельеф района большей частью холмисто-равнинный, лишь на северо-востоке горный (хребты Акшатау, Тарбагатай).","Большей частью рельеф района холмисто-равнинный, только на северо-востоке горный (хребты Акшатау, Тарбагатай).","Холмисто-равниным является большая часть рельефа района, лишь на северо-востоке можно найти горные хребты (Акшатау, Тарбагатай).","Рельеф района в основном представлен холмисто-равнинной местностью, только на северо-востоке можно встретить горы (хребты Акшатау, Тарбагатай).","Холмисто-равниным является основной рельеф района, лишь на северо-востоке можно увидеть горы (хребты Акшатау, Тарбагатай).","Большая часть района имеет холмисто-равнинный рельеф, только на северо-востоке преобладают горы (хребты Акшатау, Тарбагатай).","Рельеф района представлен в основном гористыми местностями, лишь на юго-западе можно найти равнины.","Большей частью района преобладает гористый рельеф, только на юге можно встретить равнины.","Гористо-лесистый рельеф является основным для района, лишь на западе можно найти равнины.","Район характеризуется в основном гористым рельефом, только на юго-востоке преобладают равнины.","Горы преобладают в рельефе района, лишь на востоке можно найти холмисто-равнинные местности."


In [13]:
# Выбор 10% от df_train
df_train = df_train.sample(frac=0.1, random_state=42).reset_index(drop=True)
df_train

Unnamed: 0,query,pos_0,pos_1,pos_2,pos_3,pos_4,neg_0,neg_1,neg_2,neg_3,neg_4
0,Клини́ческий переулок — название улиц в различных населённых пунктах государств бывшего СССР.,Переулок с названием Клини́ческий расположен в разных населённых пунктах государств бывшего СССР.,В различных городах бывшего СССР есть улицы с названием Клини́ческий переулок.,На улице Клини́ческий переулок можно встретить в разных населённых пунктах бывшего СССР.,Улицы с названием Клини́ческий переулок пролегают через различные населённые пункты государств бывшего СССР.,Название Клини́ческий переулок используется для улиц в разных населённых пунктах бывшего СССР.,Бывший СССР не имеет улиц с названием Клини́ческий переулок.,"Клини́ческий переулок — улица, которой нет в различных населённых пунктах бывшего СССР.",В городах бывшего СССР не существует улицы с названием Клини́ческий переулок.,Название Клини́ческий переулок не используется для улиц в государствах бывшего СССР.,Улицы в различных населённых пунктах бывшего СССР не называются Клини́ческий переулок.
1,Также см. схему «Развитие сети городского транспорта» — из Генерального плана Новосибирска до 2030 года: ).,Изучите также план развития городского транспорта Новосибирска до 2030 года.,Посмотрите схему развития городского транспорта в Новосибирске до 2030 года.,Приглядитесь к плану развития городского транспорта Новосибирска до 2030 года.,Рассмотрите также план развития городского транспорта Новосибирска на 2030 год.,Взгляните на схему развития городского транспорта в Новосибирске на период до 2030 года.,Не обращайте внимания на схему «Развитие сети городского транспорта» в Генеральном плане Новосибирска до 2030 года.,Игнорируйте план развития городского транспорта Новосибирска до 2030 года.,Не следуйте схеме развития городского транспорта в Новосибирске до 2030 года.,Не учитывайте план развития городского транспорта Новосибирска на 2030 год.,Не принимайте во внимание схему развития городского транспорта в Новосибирске на период до 2030 года.
2,После окончания Московского среднего технического училища (1918) работал электромехаником в Московском практическом электротехническом институте и одновременно учился там же (окончил в 1921 г. со званием инженера по электрооборудованию фабрик и заводов).,"Работая электромехаником в Московском практическом электротехническом институте, после окончания Московского среднего технического училища (1918), он одновременно учился там же и успешно закончил в 1921 году, получив звание инженера по электрооборудованию фабрик и заводов.","После окончания Московского среднего технического училища (1918), он работал электромехаником в Московском практическом электротехническом институте, а также учился в этом же институте, где закончил обучение в 1921 году с званием инженера по электрооборудованию фабрик и заводов.","Электромехаником в Московском практическом электротехническом институте он работал после окончания Московского среднего технического училища в 1918 году, параллельно учась в этом же институте и успешно завершив обучение в 1921 году, став инженером по электрооборудованию фабрик и заводов.","После окончания Московского среднего технического училища в 1918 году, он приступил к работе электромехаником в Московском практическом электротехническом институте, где параллельно проходил обучение и в 1921 году успешно стал инженером по электрооборудованию фабрик и заводов.","Электромехаником в Московском практическом электротехническом институте, после окончания Московского среднего технического училища в 1918 году, он продолжил обучение в том же институте и завершил его в 1921 году, получив звание инженера по электрооборудованию фабрик и заводов.","Не окончив Московское среднее техническое училище в 1918 году, он не стал электромехаником в Московском практическом электротехническом институте и не учился там же, не закончив обучение в 1921 году со званием инженера по электрооборудованию фабрик и заводов.","После окончания Московского среднего технического училища в 1918 году, он не работал электромехаником в Московском практическом электротехническом институте и не учился там же, не получив звание инженера по электрооборудованию фабрик и заводов в 1921 году.","Не после окончания Московского среднего технического училища в 1918 году он работал электромехаником в Московском практическом электротехническом институте и не учился там же, не получив в 1921 году звание инженера по электрооборудованию фабрик и заводов.","Не работая электромехаником в Московском практическом электротехническом институте после окончания Московского среднего технического училища в 1918 году, он не учился там же, не закончив обучение в 1921 году со званием инженера по электрооборудованию фабрик и заводов.","После окончания Московского среднего технического училища в 1918 году, он не стал электромехаником в Московском практическом электротехническом институте и не учился там же, не получив звание инженера по электрооборудованию фабрик и заводов в 1921 году."
3,"Благодаря промежуточным клеткам каждая часть тела, если в ней есть хотя бы одна промежуточная клетка, может образовать новую гидру.","Каждая часть тела, если в ней есть хотя бы одна промежуточная клетка, благодаря им может образовать новую гидру.","Благодаря промежуточным клеткам каждая часть тела имеет возможность образовать новую гидру, если в ней есть хотя бы одна промежуточная клетка.","Если в каждой части тела есть хотя бы одна промежуточная клетка, то благодаря им возможно образование новой гидры.","Образование новой гидры возможно, если каждая часть тела содержит хотя бы одну промежуточную клетку.",При наличии хотя бы одной промежуточной клетки в каждой части тела возможно образование новой гидры.,"Ни одна часть тела не способна образовать новую гидру, если в ней нет промежуточной клетки.",Отсутствие промежуточных клеток в каждой части тела исключает возможность образования новой гидры.,При отсутствии хотя бы одной промежуточной клетки в части тела невозможно образование новой гидры.,Без промежуточных клеток в каждой части тела образование новой гидры неосуществимо.,Наличие промежуточных клеток в части тела исключает возможность формирования новой гидры.
4,Этот объект входит в число перечисленных в оригинальной редакции Нового общего каталога.,В оригинальной редакции Нового общего каталога этот объект перечислен среди прочих.,Этот объект был включен в список в оригинальной версии Нового общего каталога.,"Он является частью перечня, указанного в первоначальной редакции Нового общего каталога.",Этот объект был указан в оригинальном списке Нового общего каталога.,"Он входит в число объектов, перечисленных в первоначальной версии Нового общего каталога.",Этот объект не включен в список перечисленных в оригинальной редакции Нового общего каталога.,В оригинальной версии Нового общего каталога этот объект не упоминается.,"Он не входит в число объектов, перечисленных в оригинальной версии Нового общего каталога.",Этот объект был исключен из списка в оригинальной редакции Нового общего каталога.,Он не был упомянут в первоначальной версии Нового общего каталога.
...,...,...,...,...,...,...,...,...,...,...,...
9995,"Вальо-Базиликата () — коммуна в Италии, располагается в регионе Базиликата, в провинции Потенца.","Коммуна Вальо-Базиликата расположена в Италии, в регионе Базиликата, в провинции Потенца.","В регионе Базиликата, в провинции Потенца, находится коммуна Вальо-Базиликата.","В итальянской Италии располагается коммуна Вальо-Базиликата в регионе Базиликата, в провинции Потенца.","Коммуна Вальо-Базиликата находится в Италии, в провинции Потенца, в регионе Базиликата.","В провинции Потенца, в регионе Базиликата, расположена коммуна Вальо-Базиликата в Италии.","Вальо-Базиликата () — коммуна в Италии, располагается в регионе Базиликата, в провинции Милан.","Вальо-Базиликата () — коммуна во Франции, располагается в регионе Прованс-Альпы-Лазурный берег.","Милан () — коммуна в Италии, располагается в регионе Ломбардия, в провинции Милан.","Потенца () — коммуна в Италии, располагается в регионе Сицилия, в провинции Палермо.","Рим () — столица Италии, располагается в регионе Лацио, в провинции Рим."
9996,"«Венок Сонетов» — Сергей КалугинМузыкальные миниатюры — Алексей БурковИдея — Игорь Деревянко, Эвелина ШмелёваЗапись и сведение — Эвелина ШмелёваMastered by Joury Bogdanov at Magic Mastering StudioХудожественное оформление — Дмитрий Воронцов",Сергей Калугин написал сборник «Венок Сонетов»,Алексей Бурков создал музыкальные миниатюры,Игорь Деревянко и Эвелина Шмелёва придумали концепцию,Эвелина Шмелёва занималась записью и сведением,Дмитрий Воронцов занимался художественным оформлением,«Венок Сонетов» не имеет отношения к Сергею Калугину,Алексей Бурков не создавал музыкальные миниатюры,Игорь Деревянко и Эвелина Шмелёва не задумывали концепцию,Запись и сведение не были выполнены Эвелиной Шмелёвой,Дмитрий Воронцов не занимался художественным оформлением
9997,Расстояние до ближайшей железнодорожной станции Серебрянка — 12 км.,От железнодорожной станции Серебрянка всего 12 км.,До ближайшей железнодорожной станции Серебрянка 12 километров.,Расстояние до станции Серебрянка на железной дороге составляет 12 км.,12 км — расстояние до ближайшей железнодорожной станции Серебрянка.,Серебрянка находится всего в 12 км от железнодорожной станции.,От железнодорожной станции Серебрянка более 12 км.,До ближайшей железнодорожной станции Серебрянка больше 12 километров.,Расстояние до станции Серебрянка на железной дороге больше 12 км.,Более 12 км — расстояние до ближайшей железнодорожной станции Серебрянка.,Серебрянка находится более чем в 12 км от железнодорожной станции.
9998,Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.) — историк эпохи Бухарского эмирата.,Историк эпохи Бухарского эмирата Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.).,"Мухаммад Шариф, историк эпохи Бухарского эмирата, б. Мухаммад Наки () (XVIII-XIX вв.).",Мухаммад Наки () (XVIII-XIX вв.) — историк Бухарского эмирата Мухаммада Шарифа.,Историк Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.) жил в эпоху Бухарского эмирата.,"Мухаммад Наки () (XVIII-XIX вв.), историк эмирата Бухарского, Мухаммада Шарифа.",Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.) не имел отношения к истории эмирата Бухарского.,Историк эпохи Бухарского эмирата не был Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.).,Мухаммад Шариф б. Мухаммад Наки () (XVIII-XIX вв.) — не историк эмирата Бухарского.,Мухаммад Наки () (XVIII-XIX вв.) не изучал историю эпохи Бухарского эмирата.,Бухарский эмират не имел отношения к Мухаммаду Шарифу б. Мухаммаду Наки () (XVIII-XIX вв.).


In [14]:
# Применение предобработки к столбцам
for col in tqdm(df_train.columns):
    df_train[col] = df_train[col].apply(preprocess_text)

for col in tqdm(df_test.columns):
    df_test[col] = df_test[col].apply(preprocess_text)



100%|███████████████████████████████████████████████████████████████████████████████| 11/11 [2:22:24<00:00, 776.78s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 11/11 [30:20<00:00, 165.53s/it]


In [15]:
# Просмотр предобработанных данных
df_train.head()

Unnamed: 0,query,pos_0,pos_1,pos_2,pos_3,pos_4,neg_0,neg_1,neg_2,neg_3,neg_4
0,клинический переулок название улица различный населить пункт государство бывший ссср,переулок название клинический расположить разный населить пункт государство бывший ссср,различный город бывший ссср улица название клинический переулок,улица клинический переулок встретить разный населить пункт бывший ссср,улица название клинический переулок пролегать различный населённый пункт государство бывший ссср,название клинический переулок использоваться улица разный населить пункт бывший ссср,бывший ссср иметь улица название клинический переулок,клинический переулок улица который различный населить пункт бывший ссср,город бывший ссср существовать улица название клинический переулок,название клинический переулок использоваться улица государство бывший ссср,улица различный населить пункт бывший ссср называться клинический переулок
1,также смотреть схема развитие сеть городской транспорт генеральный план новосибирск 2030 год,изучить также план развитие городской транспорт новосибирск 2030 год,посмотреть схема развитие городской транспорт новосибирск 2030 год,приглядеться план развитие городской транспорт новосибирск 2030 год,рассмотреть также план развитие городской транспорт новосибирск 2030 год,взглянуть схема развитие городской транспорт новосибирск период 2030 год,обращать внимание схема развитие сеть городской транспорт генеральный план новосибирск 2030 год,игнорировать план развитие городской транспорт новосибирск 2030 год,следовать схема развитие городской транспорт новосибирск 2030 год,учитывать план развитие городской транспорт новосибирск 2030 год,принимать внимание схема развитие городской транспорт новосибирск период 2030 год
2,окончание московский среднее технический училище 1918 работать электромеханик московский практический электротехнический институт одновременно учиться окончить 1921 г звание инженер электрооборудование фабрика завод,работать электромеханик московский практический электротехнический институт окончание московский среднее технический училище 1918 одновременно учиться успешно закончить 1921 год получить звание инженер электрооборудование фабрика завод,окончание московский среднее технический училище 1918 работать электромеханик московский практический электротехнический институт также учиться институт закончить обучение 1921 год звание инженер электрооборудование фабрика завод,электромеханик московский практический электротехнический институт работать окончание московский среднее технический училище 1918 год параллельно учиться институт успешно завершить обучение 1921 год стать инженер электрооборудование фабрика завод,окончание московский среднее технический училище 1918 год приступить работа электромеханик московский практический электротехнический институт параллельно проходить обучение 1921 год успешно стать инженер электрооборудование фабрика завод,электромеханик московский практический электротехнический институт окончание московский среднее технический училище 1918 год продолжить обучение институт завершить 1921 год получить звание инженер электрооборудование фабрика завод,окончить московский средний технический училище 1918 год стать электромеханик московский практический электротехнический институт учиться закончить обучение 1921 год звание инженер электрооборудование фабрика завод,окончание московский среднее технический училище 1918 год работать электромеханик московский практический электротехнический институт учиться получить звание инженер электрооборудование фабрика завод 1921 год,окончание московский среднее технический училище 1918 год работать электромеханик московский практический электротехнический институт учиться получить 1921 год звание инженер электрооборудование фабрика завод,работать электромеханик московский практический электротехнический институт окончание московский среднее технический училище 1918 год учиться закончить обучение 1921 год звание инженер электрооборудование фабрика завод,окончание московский среднее технический училище 1918 год стать электромеханик московский практический электротехнический институт учиться получить звание инженер электрооборудование фабрика завод 1921 год
3,благодаря промежуточный клетка каждый часть тело хотя один промежуточный клетка образовать новый гидра,каждый часть тело хотя один промежуточный клетка благодаря образовать новый гидра,благодаря промежуточный клетка каждый часть тело иметь возможность образовать новый гидра хотя один промежуточный клетка,каждый часть тело хотя один промежуточный клетка благодаря возможно образование новый гидра,образование новый гидра возможно каждый часть тело содержать хотя один промежуточный клетка,наличие хотя один промежуточный клетка каждый часть тело возможно образование новый гидра,один часть тело способный образовать новый гидра промежуточный клетка,отсутствие промежуточный клетка каждый часть тело исключать возможность образование новый гидра,отсутствие хотя один промежуточный клетка часть тело невозможно образование новый гидра,промежуточный клетка каждый часть тело образование новый гидра неосуществимый,наличие промежуточный клетка часть тело исключать возможность формирование новый гидра
4,объект входить число перечисленный оригинальный редакция новый общий каталог,оригинальный редакция новый общий каталог объект перечисленный среди прочий,объект включить список оригинальный версия новый общий каталог,являться часть перечень указанный первоначальный редакция новый общий каталог,объект указать оригинальный список новый общий каталог,входить число объект перечисленный первоначальный версия новый общий каталог,объект включить список перечисленный оригинальный редакция новый общий каталог,оригинальный версия новый общий каталог объект упоминаться,входить число объект перечисленный оригинальный версия новый общий каталог,объект исключить список оригинальный редакция новый общий каталог,упомянуть первоначальный версия новый общий каталог


In [16]:
# Просмотр предобработанных данных
df_test.head()

Unnamed: 0,query,pos_0,pos_1,pos_2,pos_3,pos_4,neg_0,neg_1,neg_2,neg_3,neg_4
0,отвечать работа партия внести свой вклад 1936 год урегулирование инцидент сианя,внести свой вклад урегулирование инцидент сианя отвечать работа партия 1936 год,1936 год отвечать работа партия активно участвовать урегулирование инцидент сианя,урегулирование инцидент сианя 1936 год принимать участие отвечать работа партия,1936 год активно участвовать урегулирование инцидент сианя отвечать работа партия,ответственно относиться работа партия внести свой вклад урегулирование инцидент сианя 1936 год,заниматься работа партия принимать участие урегулирование инцидент сианя 1936 год,игнорировать работа партия вносить никакой вклад урегулирование инцидент сианя 1936 год,участвовать урегулирование инцидент сианя отвечать работа партия 1936 год,иметь никакой вклад урегулирование инцидент сианя отвечать работа партия 1936 год,равнодушный работа партия принимать участие урегулирование инцидент сианя 1936 год
1,сложный модель поддержка шифрование данные аутентификация использоваться ситуация важный безопасность такой удалённый управление критический система управление механизм завод промышленный предприятие число интернет безопасность иметь первостепенный значение,сложный модель обладать функция шифрование аутентификация применяться условие безопасность играть ключевой роль например удалённый управление критический система управление механизм завод промышленный предприятие включая сеть интернет безопасность находиться первый место,ситуация безопасность являться приоритетный использоваться сложный модель возможность шифрование данные проверка подлинность например удалённый управление критический система управление механизм завод промышленный предприятие включая сеть интернет,сложный модель оснастить шифрование данные аутентификация применяться ситуация безопасность играть важный роль например удалённый управление критический система управление механизм завод промышленный предприятие включая интернет безопасность иметь высокий приоритет,сложный модель который поддерживать шифрование данные аутентификация использоваться ситуация безопасность иметь большой значение например удалённый управление критический система управление механизм завод промышленный предприятие число интернет,модель расширить возможность шифрование данные проверка подлинность применяться ситуация безопасность являться ключевой аспект такой удалённый управление критический система управление механизм производственный предприятие другой сфера включая использование интернет безопасность играть важный роль,простой модель шифрование данные аутентификация использоваться ситуация безопасность важный например управление критический система управление механизм завод промышленный предприятие число интернет безопасность первый план,модель шифрование данные проверка подлинность использоваться ситуация безопасность стоить первый место например удалённый управление критический система управление механизм завод промышленный предприятие включая сеть интернет,простой модель поддержка шифрование данные аутентификация применяться условие безопасность являться первоочередной задача например удалённый управление критический система управление механизм завод промышленный предприятие число интернет,простой модель который обеспечивать шифрование данные аутентификация использоваться ситуация безопасность столь важный например удалённый управление критический система управление механизм завод промышленный предприятие включая интернет,модель сложный защита данные аутентификация применяться условие безопасность иметь высокий приоритет например управление критический система управление механизм завод другой отрасль включая использование интернет безопасность играть ключевой роль
2,это время отплыть два лодка лодка сам генерал уиллер второй получить пробоина ватерлиния ядро пустить берег,два лодка отправиться плавание лодка генерал уиллер другой который получить пробоина ядро выпустить берег,отплыть два лодка лодка генерал уиллер один который пробить ядро ватерлиния бросить берег,лодка сам генерал уиллер второй лодка поразить ядро ватерлиния отплыть это время,это время два лодка выйти море лодка генерал уиллер другой повредить ядро запустить берег,два лодка покинуть берег лодка генерал уиллер другой поразить ядро ватерлиния,это время пришвартоваться два лодка лодка сам генерал уиллер другой повреждение ватерлиния ядро,лодка генерал уиллер остаться место время второй лодка получить пробоина ядро бросить берег,два лодка стоять берег лодка генерал уиллер другой который получить повреждение ядро ватерлиния,лодка генерал уиллер покидать место время второй лодка атаковать ядро выпустить берег,это время один лодка покинуть берег второй остаться место лодка генерал уиллер
3,первый юридически обязывать добровольный документ сторона киргизия дойти наш день являться решение 18551863 добровольный вхождение киргизия состав российский империя,решение 18551863 добровольный вхождение киргизия состав российский империя являться первый юридически обязывать добровольный документ дойти наш день,первый решение 18551863 добровольный вхождение киргизия состав российский империя познакомиться дойти документ являться юридически обязывать добровольный,документ решение 18551863 добровольный вхождение киргизия состав российский империя прийти мы являться первый юридически обязывать добровольный документ,решение добровольный вхождение киргизия состав российский империя период 18551863 год являться первый юридически обязывать добровольный документ дойти,первый юридически обязывать добровольный документ дойти наш день являться решение 18551863 добровольный вхождение киргизия состав российский империя,киргизия отказаться вхождение состав российский империя подписать решение 18551863,документ добровольный вхождение киргизия состав российский империя иметь юридический сила являться обязательный,решение 18551863 включение киргизия состав российский империя являться юридически обязывать добровольный,киргизия принимать решение добровольный вхождение состав российский империя 18551863 год,решение добровольный вхождение киргизия состав российский империя 18551863 год аннулировать действие распространиться наш день
4,длина передний крыло 4552 мм размах крыло 100125 мм передний крыло беловатый розовый волнистый полоска больший тёмнофиолетовый продольный пятно внутренний угол задний крыло основание средина черноватый средина край зеленоватобурый оба цвет разделяться бела полоса нижний сторона крыло зеленоватый,передний крыло иметь длина 4552 мм размах крыло составлять 100125 мм передний крыло присутствовать беловатый розовый волнистый полоска также крупный тёмнофиолетовый продольный пятно внутренний угол задний крыло чёрный основание середина зеленоватобурый середина край разделить белый полоса нижний сторона крыло иметь зеленоватый оттенок,крыло передний конец иметь длина 4552 мм размах крыло 100125 мм передний крыло украсить беловатый розовый волнистый полоса также крупный тёмнофиолетовый продольный пятно внутренний угол задний крыло чёрный основание середина зеленоватобурый середина край разделить белый полоса нижний сторона крыло зеленоватый,средний длина передний крыло составлять 4552 мм размах крыло 100125 мм передний крыло присутствовать беловатый розовый волнистый полоска также крупный тёмнофиолетовый продольный пятно внутренний угол задний крыло окрасить чёрный середина середина край зеленоватобурый оба цвет разделить белый полоса нижний сторона крыло зеленоватый,длина передний крыло варьироваться 45 52 мм размах крыло составлять 100 125 мм передний крыло украсить беловатый розовый волнистый полоса также больший тёмнофиолетовый продольный пятно внутренний угол задний крыло менять свой цвет чёрный середина середина край зеленоватобурый оба цвет разделить белый полоса нижний сторона крыло иметь зеленоватый оттенок,передний крыло иметь длина 45 52 мм размах крыло составлять 100 125 мм украсить беловатый розовый волнистый полоса больший тёмнофиолетовый продольный пятно внутренний угол задний крыло окрасить чёрный цвет основание середина зеленоватобурый середина край цвет разделять белый полоса нижний сторона крыло зеленоватый,длина передний крыло составлять 2025 мм размах крыло 5075 мм передний крыло бежевый голубой прямой полоса небольшой светлорозов круглый пятно внешний угол задний крыло основание середина розовый середина край голубой оба цвет разделяться жёлтый полоса нижний сторона крыло голубой,передний крыло иметь длина 3035 мм размах крыло 80105 мм передний крыло украсить бежевый голубой прямой полоса небольшой светлорозов круглый пятно внешний угол задний крыло розовый основание середина голубой середина край разделить жёлтый полоса нижний сторона крыло голубой,передний крыло иметь длина 3035 мм размах крыло 80105 мм передний крыло присутствовать бежевый голубой прямой полоса небольшой светлорозовый круглый пятно внешний угол задний крыло розовый основание середина голубой середина край разделить жёлтый полоса нижний сторона крыло голубой,длина передний крыло составлять 2025 мм размах крыло 5075 мм передний крыло украсить бежевый голубой прямой полоса небольшой светлорозов круглый пятно внешний угол задний крыло окрасить розовый середина середина голубой оба цвет разделить жёлтый полоса нижний сторона крыло голубой,передний крыло иметь длина 2530 мм размах крыло 7095 мм передний крыло бежевый голубой прямой полоса небольшой светлорозовый круглый пятно внешний угол задний крыло розовый основание середина голубой середина край разделить жёлтый полоса нижний сторона крыло голубой


In [17]:
df_train.to_csv('../data/df_train_10percent.csv', index=False)
df_test.to_csv('../data/df_test.csv', index=False)