In [2]:
from ruwordnet import RuWordNet
from wiki_ru_wordnet import WikiWordnet
from lexsub import LexSub
from tqdm.auto import tqdm
import pandas as pd

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
def get_substitutions_for_dataset(lexsub, sent, tw, semtypes=["synonym", "hypernym", "hyponym"]):
    res = []
    for semtype in semtypes:
        for sub, score in lexsub.get_substitutes(sent, tw, semtype=semtype, topn=10):
            if tw in sub.split():
                continue
            res.append({
                "target_word": tw,
                "sentence": sent,
                "substitute": sub,
                "score": score,
                "relation": semtype,
            })
    return res

In [3]:
models = ["geowac_fasttextskipgram_300_5_2020", "ruscorpora_fasttextskipgram_300_2_2019", "tayga_fasttextcbow_300_10_2019"]

In [4]:
verbs = {
    "стоить": [
        "Не стоит путать эти понятия… Или вам просто «удобно» их путать?",
        "Альбомы будут стоить 9 долларов 95 центов."
    ],
    "звать": [
        "Сюжет блестящий, обычный (переводя на современный лад) клерк, Анатолий Новосельцев для того, чтобы подняться выше по карьерной лестнице, начинает ухаживать за «непробиваемой» для мужчин директором его фирмы, Людмилой Прокофьевной или, как ее зовут остальные работники, просто Мымра.",
        "Или нет. Никого не звать, только вдвоем."
    ],
    "кричать": [
        "А первый кричит, тряся убитого: Леха, Леха, Леха!",
        "Дед Андрей просто привык кричать, общаясь с мальчиком."
    ],
}

adjs = {
    "близкий": [
        "Наблюдения и интерпретация эффектов гравитационного микролинзирования галактических ядер звездами более близких галактик ― гравитационных линз.",
        "А тут оба одновременно улыбнулись, и я вижу, что это близкие друг другу люди."
    ],
    "верный": [
        "Когда было время выпускаться из школы, было безумно грустно, мы все время плакали, потому что это вроде как детство и верные друзья, привычная домашняя атомсфера…",
        "Очень верные, емкие слова, несущие основную смысловую нагрузку всего фильма."
    ],
    "сильный": [
        "Эле-Фантик почувствовал себя сильным и взрослым дядькой, вроде того, что видел во сне.",
        "Это сильный аргумент в пользу того, что массивный компактный объект в центре Галактики ― единое темное тело, а не скопление отдельных объектов малой массы."
    ],
}

nouns = {
    "вид": [
        "Сейчас они имеют неприглядный вид и воспринимаются нами как пещеры естественного происхождения.",
        "Еще один вид экстремального спорта, официально зарегистрированный, между прочим."
    ],
    "сон": [
        "А когда поучилась там, поняла, ну ее, школу, в кошмарных снах я ее теперь видеть буду.",
        "А потом нагрянул кризис, и я оказалась в школе, так что с английский у меня на очень хорошем уровне, иногда во сне на нем говорю."
    ],
    "подпись": [
        "Вот ее портрет с подписью: Супружеская пара пустынных мокриц около своей норки.",
        "Например, Ральф Шумахер весьма скептически оценил возможность выступления в одной команде со старшим братом и в дни Гран-при Европы поспешил поставить подпись под контрактом с Уильямсомна ближайшие три года."
    ]
}

In [5]:
data = [nouns, adjs, verbs]

In [None]:
for model in models:
    out = []
    lexsub = LexSub(model, RuWordNet())
    for pos in data:
        for tw, sents in pos.items():
            for sent in sents:
                out.extend(get_substitutions_for_dataset(lexsub, sent, tw))
    pd.DataFrame(out).to_excel(f"out/results_{model}.xlsx")