In [1]:
from wsi.semeval_utils import generate_sem_eval_2013_no_tokenization
from collections import defaultdict
from wsi.lm_bert import LMBert
from wsi.WSISettings import DEFAULT_PARAMS, WSISettings

In [2]:
gen = generate_sem_eval_2013_no_tokenization('./resources/SemEval-2013-Task-13-test-data')

In [10]:
ds_by_target = defaultdict(dict)
for pre, target, post, inst_id in gen:
    lemma_pos = inst_id.rsplit('.', 1)[0]
    ds_by_target[lemma_pos][inst_id] = (pre, target, post)

inst_id_to_sense = {}
gen = ds_by_target.items()

In [17]:
it = iter(gen)

In [18]:
lemma_pos, inst_id_to_sentence = next(it)

In [19]:
lemma_pos, inst_id_to_sentence

('become.v',
 {'become.v.1': ("It's no wonder that Wolf has",
   'become',
   'a well-paid political consultant.'),
  'become.v.2': ("Analysts speculate Kaiser's decision will accelerate a race by insurers to avoid",
   'becoming',
   'havens for impotent men.'),
  'become.v.3': ('Lake has two problems: 1) his (inadvertent, he says) failure to sell some energy stocks in 1993, when he',
   'became',
   "national security adviser; and 2) Republican alarm that he might be a dangerous lefty, based on his 1970 resignation from the National Security Council over Nixon's invasion of Cambodia, and on his more recent refusal to confirm that Alger Hiss was a staff Soviet spy."),
  'become.v.4': ('John Longhouser , head of the Aberdeen Proving Ground, retired after an affair he had had five years ago',
   'became',
   'public knowledge.'),
  'become.v.5': (', have',
   'become',
   'such tasteless parodies of politicians that I was doubting whether I could pull the lever for Hill.'),
  'become.v.

In [3]:
model = LMBert(0, 'bert-large-uncased', 10)

lemmatizing vocab: 100%|████████████████████████████████████████████████████████| 30522/30522 [00:09<00:00, 3058.22it/s]


In [25]:
settings = DEFAULT_PARAMS._asdict()
settings = WSISettings(**settings)

In [162]:
obj = model.predict_sent_substitute_representatives(inst_id_to_sentence, settings)

In [47]:
len(obj['become.v.1'][3])

13

In [58]:
import torch
import numpy as np
device = torch.device('cuda:0')

In [59]:
patterns = settings.patterns
n_patterns = len(patterns)
pattern_str, pattern_w = list(zip(*patterns))
pattern_w = torch.from_numpy(np.array(pattern_w, dtype=np.float32).reshape(-1, 1)).to(device=device)

In [63]:
sorted_by_len = sorted(inst_id_to_sentence.items(), key=lambda x: len(x[1][0]) + len(x[1][2]))

In [73]:
def get_batches(from_iter, group_size):
    ret = []
    for x in from_iter:
        ret.append(x)
        if len(ret) == group_size:
            yield ret
            ret = []
    if ret:
        yield ret

In [79]:
gen = get_batches(sorted_by_len, 10 // n_patterns)
batch = next(gen)

In [81]:
batch_sents = []
for inst_id, (pre, target, post) in batch:
    for pattern in pattern_str:
        batch_sents.append(model.format_sentence_to_pattern(pre, target, post, pattern))

In [95]:
tokenized_sents_vocab_idx = [model.tokenizer.convert_tokens_to_ids(x[0]) for x in batch_sents]
max_len = max(len(x) for x in tokenized_sents_vocab_idx)
batch_input = np.zeros((len(tokenized_sents_vocab_idx), max_len), dtype=np.longlong)
for idx, vals in enumerate(tokenized_sents_vocab_idx):
    batch_input[idx, 0:len(vals)] = vals
torch_input_ids = torch.tensor(batch_input, dtype=torch.long).to(device=device)
torch_mask = torch_input_ids != 0
logits_all_tokens = model.bert(torch_input_ids, attention_mask=torch_mask)

In [97]:
logits_target_tokens = torch.zeros((len(batch_sents), logits_all_tokens.shape[2])).to(device)

In [118]:
logits_target_tokens_joint_patt = torch.zeros(
                    (len(batch_sents) // n_patterns, logits_target_tokens.shape[1])).to(
                    device)

In [119]:
for i in range(0, len(batch_sents), n_patterns):
    logits_target_tokens_joint_patt[i // n_patterns, :] = (
            logits_target_tokens[i:i + n_patterns, :] * pattern_w).sum(0)

In [120]:
pre_softmax = torch.matmul(
                    logits_target_tokens_joint_patt,
                    model.bert.bert.embeddings.word_embeddings.weight.transpose(0, 1))

In [129]:
topk_vals, topk_idxs = torch.topk(pre_softmax, settings.prediction_cutoff, -1)

In [132]:
probs_batch = torch.softmax(topk_vals, -1).detach().cpu().numpy()
topk_idxs_batch = topk_idxs.detach().cpu().numpy()

In [157]:
(inst_id, (pre, target, post)), probs, topk_idxs = list(zip(batch, probs_batch, topk_idxs_batch))[0]

In [139]:
pre, target, post

('Anything with a hint of swollen bud', 'became', 'my prey.')

In [158]:
lemma = target.lower() if settings.disable_lemmatization else model._get_lemma(target.lower())
probs = probs.copy()
target_vocab = model.original_vocab if settings.disable_lemmatization else model.lemmatized_vocab

In [159]:
res = {}

In [160]:
for i in range(settings.prediction_cutoff):
    if target_vocab[topk_idxs[i]] == lemma:
        probs[i] = 0
probs /= np.sum(probs)

new_samples = list(
    np.random.choice(topk_idxs, settings.n_represents * settings.n_samples_per_rep,
                     p=probs))
new_reps = []
for i in range(settings.n_represents):
    new_rep = {}
    for j in range(settings.n_samples_per_rep):
        new_sample = target_vocab[new_samples.pop()]
        new_rep[new_sample] = 1  # rep.get(new_sample, 0) + 1
    new_reps.append(new_rep)
res[inst_id] = new_reps

In [4]:
obj = (['В',
  'картине',
  'Бегство',
  'мистера',
  'Мак-Кинли',
  'есть',
  'крохотный',
  'эпизод',
  'КОГДА',
  'развратного'],
 'вида',
 ['субъект', 'предлагает', 'Банионису', 'двух', 'нимфеток'])

In [1]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

In [2]:
tokenizer = AutoTokenizer.from_pretrained("ai-forever/ruRoberta-large")
model = AutoModelForMaskedLM.from_pretrained("ai-forever/ruRoberta-large")

vocab.json:   0%|          | 0.00/1.81M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.37M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


In [3]:
tokenizer.tokenize()

['ÐŁÑĢÐ¸Ð²ÐµÑĤ', ',', 'ĠÐºÐ°Ðº', 'ĠÐ´ÐµÐ»Ð°', '?']

Defaulting to user installation because normal site-packages is not writeable


In [1]:
import pandas as pd
from razdel import sentenize, tokenize
import pymorphy3
import string
from copy import copy
punctuations = list(string.punctuation)

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [156]:
punctuations.append('...')

In [2]:
pm = pymorphy3.MorphAnalyzer()

In [3]:
df = pd.read_csv('resources/russe-wsi-kit-fixed_datasets/data/main/bts-rnc/train.csv', sep='\t')

In [4]:
df

Unnamed: 0,context_id,word,gold_sense_id,predict_sense_id,positions,context
0,1,балка,1,,90-95,"маленькой комнаты. Он был очень высок, наклони..."
1,2,балка,1,,69-74,Пантюхин в Склифе сейчас. Он выползти на улицу...
2,3,балка,1,,115-122,равнозначно обеспечивает и меланхоличную езду....
3,4,балка,1,,85-91,"верхняя часть закрыта, замкнута, многократно о..."
4,5,балка,1,,66-71,"по телевизору: наши гол забили, я вскочил от р..."
...,...,...,...,...,...,...
3486,3487,штамп,4,,"59-66,81-87","дурак, но партию свою отрабатывал точно, по ус..."
3487,3488,штамп,4,,85-91,"дело... получается, мыслить и выражать свое мн..."
3488,3489,штамп,4,,"30-37,71-78",", что актер должен иметь пять штампов-клише ""п..."
3489,3490,штамп,4,,107-113,сегодняшний день в системе негосударственного ...


In [15]:
pos = df.iloc[3486]['positions']

In [17]:
start, end = map(int, pos.split(',')[0].split('-'))

In [22]:
start, end, text = list(sentenize(df['context'][1]))[0]

In [24]:
start, end

(0, 25)

In [262]:
context = df.iloc[15].context
word = df.iloc[21].word
word, context

('балка',
 '!.. Дрок упорно таскал к месту, облюбованному им для своей постройки, то старые балки, то стропила, то доски… Наконец, завел тачку и начал издалека привозить дикий')

In [66]:
df.iloc[0]

context_id                                                          1
word                                                            балка
gold_sense_id                                                       1
predict_sense_id                                                  NaN
positions                                                       90-95
context             маленькой комнаты. Он был очень высок, наклони...
Name: 0, dtype: object

In [100]:
def russe_wsi_gen(path):
    df = pd.read_csv(path, sep='\t')
    prev = None
    idx = 0
    for index in df.index:
        word = df['word'][index]
        # print(prev, target)
        if word != prev:
            idx = 1
        pos = df['positions'][index]
        start, end = map(int, pos.split(',')[0].split('-'))
        for sent in sentenize(df['context'][index]):
            start_, end_, text = sent
            # print(start_, end_, start, end, text)
            if not start_ <= start <= end_:
                continue
            start -= start_
            end -= start_
            pre, target, post = text[:start], text[start:end], text[end:]
            yield (pre, target, post, df['word'][index] + f'.{idx}')
            prev = word
            idx += 1

In [185]:
gen = russe_wsi_gen('resources/russe-wsi-kit-fixed_datasets/data/main/bts-rnc/train.csv')

In [187]:
from collections import defaultdict

In [188]:
ds_by_target = defaultdict(dict)
for pre, target, post, inst_id in gen:
    lemma_pos = inst_id.rsplit('.', 1)[0]
    ds_by_target[lemma_pos][inst_id] = (pre, target, post)

In [189]:
ds_by_target

defaultdict(dict,
            {'балка': {'балка.1': ('Он был очень высок, наклонил голову, словно подпирая плечом потолочную ',
               'балку',
               ', посмотрел на Сьянову серьезными черными глазами.'),
              'балка.2': ('Он выползти на улицу успел, а на Золоткова ',
               'балка',
               ' обрушилась.'),
              'балка.3': ('Цельнометаллическое тело, усиленное передними и задними поперечными ',
               'балками',
               ', наряду с работой подвески превращает машину в глыбу, всей плоскостью вросшую в'),
              'балка.4': ('верхняя часть закрыта, замкнута, многократно обрамлена и в конце концов, как тяжёлой ',
               'балкой',
               ', придавлена широким многоступенчатым карнизом.'),
              'балка.5': ('по телевизору: наши гол забили, я вскочил от радости и врезался в ',
               'балку',
               ', поскольку дело было в низенькой мансарде.'),
              'балка.6': ('вы взгля

In [40]:
pos = df['positions'][0]
start, end = map(int, pos.split(',')[0].split('-'))

In [56]:
s = start - 90
e = end - 90

In [184]:
next(gen)

('на обозной повозке, я приближался к своей батарее, расположенной где-то в степной ',
 'балке',
 '.',
 'балка.83')

In [243]:
obj = next(gen)
obj

(['В',
  'картине',
  'Бегство',
  'мистера',
  'Мак-Кинли',
  'есть',
  'крохотный',
  'эпизод',
  'КОГДА',
  'развратного'],
 'вида',
 ['субъект', 'предлагает', 'Банионису', 'двух', 'нимфеток'])

In [249]:
df.he

Unnamed: 0,context_id,word,gold_sense_id,predict_sense_id,positions,context
0,1,балка,1,,90-95,"маленькой комнаты. Он был очень высок, наклони..."
1,2,балка,1,,69-74,Пантюхин в Склифе сейчас. Он выползти на улицу...
2,3,балка,1,,115-122,равнозначно обеспечивает и меланхоличную езду....
3,4,балка,1,,85-91,"верхняя часть закрыта, замкнута, многократно о..."
4,5,балка,1,,66-71,"по телевизору: наши гол забили, я вскочил от р..."
...,...,...,...,...,...,...
95,96,балка,2,,87-92,числом отношение пройденного пути к остающемус...
96,97,балка,2,,"99-104,116-121",", продолжая удерживать Павлоград. Штаб группы ..."
97,98,балка,2,,69-74,и грибами. Этого в лесу вдоволь. Пять дней Тат...
98,99,балка,2,,78-83,быть сам Шамиль. Партия спустилась под гору и ...


In [252]:
df_test = pd.read_csv('resources/russe-wsi-kit-fixed_datasets/data/main/bts-rnc/train.baseline-adagram.csv', sep='\t')

In [258]:
df_test[df_test.word == 'вид']

Unnamed: 0,context_id,word,gold_sense_id,predict_sense_id,positions,context
119,120,вид,1,3,87-90,смешения с Raffaello. Однако судебный спор «Ла...
120,121,вид,1,3,92-94,дизельным двигателем и другими современными ме...
121,122,вид,1,2,78-80,"углубляются немцы в нашу страну, тем опаснее с..."
122,123,вид,1,2,96-98,"- Остафьев отвечал с расстановкой, тоже, как и..."
123,124,вид,1,3,100-102,из методов определения координат этой точки. П...
...,...,...,...,...,...,...
191,192,вид,5,4,95-97,Хлебные деревья распространены повсюду в тропи...
192,193,вид,5,3,81-85,надбавок для самых нуждающихся пенсионеров. В ...
193,194,вид,5,4,102-105,"гладиолус""), выкапывают и хранят подобно луков..."
194,195,вид,5,4,81-85,субгенитальной пластинки этих самок была схода...


In [259]:
'его в руки возьмет, тому он и служит, -- поучительно сказал Яков, закусив губу и натягивая на ногу сапог; он встал и, выставив ногу вперед, критически'[74:78]

'губу'