<a href="https://colab.research.google.com/github/alinaalborova/russian_idioms_processing/blob/main/IdiomSim_ruBERT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Idiom Paraphrase Experiments


Based on [Idiom Paraphrases: Seventh Heaven vs Cloud Nine](https://www.aclweb.org/anthology/W15-2709v2.pdf) by Maria Pershina Yifan He Ralph Grishman.


## Import Libraries

In [None]:
!pip install transformers
!pip install tensor2tensor

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
import transformers as ppb
import warnings
warnings.filterwarnings('ignore')
from tqdm import tqdm_notebook

## Load Dataset

In [None]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [None]:
dataset_dir = '/content/drive/MyDrive/ВКР/fedorov_clean.csv'
data = pd.read_csv(dataset_dir )
data.head()

Unnamed: 0.1,Unnamed: 0,Idiom,Definition
0,0,а вот на тебе!,Выражение удивления разочарования и т п
1,1,и вот на тебе!,Выражение удивления разочарования и т п
2,2,а был ли мальчик?,Было ли что либо в действительности на самом д...
3,3,а вот,Напротив наоборот
4,4,а вот и нет,Не выходит нельзя сделать то что намечается пр...


In [None]:
data.shape

(14326, 3)

In [None]:
data.drop('Unnamed: 0', axis=1, inplace=True)
data.drop(0, inplace=True)
data

Unnamed: 0,Idiom,Definition
1,и вот на тебе!,Выражение удивления разочарования и т п
2,а был ли мальчик?,Было ли что либо в действительности на самом д...
3,а вот,Напротив наоборот
4,а вот и нет,Не выходит нельзя сделать то что намечается пр...
5,вот и нет,Не выходит нельзя сделать то что намечается пр...
...,...,...
14321,ямская изба,В России XIII XVIII вв почтовая станция где пр...
14322,ясная голова,О том кто способен логично чётко мыслить
14323,яснее ясного,Совершенно понятно очевидно
14324,ясное дело,Ясно же конечно безусловно


In [None]:
data.dropna(inplace=True)
data.shape

(13940, 2)

In [None]:
data['Definition'].value_counts()

Умирать                                                              26
Умереть                                                              14
Божба клятвенное заверение в чём либо                                10
Очень много                                                           9
Совершенно забываться                                                 7
                                                                     ..
Самые лучшие талантливые дееспособные полезные для общества люди      1
По внешнему виду                                                      1
Фамильяр Лучше сесть чем стоять Обращение с приглашением сесть        1
В состоянии гнева будучи сердитым рассерженным делать что либо        1
О чём либо выходящем из пределов обычного привычного                  1
Name: Definition, Length: 10928, dtype: int64

## Annoy

In [None]:
!pip install annoy
from tqdm import tqdm_notebook
import networkx as nx       
from annoy import AnnoyIndex

Collecting annoy
[?25l  Downloading https://files.pythonhosted.org/packages/a1/5b/1c22129f608b3f438713b91cd880dc681d747a860afe3e8e0af86e921942/annoy-1.17.0.tar.gz (646kB)
[K     |▌                               | 10kB 22.0MB/s eta 0:00:01[K     |█                               | 20kB 28.6MB/s eta 0:00:01[K     |█▌                              | 30kB 33.6MB/s eta 0:00:01[K     |██                              | 40kB 28.1MB/s eta 0:00:01[K     |██▌                             | 51kB 28.3MB/s eta 0:00:01[K     |███                             | 61kB 29.8MB/s eta 0:00:01[K     |███▌                            | 71kB 26.7MB/s eta 0:00:01[K     |████                            | 81kB 27.0MB/s eta 0:00:01[K     |████▋                           | 92kB 26.3MB/s eta 0:00:01[K     |█████                           | 102kB 27.7MB/s eta 0:00:01[K     |█████▋                          | 112kB 27.7MB/s eta 0:00:01[K     |██████                          | 122kB 27.7MB/s eta 0:00

In [None]:
f = 768
Index_lex = AnnoyIndex(f, 'angular')  # Length of item vector to be indexed
Index_sem = AnnoyIndex(f, 'angular')  # Length of item vector to be indexed

## Get Embeddings

Definitions --> BERT --> Definitions embeddings

In [None]:
import torch
from transformers import AutoTokenizer, AutoModel, TFAutoModel
  
tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased")

BERT_model = AutoModel.from_pretrained('DeepPavlov/rubert-base-cased')

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=642.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1649718.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=112.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2.0, style=ProgressStyle(description_wi…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=711456796.0, style=ProgressStyle(descri…




### Embed

In [None]:
inputs = tokenizer('пример предложения. ', return_tensors="pt")
outputs=BERT_model(**inputs)

In [None]:
def extract_full_embeddings(lhs_all, padded_size=60):
  extracted = []
  for lhs in lhs_all:
    sentence_vecs = lhs[0][0]# lhs for all sentences
    print('Sentence vecs', len(sentence_vecs))
    extracted.append(sentence_vecs) 
  print('Extracted', len(extracted))
  return extracted

def get_bert_embeddings_single_sentence(sentence):
  inputs = tokenizer(sentence, return_tensors="pt")
  outputs=BERT_model(**inputs)
  return outputs.last_hidden_state
  
def get_bert_embeddings(sentences, padded_size=60, vec_size=768):
  embeddings_all = []
  #for sentence in tqdm_notebook(sentences):
  for sentence in tqdm_notebook(sentences):
    lhs = get_bert_embeddings_single_sentence(sentence)
    vecs = lhs[0]
    sentence_padded = np.empty(shape=(padded_size, ), dtype=object)
    for id, token in enumerate(sentence_padded):
      try:
        sentence_padded[id] = vecs[id].detach().numpy()
      except:
        sentence_padded[id] = np.zeros(vec_size)
    embeddings_all.append(sentence_padded)
  return embeddings_all

## Similarity Tricks

#### _Auxiliary_. Build TF-IDF

In [None]:
tk = tf.keras.preprocessing.text.Tokenizer()
tk.fit_on_texts(data['Definition'])

tk_output = tk.sequences_to_matrix(tk.texts_to_sequences(data['Definition']), mode='tfidf')

In [None]:
print(len(data['Definition']))
len(tk_output) == len(data['Definition'])

13940


True

In [None]:
len(tk_output[0]) ## vocab size

20606

In [None]:
from tqdm import tqdm_notebook

In [None]:
def align_tfidf(tk_output):
  weights_all = []
  for doc in tqdm_notebook(tk_output):
    weights = [float(0), ] # reserved for cls
    for w in doc:
      if w != float(0):
        weights.append(w)
    while len(weights) < MAX_LEN:
      weights.append(float(0))
    weights_all.append(weights)
  return weights_all

In [None]:
MAX_LEN = 60
tfidf_values = align_tfidf(tk_output)
len(tfidf_values)

HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))




13940

### Lexical Similarity

Compute cosine similarity between vectors Vd1 and Vd2, representing idiom descriptions d1 and d2 and weight each word in these vectors by its tf-idf score:  
$lexSim(d1, d2) = cosine(\vec{v}_{d1}, \vec{v}_{d2})$

where $\vec{v}$ d is a $\left |V \right |$-dimensional vector with $V$
being the vocabulary of all definition words.

1. Get Vd1 and Vd2, representing idiom descriptions d1 and d2 and weight each word in these vectors by its tf-idf score

In [None]:
def get_all_vd_values(tokens, tfidf_values):
  """
  Multplies each token vector in an idiom by its tf-idf value.
  """
  vd_values_total = []
  for id, full_token in enumerate(tokens): # for each sentence's tokens
    vd_values = []
    for i, el in enumerate(full_token):
      token_emb_by_tfidf = tf.math.multiply(el, tfidf_values[id][i])
      vd_values.append(token_emb_by_tfidf)
    #vd_values_total.append(tf.math.reduce_mean(vd_values, axis=0))
    vd_values_total.append(np.mean(vd_values, axis=0))

  return vd_values_total

In [None]:
def get_vd_values(definition):
  '''
  idiom_tokens: list of strings
  '''
  idiom_id = list(data.Definition).index(definition)
  try:
    idiom_tokens = full_tokens[idiom_id]
  except:
    print(idiom_id)
  idiom_tfidf_values = tfidf_values[idiom_id]
  vd_values = []
  for i, el in enumerate(idiom_tokens):
    token_emb_by_tfidf = tf.math.multiply(el, idiom_tfidf_values[i])
    vd_values.append(token_emb_by_tfidf)  
  return tf.math.reduce_mean(vd_values, axis=0)

In [None]:
def calculate_lex_sim(i1_id, i2_id):
  return 1 - id_vd.get_distance(i1_id, i2_id)

### Semantical Similarity

To capture the overall meaning of the definitions d we combine word embeddings
for all words in d using two combination schemes:
* Averaged sum:  
$\vec{averaged}_{d} = \frac{1}{\left |d  \right |}\sum_{word \in d} \vec{emb}(word)$
* Weighted sum:   
$\vec{weighted}_{d} = \frac{1}{\sum_{word \in d}tfidf_{word}}\sum_{word \in d}tfidf_{word} \cdot  \vec{emb}(word)$   
<br><br>

Then semantic similarity is measured as $semSim(d1,d2)= cosine(comb_{d1}, comb_{d2})$,  
where
$\vec{comb}_{d}$ is a 100-dimensional vector combined from word embeddings
$\vec{emb}(word)$ or words in description $d$ using either averaged or weighted combination
schemes. 


#### Averaged Sum

$\vec{averaged}_{d} = \frac{1}{\left |d  \right |}\sum_{word \in d} \vec{emb}(word)$

get average of all words in d

In [None]:
def get_avg_sum(definition_tokens):
  return np.sum(definition_tokens, axis=0)

#### semSim

Semantic similarity is measured as $semSim(d1,d2)= cosine(comb_{d1}, comb_{d2})$,  
where
$\vec{comb}_{d}$ is a 100-dimensional vector combined from word embeddings
$\vec{emb}(word)$ or words in description $d$ using either averaged or weighted combination
schemes. 

2. Calculate semantic similarity

In [None]:
def calculate_sem_sim_avg(i1_id, i2_id):
  return 1 - id_vd.get_distance(i1_id, i2_id)

## Operating through batches

In [None]:
data.shape

(13940, 2)

In [None]:
size = [i for i in range(13940)]
ranges = size[::500]
ranges

[0,
 500,
 1000,
 1500,
 2000,
 2500,
 3000,
 3500,
 4000,
 4500,
 5000,
 5500,
 6000,
 6500,
 7000,
 7500,
 8000,
 8500,
 9000,
 9500,
 10000,
 10500,
 11000,
 11500,
 12000,
 12500,
 13000,
 13500]

In [None]:
for r in ranges:
  full_tokens = get_bert_embeddings(data['Definition'][r:r+500])
  vd_values = get_all_vd_values(full_tokens, tfidf_values)
  for index, vector in enumerate(vd_values):
    Index_lex.add_item(index+r, vector)
  del vd_values
  avg_sums = []
  for definition in full_tokens:
    avg_sums.append(np.sum(definition, axis=0))
  for index, vector in enumerate(avg_sums):
    Index_sem.add_item(index+r, vector)
  del avg_sums

HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=500.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=440.0), HTML(value='')))




In [None]:
def build_index(index):

  index.build(100)

  return index

In [None]:
id_vd = build_index(Index_lex)

In [None]:
id_avg = build_index(Index_sem)

### IdiomSim

* lexSim captures the actual lexical overlap
* semSim can better capture the closeness in semantic meaning

To find an optimal balance between the two we consider their weighted sum:  
$IdiomSim(d1, d2) =  (1 - \alpha) \cdot  lexSim(d1, d2) + \alpha \cdot semSim(d1, d2)$
and decide on an $\alpha$ by optimizing for a maximal
F-score on a development dataset.

In [None]:
#alpha = 0

## Using Average scheme for semantic similarity measurements
def calculate_idiom_sim_avg(idiom1, idiom2, alpha=0.5):
  i1_id = list(data.Idiom).index(idiom1)
  i2_id = list(data.Idiom).index(idiom2)
  #print('Lexical Similarity ', calculate_lex_sim(i1_id, i2_id))
  #print('Semantical Similarity ', calculate_sem_sim_avg(i1_id, i2_id))
  similarity_rate = (1 - alpha) * calculate_lex_sim(i1_id, i2_id) + alpha * calculate_sem_sim_avg(i1_id, i2_id)
  #print('Definition #1: {}\nDefinition #2: {}\nSimilarity rate:'.format(d1, d2, similarity_rate))
  return similarity_rate

# Test

In [None]:
data_test = data.sample(500, random_state=42)
data_test

Unnamed: 0,Idiom,Definition
11342,разводить тары-бары (растабары),Заниматься пустословием попусту болтать
10145,показать кукиш,То же что показывать дулю i кому А ты чай дума...
13580,устоять в слове,Выполнить обещанное
13289,точить балясы (лясы),Пустословить заниматься пустой болтовнёй Перво...
7802,не иметь духа (духу),Не отважиться не решиться что либо сказать сде...
...,...,...
10917,прищемлять хвост,Строго ограничивать кого либо в его действиях ...
6674,музейная редкость,Что либо давно уже вышедшее из употребления из...
10239,положение хуже губернаторского,Очень неприятное крайне затруднительное положе...
7938,не помнить себя,От волнения от каких либо переживаний не отдав...


In [None]:
def find_similar_idioms_(idiom1, idioms, method='average', top_k=5):
  similarities = {}
  calculate_sim = calculate_idiom_sim_avg

  for id, idiom in enumerate(tqdm_notebook(idioms)):
    #print(id, idiom)
    if id < 13440:
      similarities[id] = calculate_sim(idiom1, idiom)
  sorted_dict = {}
  sorted_values = sorted(similarities.values())

  for i in sorted_values:
    for k in similarities.keys():
      if similarities[k] == i:
        sorted_dict[k] = similarities[k]
        break

  sorted_list = list(sorted_dict.items())
  sorted_list.reverse()
  candidates = []
  for i, id in enumerate(sorted_list[1 :top_k + 1]):
    candidates.append([idioms[id[0]], list(data.Definition)[id[0]]])
    
  return candidates

In [None]:
test_size = [i for i in range(501)]
test_ranges = test_size[::10]
test_ranges

[0,
 10,
 20,
 30,
 40,
 50,
 60,
 70,
 80,
 90,
 100,
 110,
 120,
 130,
 140,
 150,
 160,
 170,
 180,
 190,
 200,
 210,
 220,
 230,
 240,
 250,
 260,
 270,
 280,
 290,
 300,
 310,
 320,
 330,
 340,
 350,
 360,
 370,
 380,
 390,
 400,
 410,
 420,
 430,
 440,
 450,
 460,
 470,
 480,
 490,
 500]

In [None]:
rows_all = []
for r in test_ranges[10:21]:
  print(r, '/500_____________________\n')
  rows = []
  for i, idiom in enumerate(data_test.Idiom.values[r:r+10]):
    row = [[idiom, list(data.Definition)[list(data.Idiom).index(idiom)], ]]
    print(idiom, list(data.Definition)[list(data.Idiom).index(idiom)], list(data.Idiom).index(idiom))
    candidates = find_similar_idioms_(idiom, list(data.Idiom))
    for candidate in candidates:
      row.append(candidate)
    rows.append(row)
  rows_all += rows

predictions = pd.DataFrame(rows_all)

100 /500_____________________

преградить дорогу Мешать препятствовать кому либо в чём либо  10355


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


отсеивать плевелы от зёрен Разделять разграничивать плохое и хорошее полезное и бесполезное  8956


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на словах Устно в устной форме Только в разговоре а не на деле  6925


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


купить ценой Получить право возможность поступать каким либо образом за счёт каких либо потерь  6014


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


старый свет Части света Европа Азия Африка в отличие от открытой позже Америки Нового Света  12562


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


приударить в набат Поднять тревогу разглашая всем что либо  10588


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


разводить турусы Говорить вздор небылицы врать болтать  11013


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


день за день Обычно без перемен без изменений жить  3193


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


ни дохнуть ни глотнуть Оказаться в сложной тяжёлой ситуации  8074


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


стоять на пороге Приближаться наступать О неизбежных событиях ближайшего будущего  12615


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


110 /500_____________________

нечистое дело Мошенничество плутовство  8011


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


кружить голову Опьянять о спиртных напитках Одурманивать p экспрес p Лишать способности ясно мыслить здраво рассуждать трезво оценивать окружающее Влюблять в себя увлекать  5905


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


дух занимается От избытка чувств сильных переживаний тяжело дышать  3652


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


залезать в карман Незаконно брать чужое добро деньги  4245


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


расположение духа Настроение душевное состояние  11143


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


за один Вместе в согласии заодно  3944


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


сукины (сучьи) дети p грубо прост p Бранное выражение передающее презрение резкое осуждение за что либо  12679


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


сердце кровью заливается Кому либо невыносимо тяжело от душевной боли страха тревоги  11955


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


сходя в гроб Перед смертью обычно достигнув преклонного возраста  12717


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


наше вам с кисточкой Шутл Привет рад видеть  7332


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


120 /500_____________________

на склоне лет В глубокой старости  6922


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


плевать в глаза Выражать в резкой неприличной форме крайнюю степень презрения пренебрежения и т п к кому либо  7247


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


и в ус не дуть Совсем не обращать никакого внимания на что либо не проявлять никакого беспокойства  4549


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


с боем С усилием преодолевая препятствия или чьё либо сопротивление действовать Напористо требовательно просить добиваться  11358


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


не уметь связать двух слов Быть неспособным связно сказать что либо изложить свои мысли  7840


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


в то же время Вместе с тем однако тем не менее  1121


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на предмет Для чего либо с какой либо целью  6849


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


серая кошка пробежала (пробегала) Произошла неожиданная ссора размолвка между кем либо кто либо с кем либо поссорился То же что чёрная кошка пробежала i между кем Между нами пробежала серая кошка не будем её снова вызывать i Герцен Былое и думы  11926


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


плести кружева Кокетничать заигрывать с кем либо  9265


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


распустить глаза Изумляться удивляться чему либо  11153


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


130 /500_____________________

вытягивать жилы Работать усиленно не жалея себя  2453


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


картёжный дом То же что игорный дом  5477


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


заглянуть в бутылку Проявляя слабость характера безволие время от времени напиваться пьяным  4064


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


закрутить гайки Увеличивать строгости притеснения  4220


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


взбрело на ум То же что взбрело в голову  1373


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


без копья То же что ни копья в 1 м знач  169


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


служить Ваалу Стремиться к наживе быть алчным гнаться за материальными благами из др еврейск  12162


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


притискивать к стене Ставить кого либо в затруднительное или безвыходное положение  10579


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


ну тебя (его и т. п.) к свиньям собачьим То же что к свиньям собачьим  8304


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


дать себе труд Считать необходимым сделать что либо заставлять себя сделать что либо  2929


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


140 /500_____________________

на сей (этот) раз Теперь в это время  6916


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


сидеть на столе Княжить  12014


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


стоять на стороне Поддерживать кого либо в чём либо разделяя его образ мыслей  12620


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


ни единой кровиночки в лице нет Кто либо очень бледен побледнел  5858


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на вольных хлебах На случайных заработках жить находиться и т п  6594


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


встать в один ряд с Занимать одинаковое место положение с кем либо  2002


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на руках В чьём либо пользовании На содержании попечении быть находиться и т п  6880


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


держать язык на привязи Экспрес Молчать не болтать  3295


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


быть нельзя То же что быть не может  735


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


без копейки в кармане Совсем без денег  168


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


150 /500_____________________

завязать на память узелок Постараться хорошенько запомнить что либо  4057


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


поджилки трясутся Кто либо испытывает сильный страх дрожит от страха  9665


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


надуть губы (губки) Сердиться обижаться проявляя недовольство в выражении лица  7153


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


иерихонская труба Очень громкий трубный голос От названия города Иерихон необыкновенно прочные стены которого по библейскому преданию рухнули от звука священных труб израильских воинов c lightslategray c Толковый словарь русского языка Под ред проф Д Н Ушакова М 1935 Т 1 С 1136 Словарь современного русского литературного языка М Л 1956 Т 5 С 79 Ашукин Н С Ашукина М Г Крылатые слова М 1960 С 254  4801


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


как (что) собак нерезаных Очень много кого либо  5098


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


разводить турусы на колёсах Говорить вздор небылицы врать болтать  11014


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


встать на своё место Приходить в нормальное обычное состояние положение  2012


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на волоске То же что на волосок Пушкин Письмо Н Н Пушкиной 21 сент 1835  6590


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


играть словами (в слова) Острить каламбурить За содержанием высказанных слов стараться скрыть истинную суть дела  4685


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


попасть в капкан В результате ошибок заблуждений оказаться в безвыходном положении  10069


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


160 /500_____________________

хорошенькое (хорошее) дело! Не одобряю то что произошло случилось так ли на самом деле в действительности i Погоди а что у тебя с пальцем Да вот стукнул нечаянно Хорошее дело стукнул Он распух у тебя как поп на пасху i В Беляев Старая крепость  13385


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


тишь да гладь да божья благодать Полное спокойствие безмятежность  12849


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


брать в петлю Полностью окружать противника  455


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


спать без задних ног Очень крепко беспробудно спать  12437


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


задать жару Жестоко расправляться с кем либо  4100


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


за нужным делом По естественной надобности  3941


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


не уметь ни стать ни сесть Не знать как следует держаться в необычной обстановке  7839


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


вымётывать петли Говорить уклончиво намёками  2337


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


не пришей кобыле хвост p грубо прост p Совершенно ненужный неуместный о ком либо Что либо не нужно не имеет отношения к чему либо  7735


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


живого места не осталось Кто либо весь избит изранен Кто либо весь перепачкан измазан  3834


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


170 /500_____________________

как истукан Неподвижно не шевелясь стоять сидеть  5195


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


хоть в петлю лезь Выражение крайнего отчаяния от бессилия невозможности что либо предпринять чтобы выйти из тяжёлого безвыходного положения  13400


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


откручивать голову Убивать лишать жизни кого либо  8846


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


вынуть сердце Изводя терзая кого либо вызывать ненависть к себе  2351


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


далеко шагнул О том кто достиг заметных результатов успехов в каком либо деле деятельности и т п  2993


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


склонять во всех падежах Шутл Часто упоминать осуждая упрекая критикуя и т п  10762


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


своими словами Не следуя буквально дословно тексту а только передавая по своему его содержание  11819


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


только (едва) концы с концами сходятся Прекращай бурно излишне эмоционально обсуждать что либо  5716


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


бросает в краску Кто либо краснеет испытывает смущение волнение стыд и т п  624


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


быть на проводе О разговоре по телефону или телеграфу обычно официальном  732


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


180 /500_____________________

обойтись в копеечку Вызвать большие денежные затраты  8403


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


залезть в чужую шкуру Ставить себя в положение кого либо  4250


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


грешный человек Выражение признания своей слабости неправоты ошибки и т п  2760


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


завей горе верёвочкой Словно ничего не случилось как ни в чём не бывало  4031


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


стих находит Какое либо душевное состояние настроение полностью овладевает кем либо Кем либо овладевает желание совершить что либо нелепое сумасбродное  12591


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


чернильное племя Мелкие чиновники  13588


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


мозги не туда повёрнуты То же что мозги набекрень у i кого Верочка плакала безутешно Она не хотела слышать никаких увещеваний что Самсонов всё таки начальник ветеран что он всегда резок но его можно понять и извинить что как говорится мозги у него не туда повёрнуты Вот именно Мозги не туда повёрнуты нечего на других вымещать i В Поликарпова Служебное положение  6444


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


вставать с левой ноги Быть в мрачном плохом настроении раздражённом состоянии  2019


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


сухой нитки нет Кто либо совершенно вымок промок  8157


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на доброе здоровье Сколько угодно никто не ограничивает не запрещает В речевом этикете пожалуйста будьте добры Хорошо благополучно  6660


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


190 /500_____________________

шутка ли То же что не шутка в 3 м знач То же что не шутка в 1 м знач  13861


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


убивать время Заниматься пустыми ненужными делами Заполнять чем либо свой досуг  13024


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


коль скоро Если как только  5688


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


в строку Кстати своевременно и к месту делать говорить и т п  1111


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


принять в расчёт Невозможно купить приобрести что либо из за дороговизны  7733


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


поставить запятую Озадачивать кого либо ставить в затруднительное положение  10190


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


на седьмом небе Безгранично счастлив глубоко удовлетворён  6914


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


разрывать цепи То же что разрывать узы М Горький Речь на торжественном заседании пленума Тбилисского совета  11085


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


тёмная вода Слепота  12814


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


ни копыла ни дровины Совсем ничего нет  8115


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


200 /500_____________________

шагу ступить не могу (моги) Ничего невозможно сделать добиться без кого либо или чего либо  13804


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


вот так история (с географией) Выражение удивления разочарования при неожиданном непредвиденном обороте дела  1807


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


брать грех на совесть Принимать на себя какое либо моральное обязательство ответственность  487


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


давать драпа (драпу) p грубо прост p Поспешно убегать спасаться бегством  2859


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


класть под сукно Оставлять без внимания без продвижения какой либо документ откладывать решение какого либо дела  5598


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


с горизонта пропадать, пропасть, исчезнуть, исчезать b Из какой либо общественной среды из круга друзей знакомых соратников и т п  11396


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


до основания Совершенно полностью разрушить разорить потрясти и т п  3429


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


по назначению В назначенное место передать послать  9353


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


оста(ва)ться ни при чём Оставаться без того на что рассчитывал надеялся кто либо  8625


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))


не пройдёт (прошло) даром Не исчезает бесследно не оказывается бесполезным безрезультатным что либо Не остаётся безнаказанным кто либо  7744


HBox(children=(FloatProgress(value=0.0, max=13940.0), HTML(value='')))




In [None]:
predictions.to_csv('/content/drive/MyDrive/IdiomSim/predictions_ruBERT2.csv', encoding='utf-8-sig')