In [None]:
!pip install --quiet pymorphy2 conllu razdel sentence-transformers

**!!!** PyMorphy2 is no longer supported, and will throw an error when trying to use its features. Here are the steps to fix it:

- Run `generator.py` normally (not in the notebook)
- Go to the last file mentioned in the traceback (it should look like `...\pymorphy2\units\base.py`)
- Change the line that raises the exception from
  ```python
  args, varargs, kw, default = inspect.getargspec(cls.__init__)
  ```
  to
  ```python
  args, *_ = inspect.getfullargspec(cls.__init__)
  ```
- Run the notebook choosing the same Python version for the kernel

## An example for generating minimal pairs using an UD Treebank

Here, we show how to generate minimal pairs using an UD Treebank. The input sentences can be extracted from any text corpus and annotated by any morphosyntactic parser in the UD formatting scheme.


In [1]:
%cd ../src

c:\Universitato\Programado\RuBLiMP\src


In [None]:
!wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conllu

"wget" �� ���� ����७��� ��� ���譥�
��������, �ᯮ��塞�� �ணࠬ��� ��� ������ 䠩���.


In [2]:
phenomena = [
    "aspect",
    "tense",
    "negation",
    "reflexives",
    "government",
    "word_formation",
    "word_inflection",
    "argument_structure",
    "agreement",
]

In [11]:
for ph in phenomena:
    !python generator.py --phenomenon {ph} --data_fname ru_syntagrus-ud-dev.conllu --output_fdir_name generated_data --sample True


0it [00:00, ?it/s]
92it [00:00, 905.91it/s]
198it [00:00, 994.70it/s]
304it [00:00, 1019.41it/s]
406it [00:00, 939.07it/s] 
511it [00:00, 971.84it/s]
609it [00:00, 886.31it/s]
705it [00:00, 906.95it/s]
801it [00:00, 920.36it/s]
894it [00:00, 905.90it/s]
986it [00:01, 795.88it/s]
1069it [00:01, 803.69it/s]
1152it [00:01, 774.00it/s]
1231it [00:01, 665.24it/s]
1301it [00:01, 605.20it/s]
1365it [00:01, 577.91it/s]
1446it [00:01, 634.87it/s]
1546it [00:01, 726.25it/s]
1631it [00:02, 758.14it/s]
1713it [00:02, 774.20it/s]
1797it [00:02, 792.51it/s]
1897it [00:02, 850.17it/s]
2092it [00:02, 1167.51it/s]
2215it [00:02, 1184.56it/s]
2345it [00:02, 1212.41it/s]
2506it [00:02, 1325.13it/s]
2707it [00:02, 1521.81it/s]
2860it [00:03, 1381.94it/s]
3001it [00:03, 1339.83it/s]
3137it [00:03, 1123.77it/s]
3256it [00:03, 905.04it/s] 
3369it [00:03, 952.86it/s]
3490it [00:03, 1013.67it/s]
3640it [00:03, 1136.17it/s]
3869it [00:03, 1442.24it/s]
4082it [00:04, 1627.42it/s]
4261it [00:04, 1669.88it/s]
443

### The directory `generated_data` will contain folders with dataframes of generated minimal pairs. An example of how to load the generated pairs is the following:

In [None]:
!ls generated_data/*/

"ls" �� ���� ����७��� ��� ���譥�
��������, �ᯮ��塞�� �ணࠬ��� ��� ������ 䠩���.


In [44]:
import pandas as pd


agreement = pd.read_csv(
    "generated_data/agreement/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
agreement.sample(5)

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
35,2013Algoritm.xml_4,"Таким образом, некоторые инструкции должны вып...","Таким образом, некоторые инструкции должны вып...",# sent_id = 2013Algoritm.xml_4\n# text = Таким...,agreement,noun_subj_predicate_agreement_person,зависят,зависите,"{'id': 17, 'new_id': 15, 'form': 'зависят', 'l...","{'id': 17, 'new_id': 15, 'form': 'зависите', '...",person,18,1.0,9
28,2013Algoritm.xml_3,"Это связано с тем, что работа каких-то инструк...","Это связано с тем, что работа каких-то инструк...",# sent_id = 2013Algoritm.xml_3\n# text = Это с...,agreement,np_agreement_case,других,другие,"{'id': 15, 'new_id': 14, 'form': 'других', 'le...","{'id': 15, 'new_id': 14, 'form': 'другие', 'le...",case,21,1.0,9
87,2013Algoritm.xml_7,Часто в качестве исполнителя выступает некотор...,Часто в качестве исполнителя выступает некотор...,# sent_id = 2013Algoritm.xml_7\n# text = Часто...,agreement,np_agreement_case,токарный,токарного,"{'id': 11, 'new_id': 9, 'form': 'токарный', 'l...","{'id': 11, 'new_id': 9, 'form': 'токарного', '...",case,46,0.972222,18
83,2013Algoritm.xml_7,Часто в качестве исполнителя выступает некотор...,Часто в качестве исполнителя выступает некотор...,# sent_id = 2013Algoritm.xml_7\n# text = Часто...,agreement,noun_subj_predicate_agreement_number,является,являются,"{'id': 44, 'new_id': 35, 'form': 'является', '...","{'id': 44, 'new_id': 35, 'form': 'являются', '...",number,46,0.972222,18
67,2013Algoritm.xml_6,"Ранее часто писали ""алгорифм"", сейчас такое на...","Ранее часто писали ""алгорифм"", сейчас такое на...",# sent_id = 2013Algoritm.xml_6\n# text = Ранее...,agreement,np_agreement_case,Нормальный,Нормального,"{'id': 25, 'new_id': 17, 'form': 'Нормальный',...","{'id': 25, 'new_id': 17, 'form': 'Нормального'...",case,29,0.894737,9


In [45]:
agreement.phenomenon_subtype.value_counts()

phenomenon_subtype
np_agreement_case                            53
noun_subj_predicate_agreement_person         20
noun_subj_predicate_agreement_number         10
np_agreement_gender                           8
np_agreement_number                           7
noun_subj_predicate_agreement_gender          3
subj_predicate_agreement_number_attractor     2
Name: count, dtype: int64

In [46]:
negation = pd.read_csv(
    "generated_data/negation/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
negation

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
0,2013Algoritm.xml_3,"Это связано с тем, что работа каких-то инструк...","Это связано с тем, что работа никаких инструкц...",# sent_id = 2013Algoritm.xml_3\n# text = Это с...,negation,negative_pronouns_to,каких-то,никаких,"{'Case': 'Gen', 'Number': 'Plur', 'PronType': ...","{'Case': 'Gen', 'Number': 'Plur', 'PronType': ...",pronoun_type,21,1.000000,9
1,2013Algoritm.xml_11,"""Алгоритм - это всякая система вычислений, вып...","""Алгоритм - это всякая система вычислений, вып...","# sent_id = 2013Algoritm.xml_11\n# text = ""Алг...",negation,negative_pronouns_to,какого-либо,никакого,"{'Case': 'Gen', 'Gender': 'Neut', 'Number': 'S...","{'Case': 'Gen', 'Gender': 'Neut', 'Number': 'S...",pronoun_type,32,0.956522,11
2,2013Algoritm.xml_90,"Можно обратить внимание на то, что первоначаль...","Можно обратить внимание на то, что первоначаль...",# sent_id = 2013Algoritm.xml_90\n# text = Можн...,negation,negative_pronouns_to,какое-то,никакое,"{'Case': 'Acc', 'Gender': 'Neut', 'Number': 'S...","{'Case': 'Acc', 'Gender': 'Neut', 'Number': 'S...",pronoun_type,28,0.920000,12
3,2004Andrei_Ashkerov.xml_2,"Утрата, которая постигла всех нас, стала олице...","Утрата, которая постигла всех нас, стала олице...",# sent_id = 2004Andrei_Ashkerov.xml_2\n# text ...,negation,negative_pronouns_from,никто,кто-нибудь,"{'Animacy': 'Anim', 'Case': 'Nom', 'Gender': '...","{'Animacy': 'Anim', 'Case': 'Nom', 'Gender': '...",pronoun_type,35,0.866667,17
4,2003Avtomatizatsiya.xml_29,В начале 90-х никто даже не задумывался о поку...,В начале 90-х кто-нибудь даже не задумывался о...,# sent_id = 2003Avtomatizatsiya.xml_29\n# text...,negation,negative_pronouns_from,никто,кто-нибудь,"{'Animacy': 'Anim', 'Case': 'Nom', 'Gender': '...","{'Animacy': 'Anim', 'Case': 'Nom', 'Gender': '...",pronoun_type,23,0.952381,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,2012Fotograf_Vladimir_Mishukov_Sindrom_Platona...,"Тебе кажется, что что-то зависит от врачей.","Тебе кажется, что ничего зависит от врачей.",# sent_id = 2012Fotograf_Vladimir_Mishukov_Sin...,negation,negative_pronouns_to,что-то,ничего,"{'Animacy': 'Inan', 'Case': 'Nom', 'PronType':...","{'Animacy': 'Inan', 'Case': 'Nom', 'PronType':...",pronoun_type,9,1.000000,3
96,2012Fotograf_Vladimir_Mishukov_Sindrom_Platona...,Сейчас они тебе что-то скажут.,Сейчас они тебе ничего скажут.,# sent_id = 2012Fotograf_Vladimir_Mishukov_Sin...,negation,negative_pronouns_to,что-то,ничего,"{'Animacy': 'Inan', 'Case': 'Acc', 'PronType':...","{'Animacy': 'Inan', 'Case': 'Acc', 'PronType':...",pronoun_type,6,1.000000,1
97,2012Fotograf_Vladimir_Mishukov_Sindrom_Platona...,Но что-то меня остановило.,Но ничего меня остановило.,# sent_id = 2012Fotograf_Vladimir_Mishukov_Sin...,negation,negative_pronouns_to,что-то,ничего,"{'Animacy': 'Inan', 'Case': 'Nom', 'PronType':...","{'Animacy': 'Inan', 'Case': 'Nom', 'PronType':...",pronoun_type,5,1.000000,1
98,2012Fotograf_Vladimir_Mishukov_Sindrom_Platona...,Они излучают информацию о чем-то очень важном.,Они излучают информацию о ничем очень важном.,# sent_id = 2012Fotograf_Vladimir_Mishukov_Sin...,negation,negative_pronouns_to,чем-то,ничем,"{'Animacy': 'Inan', 'Case': 'Loc', 'PronType':...","{'Animacy': 'Inan', 'Case': 'Loc', 'PronType':...",pronoun_type,8,1.000000,4


In [47]:
government = pd.read_csv(
    "generated_data/government/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
government.sample(5)

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
45,2013Algoritm.xml_72,Однако со временем такие объяснения все менее ...,Однако со временем такие объяснения все менее ...,# sent_id = 2013Algoritm.xml_72\n# text = Одна...,government,verb_acc_object,математиков,математиками,"{'Animacy': 'Anim', 'Case': 'Acc', 'Gender': '...","{'Animacy': 'Anim', 'Case': 'Ins', 'Gender': '...",Case,44,0.916667,19
10,2013Algoritm.xml_14,"""Алгоритм - строго детерминированная последова...","""Алгоритм - строго детерминированная последова...","# sent_id = 2013Algoritm.xml_14\n# text = ""Алг...",government,nominalization_case,объекта,объект,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Nom', 'Gender': '...",Case,41,0.964286,17
62,2013Algoritm.xml_98,"Однако потребовалось еще почти два столетия, ч...","Однако потребовалось еще почти два столетия, ч...",# sent_id = 2013Algoritm.xml_98\n# text = Одна...,government,nominalization_case,слова,слово,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Nom', 'Gender': '...",Case,16,1.0,6
31,2013Algoritm.xml_54,И все они в названии имели слово algoritmi или...,И все они в названии имели слове algoritmi или...,# sent_id = 2013Algoritm.xml_54\n# text = И вс...,government,verb_acc_object,слово,слове,"{'Animacy': 'Inan', 'Case': 'Acc', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Loc', 'Gender': '...",Case,11,0.8,4
8,2013Algoritm.xml_8,Определения алгоритма.,Определения алгоритм.,# sent_id = 2013Algoritm.xml_8\n# text = Опред...,government,nominalization_case,алгоритма,алгоритм,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Nom', 'Gender': '...",Case,3,1.0,1


In [48]:
government.phenomenon_subtype.value_counts()

phenomenon_subtype
nominalization_case    30
verb_acc_object        23
adp_government_case    12
Name: count, dtype: int64