In [3]:
!pip install --quiet pymorphy2 conllu razdel sentence-transformers

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.1/227.1 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m84.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.3/21.3 MB[0m [31m86.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for docopt (setup.py) ... [?25l[?25hdone


## An example for generating minimal pairs using an UD Treebank

Here, we show how to generate minimal pairs using an UD Treebank. The input sentences can be extracted from any text corpus and annotated by any morphosyntactic parser in the UD formatting scheme.


In [None]:
%cd ../src

In [None]:
!wget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conllu

In [2]:
phenomena = [
    "aspect",
    "tense",
    "negation",
    "reflexives",
    "government",
    "word_formation",
    "word_inflection",
    "argument_structure",
    "agreement",
]

In [None]:
for ph in phenomena:
    !python generator.py --phenomenon {ph} --data_fname ru_syntagrus-ud-dev.conllu --output_fdir_name generated_data --sample True

### The directory `generated_data` will contain folders with dataframes of generated minimal pairs. An example of how to load the generated pairs is the following:

In [29]:
ls generated_data/*/

generated_data/agreement/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/argument_structure/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/aspect/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/government/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/negation/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/reflexives/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/tense/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/word_formation/:
ru_syntagrus-ud-dev.conllu.tsv

generated_data/word_inflection/:
ru_syntagrus-ud-dev.conllu.tsv


In [30]:
import pandas as pd


agreement = pd.read_csv(
    "generated_data/agreement/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
agreement.sample(5)

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
808,2013Algoritm.xml_80,"Новое с огромным трудом пробивало себе дорогу,...","Новое с огромным трудом пробивал себе дорогу ,...",# sent_id = 2013Algoritm.xml_80\n# text = Ново...,agreement,subj_predicate_agreement_gender_attractor,пробивало,пробивал,"{'id': 5, 'form': 'пробивало', 'lemma': 'проби...","{'id': 5, 'form': 'пробивал', 'lemma': 'пробив...",gender,35,0.866667,14
666,2013Algoritm.xml_69,"Английский поэт Джефри Чосер в поэме ""Книга ге...","Английский поэт Джефри Чосер в поэме "" Книга г...",# sent_id = 2013Algoritm.xml_69\n# text = Англ...,agreement,noun_subj_predicate_agreement_person,пишет,пишешь,"{'id': 15, 'form': 'пишет', 'lemma': 'писать',...","{'id': 15, 'form': 'пишешь', 'lemma': 'писать'...",person,39,0.75,14
126,2013Algoritm.xml_11,"""Алгоритм - это всякая система вычислений, вып...",""" Алгоритм - это всякой система вычислений , в...","# sent_id = 2013Algoritm.xml_11\n# text = ""Алг...",agreement,np_agreement_case,всякая,всякой,"{'id': 5, 'form': 'всякая', 'lemma': 'всякий',...","{'id': 5, 'form': 'всякой', 'lemma': 'всякий',...",case,32,0.956522,11
928,2013Algoritm.xml_91,"Позднее и оно, в свою очередь, подверглось иск...","Позднее и оно , в свою очередь , подверглась и...",# sent_id = 2013Algoritm.xml_91\n# text = Позд...,agreement,subj_predicate_agreement_gender_attractor,подверглось,подверглась,"{'id': 9, 'form': 'подверглось', 'lemma': 'под...","{'id': 9, 'form': 'подверглась', 'lemma': 'под...",gender,19,0.928571,7
55,2013Algoritm.xml_5,"Независимые инструкции или инструкции, ставшие...","Независимые инструкции или инструкции , ставши...",# sent_id = 2013Algoritm.xml_5\n# text = Незав...,agreement,np_agreement_case,операционная,операционной,"{'id': 34, 'form': 'операционная', 'lemma': 'о...","{'id': 34, 'form': 'операционной', 'lemma': 'о...",case,36,1.0,16


In [31]:
agreement.phenomenon_subtype.value_counts()

phenomenon_subtype
np_agreement_case                            558
np_agreement_number                           91
noun_subj_predicate_agreement_gender          89
np_agreement_gender                           87
noun_subj_predicate_agreement_person          85
noun_subj_predicate_agreement_number          75
subj_predicate_agreement_gender_attractor     15
subj_predicate_agreement_number_attractor     12
floating_quantifier_agreement_case             2
floating_quantifier_agreement_gender           1
Name: count, dtype: int64

In [32]:
negation = pd.read_csv(
    "generated_data/negation/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
negation

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
0,2013Algoritm.xml_3,"Это связано с тем, что работа каких-то инструк...","Это связано с тем, что работа каких-то никаких...",# sent_id = 2013Algoritm.xml_3\n# text = Это с...,negation,negative_pronouns_to,каких-то,никаких,"{'Case': 'Gen', 'Number': 'Plur', 'PronType': ...","{'Case': 'Gen', 'Number': 'Plur', 'PronType': ...",pronoun_type,21,1.0,9
1,2013Algoritm.xml_11,"""Алгоритм - это всякая система вычислений, вып...","""Алгоритм - это всякая система вычислений, вып...","# sent_id = 2013Algoritm.xml_11\n# text = ""Алг...",negation,negative_pronouns_to,какого-либо,никакого,"{'Case': 'Gen', 'Gender': 'Neut', 'Number': 'S...","{'Case': 'Gen', 'Gender': 'Neut', 'Number': 'S...",pronoun_type,32,0.956522,11
2,2013Algoritm.xml_90,"Можно обратить внимание на то, что первоначаль...","Можно обратить внимание на то, что первоначаль...",# sent_id = 2013Algoritm.xml_90\n# text = Можн...,negation,negative_pronouns_to,какое-то,никакое,"{'Case': 'Acc', 'Gender': 'Neut', 'Number': 'S...","{'Case': 'Acc', 'Gender': 'Neut', 'Number': 'S...",pronoun_type,28,0.92,12


In [33]:
government = pd.read_csv(
    "generated_data/government/ru_syntagrus-ud-dev.conllu.tsv", sep="\t"
)
government.sample(5)

Unnamed: 0,sentence_id,source_sentence,target_sentence,annotation,phenomenon,phenomenon_subtype,source_word,target_word,source_word_feats,target_word_feats,feature,length,ipm,tree_depth
52,2013Algoritm.xml_97,"Мы видим, что понимание Эйлером алгоритма как ...","Мы видим, что понимание Эйлером алгоритма как ...",# sent_id = 2013Algoritm.xml_97\n# text = Мы в...,government,nominalization_case,задачи,задачу,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Acc', 'Gender': '...",Case,18,0.9375,8
27,2013Algoritm.xml_54,И все они в названии имели слово algoritmi или...,И все они в названии имели слову algoritmi или...,# sent_id = 2013Algoritm.xml_54\n# text = И вс...,government,verb_acc_object,слово,слову,"{'Animacy': 'Inan', 'Case': 'Acc', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Dat', 'Gender': '...",Case,11,0.8,4
46,2013Algoritm.xml_80,"Новое с огромным трудом пробивало себе дорогу,...",Новое с огромным трудом пробивало себе дороге ...,# sent_id = 2013Algoritm.xml_80\n# text = Ново...,government,verb_acc_object,дорогу,дороге,"{'Animacy': 'Inan', 'Case': 'Acc', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Dat', 'Gender': '...",Case,35,0.866667,14
32,2013Algoritm.xml_56,Очень распространенной была версия о греческом...,Очень распространенной была версия о греческом...,# sent_id = 2013Algoritm.xml_56\n# text = Очен...,government,nominalization_case,книги,книга,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Nom', 'Gender': '...",Case,9,1.0,3
25,2013Algoritm.xml_43,Из оригинального названия книги происходит сло...,Из оригинального названия книга происходит сло...,# sent_id = 2013Algoritm.xml_43\n# text = Из о...,government,nominalization_case,книги,книга,"{'Animacy': 'Inan', 'Case': 'Gen', 'Gender': '...","{'Animacy': 'Inan', 'Case': 'Nom', 'Gender': '...",Case,17,0.727273,8


In [27]:
government.phenomenon_subtype.value_counts()

phenomenon_subtype
nominalization_case    24
verb_acc_object        20
adp_government_case     9
Name: count, dtype: int64