## Intro
When I was younger and less pythonic as I am now, I've made a python module to parse babenko synonym dictionary and extract verb classes and synsets from there. The trick was that one couldn't utilise the power of xml.etree as the xml representing the dictionary was broken and had somewhat irregular structure. As such, I parsed it as plain text using regular expressions, patches, crutches, and some profanity. The structure of the module is somewhat complicated, so I created this ipython/jupyter notebook to serve as part-interface, part-userguide to that module. 

First, to load the dictionary, you have to execute the following cell and wait a sec. Set check_em option into True to see synsets parsed with errors (there are not much, but there are some).

In [1]:
import bparser
classes, synsets, chunks = bparser.parse_babenko(check_em=False)

Making a tree of semantic classes.
Got 539 semantic classes of all levels.

Chopping raw text into chunks.
Got 245 chunks.

Making a list of synsets.
Got 1538 synsets.

Got 12679 words meanings total.


### Total lemma count
This is how you get the count of different lemmas throughout the synsets.

In [2]:
print(synsets.lemma_count())

7641


## Working with synsets
You can just print out all synsets.

In [3]:
print(synsets)

def = Пролегать, протекать и т.п.
category = 1.2. Земная поверхность и её признаки
lemma = виться, stress = 2, asp = несовершенный
lemma = извиваться, stress = 6, asp = несовершенный
lemma = змеиться, stress = 4, asp = несовершенный
lemma = петлять, stress = 5, asp = несовершенный
lemma = вилять, stress = 4, asp = несовершенный, style = разг.

def = Устремляться сверху вниз (о потоке, лавине и т.п.).
category = 1.5. Водное пространство и водный поток, их части и признаки
lemma = падать, stress = 2, asp = несовершенный
lemma = низвергаться, stress = 8, asp = несовершенный
lemma = свергаться, stress = 6, asp = несовершенный

def = Перемещать свои воды в каком-либо направлении (о реке, ручье и т.п.).
category = 1.5. Водное пространство и водный поток, их части и признаки
lemma = течь, stress = 2, asp = несовершенный
lemma = бежать, stress = 4, asp = несовершенный
lemma = бить, stress = 2, asp = несовершенный
lemma = идти, stress = 4, asp = несовершенный
lemma = извергаться, stress = 7, as

Here's an example of how you get yourself a synset by index. Though, the numbers don't say much. Looks no better than just asking for a random synset.

In [4]:
print(synsets.list[3])

def = Появляться/появиться над горизонтом (о небесных светилах).
category = 1.6. Оптические явления и их признаки
lemma = всходить, stress = 6, asp = несовершенный
lemma = взойти, stress = 6, asp = совершенный, asppair = всходить
lemma = восходить, stress = 7, asp = несовершенный
lemma = взойти, stress = 6, asp = совершенный, asppair = восходить
lemma = вставать, stress = 6, asp = несовершенный
lemma = встать, stress = 4, asp = совершенный, asppair = вставать
lemma = подниматься, stress = 7, asp = несовершенный
lemma = подняться, stress = 5, asp = совершенный, asppair = подниматься



So this here is how you get all synsets in a category (the lower class).

In [5]:
print(synsets.bycategory('Страдание'))

def = Заставлять/заставить переживать/пережить что-либо нравствнно мучительное, тяжелое.
category = 4.1.2.5. Страдание
lemma = бередить, stress = 6, constr = что, asp = несовершенный
lemma = разбередить, stress = 9, asp = совершенный, asppair = бередить
lemma = растравлять, stress = 9, constr = что, asp = несовершенный
lemma = растравить, stress = 8, asp = совершенный, asppair = растравлять

def = Намеренно (о человеке) или ненамеренно (о болезни, боли, голоде, какой-либо мысли и пр.
category = 4.1.2.5. Страдание
lemma = измучивать мучить, stress = 4, constr = и кого, asp = несовершенный
lemma = измучить, stress = 4, asp = совершенный, asppair = измучивать мучить
lemma = измучать, stress = 4, asp = совершенный, asppair = измучивать мучить
lemma = затерзать, stress = 7, constr = кого, asp = совершенный
lemma = изводить, stress = 6, constr = кого, asp = несовершенный
lemma = извести, stress = 7, asp = совершенный, asppair = изводить
lemma = истерзать, stress = 7, constr = кого, asp = сов

## Matching synsets
The following two functions were created specifically to check if there is a synset in Babenko dictionary that resembles what you got yourself from somwhere else. They are followed by two examples of usage.

In [6]:
def match_synsets(bsynset, synset):
    """
    Return number of lemmas that are shared by bsynset and synset
    """
    match_number = 0
    synset = set(synset)
    for word in bsynset.synonyms:
        if word.lemma in synset:
            match_number += 1    
    return match_number

def find_matching_synsets(babenko, synset, minimal_match_number=None):
    """
    Return all synsets from babenko that share at least
    minimal_match_number lemmas with synset.
    
    If minimal_match_number not specified, only those babenko synsets
    that include all lemmas from synset are returned.
    """
    if minimal_match_number is None:
        minimal_match_number = len(synset)
    matches = []
    for bsynset in babenko.list:
        match_number = match_synsets(bsynset, synset)
        if match_number >= minimal_match_number:
            matches.append(bsynset)
    return matches

In [7]:
fall1 = ['течь', 'бежать']
matches = find_matching_synsets(synsets, fall1)
for match in matches:
    print(match)

def = Перемещать свои воды в каком-либо направлении (о реке, ручье и т.п.).
category = 1.5. Водное пространство и водный поток, их части и признаки
lemma = течь, stress = 2, asp = несовершенный
lemma = бежать, stress = 4, asp = несовершенный
lemma = бить, stress = 2, asp = несовершенный
lemma = идти, stress = 4, asp = несовершенный
lemma = извергаться, stress = 7, asp = несовершенный
lemma = изливаться, stress = 6, asp = несовершенный
lemma = капать, stress = 2, asp = несовершенный
lemma = катиться, stress = 4, asp = несовершенный
lemma = лить, stress = 2, asp = несовершенный
lemma = литься, stress = 2, asp = несовершенный
lemma = протекать, stress = 7, asp = несовершенный
lemma = сочиться, stress = 4, asp = несовершенный
lemma = струиться, stress = 5, asp = несовершенный
lemma = хлестать, stress = 6, asp = несовершенный
lemma = точиться (литься по капле), stress = 4, asp = несовершенный, style = устар.

def = Двигаться в каком-либо направлении (о жидкости).
category = 9.1.1.1. Движени

In [8]:
fall2 = ['падать', 'низвергаться', 'свергаться', 'повергаться']
matches = find_matching_synsets(synsets, fall2, minimal_match_number=3)
for match in matches:
    print(match)

def = Устремляться сверху вниз (о потоке, лавине и т.п.).
category = 1.5. Водное пространство и водный поток, их части и признаки
lemma = падать, stress = 2, asp = несовершенный
lemma = низвергаться, stress = 8, asp = несовершенный
lemma = свергаться, stress = 6, asp = несовершенный

def = Быстро спускаться/спуститься вниз (на землю, под землю и т.п.).
category = 9.1.1.1. Движение, ориентированное относительно исходного и конечного пунктов
lemma = падать, stress = 2, asp = несовершенный
lemma = упасть, stress = 3, asp = совершенный, asppair = падать
lemma = валиться, stress = 4, asp = несовершенный
lemma = свалиться, stress = 5, asp = совершенный, asppair = валиться
lemma = лететь, stress = 4, asp = несовершенный
lemma = слететь, stress = 5, asp = совершенный, asppair = лететь
lemma = рухнуть, stress = 2, asp = совершенный
lemma = сваливаться, stress = 3, asp = несовершенный
lemma = свалиться, stress = 5, asp = совершенный, asppair = сваливаться
lemma = свергаться, stress = 6, asp = не