# DerivBase.Ru Demo Usage

This is a demo notebook which shows how to use a library **DerivBase.Ru**.

First create an object of class **Derivation**.

A parameter **use_guesser** is boolean. By default, **use_guesser = True**. If **use_guesser = True**, we import a module called **ZaliznyakGuesser** to guess additional tags for a given word.

In [1]:
import sys
sys.path.append("../") # go to parent dir

from src.Derivation import Derivation
derivator = Derivation(use_guesser=True)

Let us look how **ZaliznyakGuesser** works.

In [2]:
derivator.tag_guesser.guess(word='конь', pos='noun')

[{'gender': ['m'], 'number': ['s'], 'inflect_type': ['2']},
 {'gender': ['f'], 'number': ['s'], 'inflect_type': ['8']}]

In [3]:
derivator.tag_guesser.guess(word='красивый', pos='adj')

[{'gender': ['m'], 'form': ['full'], 'inflect_type': ['1']}]

In [4]:
derivator.tag_guesser.guess(word='желать', pos='verb')

[{'inflect_type': ['1']}]

To correctly determine an inflectional type of a verb, one needs three wordforms: infinitive, 1st person and 3rd person.
If only an infinitive stated, we use **pymorphy2** to inflect it.

In [5]:
len(derivator.rules)

817

In [6]:
derivator.rules[::100]

[rule285(adj + ик/ник/евик -> noun),
 rule481(па + noun -> noun),
 rule379(noun + урк(а) -> noun),
 rule467(noun + GENf -> noun),
 rule277(verb + |и|ш -> noun),
 rule612(noun + ин -> adj),
 rule930(verb + ся -> verb),
 rule746(не + verb + нн(ый) -> adj),
 rule994(по + adj + ому -> adv)]

In [7]:
rule930 = derivator.rules_dict['rule930(verb + ся -> verb)']

In [8]:
rule930.apply('смотреть')

{'смотреться'}

In [18]:
res = derivator.derive('смотреть', pos_b='verb', is_extended=False, use_rare=True)

In [19]:
print(res)

{'предсмотреть', 'разосмотрывать', 'засмотреть', 'отосмотреться', 'смотрнуть', 'смотрки', 'посмотривать', 'надосмотреть', 'посматрать', 'высмотреться', 'пересматрать', 'усмотрев', 'рассмотреться', 'посматрять', 'присмотре', 'подосмотрять', 'смотрник', 'смотрливый', 'отосмотрять', 'посматрывать', 'смотрелка', 'смотря', 'сматрать', 'смотрело', 'ссмотреть', 'иссмотреть', 'пересмотрать', 'пресмотреть', 'отосмотрать', 'высмотреть', 'сматривать', 'подосмотривать', 'посмотрять', 'подсмотрать', 'рассматрать', 'смотрины', 'насматрять', 'рассмотрывать', 'досмотреть', 'бессмотретельный', 'насматривать', 'отосмотреть', 'пересмотривать', 'пересматрывать', 'насмотреться', 'просмотреться', 'десмотреть', 'смотровой', 'отосмотрывать', 'смотрелый', 'смотревой', 'отосматрать', 'присматрывать', 'отосмотривать', 'подсматрять', 'воссмотреть', 'смотрушка', 'смотриха', 'разосматрять', 'досмотреться', 'отсмотреться', 'подосмотреться', 'пересматривать', 'смотрьба', 'смотретель', 'смотрота', 'присматрать', 'сосм

In [20]:
res = derivator.derive('смотреть', pos_b='verb', is_extended=True, use_rare=True)

In [21]:
print(res)

{'rule211(verb + тель -> noun)': {'смотретель', 'смотритель'}, 'rule212(verb + ник/еник/енник/ик -> noun)': {'смотрник'}, 'rule213(verb + щик -> noun)': {'смотрщик', 'смотрчик'}, 'rule214(verb + льщик -> noun)': {'смотрельщик'}, 'rule215(verb + льник -> noun)': {'смотрельник'}, 'rule216(verb + ец/нец/енец/омец -> noun)': {'смотреец'}, 'rule217(verb + лец -> noun)': {'смотрелец'}, 'rule219(verb + ач -> noun)': {'смотрач'}, 'rule220(verb + ун -> noun)': {'смотрун'}, 'rule221(verb + ок -> noun)': {'смотрок'}, 'rule228(verb + лк(а) -> noun)': {'смотрелка'}, 'rule230(verb + л(а)/л(о) -> noun)': {'смотрело', 'смотрела'}, 'rule231(verb + к/ушк(а)/шк(а) -> noun)': {'смотрушка', 'смотрка'}, 'rule234(verb + ух(а)/их(а) -> noun)': {'смотруха'}, 'rule237(verb + ул(я) -> noun)': {'смотрюля'}, 'rule241(verb + льн(я) -> noun)': {'смотрельня'}, 'rule250(verb + к(и) -> noun)': {'смотрки'}, 'rule252(verb + имость -> noun)': {'смотримость'}, 'rule253(verb + ённость/нность/тость -> noun)': {'смотренность'

In [15]:
from collections import defaultdict

short_rules = set()
stats = defaultdict(int)

for rule in derivator.rules:
    if rule.name.split(':')[0] not in short_rules:
        stats[rule.pos_b, rule.pos_a, rule.info] += 1
        short_rules.add(rule.name.split(':')[0])

In [16]:
stats

defaultdict(int,
            {('adj', 'noun', 'SFX'): 84,
             ('adj', 'noun', '0SFX'): 2,
             ('adj', 'noun', 'CONV'): 1,
             ('part', 'noun', 'SFX'): 1,
             ('noun', 'noun', 'PFX'): 38,
             ('noun', 'noun', 'SFX'): 177,
             ('verb', 'noun', 'SFX'): 130,
             ('adj', 'adj', 'PFX'): 40,
             ('adj', 'adj', 'SFX'): 25,
             ('comp', 'adj', 'SFX'): 1,
             ('noun', 'adj', 'SFX'): 27,
             ('verb', 'adj', 'SFX'): 23,
             ('adj', 'verb', 'SFX'): 7,
             ('noun', 'verb', 'SFX'): 6,
             ('verb', 'verb', 'PFX'): 30,
             ('verb', 'verb', 'SFX'): 8,
             ('verb', 'verb', 'PTFX'): 1,
             ('adj', 'adv', 'SFX'): 10,
             ('adv', 'adv', 'PFX'): 12,
             ('adv', 'adv', 'SFX'): 5,
             ('noun', 'adv', 'SFX'): 2,
             ('verb', 'adv', 'SFX'): 7,
             ('adj', 'noun', 'PFX,SFX'): 4,
             ('noun', 'noun', 'PFX,SFX')