# DerivBase.Ru Demo Usage

This is a demo notebook which shows how to use a library **DerivBase.Ru**.

First create an object of class **Derivation**.

A parameter **use_guesser** is boolean. By default, **use_guesser = True**. If **use_guesser = True**, we import a module called **ZaliznyakGuesser** to guess additional tags for a given word.

In [1]:
import sys
sys.path.append("../") # go to parent dir

from src.Derivation import Derivation
derivator = Derivation(use_guesser=True)

Let us look how **ZaliznyakGuesser** works.

In [2]:
derivator.tag_guesser.guess(word='конь', pos='noun')

[{'gender': ['m'], 'number': ['s'], 'inflect_type': ['2']},
 {'gender': ['f'], 'number': ['s'], 'inflect_type': ['8']}]

In [3]:
derivator.tag_guesser.guess(word='красивый', pos='adj')

[{'gender': ['m'], 'form': ['full'], 'inflect_type': ['1']}]

In [4]:
derivator.tag_guesser.guess(word='желать', pos='verb')

[{'inflect_type': ['1']}]

To correctly determine an inflectional type of a verb, one needs three wordforms: infinitive, 1st person and 3rd person.
If only an infinitive stated, we use **pymorphy2** to inflect it.

In [5]:
len(derivator.rules)

833

In [6]:
derivator.rules[::100]

[rule285(adj + ик/ник/евик -> noun)	(-ик),
 rule223(verb + аль -> noun)	(-аль),
 rule283(verb + ант/емент -> noun)	(-ант),
 rule379(noun + ай -> noun)	(-ай),
 rule580(noun + 0 -> noun)	(-0),
 rule642(noun + ист(ый) -> adj)	(-ист-),
 rule807(adj + ова(ть) -> verb)	(-ова-),
 rule734(под + noun + н1(ый) -> adj)	(-),
 rule887(пере + noun + и1(ть) -> verb)	(-)]

In [7]:
rule930 = derivator.rules_dict['rule930(verb + ся -> verb)']

In [8]:
rule930.apply('смотреть')

{'смотреться'}

In [9]:
res = derivator.derive('смотреть', pos_b='verb', is_extended=False, use_rare=True)

In [10]:
print(res)

{'посматрять', 'несмотретельный', 'смотрчивый', 'рассмотрывать', 'взосмотреться', 'смотрщик', 'диссмотреть', 'восмотреться', 'высмотрывать', 'смотрять', 'взосмотрнуть', 'засмотрнуть', 'сматрать', 'всмотреть', 'высмотривать', 'подосматрять', 'взосмотреть', 'насмотреть', 'смотрельня', 'насматрять', 'подосмотривать', 'ссмотрнуть', 'смотрельный', 'смотретельный', 'пересмотривать', 'разосмотреть', 'насмотрять', 'отсматривать', 'пересмотриваться', 'осмотрнуть', 'отсмотреться', 'смотруха', 'посматрывать', 'посматрать', 'смотрелый', 'обосмотреться', 'отосмотривать', 'восмотреть', 'посмотривать', 'бессмотрительный', 'всмотрку', 'смотрач', 'сматрять', 'отсмотрывать', 'вссмотреться', 'смотрелец', 'вссмотрнуть', 'смотревый', 'подсмотрять', 'присмотрать', 'несмотримый', 'насмотрывать', 'разосмотрывать', 'присматривать', 'пересмотраться', 'усмотрев', 'разосматрывать', 'посмотрать', 'рассмотрать', 'смотритель', 'высмотреть', 'пересматрывать', 'отосматрять', 'подсмотрать', 'рассматривать', 'высматрива

In [11]:
res = derivator.derive('смотреть', pos_b='verb', is_extended=True, use_rare=True)

In [12]:
print(res)

{'rule211(verb + тель -> noun)': {'смотритель'}, 'rule212(verb + ник/еник/енник/ик -> noun)': {'смотрник'}, 'rule213(verb + щик -> noun)': {'смотрщик', 'смотрчик'}, 'rule214(verb + льщик -> noun)': {'смотрельщик'}, 'rule215(verb + льник -> noun)': {'смотрельник'}, 'rule217(verb + лец -> noun)': {'смотрелец'}, 'rule219(verb + ач -> noun)': {'смотрач'}, 'rule220(verb + ун -> noun)': {'смотрун'}, 'rule221(verb + ок -> noun)': {'смотрок'}, 'rule228(verb + лк(а) -> noun)': {'смотрелка'}, 'rule230(verb + л(а)/л(о) -> noun)': {'смотрело', 'смотрела'}, 'rule231(verb + к(а)/ушк(а)/шк(а) -> noun)': {'смотрушка', 'смотрка'}, 'rule234(verb + ух(а)/их(а) -> noun)': {'смотруха'}, 'rule237(verb + ул(я) -> noun)': {'смотрюля'}, 'rule241(verb + льн(я) -> noun)': {'смотрельня'}, 'rule252(verb + имость -> noun)': {'смотримость'}, 'rule253(verb + ённость/нность/тость -> noun)': {'смотренность', 'смотрённость'}, 'rule256(verb + ниj(е) -> noun)': {'смотрение', 'смотренье'}, 'rule262(verb + к(а)/овк(а)/ёжк(а

In [13]:
from collections import defaultdict

short_rules = set()
stats = defaultdict(int)

for rule in derivator.rules:
    if rule.name.split(':')[0] not in short_rules:
        stats[rule.pos_b, rule.pos_a, rule.info] += 1
        short_rules.add(rule.name.split(':')[0])

In [14]:
stats

defaultdict(int,
            {('adj', 'noun', 'SFX'): 84,
             ('adj', 'noun', '0SFX'): 2,
             ('adj', 'noun', 'CONV'): 1,
             ('part', 'noun', 'CONV'): 1,
             ('verb', 'noun', 'SFX'): 133,
             ('noun', 'noun', 'SFX'): 179,
             ('noun', 'noun', 'INTERFIX'): 1,
             ('noun', 'noun', 'INFL'): 1,
             ('noun', 'noun', 'PFX'): 38,
             ('adj', 'adj', 'PFX'): 40,
             ('noun', 'adj', 'SFX'): 31,
             ('adj', 'adj', 'SFX'): 25,
             ('comp', 'adj', 'SFX'): 1,
             ('adj', 'adj', 'INTERFIX'): 1,
             ('verb', 'adj', 'SFX'): 25,
             ('noun', 'verb', 'SFX'): 6,
             ('verb', 'verb', 'PFX'): 30,
             ('adj', 'verb', 'SFX'): 7,
             ('verb', 'verb', 'SFX'): 8,
             ('verb', 'verb', 'PTFX'): 1,
             ('adv', 'adv', 'SFX'): 5,
             ('adj', 'adv', 'SFX'): 10,
             ('adv', 'adv', 'PFX'): 12,
             ('verb', 'adv', 'S