In [1]:
!pip install pymorphy3 pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy3
  Downloading pymorphy3-1.1.0-py3-none-any.whl (66 kB)
[K     |████████████████████████████████| 66 kB 2.2 MB/s 
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting pymorphy3-dicts-ru
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[K     |████████████████████████████████| 8.4 MB 10.8 MB/s 
[?25hCollecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13723 sha256=1dc4b29f48fd496be531b670bd00c0df9dc6235f8399afc6e2cf528d22c994dd
  Stored in directory: /root/.cache/pip/wheels/72/b0/3f/1d95f96ff986c7dfffe46ce2be4062f38ebd04b506c77c81b9
Successfully built docopt
Installing collected packages: pymorp

In [2]:
import pymorphy3
from collections import Counter
from typing import Optional
import pandas as pd

In [21]:
class RusCounter:
    def __init__(self):
        self.morph = pymorphy3.MorphAnalyzer()
        pass

    def preprocessing(self, text: Optional[str]) -> str:
        '''
        Function for text preprocessing.
        Takes string with text and returns clear string with words.
        '''
        bad = '1234567890()!@#$%^&*' \
        ',./abcdefghijklmnopqrstuvwxyz-' \
        '—_+=«»\n:;[]–’…'+"'"+'"'

        string = text
        for letter in string:
            if letter in bad:
                string = string.replace(letter, '')
        return string

    def lemmatize(self, text: Optional[str]) -> list:
        '''
        Function for text lemmatization.
        Takes string with text and returns list with lemmatized words.
        '''
        words = self.preprocessing(text).split()
        res = list()
        for word in words:
            p = self.morph.parse(word)[0]
            res.append(p.normal_form)
        return res

    def count(self, text: Optional[str]) -> dict:
        '''
        Function for counting words in the text.
        Takes string with text and returns dict
        with words and their number in the text.
        '''
        return Counter(self.lemmatize(text))

    def plot(self, text: Optional[str]) -> pd.DataFrame():
        '''
        Function for getting pandas Dataframe.
        Takes string with text and returns pandas Dataframe with words
        and their number in the text.
        '''
        dataframe = pd.DataFrame()
        info = self.count(text)
        dataframe['Word'] = info.keys()
        dataframe['Number'] = info.values()
        return dataframe
    
    def get_word_number(self, text: Optional[str], word: Optional[str]) -> int:
        '''
        Function for getting number of occurrences of a word in a text.
        Takes string with text and returns number.
        '''
        return self.count(text)[self.lemmatize(word)[0]]

In [4]:
text = 'Я школьница и сейчас учусь во втором классе. И мне всегда хотелось иметь маленького котенка. ' \
       'У меня скоро день рождения. И я думаю, может мне родители его подарят. И вот он наступил. ' \
       'Проснувшись, я увидела у себя на кровати маленький комочек, он лежал у меня у ногах. ' \
       'Когда я к нему подползла, я очень образовалась, это был он, такой каким я его себе представляла. ' \
       'Он лежал свернувшись комочком, я его гладила он был такой мягкий и пушистый. Но вот встал вопрос, как его назвать. ' \
       'Я очень долго думала и выбрала кличку снежок. Почему я его так назвала, потому что он был такой же белый и пушистый как снег. ' \
       'Мой любимый Снежок всегда со мной рядом, когда я делала уроки, он прибегал и садился ко мне на коленки. ' \
       'Он был такой резвый, я с ним постоянно играю то в прятки, то с клубочком или бантиком. Снежок у меня замечательный и я его люблю.'

In [23]:
counter = RusCounter()
counter.plot(text)

Unnamed: 0,Word,Number
0,я,19
1,школьница,1
2,и,9
3,сейчас,1
4,учиться,1
...,...,...
77,клубочек,1
78,или,1
79,бантик,1
80,замечательный,1


In [20]:
examples = ['Назвать.', 'назову, ', 'Названный', 'Назвал']
for example in examples:
  print(counter.get_word_number(text, example))

2
2
2
2


In [24]:
help(counter.lemmatize)

Help on method lemmatize in module __main__:

lemmatize(text: Union[str, NoneType]) -> list method of __main__.RusCounter instance
    Function for text lemmatization.
    Takes string with text and returns list with lemmatized words.

