In [None]:
pip install pymorphy2

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/07/57/b2ff2fae3376d4f3c697b9886b64a54b476e1a332c67eee9f88e7f1ae8c9/pymorphy2-0.9.1-py3-none-any.whl (55kB)
[K     |████████████████████████████████| 61kB 1.8MB/s 
[?25hCollecting dawg-python>=0.7.1
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting pymorphy2-dicts-ru<3.0,>=2.4
[?25l  Downloading https://files.pythonhosted.org/packages/7c/9b/358faaff410f65a4ad159275e897b5956dcb20576c5b8e764b971c1634d7/pymorphy2_dicts_ru-2.4.404381.4453942-py2.py3-none-any.whl (8.0MB)
[K     |████████████████████████████████| 8.0MB 6.4MB/s 
Installing collected packages: dawg-python, pymorphy2-dicts-ru, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.404381.4453942


In [None]:
pip install nltk



In [None]:
import pymorphy2
from typing import Iterable,Union, List 

In [None]:
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
nltk.download('punkt')
from nltk import word_tokenize,sent_tokenize
nltk.download('averaged_perceptron_tagger_ru')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_ru to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_ru is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


True

In [None]:
class RussianSentence():
  """"Класс RussianSentence используется для анализа русскоязычного предложения 

    Основное применение - определение характеристик предложения и слов в нем

    Note:
        Для корректной работы необходимо импортирование pymorphy2 
    
    Attributes
    ----------
    morph : pymorphy2.MorphAnalyzer()
        экземпляр класса pymorphy2.MorphAnalyzer()
    sentence : str
        предложение для анализа
    cnt : int
        количество слов в предложении
    cnt_lemm : list
        список лемм предложения
    list_pos_word : list
        список слов предложения соответствующей части речи


    Methods
    -------
    get_words()
        возвращает список слов
    get_lemmas()
        возвращает список лемм
    get_pos(pos = )
        принимает на вход название части речи, возвращает все
        слова этой части речи из предложения в виде списка, в качестве аргумента pos 
        можно передать одну из частей речи
        из набора для библиотеки nltk (http://code.google.com/p/universal-pos-tags/).
   check_affirm()
        возвращает 'Утвердительное'/'Вопросительное'/'Восклицательное' в зависимости от знака препинания на конце 
        (всё что не вопросительное и не восклицательное считается утвердительным) 
           
    """

  morph = pymorphy2.MorphAnalyzer()
  
  def __init__(self, sentence):
    self.sentence: str = sentence

  def get_words(self) -> List[str]:
    """Метод для получения списка слов"""
    self.cnt: List[str] = self.sentence.split(sep=" ")

    return self.cnt

  def get_lemmas(self) -> List[str]: 
    """Метод для получения списка лемм"""
    
    self.cnt_lemm: List[str] = [x for x in self.sentence.lower().split(sep = " ") if x == self.morph.parse(x)[0].normal_form]
    return self.cnt_lemm

  def get_pos(self,pos: str) -> List[str]:
    """Метод для получения списка слов, определенной части речи"""

    self.list_pos_word: List[str] = [x for x in self.sentence.lower().split(sep = " ") if pos in nltk.pos_tag(x,tagset='universal',lang='rus')[0]]
    return self.list_pos_word
  
  def check_affirm(self) -> str:
    """Метод для определения типа предложения по интонации (Повествовательное/Вопросительное/Восклицательное)"""
    
    if self.sentence.replace(" ","")[-1] == "!":
      return "Восклицательное"
    elif self.sentence.replace(" ","")[-1] == "?":
      return "Вопросительное"
    else:
      return "Повествовательное"

  def __del__(self):
     """деструктор, печатающий сообщение о том, что объект удален"""

     return "объект класса удален"


In [None]:
class EnglishSentence():
  """"Класс RussianSentence используется для анализа русскоязычного предложения 

    Основное применение - определение характеристик предложения и слов в нем

    Note:
        Для корректной работы необходимо импортирование nltk 
    
    Attributes
    ----------
    sentence : str
        предложение для анализа
    cnt : int
        количество слов в предложении
    cnt_lemm : list
        список лемм предложения
    list_pos_word : list
        список слов предложения соответствующей части речи


    Methods
    -------
    get_words()
        возвращает список слов
    get_lemmas()
        возвращает список лемм
    get_pos(pos = )
        принимает на вход название части речи, возвращает все
        слова этой части речи из предложения в виде списка, в качестве аргумента pos 
        можно передать одну из частей речи
        из набора для библиотеки nltk (http://code.google.com/p/universal-pos-tags/).
   check_affirm()
        возвращает 'Утвердительное'/'Вопросительное'/'Восклицательное' в зависимости от знака препинания на конце 
        (всё что не вопросительное и не восклицательное считается утвердительным) 
           
    """

  
  def __init__(self, sentence: str):
    self.sentence = sentence
    self.words = nltk.word_tokenize(sentence.lower())

  def get_words(self) -> List[str]:
    """Метод для получения списка слов"""

    return self.words

  def get_lemmas(self) -> List[str]:
    """Метод для получения списка лемм"""

    self.cnt_lemm = [x for x in self.words if x == WordNetLemmatizer().lemmatize(x)]
    return self.cnt_lemm

  def get_pos(self,pos: str):
    """Метод для получения списка слов, определенной части речи"""

    self.list_pos_word: List[str] = [x for x in self.words if pos in nltk.pos_tag(x,tagset='universal')[0]]
    return self.list_pos_word
  
  def check_affirm(self):
    """Метод для определения типа предложения по интонации (Повествовательное/Вопросительное/Восклицательное)"""

    if self.sentence.replace(" ","")[-1] == "!":
      return "Восклицательное"
    elif self.sentence.replace(" ","")[-1] == "?":
      return "Вопросительное"
    else:
      return "Повествовательное"

  def __del__(self):
    return "объект класса удален"

In [None]:
example_polymorphism_rus = RussianSentence("London is the capital of Great Britain")
example_polymorphism_eng = EnglishSentence("London is the capital of Great Britain")

В следующих ячейках одинаковые методы двух разных классов выводят разный результат при одном и том же аргументе

In [None]:
example_polymorphism_rus.get_pos("NOUN")


[]

In [None]:
example_polymorphism_eng.get_pos('NOUN')

['london', 'is', 'the', 'of', 'great', 'britain']

In [None]:
#example_polymorphism_rus.get_words()
example_polymorphism_rus.get_lemmas()
#example_polymorphism_rus.check_affirm()

['london', 'is', 'the', 'capital', 'of', 'great', 'britain']