In [2]:
# Установка
!pip install pymorphy3

# Импорт и инициализация
import pymorphy3



In [3]:
morph = pymorphy3.MorphAnalyzer()

# разбор слова
word = "стали"
parsed = morph.parse(word)
print(f"Разбор слова '{word}':")
for i, analysis in enumerate(parsed):
    print(f"{i+1}. {analysis}")

Разбор слова 'стали':
1. Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.975342, methods_stack=((DictionaryAnalyzer(), 'стали', 945, 4),))
2. Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.010958, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 1),))
3. Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.005479, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 6),))
4. Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 2),))
5. Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 5),))
6. Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), '

https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html

Структура разбора

In [4]:
word = "бежал"
parsed_word = morph.parse(word)[0]  # Берем наиболее вероятный вариант

print(f"Слово: {parsed_word.word}")
print(f"Нормальная форма: {parsed_word.normal_form}")
print(f"Часть речи: {parsed_word.tag.POS}")
print(f"Падеж: {parsed_word.tag.case}")
print(f"Число: {parsed_word.tag.number}")
print(f"Время: {parsed_word.tag.tense}")
print(f"Полный тег: {parsed_word.tag}")
print(f"Склоняемость: {parsed_word.tag.animacy}")

Слово: бежал
Нормальная форма: бежать
Часть речи: VERB
Падеж: None
Число: sing
Время: past
Полный тег: VERB,perf,intr masc,sing,past,indc
Склоняемость: None


Работа с множественными разборами

In [5]:
def analyze_word(word):
    analyses = morph.parse(word)
    print(f"Все варианты разбора слова '{word}':")
    for i, analysis in enumerate(analyses, 1):
        print(f"{i}. НФ: {analysis.normal_form:15} | "
              f"ЧР: {str(analysis.tag.POS):10} | "
              f"Вероятность: {analysis.score:.3f}")

# Тестируем на омонимах
analyze_word("ключ")
analyze_word("печь")
analyze_word("стекло")

Все варианты разбора слова 'ключ':
1. НФ: ключ            | ЧР: NOUN       | Вероятность: 0.769
2. НФ: ключ            | ЧР: NOUN       | Вероятность: 0.231
Все варианты разбора слова 'печь':
1. НФ: печь            | ЧР: NOUN       | Вероятность: 0.571
2. НФ: печь            | ЧР: INFN       | Вероятность: 0.286
3. НФ: печь            | ЧР: NOUN       | Вероятность: 0.143
Все варианты разбора слова 'стекло':
1. НФ: стекло          | ЧР: NOUN       | Вероятность: 0.690
2. НФ: стекло          | ЧР: NOUN       | Вероятность: 0.286
3. НФ: стечь           | ЧР: VERB       | Вероятность: 0.024


Извлечение морфологических признаков

In [6]:
def get_morph_features(word):
    parsed = morph.parse(word)[0]
    features = {
        'слово': parsed.word,
        'лемма': parsed.normal_form,
        'часть_речи': parsed.tag.POS,
        'падеж': parsed.tag.case,
        'число': parsed.tag.number,
        'род': parsed.tag.gender,
        'время': parsed.tag.tense,
        'залог': parsed.tag.voice,
        'наклонение': parsed.tag.mood
    }
    return {k: v for k, v in features.items() if v is not None}

# Примеры
words = ["столом", "писала", "красивая", "бежали"]
for word in words:
    features = get_morph_features(word)
    print(f"{word}: {features}")

столом: {'слово': 'столом', 'лемма': 'стол', 'часть_речи': 'NOUN', 'падеж': 'ablt', 'число': 'sing', 'род': 'masc'}
писала: {'слово': 'писала', 'лемма': 'писать', 'часть_речи': 'VERB', 'число': 'sing', 'род': 'femn', 'время': 'past', 'наклонение': 'indc'}
красивая: {'слово': 'красивая', 'лемма': 'красивый', 'часть_речи': 'ADJF', 'падеж': 'nomn', 'число': 'sing', 'род': 'femn'}
бежали: {'слово': 'бежали', 'лемма': 'бежать', 'часть_речи': 'VERB', 'число': 'plur', 'время': 'past', 'наклонение': 'indc'}


Базовая лемматизация

In [7]:
def lemmatize_text(text):
    words = text.split()
    lemmas = []

    for word in words:
        # Убираем знаки препинания
        clean_word = ''.join(char for char in word if char.isalpha())
        if clean_word:
            parsed = morph.parse(clean_word)[0]
            lemmas.append(parsed.normal_form)

    return lemmas

text = "Машины ехали по дорогам, обгоняя друг друга"
lemmas = lemmatize_text(text)
print(f"Исходный текст: {text}")
print(f"Леммы: {lemmas}")

Исходный текст: Машины ехали по дорогам, обгоняя друг друга
Леммы: ['машина', 'ехать', 'по', 'дорога', 'обгонять', 'друг', 'друг']


Лемматизация с учетом признаков

In [9]:
def smart_lemmatize(word, pos=None):
    analyses = morph.parse(word)

    if pos:
        # Фильтруем по части речи
        for analysis in analyses:
            if analysis.tag.POS == pos:
                return analysis.normal_form

    # Возвращаем наиболее вероятный вариант
    return analyses[0].normal_form

# Пример с омонимами
print(f"'стекло' как глагол: {smart_lemmatize('стекло', 'VERB')}")
print(f"'стекло' как существительное: {smart_lemmatize('стекло', 'NOUN')}")

'стекло' как глагол: стечь
'стекло' как существительное: стекло


Работа с грамматическими тегами в кириллице

In [10]:
def detailed_analysis(word):
    parsed = morph.parse(word)[0]

    print(f"Детальный разбор слова '{word}':")
    print(f"Лемма: {parsed.normal_form}")
    print(f"Часть речи: {parsed.tag.POS}")
    print(f"Морфологические признаки:")

    # Все доступные признаки
    tag_dict = parsed.tag.cyr_repr  # Кириллическое представление
    print(tag_dict)

detailed_analysis("писавшему")

Детальный разбор слова 'писавшему':
Лемма: писать
Часть речи: PRTF
Морфологические признаки:
ПРИЧ,несов,неперех,прош,действ мр,ед,дт


Фильтрация по грамматическим признакам

In [12]:
def extract_by_pos(text, target_pos):
    words = text.split()
    result = []

    for word in words:
        clean_word = ''.join(char for char in word if char.isalpha())
        if clean_word:
            parsed = morph.parse(clean_word)[0]
            if parsed.tag.POS == target_pos:
                result.append({
                    'word': clean_word,
                    'lemma': parsed.normal_form,
                    'features': str(parsed.tag)
                })

    return result

text = "Рыжая кошка сидела на окне и смотрела на улицу"

print("Существительные:")
nouns = extract_by_pos(text, 'NOUN')
for noun in nouns:
    print(f"  {noun}")

print("\nГлаголы:")
verbs = extract_by_pos(text, 'VERB')
for verb in verbs:
    print(f"  {verb}")

Существительные:
  {'word': 'кошка', 'lemma': 'кошка', 'features': 'NOUN,anim,femn sing,nomn'}
  {'word': 'окне', 'lemma': 'окно', 'features': 'NOUN,inan,neut sing,loct'}
  {'word': 'улицу', 'lemma': 'улица', 'features': 'NOUN,inan,femn sing,accs'}

Глаголы:
  {'word': 'сидела', 'lemma': 'сидеть', 'features': 'VERB,impf,intr femn,sing,past,indc'}
  {'word': 'смотрела', 'lemma': 'смотреть', 'features': 'VERB,impf,tran femn,sing,past,indc'}


Поиск слов с определенными характеристиками

In [14]:
def find_words_with_features(text, **features):
    words = text.split()
    matches = []

    for word in words:
        clean_word = ''.join(char for char in word if char.isalpha())
        if clean_word:
            parsed = morph.parse(clean_word)[0]
            match = True

            for feature, value in features.items():
                if getattr(parsed.tag, feature, None) != value:
                    match = False
                    break

            if match:
                matches.append(parsed.word)

    return matches

text = "Лохматые собаки бежали по узкому тротуару"

# Поиск существительных в именительном падеже
nominative_nouns = find_words_with_features(text, POS='NOUN', case='nomn')
print(f"Существительные в им.падеже: {nominative_nouns}")

Существительные в им.падеже: ['собаки']


Анализ текста целиком

In [19]:
def text_morph_analysis(text):
    words = [''.join(char for char in word if char.isalpha())
            for word in text.split()]

    analysis = {
        'total_words': len(words),
        'unique_lemmas': set(),
        'pos_distribution': {},
        'words': []
    }

    for word in words:
        parsed = morph.parse(word)[0]
        analysis['unique_lemmas'].add(parsed.normal_form)

        pos = str(parsed.tag.POS)
        analysis['pos_distribution'][pos] = analysis['pos_distribution'].get(pos, 0) + 1

        analysis['words'].append({
            'word': word,
            'lemma': parsed.normal_form,
            'pos': pos,
            'features': parsed.tag.cyr_repr
        })

    analysis['unique_lemmas'] = len(analysis['unique_lemmas'])
    return analysis

sample_text = "Шёл я по улице незнакомой и вдруг услышал вороний грай, и звоны лютни, и дальние громы, передо мною летел трамвай."
result = text_morph_analysis(sample_text)

print(f"Общее количество слов: {result['total_words']}")
print(f"Уникальных лемм: {result['unique_lemmas']}")
print(f"Распределение по частям речи: {result['pos_distribution']}")

Общее количество слов: 20
Уникальных лемм: 17
Распределение по частям речи: {'VERB': 3, 'NPRO': 2, 'PREP': 2, 'NOUN': 6, 'ADJF': 3, 'CONJ': 3, 'ADVB': 1}


Сравнение текстов

In [20]:
def compare_texts(text1, text2):
    analysis1 = text_morph_analysis(text1)
    analysis2 = text_morph_analysis(text2)

    print("Сравнение текстов:")
    print(f"Лексическое разнообразие:")
    print(f"  Текст 1: {analysis1['unique_lemmas']/analysis1['total_words']:.3f}")
    print(f"  Текст 2: {analysis2['unique_lemmas']/analysis2['total_words']:.3f}")

    print(f"Распределение частей речи:")
    for pos in set(analysis1['pos_distribution']) | set(analysis2['pos_distribution']):
        count1 = analysis1['pos_distribution'].get(pos, 0)
        count2 = analysis2['pos_distribution'].get(pos, 0)
        print(f"  {pos}: {count1} vs {count2}")

text1 = "Как я вскочил на его подножку, было загадкою для меня, в воздухе огненную дорожку он оставлял при свете дня."
text2 = "Мчался он бурей тёмной, крылатой, он заблудился в бездне времён. Остановите, вагоновожатый, остановите сейчас вагон!"

compare_texts(text1, text2)

Сравнение текстов:
Лексическое разнообразие:
  Текст 1: 0.895
  Текст 2: 0.867
Распределение частей речи:
  ADVB: 0 vs 1
  ADJF: 1 vs 2
  VERB: 3 vs 4
  NPRO: 4 vs 2
  PREP: 4 vs 1
  CONJ: 1 vs 0
  NOUN: 6 vs 5


Задание 1.
Проанализировать любой русский текст

1. Найти все глаголы в прошедшем времени
2. Выделить все существительные в дательном падеже
3. Посчитать лексическое разнообразие текста
4. Найти все прилагательные в превосходной степени
5. Создать частотный словарь лемм


Создание морфологического профиля текста

In [21]:
def create_morph_profile(text):
    """
    Создает морфологический профиль текста, включающий:
    - распределение частей речи
    - разнообразие падежей
    - разнообразие времен глаголов
    - и другие морфологические характеристики
    """
    morph = pymorphy3.MorphAnalyzer()
    words = [word.strip('.,!?;:()""') for word in text.split() if word.strip('.,!?;:()""')]

    profile = {
        'total_words': len(words),
        'pos_distribution': {},
        'case_diversity': {},
        'verb_tense': {},
        'number_distribution': {},
        'gender_distribution': {},
        'unique_lemmas': set(),
        'word_forms_per_lemma': {}
    }

    for word in words:
        parsed = morph.parse(word)[0]  # Берем наиболее вероятный разбор

        # Часть речи
        pos = str(parsed.tag.POS)
        profile['pos_distribution'][pos] = profile['pos_distribution'].get(pos, 0) + 1

        # Падежи (для склоняемых частей речи)
        case = str(parsed.tag.case)
        if case != 'None':
            profile['case_diversity'][case] = profile['case_diversity'].get(case, 0) + 1

        # Время глаголов
        tense = str(parsed.tag.tense)
        if tense != 'None':
            profile['verb_tense'][tense] = profile['verb_tense'].get(tense, 0) + 1

        # Число
        number = str(parsed.tag.number)
        if number != 'None':
            profile['number_distribution'][number] = profile['number_distribution'].get(number, 0) + 1

        # Род
        gender = str(parsed.tag.gender)
        if gender != 'None':
            profile['gender_distribution'][gender] = profile['gender_distribution'].get(gender, 0) + 1

        # Леммы и словоформы
        lemma = parsed.normal_form
        profile['unique_lemmas'].add(lemma)
        if lemma not in profile['word_forms_per_lemma']:
            profile['word_forms_per_lemma'][lemma] = set()
        profile['word_forms_per_lemma'][lemma].add(word)

    return profile

# Тестовый текст
test_text = """
Поздно. Уж обогнули мы стену, мы проскочили сквозь рощу пальм, через Неву, через Нил или Сену мы прогремели по трём мостам.
"""

profile = create_morph_profile(test_text)
print("Морфологический профиль текста:")
for key, value in profile.items():
    if key != 'word_forms_per_lemma':
        print(f"{key}: {value}")

Морфологический профиль текста:
total_words: 21
pos_distribution: {'ADVB': 2, 'VERB': 3, 'NPRO': 3, 'NOUN': 7, 'PREP': 4, 'CONJ': 1, 'NUMR': 1}
case_diversity: {'nomn': 4, 'accs': 3, 'gent': 1, 'datv': 3}
verb_tense: {'past': 3}
number_distribution: {'plur': 8, 'sing': 5}
gender_distribution: {'femn': 4, 'masc': 2, 'neut': 1}
unique_lemmas: {'по', 'поздно', 'нил', 'сено', 'три', 'пальма', 'проскочить', 'обогнуть', 'уж', 'мост', 'мы', 'сквозь', 'стена', 'роща', 'через', 'или', 'прогреметь', 'нева'}


Задание. Найдите три текста примерно одинаковой длины: художественный (рассказ или отрывок), научный (статья или учебник), разговорный (диалоги из фильма или интервью).

Проведите анализ для каждого текста: постройте морфологический профиль.

Какой текст самый сложный морфологически и почему?

Какие особенности каждого стиля отражаются в морфологических показателях?