В этом ноутбуке я поазываю пример работы с библиотекой UDPipe для морфологического и синтаксического анализа текста.

In [None]:
# Команда !pip устанавливает (install) библиотеки для Питона.
# Если запустить !pip freeze, можно увидеть, какие библиотеки у вас уже есть.
# Сначала установим сам udpipe.
!pip install ufal.udpipe
# И еще установим дополнительную библиотеку.
!pip install corpy

Collecting ufal.udpipe
  Downloading ufal.udpipe-1.3.1.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (936 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m936.8/936.8 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: ufal.udpipe
Successfully installed ufal.udpipe-1.3.1.1
Collecting corpy
  Downloading corpy-0.6.1-py3-none-any.whl (38 kB)
Collecting ufal.morphodita>=1.10 (from corpy)
  Downloading ufal.morphodita-1.11.2.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (425 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m425.5/425.5 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: ufal.morphodita, corpy
Successfully installed corpy-0.6.1 ufal.morphodita-1.11.2.1


In [None]:
# Что это за библиотека - UDPipe? Это бибилиотека для "tagging, lemmatization
# and syntactic analysis of CoNLL-U input" - теггирования, лемматизации и
# синтаксического анализа данных в формате CoNLL-U. Следовательно,
# можно взять файлы с размеченными текстами с Universal Dependencies
# для любого языка и обучить модель для аннотирования текста.
# https://github.com/ufal/udpipe
# Теперь скачаем предобученную модель udpipe для русского языка,
# созданную командой rusvectores https://rusvectores.org/ru/ .
# Библиотека udpipe позволяет обучать свои модели для разных языков
!wget 'https://rusvectores.org/static/models/udpipe_syntagrus.model'
modelfile = '/content/udpipe_syntagrus.model'

--2024-05-15 05:55:25--  https://rusvectores.org/static/models/udpipe_syntagrus.model
Resolving rusvectores.org (rusvectores.org)... 172.104.228.108
Connecting to rusvectores.org (rusvectores.org)|172.104.228.108|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 40616122 (39M)
Saving to: ‘udpipe_syntagrus.model’


2024-05-15 05:55:29 (13.3 MB/s) - ‘udpipe_syntagrus.model’ saved [40616122/40616122]



In [None]:
# Импортируем инструмент для загрузки модели.
from corpy.udpipe import Model

In [None]:
# Распаковываем модель. Она у нас сейчас на виртуальном диске в папке content.
m = Model('/content/udpipe_syntagrus.model')

In [None]:
# Основной метод для разметки текста на основе модели - это process.
parsed = m.process('Тюмень - лучший город Земли!')

In [None]:
# Частая проблема некоммерческих бибилиотек в том, что они не user-friendly.
# Чтоы добраться до результата парсинга, придется немного попотеть.
# Если мы сейчас просто попробуем распечатать результат, то будет пшик.
print(parsed)
# generator означает, что у нас есть набор каких-то элементов внутри этой
# переменной, но print их просто так не напечатает.
for p in parsed:
    print(p)
# Более того, стоит нам один раз пройтись по этому объекту, он становится пустым.
# Поэтому создадим снова объект parsed и созраним его в список - от греха подальше.
parsed = list(m.process('Тюмень - лучший город Земли!'))

<generator object Model.process at 0x780f29700e40>
<Swig Object of type 'sentence *' at 0x780f2971f4f0>


In [None]:
# Вот теперь у нас сохранено одно распарщенное предложение, но мы не можем
# добраться до его содержания.
print(parsed)

[<Swig Object of type 'sentence *' at 0x780f2971e9b0>]


In [None]:
# Используем функцию pprint.
from corpy.udpipe import pprint

In [None]:
# Вот теперь мы видим, что UDPipe умеет парсить.
# Смотрите, там есть и морфология, и синтаксис. И все размечено правильно.
pprint(list(parsed))

[Sentence(
   comments=[
     '# newdoc',
     '# newpar',
     '# sent_id = 1',
     '# text = Тюмень - лучший город Земли!'],
   words=[
     Word(id=0, <root>),
     Word(id=1,
          form='Тюмень',
          lemma='тюмень',
          upostag='PROPN',
          feats='Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing',
          head=4,
          deprel='nsubj'),
     Word(id=2, form='-', lemma='-', upostag='PUNCT', head=1, deprel='punct'),
     Word(id=3,
          form='лучший',
          lemma='лучший',
          upostag='ADJ',
          feats='Case=Nom|Degree=Pos|Gender=Masc|Number=Sing',
          head=4,
          deprel='amod'),
     Word(id=4,
          form='город',
          lemma='город',
          upostag='NOUN',
          feats='Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing',
          head=0,
          deprel='root'),
     Word(id=5,
          form='Земли',
          lemma='земля',
          upostag='PROPN',
          feats='Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing',

In [None]:
# UDPipe нашел одно предложение в тексте.
for p in parsed:
    print(p.comments[2])
# Такие сложности в доступом отчасти связаны с тем, что инструмент
# изначально написан на C++.

# sent_id = 1


In [None]:
# Доберемся до начальных форм слов при помощи цикла for.
for w in parsed[0].words:
    print(w.lemma)
# Можем сохранить их в список при помощи list comprehension.
[w.lemma for w in parsed[0].words]

<root>
тюмень
-
лучший
город
земля
!


['<root>', 'тюмень', '-', 'лучший', 'город', 'земля', '!']

In [None]:
# А теперь вытащим все именованные сущности.
for w in parsed[0].words:
    if w.upostag == 'PROPN':
        print(w.form)

Тюмень
Земли


Повторю, UDPipe  - это инструмент для теггирования, лемматизации и синтаксического анализа. (В разметке выше синтаксис есть, кстати, в тэгах head и deprel. Про них будем говорить отдельно.) Для более сложных задач нужно достраивать "лингвистическую трубу" после обработки текста UDPipe'ом. Но я решила законичть этот ноутбук маленьким бонусом. В ботах часто возникает необходимость поставить слово в нужную форму после числительного. Для русского языка есть целый отдельный инструмент для такой задачи - pymorphy2.

In [None]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/55.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m49.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl

In [None]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [None]:
coin = morph.parse('монета')[0]

In [None]:
print(f'ноль {coin.make_agree_with_number(0).word}')
print(f'одна {coin.make_agree_with_number(1).word}')
print(f'две {coin.make_agree_with_number(2).word}')
print(f'пять {coin.make_agree_with_number(5).word}')
print(f'двадцать одна {coin.make_agree_with_number(21).word}')
print(f'тысяча {coin.make_agree_with_number(1000).word}')
print(f'сто тысяч {coin.make_agree_with_number(100000).word}')
# А если захотите перевести число, написанное цифрой, в буквенный вид,
# то есть библиотека num2words.

ноль монет
одна монета
две монеты
пять монет
двадцать одна монета
тысяча монет
сто тысяч монет
