# Проведение токенизации и лемматизации с помощью разных библиотек. Плюсы и минусы библиотек Наташа, Pymorphy2, UDPipe, Pymystem3

Токенизация - это процесс разбиения фразы, предложения, абзаца или всего текстового документа на более мелкие единицы, например, отдельные слова или термины. Каждое из этих меньших подразделений называется токенами.

Лемматизация - это приведение всех слов к начальной форме (иначе - лемме): глаголы - в инфинитив, существительные - в И.п. ед.ч., прилигательные - в ед.ч. м.р.

# Наташа

Библиотека natasha python - это набор инструментов для обработки естественного языка на языке Python.

Он включает в себя ряд модулей и функций для выполнения разных задач, таких как извлечение именованных сущностей, анализ тональности и классификацию текстов. 

Основные преимущества библиотеки natasha python:

Простой в использовании и понимании.
Эффективный алгоритм для обработки естественного языка.
Поддержка различных языков и интеграция с другими библиотеками.

In [2]:
#!pip install natasha

In [7]:
text = input()

На этой странице вы можете скачать стили Mendeley и Zotero для оформления литературы по ГОСТ 7.0.100-2018 с Алфавитной сортировкой или В порядке появления ссылок. С цифровыми ссылками вида [1] или с текстовыми ссылками вида [Иванов и др., 2008; Бобров, 2018]. Стили доступны в виде файлов в формате .csl.


In [26]:
from natasha import(
    Segmenter,
    MorphVocab,
    NewsEmbedding,
#    NewsSyntaxParser,
    Doc
)

In [27]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
#syntax_parser = NewsSyntaxParser(emb)

In [28]:
# Doc - это объект для построения проанализированного текста. 
# С его помощью можно, например, извлечь структурированную информацию (фамилию, имя и отчество) из текста на русском языке.
doc = Doc(text)

In [29]:
# методы segment, tag_morph для сегментации на токены и предложения, анализа морфологии
doc.segment(segmenter)

In [30]:
doc.tokens[:]

[DocToken(stop=2, text='На'),
 DocToken(start=3, stop=7, text='этой'),
 DocToken(start=8, stop=16, text='странице'),
 DocToken(start=17, stop=19, text='вы'),
 DocToken(start=20, stop=26, text='можете'),
 DocToken(start=27, stop=34, text='скачать'),
 DocToken(start=35, stop=40, text='стили'),
 DocToken(start=41, stop=49, text='Mendeley'),
 DocToken(start=50, stop=51, text='и'),
 DocToken(start=52, stop=58, text='Zotero'),
 DocToken(start=59, stop=62, text='для'),
 DocToken(start=63, stop=73, text='оформления'),
 DocToken(start=74, stop=84, text='литературы'),
 DocToken(start=85, stop=87, text='по'),
 DocToken(start=88, stop=92, text='ГОСТ'),
 DocToken(start=93, stop=105, text='7.0.100-2018'),
 DocToken(start=106, stop=107, text='с'),
 DocToken(start=108, stop=118, text='Алфавитной'),
 DocToken(start=119, stop=130, text='сортировкой'),
 DocToken(start=131, stop=134, text='или'),
 DocToken(start=135, stop=136, text='В'),
 DocToken(start=137, stop=144, text='порядке'),
 DocToken(start=145,

In [31]:
doc.sents

[DocSent(stop=162, text='На этой странице вы можете скачать стили Mendeley..., tokens=[...]),
 DocSent(start=163, stop=244, text='С цифровыми ссылками вида [1] или с текстовыми сс..., tokens=[...]),
 DocSent(start=245, stop=259, text='Бобров, 2018].', tokens=[...]),
 DocSent(start=260, stop=304, text='Стили доступны в виде файлов в формате .csl.', tokens=[...])]

In [34]:
#Natasha решает задачу лемматизации, использует Pymorphy2 и результаты морфологического разбора
# поэтому если запустить лемматизацию до морф анализа, то выйдет ошибка
for token in doc.tokens:
    token.lemmatize(morph_vocab)

{_.text: _.lemma for _ in doc.tokens}

{'На': 'на',
 'этой': 'этот',
 'странице': 'страница',
 'вы': 'вы',
 'можете': 'мочь',
 'скачать': 'скачать',
 'стили': 'стиль',
 'Mendeley': 'mendeley',
 'и': 'и',
 'Zotero': 'zotero',
 'для': 'для',
 'оформления': 'оформление',
 'литературы': 'литература',
 'по': 'по',
 'ГОСТ': 'гост',
 '7.0.100-2018': '7.0.100-2018',
 'с': 'с',
 'Алфавитной': 'алфавитный',
 'сортировкой': 'сортировка',
 'или': 'или',
 'В': 'в',
 'порядке': 'порядок',
 'появления': 'появление',
 'ссылок': 'ссылка',
 '.': '.',
 'С': 'с',
 'цифровыми': 'цифровой',
 'ссылками': 'ссылка',
 'вида': 'вид',
 '[': '[',
 '1': '1',
 ']': ']',
 'текстовыми': 'текстовый',
 'Иванов': 'иванов',
 'др': 'др',
 ',': ',',
 '2008': '2008',
 ';': ';',
 'Бобров': 'бобров',
 '2018': '2018',
 'Стили': 'стиль',
 'доступны': 'доступный',
 'в': 'в',
 'виде': 'вид',
 'файлов': 'файл',
 'формате': 'формат',
 'csl': 'csl'}

In [16]:
emb = NewsEmbedding()

In [41]:
# Проводим морфологический анализ doc.tag_morph(morph_tagger)

In [39]:
# нормализация именованных сущностей (имена, названия организаций, топонимы): 
# привести словосочетание к нормальной форме с использованием результатов синтаксического разбора, 
# учитывая связи между словами

for span in doc.spans:
    span.normalize(morph_vocab)

{_.text: _.normal for _ in doc.spans}

{'Zotero': 'Zotero', 'Иванов': 'Иванов', 'Бобров': 'Бобров'}

In [38]:
# Извлечение именованных сущностей
from natasha import NewsNERTagger

ner_tagger = NewsNERTagger(emb)
doc.tag_ner(ner_tagger)
doc.ner.print()

На этой странице вы можете скачать стили Mendeley и Zotero для 
                                                    ORG───     
оформления литературы по ГОСТ 7.0.100-2018 с Алфавитной сортировкой 
или В порядке появления ссылок. С цифровыми ссылками вида [1] или с 
текстовыми ссылками вида [Иванов и др., 2008; Бобров, 2018]. Стили 
                          PER───              PER───               
доступны в виде файлов в формате .csl.


# Pymorphy2

Pymorphy2 - морфологический анализатор для русского языка, написанный на языке Python и использующий словари из OpenCorpora. 

In [142]:
import pymorphy2
pm = pymorphy2.MorphAnalyzer()

In [102]:
#import nltk
#from nltk import sent_tokenize, word_tokenize, regexp_tokenize

In [143]:
from nltk.tokenize import RegexpTokenizer

In [144]:
text_tok = input()

Например, если мы хотим найти наиболее похожее слово к "кофе", мы можем вычислить косинусное расстояние между вектором "кофе" и векторами других слов в модели Word2Vec. Слово, которое имеет наименьшее косинусное расстояние, будет считаться наиболее похожим на "кофе".


In [145]:
# Проводим токенизацию через NLTK, так как лемматизатор Pymorphy2 рабтает с токенами
tokenizer = RegexpTokenizer(r'\w+')
text_tokens = tokenizer.tokenize(text_tok)

In [146]:
# Создаем список, в который записываются результаты морф анализа
dict_tok = list()
for tokens in text_tokens:
    p = pm.parse(str(tokens))[0]
    dict_tok.append(p)

#print(lemmas_tok)

# Выводим на экран элементы списка с новой строчки и интервалом между ними для удобства чтения
print(",\n\n".join(map(str, dict_tok))) 

Parse(word='например', tag=OpencorporaTag('CONJ,Prnt'), normal_form='например', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'например', 2027, 0),)),

Parse(word='если', tag=OpencorporaTag('CONJ'), normal_form='если', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'если', 20, 0),)),

Parse(word='мы', tag=OpencorporaTag('NPRO,1per plur,nomn'), normal_form='мы', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'мы', 1990, 0),)),

Parse(word='хотим', tag=OpencorporaTag('VERB,impf,tran plur,1per,pres,indc'), normal_form='хотеть', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'хотим', 2999, 2),)),

Parse(word='найти', tag=OpencorporaTag('INFN,perf,tran'), normal_form='найти', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'найти', 2013, 0),)),

Parse(word='наиболее', tag=OpencorporaTag('ADVB'), normal_form='наиболее', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'наиболее', 3, 0),)),

Parse(word='похожее', tag=OpencorporaTag('ADJF,Qual neut,sing,nomn'), normal_form='похожий',

In [147]:
# Выводим список слов в начальной форме
lemmas_tok = list()
for tokens in text_tokens:
    p = pm.parse(str(tokens))[0].normal_form
    lemmas_tok.append(p)

print(lemmas_tok)

['например', 'если', 'мы', 'хотеть', 'найти', 'наиболее', 'похожий', 'слово', 'к', 'кофе', 'мы', 'мочь', 'вычислить', 'косинусный', 'расстояние', 'между', 'вектор', 'кофе', 'и', 'вектор', 'другой', 'слово', 'в', 'модель', 'word2vec', 'слово', 'который', 'иметь', 'наименьший', 'косинусный', 'расстояние', 'быть', 'считаться', 'наиболее', 'похожий', 'на', 'кофе']


Достоинства:

- умеет составлять разборы, находить лемму, склонять и спрягать
- генерирует гипотезы для незнакомых слов
- написан полностью на питоне и быстрее, чем Mystem (и есть ускоренная версия с вставками на c++)
- может работать с украинским языком (но словари нужно отдельно устанавливать)

Недостатки:

- качество хуже, чем у Mystem
- работает только на уровне отдельных слов и не учитывает контекст

# Pymystem3

MyStem — это продукт от Яндекса, предоставляющий возможности для морфологического и синтаксического анализа текстов. MyStem использует собственные алгоритмы для определения начальной формы слова и его грамматических характеристик.

pymystem3 - это питоновская обертка для MyStem. Если на компьюетере нет Mystem, библиотека его скачает с сервера Яндекса, а потом будет запускать автоматически, а ответ возвращать интерпретатору Python. Сама библиотека работает медленно.

In [105]:
import pymystem3
from pymystem3 import Mystem as mystem

In [108]:
text = input("Write your text:")

Write your text:Write your text:После обучения модели нам нужно понять насколько верно модель определяет комментарии. Мы будем делать это по фактическим контрольным данным. Для этого мы оставим часть датасета для тестирования.


In [122]:
# Проводим сразу лемматизацию, так как pymystem3 автоматически проводит токенизацию, 
# но сохраняет пробелы и пунктуацию как элементы списка
m = mystem()
lemmas = m.lemmatize(text)

print(lemmas)

['Write', ' ', 'your', ' ', 'text', ':', 'после', ' ', 'обучение', ' ', 'модель', ' ', 'мы', ' ', 'нужно', ' ', 'понимать', ' ', 'насколько', ' ', 'верно', ' ', 'модель', ' ', 'определять', ' ', 'комментарий', '. ', 'мы', ' ', 'быть', ' ', 'делать', ' ', 'это', ' ', 'по', ' ', 'фактический', ' ', 'контрольный', ' ', 'данные', '. ', 'для', ' ', 'это', ' ', 'мы', ' ', 'оставлять', ' ', 'часть', ' ', 'датасет', ' ', 'для', ' ', 'тестирование', '.', '\n']


In [123]:
# Можно объединить лемматизированные слова обратно в текст
print(''.join(lemmas))

Write your text:после обучение модель мы нужно понимать насколько верно модель определять комментарий. мы быть делать это по фактический контрольный данные. для это мы оставлять часть датасет для тестирование.



In [124]:
# Морфологический анализ (только для русского, другие языки не может)
ana = m.analyze(text)
print(ana[:])

[{'analysis': [], 'text': 'Write'}, {'text': ' '}, {'analysis': [], 'text': 'your'}, {'text': ' '}, {'analysis': [], 'text': 'text'}, {'text': ':'}, {'analysis': [{'lex': 'после', 'wt': 0.9774551099, 'gr': 'PR='}], 'text': 'После'}, {'text': ' '}, {'analysis': [{'lex': 'обучение', 'wt': 1, 'gr': 'S,сред,неод=(вин,мн|род,ед|им,мн)'}], 'text': 'обучения'}, {'text': ' '}, {'analysis': [{'lex': 'модель', 'wt': 0.9989162385, 'gr': 'S,жен,неод=(пр,ед|вин,мн|дат,ед|род,ед|им,мн)'}], 'text': 'модели'}, {'text': ' '}, {'analysis': [{'lex': 'мы', 'wt': 1, 'gr': 'SPRO,мн,1-л=дат'}], 'text': 'нам'}, {'text': ' '}, {'analysis': [{'lex': 'нужно', 'wt': 0.9310085783, 'gr': 'ADV,прдк='}], 'text': 'нужно'}, {'text': ' '}, {'analysis': [{'lex': 'понимать', 'wt': 1, 'gr': 'V=инф,сов'}], 'text': 'понять'}, {'text': ' '}, {'analysis': [{'lex': 'насколько', 'wt': 1, 'gr': 'ADV='}], 'text': 'насколько'}, {'text': ' '}, {'analysis': [{'lex': 'верно', 'wt': 0.9056031244, 'gr': 'ADV,вводн='}], 'text': 'верно'},

In [126]:
# Вывод морф анализа каждого слова с новой строчки
for word in ana[:]:
    print(word)

{'analysis': [], 'text': 'Write'}
{'text': ' '}
{'analysis': [], 'text': 'your'}
{'text': ' '}
{'analysis': [], 'text': 'text'}
{'text': ':'}
{'analysis': [{'lex': 'после', 'wt': 0.9774551099, 'gr': 'PR='}], 'text': 'После'}
{'text': ' '}
{'analysis': [{'lex': 'обучение', 'wt': 1, 'gr': 'S,сред,неод=(вин,мн|род,ед|им,мн)'}], 'text': 'обучения'}
{'text': ' '}
{'analysis': [{'lex': 'модель', 'wt': 0.9989162385, 'gr': 'S,жен,неод=(пр,ед|вин,мн|дат,ед|род,ед|им,мн)'}], 'text': 'модели'}
{'text': ' '}
{'analysis': [{'lex': 'мы', 'wt': 1, 'gr': 'SPRO,мн,1-л=дат'}], 'text': 'нам'}
{'text': ' '}
{'analysis': [{'lex': 'нужно', 'wt': 0.9310085783, 'gr': 'ADV,прдк='}], 'text': 'нужно'}
{'text': ' '}
{'analysis': [{'lex': 'понимать', 'wt': 1, 'gr': 'V=инф,сов'}], 'text': 'понять'}
{'text': ' '}
{'analysis': [{'lex': 'насколько', 'wt': 1, 'gr': 'ADV='}], 'text': 'насколько'}
{'text': ' '}
{'analysis': [{'lex': 'верно', 'wt': 0.9056031244, 'gr': 'ADV,вводн='}], 'text': 'верно'}
{'text': ' '}
{'analy

Достоинства:

- хорошее качество разбора
- по умолчанию разрешается частеречная омонимия (внутри части речи остается)
- при разборе учитывается контекст
- совместим с разметкой НКРЯ

Недостатки:

- медленный
- analyze возвращает неудобный json

Текст, очищенный от пунктуации, mystem обрабатывает в разы быстрее! Несколько секунд против десятков минут.

# UDPipe

UDPipe - это готовый пайплайн* для токенизации, частеречной разметки, лемматизации и синтаксической разметки. Работает с файлами в формате CoNLL-U

Чтобы работать с UDPipe, нужно выбрать модель: уже готовую, или обучить на своих данных.

In [None]:
# Запускала на Colab: https://colab.research.google.com/drive/1mY33bdlqRW7EKQtAhjevkwDtm_KRPPu0?usp=sharing

In [148]:
#!pip install ufal.udpipe

Collecting ufal.udpipe
  Downloading ufal.udpipe-1.3.1.1-cp37-cp37m-win_amd64.whl (892 kB)
     -------------------------------------- 892.5/892.5 kB 1.8 MB/s eta 0:00:00
Installing collected packages: ufal.udpipe
Successfully installed ufal.udpipe-1.3.1.1



[notice] A new release of pip is available: 23.1.2 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
from ufal.udpipe import Model, Pipeline

In [5]:
sent = input ()

После обучения модели нам нужно понять насколько верно модель определяет комментарии. Мы будем делать это по фактическим контрольным данным. Для этого мы оставим часть датасета для тестирования.


In [1]:
UDPIPE_MODEL_FN = "model_ru.udpipe"
!wget -O {UDPIPE_MODEL_FN} https://github.com/jwijffels/udpipe.models.ud.2.0/blob/master/inst/udpipe-ud-2.0-170801/russian-ud-2.0-170801.udpipe?raw=true

"wget" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [4]:
model = Model.load(UDPIPE_MODEL_FN) # загружаем модель, сохраняем в переменную model

In [1]:
pipeline = Pipeline(model, 'generic_tokenizer', '','','') #функции нужно 5 аргументов,но нам важны только 2
#сохраняем в переменную результат токенизации
ud_res = []
parsed = pipeline.process(sent) # функция process сделает синтаксический анализ, сохраняем еще раз

print(parsed) # печатаем результат


Дефолтный теггинг иногда может быть ошибочным: теггер предсказывает морфологические свойства токена по последним четырем символам каждого слова. Он генерирует гипотезы относительно части речи и морфологических тегов этого слова, а затем отбирает лучший вариант.