## Сегментация текста

* Определение границ предложения 
* Токенизация 

### Определение границ предложений

* Мотивация
* Как автоматически определять границы предложений? 
    * Обычно определяются по точке 
    * Точка - имеет много значений: 
        * граница предложения
        * сокращение: “Dr.”, “U.S.A.” 
        * Разделитель в числах 3.14 
        * ... 
    * Предложение может заканчиваться не только точкой:
        * ./!/?/!?/!!!/... и т.д.
        * разбор предложений с прямой и косвенной речью
        * разбор предложений со списками 
        * на конце предложения может вообще не быть знаков препинания

#### Определение границ предложений

* Рассмотрим задачу разрешения многозначности точки 
* Задача сводится к классификации точки на два класса: конец предложения или нет. Есть два подхода:
    * Подход основанный на правилах (rule-based). Пример правил:
        * перед точкой и после нее стоят цифры -> не к.п.
        * слово перед точкой есть в словаре сокращений -> не к.п.
        * ... правил может быть очень много и постоянно будут находится новые исключения.
    * Подход  основанный на машинном обучении (machine learning):
        * решение задачи классификации одним из методов ML

#### Решение задач NLP на основе правил

* Исторически __первый подход__ к задаче
* В ранних системах правила были встроены в программный код, сейчас для записи правил __используется__ либо уже готовый __формальный язык__, либо подобный язык специально создаётся для разрабатываемого приложения.
* (-) Правила создаются лингвистами или специалистами по проблемной области обрабатываемых текстов. Трудоемкий процесс, требующий специалистов высокой кваилификации.
* (+) Правила обычно декларативны и легко понимаемы, поэтому их просто поддерживать: модифицировать и расширять.


#### Решение задач NLP на основе машинного обучения

Среди методов, применяемых в рамках подхода, выделяют методы обучения с учителем (supervised), методы обучения
без учителя (unsupervised), методы частичного обучения с учителем (bootstrapping).

* (+) ML не требует ручного труда по составлению правил и сокращает время разработки систем
* (-) ML обчно предполагает наличие подходящего размеченного корпуса текстов, что не всегда возможно. Создание такого корпуса в любом случае требует значительных объемов ручного труда.
* (-) модели (классификаторы) непрозрачны для понимания, т. к. не имеют явной лингвистической интерпретации

In [1]:
with open('phm.txt ') as f:
    lines = [l for l in f]
print(len(lines))
print(lines[0])

3
Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем. Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека. Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т. п.) и достижение физического бессмертия. В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но окончательно разница между транс- и постгуманизмом не определена и остаётся предметом дискуссий.



In [3]:
import nltk # Natural Language Toolkit - русский язык поддерживается только в некоторых модулях

In [6]:
# Загрузка модулей и наборов данных NLTK:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
from nltk.tokenize import sent_tokenize
sent_tokenize(lines[0])

['Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем.',
 'Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека.',
 'Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т.',
 'п.)',
 'и достижение физического бессмертия.',
 'В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но окончательно разница между транс- и постгуманизмом не определена и остаётся предметом дискуссий.']

In [None]:
# Даже сегментация строки на предложения очень зависит от языка.
# Так выглядит подключение токинизаторов для других языков в NLTK 
# (к сожалению в nltk.tokenize нет модуля для русского языка):
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

In [12]:
# pip install razdel
# разделение на основе правил
# https://github.com/natasha/razdel
from razdel import sentenize

In [20]:
sent_0 = list(sentenize(lines[0]))
sent_0

[Substring(0,
           141,
           'Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем.'),
 Substring(142,
           421,
           'Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека.'),
 Substring(422,
           590,
           'Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т. п.) и достижение физического бессмертия.'),
 Substring(591,
           914,
           'В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но

In [24]:
sent_0[0].text

'Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем.'

В каком виде лучше представлять результат сегментации? 

Простая модель: список сегментов.
* (-) если применяется несколько способов сегментации?
* (-) как искать в тексте исходное расположение сегмента?

Более общий способ представления результата анализа текстов - __модель аннотаций__. 

Аннотация - в общем случае тройка: 
* начало 
* конец 
* значение (не обязательно) 

### Токенизация 

Токенизация - разбиение строки на подстроки, которые мы рассматриваем как интересующие нас группы символов (токены).

В NLP под токенизацией обычно понимают разбиение текста на слова, знаки препинания и т.д.

In [19]:
# токенизация русскоязычного текста с помощью библиотеки razdel:
from razdel import tokenize
tokens = list(tokenize(lines[0]))
tokens[:5]

[Substring(0, 12, 'Постгуманизм'),
 Substring(13, 14, '—'),
 Substring(15, 27, 'рациональное'),
 Substring(28, 41, 'мировоззрение'),
 Substring(41, 42, ',')]

In [18]:
[_.text for _ in tokens]

['Постгуманизм',
 '—',
 'рациональное',
 'мировоззрение',
 ',',
 'основанное',
 'на',
 'представлении',
 ',',
 'что',
 'эволюция',
 'человека',
 'не',
 'завершена',
 'и',
 'может',
 'быть',
 'продолжена',
 'в',
 'будущем',
 '.',
 'Эволюционное',
 'развитие',
 'должно',
 'привести',
 'к',
 'становлению',
 'постчеловека',
 '—',
 'гипотетической',
 'стадии',
 'эволюции',
 'человеческого',
 'вида',
 ',',
 'строение',
 'и',
 'возможности',
 'которого',
 'стали',
 'бы',
 'отличными',
 'от',
 'современных',
 'человеческих',
 'в',
 'результате',
 'активного',
 'использования',
 'передовых',
 'технологий',
 'преобразования',
 'человека',
 '.',
 'Постгуманизм',
 'признаёт',
 'неотъемлемыми',
 'правами',
 'совершенствование',
 'человеческих',
 'возможностей',
 '(',
 'физиологических',
 ',',
 'интеллектуальных',
 'и',
 'т',
 '.',
 'п',
 '.',
 ')',
 'и',
 'достижение',
 'физического',
 'бессмертия',
 '.',
 'В',
 'отличие',
 'от',
 'трансгуманизма',
 ',',
 'под',
 'определением',
 'постгуманизма',
 

Токинизатор tok-tok простой токинизатор общего назначения. Он рассматривает только одно предложение в строке. Таким образом, только последняя точка в предложении рассматривается как токен.

Tok-tok был протестирован и показал приемлемые результаты на следующих языках: English, Persian, Russian, Czech, French, German, Vietnamese, Tajik, и некоторых других. Tok-tok принимает строку в кодировке UTF-8.

In [29]:
from nltk.tokenize.toktok import ToktokTokenizer
toktok = ToktokTokenizer()
toktok.tokenize(sent_0[0].text)

['Постгуманизм',
 '—',
 'рациональное',
 'мировоззрение',
 ',',
 'основанное',
 'на',
 'представлении',
 ',',
 'что',
 'эволюция',
 'человека',
 'не',
 'завершена',
 'и',
 'может',
 'быть',
 'продолжена',
 'в',
 'будущем',
 '.']

Многозначность определения токена:
* I’m - один токен или два? 
* won’t - один токен или два? 
* т.к. - один токен или два? 

Разрешение таких воп зависит от целей токенизации. Или (что хуже) от применяемой библиотеки.

Задачи сегментации текста:

Языки, где слова не разделяются пробелами: 
* """两个月前遭受恐怖袭击的法国巴黎的犹太超市在装修之后周日重新开放，法国内政部长以及超市的管理者都表示，这显示了生命力要比野蛮行为更强大。
该超市1月9日遭受枪手袭击，导致4人死亡，据悉这起事件与法国《查理周刊》杂志社恐怖袭击案有关。
""" -> WordList(['两', '个', '月', '前', '遭受', '恐怖', '袭击', '的', '法国', '巴黎', '的', '犹太', '超市', '在', '装修', '之后', '周日', '重新', '开放', '，', '法国', '内政', '部长', '以及', '超市', '的', '管理者', '都', '表示', '，', '这', '显示', '了', '生命力', '要', '比', '野蛮', '行为', '更', '强大', '。', '该', '超市', '1', '月', '9', '日', '遭受', '枪手', '袭击', '，', '导致', '4', '人', '死亡', '，', '据悉', '这', '起', '事件', '与', '法国', '《', '查理', '周刊', '》', '杂志', '社', '恐怖', '袭击', '案', '有关', '。'])
* В немецком языке возможны слова типа Donaudampfschifffahrtskapitän (капитан рейса, выполняемого пароходом по Дунаю), по сути состоящего из слов Dona (Дунай), Dampfschiff (пароход), Fahrt (рейс) и Kapitän (капитан). Если не выполнять разделение таких слов на составляющие слова, то документ не будет найден по запросам, содержащим слова, входящие в "склеенные" слова.

Другие случаи:
* #поставьмнелайк, #делайкакя, #серьгискристалламиростовнадону, ...
* supernaturalflavors.com, babybirthdaygift.com, crosswordmagazines.com, купитьрозы.рф, ...

## Стемминг и лемматизация


Часто необходимо обрабатывать разные формы слова одинаково. В этом случае поможет переход от словоформ к их леммам (словарным формам лексем) или основам (ядерным частям слова, за вычетом словоизменительных морфем)

Например, при поиске: по запросам “кошками” и “кошкам” ожидаются одинаковые ответы.

__Стемминг__ - это процесс нахождения основы слова, которая не обязательно совпадает с корнем слова.

__Лемматизация__ - приведение слова к словарной форме.

__Морфология__ - это раздел лингвистики, который изучает структуру слов и их морфологические характеристики. Классическая морфология проанализирует слово _собака_ примерно так: это существительное женского рода, оно состоит из _корня_ собак и _окончания_ а, окончание показывает, что слово употреблено в единственном числе и в именительном падеже. 

__Компьютерная морфология__ анализирует и синтезирует слова программными средствами. В наиболее привычной формулировке под морфологическим анализом слова подразумевается:
* определение леммы (базовой, канонической формы слова)
* определение грамматических характеристик слова. 

В области автоматической обработки данных также используется термин __нормализация__, обозначающий постановку слова или словосочетания в __каноническую форму__ (грамматические характеристики исходной формы при этом не выдаются). Обратная задача, т. е . постановка леммы в нужную грамматическую форму, называется __порождением словоформы__. 


Стемминг отбрасывает суффиксы и окончания до неизменяемой формы слова 

Примеры: 
* кошка -> кошк 
* кошками -> кошк 
* пылесосы -> пылесос

В школьной грамматике основой считается часть слова без окончания. В большинстве случаев она не меняется при грамматических изменениях самого слова — так ведет себя, например, основа _слон_ в словоформах: _слон, слону, слонами, слонов_. Но в некоторых словах основа может изменяться. Например, для словоформ _день, дню и дне_ основами будут ден-, дн- и дн-, такое явление называется __чередованием__. Поэтому самый популярный на сегодня подход использует псевдоосновы (или машинные основы). Это неизменяемые начальные части слов. Для слова день такой неизменяемой частью будет _д-_. Формы некоторых слов могут образовываться от разных корней. Например, у слова _ходить_ есть форма _шел_. Это называется _супплетивизмом_. 

__В русском языке__ супплетивизм и чередования очень распространены, поэтому __псевдоосновы часто получаются очень короткими__. __Для русского языка стемминг работает гораздо хуже, чем лемматизация__. 

В стемминге есть только правила обрабатывания суффиксов и, возможно, небольшие словари исключений. Существует бесплатный инструмент для написания стеммеров — Snowball. 

In [30]:
# Snowball - Наиболее распространенный стеммер из проекта Apache Lucene 
# Работает для нескольких языков, включая русский
from nltk.stem import SnowballStemmer
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [45]:
import re
snb_stemmer_ru = SnowballStemmer('russian')
print(snb_stemmer_ru.stem('кошку'))
print(snb_stemmer_ru.stem('кошечки'))

кошк
кошечк


In [59]:
snt = list(sentenize(lines[0]))
tok = list(tokenize(snt[0].text))
w = re.compile('^[а-яА-ЯёЁ]*$')
# предложение превращено в последовательность стем русских слов:
[snb_stemmer_ru.stem(t.text) for t in tok if w.search(t.text)] 

['постгуманизм',
 'рациональн',
 'мировоззрен',
 'основа',
 'на',
 'представлен',
 'что',
 'эволюц',
 'человек',
 'не',
 'заверш',
 'и',
 'может',
 'быт',
 'продолж',
 'в',
 'будущ']

Snowball использует __систему суффиксов и окончаний__ для предсказания части речи и грамматических параметров. Так как одно и
то же окончание может принадлежать разным частям речи или различным парадигмам, его оказывается недостаточно для точного предсказания. Применение суффиксов позволяет повысить точность.

Система реализовывается на языке программирования в виде большого количества условных операторов, анализирующих самый длинный постфикс и его контекст. По окончании анализа слову приписывается часть речи и набор параметров, а найденное окончание (или псевдоокончание) отрезается. В итоге, помимо параметров, система возвращает стем.

### Лемматизация

У разных слов часто совпадает основа: 
* пол : полу , пола , поле , полю , поля , пол , полем , полях , полям 
* лев : левый, левая, лев 

Из-за этого увеличивается многозначность и ухудшаются результаты работы приложений.

Лемматизация - приведение слова к словарной форме, например: 
* кошки -> кошка 
* кошками -> кошка



Морфологические анализаторы для русского языка:

|Название |Open |Доб. словари |Объем слов. |Скорость | Python? |
|------|------|------|------|------|------|
|AOT | Y | N | 160 тыс.| 60-90 | N |
|MyStem | N | Y/N | >250 тыс.| 100-120 | Есть оболочка на Python |
|Pymorphy2 | Y | N | 250 тыс.| 80-100 | Y|
|TreeTagger | N | Y | 210 тыс.| 20-25 | N |


__MyStem__

https://github.com/nlpub/pymystem3 

_pip install pymystem3_

Лемматизация:

```python
>>> from pymystem3 import Mystem
>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)
>>> print(''.join(lemmas))```

Получение грамматической информации и лемм:

```python
>>> import json
>>> from pymystem3 import Mystem

>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)

>>> print("lemmas:", ''.join(lemmas))
>>> print("full info:", json.dumps(m.analyze(text), ensure_ascii=False, encoding='utf8'))

lemmas: красивый мама красиво мыть рама

full info: [{"text": "Красивая", "analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}]}, {"text": " "}, {"text": "мама", "analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}]}, {"text": " "}, {"text": "красиво", "analysis": [{"lex": "красиво", "gr": "ADV="}]}, {"text": " "}, {"text": "мыла", "analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}]}, {"text": " "}, {"text": "раму", "analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}]}, {"text": "\n"}]```

Морфологический анализатор, разработанный компанией Яндекс. MyStem версии 3.0 предоставляет все функции полного морфологического анализа, однако не имеет функции синтеза. Морфоанализатор MyStem базируется на словаре НКРЯ, который содержит более 200 тыс. лемм. Исходные коды MyStem являются закрытыми. MyStem производит __разрешение морфологической омонимии__ и делает разбор несловарных словоформ. Для решения этой задачи используются различные методы машинного обучения. В зависимости от входных данных MyStem снимает омонимию двумя способами: с учетом контекста и без учета контекста. Контекстное снятие омонимии является подключаемым и использует технологию MatrixNet. Основной идеей является ранжирование разборов на основе ближайших к разбираемому слов (контекстов).

__pymorphy2__ 

https://github.com/kmike/pymorphy2

_pip install pymorphy2_

Словари распространяются отдельными пакетами. Для русского языка:

_pip install -U pymorphy2-dicts-ru_

Есть оптимизированная версия, потребуется настроенное окружение для сборки (компилятор C/C++ и т.д.).

Морфологический процессор с открытым исходным кодом, предоставляет все функции полного морфологического анализа и
синтеза словоформ. Он умеет:
* приводить слово к нормальной форме (например, “люди -> человек”, или “гулял -> гулять”).
* ставить слово в нужную форму. Например, ставить слово во множественное число, менять падеж слова и т.д.
* возвращать грамматическую информацию о слове (число, род, падеж, часть речи и т.д.)

При работе используется словарь OpenCorpora; для незнакомых слов строятся гипотезы. Библиотека достаточно быстрая: в настоящий момент скорость работы - от нескольких тыс слов/сек до > 100тыс слов/сек (в зависимости от выполняемой операции, интерпретатора и установленных пакетов); потребление памяти - 10…20Мб; полностью поддерживается буква ё. Словарь OpenCorpora содержит около 250 тыс. лемм, а также является полностью открытым и регулярно пополняемым.

Для анализа неизвестных слов в Pymorphy2 используются несколько методов, которые применяются последовательно. Изначально от слова отсекается префикс из набора известных префиксов и если остаток слова был найден в словаре, то отсеченный префикс приписывается к результатам разбора. Если этот метод не сработал, то аналогичные действия выполняются для префикса слова длиной от 1 до 5, даже если такой префикс является неизвестным. Затем, в случае неудачи, словоформа разбирается по окончанию. Для этого используется дополнительный автомат всех окончаний, встречающихся в словаре с имеющимися разборами.

In [60]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [61]:
p = morph.parse('стали')
p

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [62]:
p[0].tag

OpencorporaTag('VERB,perf,intr plur,past,indc')

Метод MorphAnalyzer.parse() возвращает один или несколько объектов типа Parse с информацией о том, как слово может быть разобрано.

Тег - это набор граммем, характеризующих данное слово. Например, тег 'VERB,perf,intr plur,past,indc' означает, что слово - глагол (VERB) совершенного вида (perf), непереходный (intr), множественного числа (plur), прошедшего времени (past), изъявительного наклонения (indc). Доступные граммемы описаны тут: https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html#grammeme-docs.

Далее: https://pymorphy2.readthedocs.io/en/latest/user/guide.html

score - это оценка P(tag|word), оценка вероятности того, что данный разбор правильный.

Разборы сортируются по убыванию score, поэтому везде в примерах берется первый вариант разбора из возможных. Оценки P(tag|word) помогают улучшить разбор, но их недостаточно для надежного снятия неоднозначности, как минимум по следующим причинам:

то, как нужно разбирать слово, зависит от соседних слов; pymorphy2 работает только на уровне отдельных слов;
условная вероятность P(tag|word) оценена на основе сбалансированного набора текстов; в специализированных текстах вероятности могут быть другими - например, возможно, что в металлургических текстах P(NOUN|стали) > P(VERB|стали);

In [64]:
#у каждого разбора есть нормальная форма, которую можно получить, обратившись к атрибутам normal_form или normalized:
p[0].normalized

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'стать', 904, 0),))

In [67]:
snt = list(sentenize(lines[0]))
tok = list(tokenize(snt[0].text))
w = re.compile('^[а-яА-ЯёЁ]*$')
# предложение превращено в последовательность стем русских слов:
pt = [morph.parse(t.text) for t in tok if w.search(t.text)] 
[w[0].normalized.word for w in pt]

['постгуманизм',
 'рациональный',
 'мировоззрение',
 'основать',
 'на',
 'представление',
 'что',
 'эволюция',
 'человек',
 'не',
 'завершить',
 'и',
 'мочь',
 'быть',
 'продолжить',
 'в',
 'будущее']