## Сегментация текста

* Определение границ предложения 
* Токенизация 

### Определение границ предложений

* Мотивация
* Как автоматически определять границы предложений? 
    * Обычно определяются по точке 
    * Точка - имеет много значений: 
        * граница предложения
        * сокращение: “Dr.”, “U.S.A.” 
        * Разделитель в числах 3.14 
        * ... 
    * Предложение может заканчиваться не только точкой:
        * ./!/?/!?/!!!/... и т.д.
        * разбор предложений с прямой и косвенной речью
        * разбор предложений со списками 
        * на конце предложения может вообще не быть знаков препинания

#### Определение границ предложений

* Рассмотрим задачу разрешения многозначности точки 
* Задача сводится к классификации точки на два класса: конец предложения или нет. Есть два подхода:
    * Подход основанный на правилах (rule-based). Пример правил:
        * перед точкой и после нее стоят цифры -> не к.п.
        * слово перед точкой есть в словаре сокращений -> не к.п.
        * ... правил может быть очень много и постоянно будут находится новые исключения.
    * Подход  основанный на машинном обучении (machine learning):
        * решение задачи классификации одним из методов ML

#### Решение задач NLP на основе правил

* Исторически __первый подход__ к задаче
* В ранних системах правила были встроены в программный код, сейчас для записи правил __используется__ либо уже готовый __формальный язык__, либо подобный язык специально создаётся для разрабатываемого приложения.
* (-) Правила создаются лингвистами или специалистами по проблемной области обрабатываемых текстов. Трудоемкий процесс, требующий специалистов высокой кваилификации.
* (+) Правила обычно декларативны и легко понимаемы, поэтому их просто поддерживать: модифицировать и расширять.


#### Решение задач NLP на основе машинного обучения

Среди методов, применяемых в рамках подхода, выделяют методы обучения с учителем (supervised), методы обучения
без учителя (unsupervised), методы частичного обучения с учителем (bootstrapping).

* (+) ML не требует ручного труда по составлению правил и сокращает время разработки систем
* (-) ML обчно предполагает наличие подходящего размеченного корпуса текстов, что не всегда возможно. Создание такого корпуса в любом случае требует значительных объемов ручного труда.
* (-) модели (классификаторы) непрозрачны для понимания, т. к. не имеют явной лингвистической интерпретации

In [1]:
with open('phm.txt ') as f:
    lines = [l for l in f]
print(len(lines))
print(lines[0])

3
Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем. Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека. Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т. п.) и достижение физического бессмертия. В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но окончательно разница между транс- и постгуманизмом не определена и остаётся предметом дискуссий.



In [3]:
import nltk # Natural Language Toolkit - русский язык поддерживается только в некоторых модулях

In [6]:
# Загрузка модулей и наборов данных NLTK:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
from nltk.tokenize import sent_tokenize
sent_tokenize(lines[0])

['Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем.',
 'Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека.',
 'Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т.',
 'п.)',
 'и достижение физического бессмертия.',
 'В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но окончательно разница между транс- и постгуманизмом не определена и остаётся предметом дискуссий.']

In [None]:
# Даже сегментация строки на предложения очень зависит от языка.
# Так выглядит подключение токинизаторов для других языков в NLTK 
# (к сожалению в nltk.tokenize нет модуля для русского языка):
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

In [12]:
# pip install razdel
# разделение на основе правил
# https://github.com/natasha/razdel
from razdel import sentenize

In [13]:
list(sentenize(lines[0]))

[Substring(0,
           141,
           'Постгуманизм — рациональное мировоззрение, основанное на представлении, что эволюция человека не завершена и может быть продолжена в будущем.'),
 Substring(142,
           421,
           'Эволюционное развитие должно привести к становлению постчеловека — гипотетической стадии эволюции человеческого вида, строение и возможности которого стали бы отличными от современных человеческих в результате активного использования передовых технологий преобразования человека.'),
 Substring(422,
           590,
           'Постгуманизм признаёт неотъемлемыми правами совершенствование человеческих возможностей (физиологических, интеллектуальных и т. п.) и достижение физического бессмертия.'),
 Substring(591,
           914,
           'В отличие от трансгуманизма, под определением постгуманизма также понимается критика классического гуманизма, подчёркивающая изменение отношения человека к себе, обществу, окружающей среде и бурно развивающимся технологиям, но

В каком виде лучше представлять результат сегментации? 

Простая модель: список сегментов.
* (-) если применяется несколько способов сегментации?
* (-) как искать в тексте исходное расположение сегмента?

Более общий способ представления результата анализа текстов - __модель аннотаций__. 

Аннотация - в общем случае тройка: 
* начало 
* конец 
* значение (не обязательно) 

### Токенизация 

Токенизация - разбиение строки на подстроки, которые мы рассматриваем как интересующие нас группы символов (токены).

В NLP под токенизацией обычно понимают разбиение текста на слова, знаки препинания и т.д.

In [19]:
# токенизация русскоязычного текста с помощью библиотеки razdel:
from razdel import tokenize
tokens = list(tokenize(lines[0]))
tokens[:5]

[Substring(0, 12, 'Постгуманизм'),
 Substring(13, 14, '—'),
 Substring(15, 27, 'рациональное'),
 Substring(28, 41, 'мировоззрение'),
 Substring(41, 42, ',')]

In [18]:
[_.text for _ in tokens]

['Постгуманизм',
 '—',
 'рациональное',
 'мировоззрение',
 ',',
 'основанное',
 'на',
 'представлении',
 ',',
 'что',
 'эволюция',
 'человека',
 'не',
 'завершена',
 'и',
 'может',
 'быть',
 'продолжена',
 'в',
 'будущем',
 '.',
 'Эволюционное',
 'развитие',
 'должно',
 'привести',
 'к',
 'становлению',
 'постчеловека',
 '—',
 'гипотетической',
 'стадии',
 'эволюции',
 'человеческого',
 'вида',
 ',',
 'строение',
 'и',
 'возможности',
 'которого',
 'стали',
 'бы',
 'отличными',
 'от',
 'современных',
 'человеческих',
 'в',
 'результате',
 'активного',
 'использования',
 'передовых',
 'технологий',
 'преобразования',
 'человека',
 '.',
 'Постгуманизм',
 'признаёт',
 'неотъемлемыми',
 'правами',
 'совершенствование',
 'человеческих',
 'возможностей',
 '(',
 'физиологических',
 ',',
 'интеллектуальных',
 'и',
 'т',
 '.',
 'п',
 '.',
 ')',
 'и',
 'достижение',
 'физического',
 'бессмертия',
 '.',
 'В',
 'отличие',
 'от',
 'трансгуманизма',
 ',',
 'под',
 'определением',
 'постгуманизма',
 

Многозначность определения токена:
* I’m - один токен или два? 
* won’t - один токен или два? 
* т.к. - один токен или два? 

Разрешение таких воп зависит от целей токинизации. Или от применяемой библиотеки.


* Стемминг и лемматизация