### Теоретические основы КЛ в связи с программированием. Токенизация и сегментация по предложениям

Современную лингвистику можно разделить на три больших области, которые тесно (более или менее) взаимодействуют друг с другом: это собственно теоретическая лингвистика, компьютерная лингвистика и NLP (natural language processing). В чем разница между этими тремя областями, чем они занимаются? Подробно можно посмотреть лекцию В.П. Селегея, которую он читал у нас однажды на открытом семинаре: [Компьютерная лингвистика сегодня: от исследований языка до киберспорта](https://youtu.be/sjDAdHPDtkc).

Вкратце разница такова:
- Теоретическая лингвистика занимается теоретическими (внезапно!) исследованиями. Теоретические лингвисты изучают язык в поле (в экспедициях) или с помощью корпусов. Даже теоретические лингвисты (современные) пользуются средствами автоматической обработки естественного языка! Питон многим из них облегчает жизнь: достаточно почитать последние научные статьи в журналах или осведомиться, какие диссертации защищались в последние годы. 
- NLP - это когда **инженеры** создают связанные с языком приложения преимущественно для бизнеса. Например, делают программу, которая позволяет автоматически обрабатывать кучи документов, или улучшают поисковые сервисы (или делают рекомендательные сервисы, или что угодно). 
- Компьютерная лингвистика - это когда **лингвисты** пользуются инструментами инженеров, такими, как нейронные сети, базы данных и т.д., чтобы изучать язык с теоретической точки зрения. 

Какой бы путь вы ни выбрали в дальнейшем, умение программировать пригодится... 

В современном мире КЛ существует несколько базовых терминов, которые стоит знать всем. 

- Пайплайн: план действий, которые нужно выполнить, чтобы решить задачу. Например, если нам нужно собрать теоретический корпус языка, такой, как ГИКРЯ, нам нужно собрать и обработать тексты, разметить их и сделать так, чтобы по ним можно было искать. 
- Бейзлайн (есть вариант бейслайн): это базовое, самое очевидное решение какой-то задачи; самое первое, которое приходит в голову. Обычно от бейзлайна отталкиваются, когда хотят улучшить решение. Например, если у нас есть задача определять тональность текста (хороший/плохой отзыв), то самое простое - посчитать количество слов типа "понравилось\не понравилось"; это будет бейзлайн, который будет с маленькой точностью эту задачу решать. Но на него уже можно равняться. 
- Датасет: набор данных для решения задачи. В нашем случае датасет обычно == корпус: для решения задач КЛ и NLP берутся наборы текстов, размеченных или нет. Размеченные датасеты на вес золота!

Задачи NLP - это не просто какие-то там задачи, которые человек решил и забыл: это задачи очень сложные, про некоторые из них (как задача машинного перевода) вообще долгое время думали, что у них нет решения. Соответственно, этот набор задач живет и здравствует, а цель инженеров - улучшать существующие решения. Какие есть примеры таких "вечных" задач?
- самая первая, пожалуй: машинный перевод. МП очень увлекались в 60-х, теория "Смысл-Текст" возникла именно из-за того, что в СССР много вкладывались в машинный перевод. К концу века люди серьезно разочаровались в МП, одно время верили, что невозможно эту задачу решить. Переворот случился, когда появились нейронные сети. Все современные переводчики - на них; вы можете сами заметить, что перевод того же гугла улучшается изо дня в день. 
- анализ тональности текста: дан миллион отзывов на продукт, требуется выяснить, сколько из них положительные, а сколько отрицательные, а в идеале еще и вычленить, к чему люди придираются и что хвалят. 
- извлечение именованных сущностей: в тексте встречаются имена собственные, даты, цены и т.п. Нужно автоматически их все вычленить. 
- извлечение отношений: а теперь не просто вычленить именованные сущности, но и понять, кто кому сват и брат (кто, что, за сколько и когда купил/продал). 
- генерация текста: Балабоба. Другие разновидности - генерация кода (!), генерация рецептов и миллион других вещей. Очень интересное!
- саммаризация: есть "Война и мир", школьник хочет саммари. Машины умеют это!
- упрощение текста: есть сложная научная статья, машина умеет ее переводить на человеческий язык. 
- автоматический бан троллей и провокаторов в интернете: вычленить из постов пользователя мат, забанить его: машина умеет это!

...

Задач, как мы видим, много. У них свои собственные пайплайны и методы, но примерно все задачи, где для решения нужен текст, требуют этот текст обрабатывать определенным образом. Тут уже на сцену выходим мы, лингвисты. Во-первых, наши коллеги из физтеха, которые занимаются именно NLP, ничего так не любят, как просить студентов РГГУ разметить им вот еще один маленький тут датасетик. Во-вторых, некоторые виды разметки так сложны, что без парочки лингвистов и не обойтись: например, синтаксическая или семантическая разметка. 

Таким образом, для сбора датасетов существует приблизительно один общий пайплайн (некоторые задачи требуют все перечисленные шаги, другие нет). Как собирать датасет? (в частности, корпус) В том числе для ваших собственных теоретических изысканий. 

1. Необходимо получить данные. В связи этим есть такие термины, как краулинг (crawling) и скрейпинг (scraping). Тексты мы сегодня получаем преимущественно из интернета и полностью автоматически. Самая известная программа для краулинга - Apache Nutch; на ваше счастье, мы не будем учиться ей пользоваться. Есть и программы попроще, типа twint для скрейпинга твиттера, и у многих сайтов, например, у Википедии, есть собственный API (интерфейс для взаимодействия между двумя программами, в отличие от UI - интерфейса между человеком и программой). Если вам когда-нибудь понадобится выкачать тексты, можно воспользоваться этим сакральным знанием: для многих популярных ресурсов типа телеграма люди давно понаписали очень простых в использовании библиотек, например, для Вики есть wikipedia-api (но у Вики, кстати, есть и готовые дампы, которые можно получить по адресу: [тут](https://dumps.wikimedia.org/). Дело за малым: распарсить xml-разметку...). 
2. В зависимости от вашей удачи и старания написавших библиотеки людей, вышеназванные краулеры/скрейперы выкачивают текст либо уже готовеньким для обработки (но и то его обычно приходится *нормализовать*, то есть, выкидывать ссылки, смайлики и тому подобное), либо as is: со всей html-обвязкой и прочим бойлерплейтом (boilerplate - стандартизованный шаблонный текст, например, тексты в табличках Википедии, которые перечисляют, что нужно указать на странице). Тексты обычно приходится потом чистить: самый известный инструмент для вытаскивания текста из html - beautifulsoup4. Иногда дополнительно приходится удалять дубли (копипасту) и даже вообще отфильтровывать спам (для этого создаются собственные инструменты, обычно на нейронных сетях). 
3. Вот наконец мы получили гигантский набор текстовых файликов, внутри которых содержатся сырые тексты! Что теперь с ними делать? Компьютер не понимает, где в этих текстах слова и предложения: для него это только набор символов. Значит, уже лингвистическая задача - разделить эти тексты на предложения и потом на **токены**. 

        Токен - это значимая для анализа последовательность символов. Не обязательно слово и знак пунктуации: например, современные нейронные сети внутри себя делят тексты на подслова, которые нам кажутся бессмысленными. Нейронка может разделить слово "Сингапура" как "Сингапур - а", а может как "С - и - нга - пур - а"... real story. 
        
4. Дальше уже может понадобиться более сложный анализ текстов: морфологическая, синтаксическая, семантическая разметка. Ничего из этого сегодня обычно не делают вручную. Мы с вами посмотрим, как автоматически делать морфологический и синтаксический разбор. 

5. В качестве вишенки на торте можно устроить еще какую-нибудь разметку: выделить в тексте именованные сущности, референтные связи и так далее, но это уже в зависимости от задачи. 

Поскольку все это - вещи, которыми люди занимаются уже довольно давно, существует просто *огромное* количество готовых инструментов, в том числе большие комплексные библиотеки; подавляющее большинство этих инструментов написано для питона! Поэтому мы его и изучаем. (Точнее говоря, написаны они обычно в каких-нибудь С или Java, но добрые люди понаделали "оберток" под питон). 

Большие библиотеки, о которых стоит знать:
- NLTK: самая, пожалуй, старая и известная. 
- TextBlob: тот же NLTK, только в профиль. 
- spaCy: более современный вариант NTLK на Cython (что это, можно не знать. :)
- DeepPavlov: скорее заточенная под нужды инженеров библиотека, которую разрабатывают в МФТИ. Для русского языка! (все вышеназванные мультиязычные)
- natasha: тоже сделана для русского языка, очень быстрая, достаточно качественная. 

Последнее, о чем стоит знать - это принципы, на которых базируются наши инструменты. На чем может работать инструмент автоматической обработки естественного языка:
1. На правилах: человек сам прописывает лес ифов. Плюс правиловых инструментов: вы всегда точно знаете, как он будет работать. А еще он будет быстрый, как понос. Минус: невозможно предусмотреть вообще ВСЕ, трудно дорабатывать, качество работы обычно самое низкое. 
2. С использованием статистических (вероятностных) методов: мы все еще понимаем, как и почему работает наш инструмент, но уже вместо правилок используем теорию вероятности. Ну типа, с какой вероятностью после предлога будет идти глагол?..
3. С использованием алгоритмов машинного обучения: уже не очень хорошо понимаем, что происходит внутри у нашего инструмента (а кстати, он стал медленнее...), но точно знаем, какие данные нужно ему скормить, чтобы он работал лучше. Машинное обучение - это когда мы показываем компьютеру, как надо правильно делать, а он пытается сам по хитрым математическим формулам вычислить ответы на основании того, что видел. 
4. На нейронных сетях: абсолютно не понимаем, что происходит у нашего инструмента внутри, и работает он, как черепаха. Зато ему достаточно скормить примерчики, как правильно решать задачу, и он будет удивительно качественно ее решать! Чем больше данных для обучения, тем качественнее. 

Большинство современных задач (подавляющее) уже решается только нейронными сетями: язык - вещь непростая, и морфологию или синтаксис правилами сегодня размечают только безумцы. 

#### Токенизация и сегментация по предложениям

И то, и другое - очень базовые задачи; токенизаторы и сегментаторы включены во все крупные лингвистические библиотеки. 

Поскольку разделять текст на слова и предложения вроде бы очень легко, как правило, используются инструменты на правилах; хотя и не для каждого языка это верно: для языков, у которых слова не отделяются пробелами, токенизаторы могут быть нейронными. Кстати, неплохо вспомнить, что мы сами не всегда знаем, что мы хотим считать за слово. Что мы хотим считать за токен - другой вопрос: токен определяется задачами. Например, для определенной задачи мы можем хотеть считать, что "бледно-зеленый" - это два отдельных слова, а для другой - нет. 

Самый простой токенизатор вы в состоянии написать сами (что мы на занятии и делали). Иногда это бывает даже хорошо и полезно, потому что про свой токенизатор вы точно знаете, как он работает. 

1. Сентенайзеры:

        pip install razdel
        pip install rusenttokenize
        

razdel - подмодуль Наташи; rusenttokenize - подмодуль DeepPavlov. 

In [18]:
from razdel import sentenize

raw = '''Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи. Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне. По данным справочника Ethnologue число носителей составляет 8350 человек в Сьерра-Леоне и несколько человек в Гвинее, другие источники сообщают о гораздо меньшем количестве носителей (около 500 чел). Наиболее близкородственный язык — бом, имеется небольшая взаимопонимаемость с шербро. Буллом-со активно вытесняется соседними языками, главным образом — темне.'''

sents = [s.text for s in sentenize(raw)]

sents

['Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи.',
 'Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне.',
 'По данным справочника Ethnologue число носителей составляет 8350 человек в Сьерра-Леоне и несколько человек в Гвинее, другие источники сообщают о гораздо меньшем количестве носителей (около 500 чел).',
 'Наиболее близкородственный язык — бом, имеется небольшая взаимопонимаемость с шербро.',
 'Буллом-со активно вытесняется соседними языками, главным образом — темне.']

Для чего нам тут нужен генератор? Дело в том, что sentenize работает примерно как finditer: возвращает итератор из набора специальных объектов, очень похожих на Match из re, в которых содержится сам текст предложения + индексы его начала и конца в исходной строке. Обычно эти индексы никому не нужны, поэтому результат тут же пересобирывается в список строк. 

In [19]:
from rusenttokenize import ru_sent_tokenize

sents = ru_sent_tokenize(raw)
sents

['Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи.',
 'Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне.',
 'По данным справочника Ethnologue число носителей составляет 8350 человек в Сьерра-Леоне и несколько человек в Гвинее, другие источники сообщают о гораздо меньшем количестве носителей (около 500 чел).',
 'Наиболее близкородственный язык — бом, имеется небольшая взаимопонимаемость с шербро.',
 'Буллом-со активно вытесняется соседними языками, главным образом — темне.']

На таком простом примере оба сентенайзера работают одинаково, но советую поэкспериментировать с более сложными текстами. 

2. Токенизаторы:

In [20]:
from razdel import tokenize

tokens = [t.text for t in tokenize(raw)]
tokens

['Буллом-со',
 '(',
 'ммани',
 ',',
 'мандинги',
 ')',
 '—',
 'один',
 'из',
 'атлантических',
 'языков',
 'нигеро-конголезской',
 'макросемьи',
 '.',
 'Распространён',
 'в',
 'прибрежных',
 'районах',
 ',',
 'возле',
 'границы',
 'между',
 'Гвинеей',
 'и',
 'Сьерра-Леоне',
 '.',
 'По',
 'данным',
 'справочника',
 'Ethnologue',
 'число',
 'носителей',
 'составляет',
 '8350',
 'человек',
 'в',
 'Сьерра-Леоне',
 'и',
 'несколько',
 'человек',
 'в',
 'Гвинее',
 ',',
 'другие',
 'источники',
 'сообщают',
 'о',
 'гораздо',
 'меньшем',
 'количестве',
 'носителей',
 '(',
 'около',
 '500',
 'чел',
 ')',
 '.',
 'Наиболее',
 'близкородственный',
 'язык',
 '—',
 'бом',
 ',',
 'имеется',
 'небольшая',
 'взаимопонимаемость',
 'с',
 'шербро',
 '.',
 'Буллом-со',
 'активно',
 'вытесняется',
 'соседними',
 'языками',
 ',',
 'главным',
 'образом',
 '—',
 'темне',
 '.']

Это один из самых быстрых токенизаторов для русского языка, и довольно качественный. Устроен он точно так же, как их сентенайзер. 

**Токенизация и сегментация в крупных библиотеках**

1. NLTK:

        !pip install nltk
        import nltk
        nltk.download()
        
2. SpaCy:

        !pip install spacy 
        
SpaCy поддерживает несколько разных языков. Посмотреть языки можно в [документации](https://spacy.io/models). 

In [21]:
from nltk.tokenize import word_tokenize 
from nltk.tokenize import RegexpTokenizer
from nltk.tokenize import sent_tokenize

tokenizer = RegexpTokenizer(r'\w+|\$[\d\.]+')
print(tokenizer.tokenize(raw))
print(word_tokenize(raw))
print(sent_tokenize(raw))

['Буллом', 'со', 'ммани', 'мандинги', 'один', 'из', 'атлантических', 'языков', 'нигеро', 'конголезской', 'макросемьи', 'Распространён', 'в', 'прибрежных', 'районах', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра', 'Леоне', 'По', 'данным', 'справочника', 'Ethnologue', 'число', 'носителей', 'составляет', '8350', 'человек', 'в', 'Сьерра', 'Леоне', 'и', 'несколько', 'человек', 'в', 'Гвинее', 'другие', 'источники', 'сообщают', 'о', 'гораздо', 'меньшем', 'количестве', 'носителей', 'около', '500', 'чел', 'Наиболее', 'близкородственный', 'язык', 'бом', 'имеется', 'небольшая', 'взаимопонимаемость', 'с', 'шербро', 'Буллом', 'со', 'активно', 'вытесняется', 'соседними', 'языками', 'главным', 'образом', 'темне']
['Буллом-со', '(', 'ммани', ',', 'мандинги', ')', '—', 'один', 'из', 'атлантических', 'языков', 'нигеро-конголезской', 'макросемьи', '.', 'Распространён', 'в', 'прибрежных', 'районах', ',', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра-Леоне', '.', 'По', 'данным', 'справочника

In [22]:
import spacy

nlp = spacy.blank('ru')
nlp.add_pipe('sentencizer')
doc = nlp(raw) # в этот момент спейси предобрабатывает наш сырой текст 
tokens = [token.text for token in doc]
print(tokens)
sents = [sent.text for sent in doc.sents]
print(sents)

['Буллом', '-', 'со', '(', 'ммани', ',', 'мандинги', ')', '—', 'один', 'из', 'атлантических', 'языков', 'нигеро', '-', 'конголезской', 'макросемьи', '.', 'Распространён', 'в', 'прибрежных', 'районах', ',', 'возле', 'границы', 'между', 'Гвинеей', 'и', 'Сьерра', '-', 'Леоне', '.', 'По', 'данным', 'справочника', 'Ethnologue', 'число', 'носителей', 'составляет', '8350', 'человек', 'в', 'Сьерра', '-', 'Леоне', 'и', 'несколько', 'человек', 'в', 'Гвинее', ',', 'другие', 'источники', 'сообщают', 'о', 'гораздо', 'меньшем', 'количестве', 'носителей', '(', 'около', '500', 'чел', ')', '.', 'Наиболее', 'близкородственный', 'язык', '—', 'бом', ',', 'имеется', 'небольшая', 'взаимопонимаемость', 'с', 'шербро', '.', 'Буллом', '-', 'со', 'активно', 'вытесняется', 'соседними', 'языками', ',', 'главным', 'образом', '—', 'темне', '.']
['Буллом-со (ммани, мандинги) — один из атлантических языков нигеро-конголезской макросемьи.', 'Распространён в прибрежных районах, возле границы между Гвинеей и Сьерра-Леоне