# NLP - Natural Langauge Processing (обработка естественного языка)

NLP - большая, интересная и важная область ИИ. Ей уже много лет, но несмотря на ее возраст, не на все задачи есть решения.
Сегодня у нас обзорная лекция по задачам NLP с некоторыми примерами и увлекательной домашкой.

### Основные задачи (классификация взята из лекции Д.Бугайченко, https://ok.ru/live/755772235697)
 - на уровне сигналов: распознавание речи (speech recognition), синтез речи
 - на уровне слов: коррекция ошибок (error correction), нормализация слов (лемматизация, стемминг), морфологический анализ (morph analysis/segmentation)
 - на уровне коллокаций (словосочетаний): частеречная разметка (POS-tagging), извлечение именованных сущностей (Named Entity Recignition), сегментация слов (word segmentation)
 - на уровне предложений: сегментация предложений (sentence segmentation), query answering, parsing, разрешение лексической неоднозначности (word sense disambiguation)
 - на уровне абзацев: разрешение кореференции (coreference resolution), определение языка (language detection), определение тональности текста (sentiment analysis)
 - на уровне документов: автоматическое реферирование (text summarization), машинный перевод (machine translation), тематическое моделирование (topic modeling)
 - на уровне корпуса: определение дубликатов (deduplication), извлечение информации (informational retrieval)

#### sentiment analysis 
(from https://www.cloudbeds.com/articles/perform-sentiment-analysis-reviews/)

![sentiment-analysis](https://wkusaapbz93eciyl3ze4vh1a-wpengine.netdna-ssl.com/wp-content/uploads/2016/08/Sentiment-Analysis-Review-Highlights.png)

#### POS-tagging
(from https://rewordify.com/helppos.php)

![image](https://rewordify.com/images/posselect.gif)

Разделы языкознания:
    - фонетика
    - морфология
    - лексикология
    - синтаксис
    - семантика

__Фонетика__

Перевести сигнал в фонему - нетривиальная задача. К примеру, flick и lick звучат почти одинаково, mean/green - тоже схоже по звучанию. Раньше на коне были скрытые марковские модели, сейчас рулят нейронки.

__Морфология__

"корова" - существительное женского рода, корень "коров", окончание "а", единственное число, именительный падеж. Под морфологическим анализом понимается определение леммы (базовая форма слова) и его грамматических характеристик. 

Здесь сталкиваемся с задачей нормализации - приведению слова к канонической форме. К примеру, слово "собаку"  нам надо привести к "собака", или "красивый" в "красив". Это можно сделать двумя разными способами (не путать их между собой!):
 - лемматизация
 - стемминг
 
_Стемминг_ - это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова (википедия). Реализации -  Mystem, Porter, Showball и еще и еще

_Лемматизация_ - процесс приведения словоформы к лемме — её нормальной (словарной) форме. Здесь уже, обычно, без словарей не обойтись точно. В стемминге можно было :) Реализации: самый популярный - pymorphy2.


Примеры в студию, сектор приз на барабане!

In [42]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

from nltk.stem.snowball import RussianStemmer
stemmer = RussianStemmer()

example_words = "собраться можно и потом же. не?"
print("{0:15} {1:15} {2:15}\n".format("Исходник", "Лемматизация", "Стемминг"))
for word in example_words.split(" "):
    print("{0:15} {1:15} {2:15}".format(word, morph.parse(word)[0].normal_form, stemmer.stem(word)))

Исходник        Лемматизация    Стемминг       

был             быть            был            
коровы          корова          коров          
красавчиком     красавчик       красавчик      
огурцы          огурец          огурц          
летал           летать          лета           
Будапеште       будапешт        будапешт       
гуляшом         гуляш           гуляш          


С __лексикой__ мы сталкиваемся в задаче фильтрации обсценной лексики. Или в детектировании слэнга и диалектизмов. Также существует задача разрешения лексической многозначности. К примеру, в предложениях "Python - распространенный язык программирования" и "Из-за анестезии у него онемел язык" слово "язык" имеет разные значения.

При решении многих задач NLP необходима информация о структуре предложения. Для этого на помощь приходит __синтаксис__ с его парсингом (в смысле синтаксического анализа). Основные подходы заключаются на грамматиках и теории синтаксических групп.

__Семантика__ отвечат за смысловое значение единиц языка. Сейчас вся наука стремится к созданию моделей с сильными семантическими свойствами, чтобы машина реально научилась понимать смысл. Отдельно хочу отметить задачу детекции сарказма - очень нетривиальная и интересная задача.

Языкознанием языкознанием, но как заставить компьютер воспринимать текст? 
- можно посимвольно, почему бы и нет, кстати, это дает определенный профит, но об это попозже
- логика говорит нам, что хорошо бы по словам

Встает вопрос - как работать с текстом? Надо как-то представить текст в виде векторов. Есть два наиболее популярных подхода:
 - метод bag of words
 - эмбеддинги на основе нейросетевых архитектур (word2vec, GLOVE)
 
 fasttext -  посмотреть, что там под капотом

### Bag of words

Суть "мешка слов" легка и понятна. Слова рассматриваются вне зависимости от их порядка в предложении. Также в этом подходе существует понятие n-граммы - словосочетания, состоящего из n слов. 

Есть предложение "Дети играли на лесной опушке". Тогда, для него набором биграмм будет таким: "дети играли", "играли на", "на лесной", "лесной опушке". Если триграмм, то "дети играли на", "играли на лесной", "на лесной опушке". Униграммы - это просто, по сути, токены. В данном случае униграммы в предложении будут такими: "дети", "играли", "на", "лесной", "опушке".

Почему n-граммы так важны? К примеру, они позволяют частично разрешать лексическую многозначность. К примеру, у нас есть еще одно предложение - "На станции Лесной был найден бесхозный пакет".
Итак, мы имеем два совершенно разных по смыслу предложения. Но с одним общим словом - "лесной".

Совпадают эти предложения по двум словам - "на" и "лесной". Но если мы посмотрим на биграммы, то благодаря соседним словам "опушка" и "станция" мы автоматически снимаем лексическую мноозначность - т.е. мы точно понимаем, что в первом предложении "лесной" - это про лес, а во втором что-то с метро.

Все равно вопрос не уходит - как слова перегнать в вектора? В работе с bag of words строят матрицы. 

In [12]:
import numpy as np

#               sent_1                          sent_2
corpus = ["Лесная опушка перед рекой", "Станция метро Лесная"]
tokens = [x.lower().split(" ") for x in corpus]

tokens = np.concatenate(tokens)
print("Все токены: {0}".format(set(tokens)))

Все токены: {'перед', 'опушка', 'метро', 'станция', 'рекой', 'лесная'}


Создаем матрицу, по строкам будут наши предложения, по столбцам - все уникальные слова. Таким образом, у нас будет матрица вида:

$\begin{pmatrix} 
"-" & перед & опушка & метро & станция & рекой & лесная \\
sent_1 & 0 & 0 & 0 & 0 & 0 & 0\\ 
sent_2 & 0 & 0 & 0 & 0 & 0 & 0
\end{pmatrix} $

Чем заполнять? Можно бинарно: если слово есть - 1, нет - 0. Тогда получим:

$\begin{pmatrix} 
- & лесная & метро & опушка & перед & рекой & станция \\
sent_1 & 1 & 0 & 1 & 1 & 1 & 0\\ 
sent_2 & 1 & 1 & 0 & 0 & 0 & 1
\end{pmatrix} $

Далее: пример кода, который строит такую матрицу.

In [24]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(ngram_range=(1,1))
count_matrix = count_vectorizer.fit_transform(corpus)

print(count_vectorizer.get_feature_names())
print(count_matrix.todense())

['лесная', 'метро', 'опушка', 'перед', 'рекой', 'станция']
[[1 0 1 1 1 0]
 [1 1 0 0 0 1]]


Есть более хитрая метрика - TF-IDF (term frequency - inverse document frequency).  Подробнее: здесь - https://ru.wikipedia.org/wiki/TF-IDF. Ее смысл во взвешивании слов, она дает бОльший вес редким словам, а у общеупотребительных "занижает" вес, образно выражаясь. 

Код:

In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer =  TfidfVectorizer(ngram_range=(1,1))
tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

print(tfidf_vectorizer.get_feature_names())
print(tfidf_matrix.todense())

['лесная', 'метро', 'опушка', 'перед', 'рекой', 'станция']
[[0.37997836 0.         0.53404633 0.53404633 0.53404633 0.        ]
 [0.44943642 0.6316672  0.         0.         0.         0.6316672 ]]


Здесь уже не так легко руками посчитать, но возможно :) Эта метрика очень популярна и не зря. Она понятна и часто используется в боевых условиях.

Bag of words - не единственный подход к представлению текста в вектора. Есть еще word2vec (и Glove, и другие). Пример работы с word2vec описан в соседнем одноименном ноутбуке.

Ок, мы умеем из текста делать вектора. Что дальше?

А теперь уже можно строить модели, генерировать фичи, решать задачи наконец :)

### Итак, важные шаги при работе с текстом:
    
    1) поиск корпуса
    2) нормализация слов (лемматизация/стемминг)
    3) удаление стоп-слов, знаков препинания, приведение слов к нижнему регистру
    4) также иногда требуется замена токенов на специальный тег. к примеру, все цифры в корпусе заменить на тег <NUMBER>, к примеру. Все зависит от задачи.

А дальше переходим к практике!