Made by Kirill Dvoryadkin 15.07.2021

#                                                Добро пожаловать в NLP!

Все мы так или иначе сталкивались с таким понятием, как машинное обучение и в той или иной мере с ним знакомы.
<br/>Тем не менее, стоит немного освежить информацию и держать в голове, что машинное обучение - это всё-таки класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение за счёт применения решений множества сходных задач.

Следует разобраться какие сейчас самые актуальные задачи в сфере ИИ.
Наиболее животрепещущими и перспективными секторами в данной области технологий на текущий момент являются следующие четыре монументальных столпа:
* Обработка естественного языка (NLP)
* Компьютерное зрение (CV)
* Рототехника
* Машинное обучение и нейросети в целом, как инструмент для реализации вышеупомянутых аспектов.

В рамках нашего ликбеза по NLP нас среди всего упомянутого больше всего интересует Обработка естественного языка - Natural Language Processing (далее NLP), и данный материал посвящен именно ему.

# Основные идеи и задачи NLP

NLP - это подмножество более широкой области AI, которая пытается научить компьютер понимать и обрабатывать сырые данные на естественном языке. Большая часть доступной сегодня информации — это не структурированные тексты. Нам как людям, конечно, не составляет труда их понять (если они на родном языке), но мы не способны обработать такое количество данных, какое могла бы обработать машина. Но как заставить машину понимать эти данные и, более того, извлекать из них какую-то информацию?
<br/>Несколько лет назад на открытии ACL - Ассоциация компьютерной лингвистики (одной из основных, если не самой главной NLP-конференции) - в своей президентской речи Marti Hearst призналась, что больше не может давать студентам свое любимое упражнение. На примере HAL 9000 (один из примеров искусственного интеллекта в научной фантастике) она спрашивала студентов, что машина может делать, как HAL, а что пока нет. Сейчас это уже не такое хорошее упражнение, так как почти все из этого сейчас под силу компьютеру. Поразительно, насколько быстро развивается область и как многого мы достигли. 
<br/>И стоит понимать, что NLP это не набор пар (задача, решение), а общие идеи, которые проникают в разные задачи и отражают некоторую общую концепцию.

### Задачи, которые стоят перед NLP:

1. Категоризация текстов
2. Классификация последовательностей символов:
    * Распознавание именованных сущностей
    * Определение частей речи слов
3. Распознавание фраз
4. Извлечение информации из текста
5. Синтаксическая аннотация
6. Семантическая аннотация
7. Генерирование текста
    * Генерация текста на основе распознанной речи
    * Машинный перевод
    * Обобщение текста


### Примеры использования NLP в реальной жизни:

* Поиск информации (Google находит релевантные и похожие результаты).
* Машинный перевод (Гугл переводчик).
* Анализ настроения (Эмоциональная окраска предложений – Hater news).
* Суммирование текста (Smmry дает краткое изложение предложений).
* Спам-фильтр (Gmail фильтрует спам-письма отдельно).
* Авто-прогнозирование (поиск Google предсказывает результаты поиска пользователей).
* Автокоррекция (Google Keyboard).
* Распознавание речи (Cortana, Яндекс.Станция).
* OCR (Распознавание текста с фото или видео)
* Чатботы (общение с клиентом)

В целом качество работы алгоритмов и их понимание текста зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д. Вот некоторые примеры сложностей, с которыми сталкиваются системы при работе с текстом на русском:
* Сложности с раскрытием анафор (распознаванием, что имеется в виду при использовании местоимений): предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» очень похожи по синтаксической структуре.
* Свободный порядок слов может привести к совершенно иному толкованию фразы: «Бытие определяет сознание» — что определяет что?
* В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
* В речи могут встретиться неологизмы, например, глагол «Пятидесятирублируй» — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
* Правильное понимание омонимов — ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе «Серый волк в глухом лесу встретил рыжую лису» выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (кроме того, что лиса может быть рыжей, а лес — глухим, лес также может быть рыжим (характеристика, в данном случае обозначающая преобладающий цвет листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему.

# Ключевой этап - Предварительная обработка данных

Предварительная обработка данных необходима, чтобы выделить атрибуты, которые мы хотим использовать в нашей системе машинного обучения. Очистка (или предварительная обработка) данных обычно состоит из нескольких этапов:

## 1. Удалить пунктуацию

Пунктуация может обеспечить грамматический контекст для предложения, которое поддерживает наше понимание. Но для нашего векторизатора, который считает количество слов, а не контекст, он не добавляет значения, поэтому мы удаляем все специальные символы. Например: Как дела? -> Как дела

In [None]:
import string
string.punctuation

In [None]:
def remove_punct(text):
    text_nonpunct = "".join([char for char in text if char not in string.punctuation])
    return text_nonpunct

text = "Россия священная наша держава, Россия священная наша страна!!!( или нет?.. или все-таки да...)"
orig_ru = text
text = remove_punct(text)

text

Мы здесь видим, что все знаки препинания опущены

## 2. Tokenization

Токенизация разделяет текст на блоки, такие как предложения или слова. Это дает структуру ранее неструктурированному тексту. например: Plata o Plomo-> ‘Plata’, ’o’, ’Plomo’.

In [None]:
import re

def tokenize(text):
    tokens = re.split('\W+', text)
    return tokens

text = tokenize(text)
text

Мы видим, что все слова генерируются как токены.

## 3. Удаление стоп-слов

Стоп-слова - это обычные слова, которые, скорее всего, появятся в любом тексте. Они мало говорят нам о наших данных, поэтому мы их удаляем. например: серебро или свинец хорошо для меня-> серебро, свинец, хорошо.

In [None]:
import nltk

stopword = nltk.corpus.stopwords.words('english')

def remove_stopwords(text):
    text = [word for word in text if word not in stopword]
    return text
origin = 'I am dating on sunday with my GF!!!'
eng_txt = origin
eng_txt = remove_punct(eng_txt)
eng_txt = tokenize(eng_txt)
eng_txt = remove_stopwords(eng_txt)
eng_txt

Таким способом все ненужные слова удаляются

## 4. Stemming

Стемминг помогает свести слово к его форме. Часто имеет смысл рассматривать похожие слова одинаково. Он удаляет достаточно, например, «ing», «ly», «s» и т. д. Простым подходом, основанным на правилах. Это уменьшает корпус слов, но часто фактическими словами пренебрегают.
<br/> Некоторые поисковые системы обрабатывают слова с тем же основанием, что и синонимы.

In [None]:
ps = nltk.PorterStemmer()

def stemming(tokenized_text):
    tokenized_text = [ps.stem(word) for word in tokenized_text]
    return tokenized_text

eng_txt_stem = stemming(eng_txt)
eng_txt_stem

## 5. Лемматизация

Лемматизация выводит каноническую форму («лемму») слова. т.е. корневая форма. Это лучше, чем основа, так как он использует подход на основе словаря, то есть морфологический анализ к корню word.eg: Entitling, Entitled-> Entitle

Stemming обычно быстрее, так как он просто отсекает конец слова, не понимая контекста слова. Лемматизация происходит медленнее и точнее, так как требует осознанного анализа с учетом контекста слова.

In [None]:
wn = nltk.WordNetLemmatizer()

def lemmatizing(tokenized_text):
    tokenized_text = [wn.lemmatize(word) for word in tokenized_text]
    return tokenized_text

eng_text_lem = lemmatizing(eng_txt)
eng_text_lem

## 6. Веторизация данных

Векторизация - это процесс кодирования текста в виде целых чисел, то есть числовой формы для создания векторов признаков, чтобы алгоритмы машинного обучения могли понимать наши данные.

In [None]:
def clean_text(text):
    text = "".join([word.lower() for word in text if word not in string.punctuation])
    tokens = re.split('\W+', text)
    text = [ps.stem(word) for word in tokens if word not in stopwords]
    return text

### Данные векторизации: мешок слов

Bag of Words (BoW) или CountVectorizer описывает наличие слов в текстовых данных. Мы получаем на выход результат 1, если наше слово присутствует в предложении и 0, если не присутствует. Поэтому в каждом текстовом документе создается пакет слов с количеством матриц документов.

Чуть более подробно о BOW:
<br/>Алгоритмы машинного обучения не могут напрямую работать с сырым текстом, поэтому его необходимо конвертировать в наборы цифр (векторы). Это называется извлечением признаков.
<br/>Мешок слов – это популярная и простая техника извлечения признаков, используемая при работе с текстом. Она описывает объемы вхождения каждого слова в заданный текст.


Чтобы использовать модель, нам нужно:


1.	Определить словарь известных слов (токенов).
2.	Выбрать степень присутствия известных слов.

Любая информация о порядке или структуре слов игнорируется. Вот почему это называется МЕШКОМ слов. Эта модель пытается понять, встречается ли знакомое слово в документе, но не знает, где именно оно встречается.

Интуиция подсказывает, что схожие документы имеют схожее содержимое. Также, благодаря содержимому, мы можем узнать кое-что о смысле документа.


#### Алгоритм:

1) Представим, что это наши данные:

<br/>I like this movie, it's funny.
<br/>I hate this movie.
<br/>This was awesome! I like it.
<br/>Nice one. I love it.

Для этого достаточно прочитать файл и разделить по строкам:

<br/>["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']

2) Определяем словарь

Соберем все уникальные слова из 4 загруженных предложений, игнорируя регистр, пунктуацию и односимвольные токены. Это и будет наш словарь (известные слова).

Для создания словаря можно использовать класс CountVectorizer из библиотеки sklearn. Переходим к следующему шагу.

3) Создаём векторы документа

Далее, мы должны оценить слова в документе. На этом шаге наша цель – превратить сырой текст в набор цифр. После этого, мы используем эти наборы как входные данные для модели машинного обучения. Простейший метод скоринга – это отметить наличие слов, то есть ставить 1, если есть слово и 0 при его отсутствии.

Теперь мы можем создать мешок слов используя вышеупомянутый класс CountVectorizer.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(analyzer=clean_text)
X_counts = count_vect.fit_transform(data)
print(X_counts.shape)
print(count_vect.get_feature_names())

![image.png](attachment:image.png)

### Данные векторизации: N-граммы

N-граммы это просто все комбинации смежных слов или букв длины n, которые мы можем найти в нашем исходном тексте. N-граммы с n = 1 называются униграммами. Точно так же можно использовать биграммы (n = 2), триграммы (n = 3) и т. Д.

![image.png](attachment:image.png)

N-граммы обычно не содержат много информации по сравнению с биграммами и триграммами. Основной принцип, стоящий за N-граммами, заключается в том, что они фиксируют букву или слово, которые могут следовать за данным словом. Чем длиннее N-грамма (выше N), тем больше у вас контекста.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

ngram_vect = CountVectorizer(ngram_range=(2,2), analyzer=clean_text)
X_counts = ngram_vect.fit_transform(data)
print(X_counts.shape)
print(ngram_vect.get_feature_names())

### Данные векторизации: TF-IDF

Он вычисляет «относительную частоту» появления слова в одном документе по сравнению с его частотой во всех разом. Это более полезно, чем термин «частота» для определения «важных» слов в каждом документе (высокая частота в этом документе, низкая частота в других документах).
Заметка: Используется для оценки в поисковых системах, суммирования текста, кластеризации документов.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_count_vect = TfidfVectorizer(analyzer=clean_text)
X_tfidf = tfidf_vect.fit_transform(data)
print(X_tfidf.shape)
print(tfidf_vect.get_feature_names())

Заметка: Векторизаторы выводят разреженные матрицы.
<br/>Разреженная матрица это матрица, в которой большинство значений равно 0.
<br/>В интересах эффективного хранения, разреженная матрица будет сохраняться только путем сохранения местоположений ненулевых элементов.

У частотного скоринга есть проблема: слова с наибольшей частотностью имеют, соответственно, наибольшую оценку. В этих словах может быть не так много информационного выигрыша для модели, как в менее частых словах. Один из способов исправить ситуацию – понижать оценку слова, которое часто встречается во всех схожих документах. Это называется TF-IDF.

TF-IDF (сокращение от term frequency — inverse document frequency) – это статистическая мера для оценки важности слова в документе, который является частью коллекции или корпуса.

Скоринг по TF-IDF растет пропорционально частоте появления слова в документе, но это компенсируется количеством документов, содержащих это слово.

Формула скоринга для слова X в документе Y:


![image.png](attachment:image.png)

Результат работы над текстом из Мешка Слов:

![image.png](attachment:image.png)

## Feature Engineering: Создание функций

Feature Engineering - это процесс использования знаний о предметной области для создания функций, обеспечивающих работу алгоритмов машинного обучения. Это похоже на искусство, поскольку требует знания предметной области и может создавать трудности, но алгоритм ML может быть плодотворным для прогнозирования результатов, поскольку они могут быть связаны с прогнозированием.

In [None]:
import string

text_len = len(orig_ru) - orig_ru.count(" ")
print(orig_ru)
print(text_len, ' - длина слов')

def count_punct(text):
    count = sum([1 for char in text if char in string.punctuation])
    return round(count/(len(text) - text.count(" ")), 3)*100

print("------------------")

print(count_punct(orig_ru), ' - процент знаков пунктуации')

## Построение классификаторов ML: выбор модели

Мы используем ансамблевый метод машинного обучения, когда используются несколько моделей, и их комбинация дает лучшие результаты, чем одна модель (Support Vector Machine / Naive Bayes). Методы ансамбля - первый выбор для многих соревнований Kaggle. Random forest, т. е. построено несколько деревьев случайных решений, и для окончательного прогнозирования используются совокупности каждого дерева. Он может быть использован как для классификации, так и для задач регрессии. Это следует за стратегией упаковки в случайном порядке.

### Grid Search
Он исчерпывающе ищет общие комбинации параметров в данной сетке, чтобы определить лучшую модель.

### Кросс-валидация
Это метод оценки аналитической модели и её поведения на независимых данных.
Он делит набор данных на k подмножеств и повторяет метод k раз, когда другое подмножество используется в качестве тестового набора, т.е. на каждой итерации.

In [None]:
#Выбор модели с random fores & GridCV

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

def clean_text(text):
    text = "".join([word.lower() for word in text if word not in string.punctuation])
    tokens = re.split('\W+', text)
    text = [ps.stem(word) for word in tokens if word not in stopwords]
    return text

# TF-IDF
tfidf_vect = TfidfVectorizer(analyzer=clean_text)
X_tfidf = tfidf_vect.fit_transform(data['body_text'])
X_tfidf_feat = pd.concat([data['body_len'], data['punct%'], pd.DataFrame(X_tfidf.toarray())], axis=1)

# CountVectorizer
count_vect = CountVectorizer(analyzer=clean_text)
X_count = count_vect.fit_transform(data['body_text'])
X_count_feat = pd.concat([data['body_len'], data['punct%'], pd.DataFrame(X_count.toarray())], axis=1)

X_count_feat.head()

In [None]:
rf = RandomForestClassifier()
param = {
    'n_esimators': [10, 150, 300],
    'max_depth': [30, 60, 90, None]
}

gs = GridSearchCV(rf, param, cv=5, n_jobs=-1) #Для параллельного поиска
gs_fit = gs.fit(X_count_feat, data['label'])
pd.DataFrame(gs_fit.cv_results_).sort_values('mean_test_score', ascending=False).head()

![image.png](attachment:image.png)

# А теперь подробнее о библиотеках и алгоритмах ML для NLP

## NLTK

### Natural Language ToolKit
Пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на Python и разработанных по методологии SCRUM. Содержит графические представления и примеры данных. Поддерживает работу с множеством языков, в том числе, русским.

#### Плюсы:
* Наиболее известная и многофункциональная библиотека для NLP;
* Большое количество сторонних расширений;
* Быстрая токенизация предложений;
* Поддерживается множество языков.

#### Минусы:
* Медленная;
* Сложная в изучении и использовании;
* Работает со строками;
* Не использует нейронные сети;
* Нет встроенных векторов слов.

In [None]:
import nltk

sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens

In [None]:
tagged = nltk.pos_tag(tokens)
tagged[0:6]

In [None]:
import warnings
entities = nltk.chunk.ne_chunk(tagged)
entities

![image.png](attachment:image.png)

In [None]:
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()

![image.png](attachment:image.png)

## spaCy

Библиотека, разработанная по методологии SCRUM на языке Cypthon, позиционируется как самая быстрая NLP библиотека. Имеет множество возможностей, в том числе, разбор зависимостей на основе меток, распознавание именованных сущностей, пометка частей речи, векторы расстановки слов. Не поддерживает русский язык.

#### Плюсы:
* Самая быстрая библиотека для NLP;
* Простая в изучении и использовании;
* Работает с объектами, а не строками;
* Есть встроенные вектора слов;
* Использует нейронные сети для тренировки моделей.

#### Минусы:
* Менее гибкая по сравнению с NLTK;
* Токенизация предложений медленнее, чем в NLTK;
* Поддерживает небольшое количество языков.

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("While Samsung has expanded overseas, South Korea is still host to most of its factories and research engineers.")

spacy.displacy.render(doc[:11], style='dep', jupyter=True)

Эта библиотека хорошо подойдёт как для разработчиков, так и для исследователей. SpaCy скрывает лишние подробности, позволяя быстро решать задачи NLP state-of-the-art решениями. При этом возможность допиливать модельки и кастомизировать пайплайн развязывает руки для новых экспериментов.

## scikit-learn

Библиотека scikit-learn разработана по методологии SCRUM и предоставляет реализацию целого ряда алгоритмов для обучения с учителем и обучения без учителя через интерфейс для Python. Построена поверх SciPy. Ориентирована в первую очередь на моделирование данных, имеет достаточно функций, чтобы использоваться для NLP в связке с другими библиотеками.

#### Плюсы:
* Большое количество алгоритмов для построения моделей;
* Содержит функции для работы с Bag-of-Words моделью;
* Хорошая документация.

#### Минусы:
* Плохой препроцессинг, что вынуждает использовать ее в связке с другой библиотекой (например, NLTK);
* Не использует нейронные сети для препроцессинга текста.

In [None]:
import sklearn
from sklearn.naive_bayes import MultinomialNB
#clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

docs_new = ['God is love', 'OpenGL on the GPU is fast']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = clf.predict(X_new_tfidf)

for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, twenty_train.target_names[category]))

![image.png](attachment:image.png)

## gensim

Python библиотека, разработанная по методологии SCRUM, для моделирования, тематического моделирования документов и извлечения подобия для больших корпусов. В gensim реализованы популярные NLP алгоритмы, например, word2vec. Большинство реализаций могут использовать несколько ядер.

#### Плюсы:
* Работает с большими датасетами;
* Поддерживает глубокое обучение;
* word2vec, tf-idf vectorization, document2vec.

#### Минусы:
* Заточена под модели без учителя;
* Не содержит достаточного функционала, необходимого для NLP, что вынуждает использовать ее вместе с другими библиотеками.

### word2vec
Балто-славянские языки имеют сложную морфологию, что может ухудшить качество обработки текста, а также ограничить использование ряда библиотек.
<br/>Word2Vec - эффективное решение этих проблем, которое использует контекст целевых слов. По сути, мы хотим использовать окружающие слова для представления целевых слов с помощью нейронной сети, скрытый слой которой кодирует представление слов.

In [None]:
import multiprocessing
from gensim.models import Word2Vec

w2v_model = Word2Vec(min_count=20,
                     window=2,
                     size=300,
                     sample=6e-5, 
                     alpha=0.03, 
                     min_alpha=0.0007, 
                     negative=20,
                     workers=cores-1)

t = time()

w2v_model.build_vocab(sentences, progress_per=10000)

print('Time to build vocab: {} mins'.format(round((time() - t) / 60, 2)))

t = time()

w2v_model.train(sentences, total_examples=w2v_model.corpus_count, epochs=30, report_delay=1)

w2v_model.init_sims(replace=True)

w2v_model.wv.most_similar(positive=["homer"])

np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):
Out[23]:
[('depressed', 0.7399601936340332),
 ('marge', 0.6840592622756958),
 ('terrific', 0.6683255434036255),
 ('hammock', 0.6648209095001221),
 ('bongo', 0.6537353992462158),
 ('suspicious', 0.650877833366394),
 ('brad', 0.6480956077575684),
 ('dr_hibbert', 0.6459894180297852),
 ('crummy', 0.6455820798873901),
 ('tab', 0.6413768529891968)]

#### FastText

FastText является расширением Word2Vec, предложенным Facebook в 2016 году. Вместо подачи отдельных слов в нейронную сеть, FastText разбивает слова на несколько n-граммов (подслов). Например, триграммы для словаяблокоявляетсяприложение, чел, а такжеPLE(игнорируя начало и конец границ слов). Вектор вложения слова дляяблокобудет сумма всех этих н-грамм. После обучения нейронной сети у нас будут вложения слов для всех n-грамм данного набора данных обучения. Редкие слова теперь могут быть правильно представлены, так как весьма вероятно, что некоторые из их n-грамм появляются и в других словах. Я покажу вам, как использовать FastText с Gensim в следующем разделе.

![image.png](attachment:image.png)

## Glove

GloVe (global vectors for word representation) означает «глобальные векторы для представления слов».
<br/>Это алгоритм обучения без учителя, разработанный в Стэнфорде.
<br/>Основная его идея состоит в том, чтобы извлечь семантические отношения между словами используя матрицу совместного использования.
<br/>Идея очень похожа на word2vec, но есть небольшие отличия.


In [None]:
def load_glove():
    embedding_dict = {}
    path = '../input/glove-global-vectors-for-word-representation/glove.6B.100d.txt'
    with open(path, 'r') as f:
        for line in f:
            values = line.split()
            word = values[0]
            vectors = np.asarray(values[1:], 'float32')
            embedding_dict[word] = vectors
    f.close()

    return embedding_dict

embeddings_index = load_glove()

![image.png](attachment:image.png)

## BERT

![image.png](attachment:image.png)

BERT — это нейронная сеть от Google, показавшая с большим отрывом state-of-the-art результаты на целом ряде задач. С помощью BERT можно создавать программы с ИИ для обработки естественного языка: отвечать на вопросы, заданные в произвольной форме, создавать чат-ботов, автоматические переводчики, анализировать текст и так далее
Чтобы подавать на вход нейронной сети текст, нужно его как-то представить в виде чисел. Проще всего это делать побуквенно, подавая на каждый вход нейросети по одной букве. Тогда каждая буква будет кодироваться числом от 0 до 32 (плюс какой-то запас на знаки препинания). Это так называемый character-level.

Но гораздо лучше результаты получаются, если мы предложения будем представлять не по одной букве, а подавая на каждый вход нейросети сразу по целому слову (или хотя бы слогами). Это уже будет word-level. Самый простой вариант — составить словарь со всеми существующими словами, и скармливать сети номер слова в этом словаре. Например, если слово "собака" стоит в этом словаре на 1678 месте, то на вход нейросети для этого слова подаем число 1678.

In [None]:
sentence_1 = 'Я пришел в магазин.'
sentence_2 = 'И купил молоко.'

print(sentence_1, '->', sentence_2)

Sentence is okey: 99 %

Чтобы дообучить BERT под конкретную задачу, необходимо поверх него добавить один-два слоя простой Feed Forward сети, и дообучать только ее, не трогая основную сеть BERT. Это можно сделать либо на голом TensorFlow, либо через оболочку Keras BERT. Такое дообучение под конкретный домен происходит очень быстро и полностью аналогично Fine Tuning в сверточных сетях. Так, под задачу SQuAD можно дообучить нейросеть на одном TPU всего за 30 минут (по сравнению с 4 днями на 16 TPU для обучения самого BERT).

Для этого вам придется изучить как в BERT представлены последние слои, а также иметь подходящий датасет.

## Natasha

Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Сейчас Natasha — это целый большой проект, состоит из 9 репозиториев. Библиотека Natasha объединяет их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: сегментация на токены и предложения, предобученные эмбеддинги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

Natasha похожа на другие библиотеки-комбайны: SpaCy, UDPipe, Stanza. SpaCy инициализирует и вызывает модели неявно, пользователь передаёт текст в магическую функцию nlp, получает полностью разобранный документ.

Интерфейс Natasha более многословный. Пользователь явно инициализирует компоненты: загружает предобученные эмбеддинги, передаёт их в конструкторы моделей. Сам вызывает методы segment, tag_morph, parse_syntax для сегментации на токены и предложения, анализа морфологии и синтаксиса.

In [None]:
from natasha import (
    PER,
    NamesExtractor,
)

names_extractor = NamesExtractor(morph_vocab)

for span in doc.spans:
if span.type == PER:
    span.extract_fact(names_extractor)
    
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

{'Йоэль Лион': {'first': 'Йоэль', 'last': 'Лион'},
 'Степан Бандера': {'first': 'Степан', 'last': 'Бандера'},
 'Петр Порошенко': {'first': 'Петр', 'last': 'Порошенко'},
 'Бандера': {'last': 'Бандера'},
 'Виктор Ющенко': {'first': 'Виктор', 'last': 'Ющенко'}}

Natasha разбирает только те словосочетания, для которых заранее были составлены правила. Может показаться, что нереально написать правила, например, для имён в произвольном тексте, слишком они разные. На практике всё не так плохо: если посидеть недельку, то всё-таки для 80% имён составить правила можно.

## Yargy-parser

Yargy-парсер — извлечение структурированное информации из текстов на русском языке с помощью грамматик и словарей.

Это мощный инструмент для извлечения структурированной информации из русско-язычных текстов. Вместе с тем, парсер реализован на python, что делает его использование в проекте чаще всего более удобным в сравнении с аналогами, такими, так Tomita-парсер от Yandex.

In [None]:
from ipymarkup import show_dep_markup

words = ['В', 'советский', 'период', 'времени', 'число', 'ИТ', '-', 'специалистов', 'в', 'Армении', 'составляло', 'около', 'десяти', 'тысяч', '.']
deps = [(2, 0, 'case'), (2, 1, 'amod'), (10, 2, 'obl'), (2, 3, 'nmod'), (10, 4, 'obj'), (7, 5, 'compound'), (5, 6, 'punct'), (4, 7, 'nmod'), (9, 8, 'case'), (4, 9, 'nmod'), (13, 11, 'case'), (13, 12, 'nummod'), (10, 13, 'nsubj'), (10, 14, 'punct')]
show_dep_markup(words, deps)

Yargy реализует алгоритм Earley parser, его сложность O(n3), где n — число токенов. Код написан на чистом Python, с упором на читаемость, а не оптимизацию. Короче говоря, библиотека работает медленно.Однако, например, на задаче извлечения имён Natasha оказывается в 10 раз медленнее Yargi. На практике с этим можно жить.

# Вывод

В данном материале мы ознакомились с тем что такое NLP, его актуальными задачами и методами решения, а также наглядно разобрались с применяемыми в решении NLP-задач инструментами.