**NLP**

NLP – это раздел Data Science , касающийся широкого спектра задач по обработке естественного языка.

Рассмотрим некоторые задачи , которые решает NLP

1.	Классификация текстов. Примером такой задачи может являться разделение новостей в ленте социальных сетей по рубрикам – IT , спорт, мода и т.д. 
2.	Чат-бот и другие диалоговые системы , основанные на искусственном интеллекте. Данная задача является одной из самых «модных» в NLP. Примером является голосовой помощник Олег от Тинькофф банка, а также Siri от Apple. Текстовая классификация позволяет голосовым помощникам определить дальнейший сценарий взаимодействия с человеком. Например , пользователь хочет узнать о погоде и чат-бот после обработки текста выдает ответ пользователю.
3.	Саммаризация. Данная задача представляет собой «пересказ» поступившего на вход программы текста. Данный процесс необходим , т.к в  ходе обучения нейронной сети могут  появляться слова , имеющие одно значение , но , например, разные падежи. Саммаризация убирает одинаковые слова, не несущие смыслого значения.


**Методы решения** 

Важнейшую роль в NLP играет предобработка данных. Данный метод подразделяется на несколько шагов: 

1.	Удаление специальных символов
2.	Приведение текста к нижнему регистру
3.	Преобразование чисел
4.	Удаление стоп-слов
5.	Лематизация
6.	Токенизация


Рассмотрим каждый этап более детально.

1.Для удаления специальных символов используется модуль для работы с регулярными выражениями ‘re’. Основной функцией из этого модуля является функция `re.sub`, которая ищет фрагменты строки по заданному шаблону и заменяет на указанную подстроку. Давайте посмотрим работу этой функции на примере.

In [None]:
import re # Импортируем модуль для работы с регулярными выражениями

test_str = '<p>Hello <b>World!!!</b><p>'
print(test_str)

# Используем функцию re.sub. Первый ее аргумент - шаблон строки, по которому нужно искать подстроки.
# Второй аргумент - строка, на которую нужно заменить найденную подстроку. Третий аргумент - строка, 
# в которой нужно искать и заменять подстроки.
clear_str = re.sub(r'<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});', '', test_str)
print(clear_str)

Часто входными данными служат документы HTML, получающиеся в ходе парсинга сайта. Дана строка, содержащая HTML-тэги, и нам необходимо удалить эти тэги из строки. Понятно, что подобным же образом можно искать и заменять любые подстроки в строке, например удалять гиперссылки, заменять числа на специальный токен и т.д.

2.Токенизация строк. Токенизация - это разбиение текста на отдельные составляющие (слова, символы, знаки препинания). Для этого применим еще одну внешнюю библиотеку stanza. Чтобы ее установить, нужно набрать в терминале `pip install stanza`.Еще одной библиотекой для токенизации текста является nltk. Для разделения текста на отдельные токены нам понадобится функция `nltk.tokenize.word_tokenize`.

In [None]:
import stanza # Импортируем библиотеку stanza
# Чтобы использовать библиотеку для английского языка, нужно скачать набор моделей.
stanza.download('en')

test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))


# Создадим обработчик для английского языка, который будет включать в себя токенизатор
nlp = stanza.Pipeline(lang='en', processors='tokenize')

# Передаем в созданный обработчик заданный текст и получаем на выходе обработанный текст, 
# записанный в определенной структуре.
doc = nlp(test_str)

tokens = [] # Создадим список, в котором будем хранить отдельные слова
for sent in doc.sentences: # Перебираем предложения
    for word in sent.words: # Перебираем все слова в каждом из предложений
        tokens.append(word.text) # Чтобы получить доступ к слову, необходимо обратиться к нему word.text

tokenized_str = ' '.join(tokens) # Объединяем отдельные слова в один текст, разделяя слова пробелами
print('Токенизированный текст: {}'.format(tokenized_str))

3. Приведение текста к нижнему регистру. Часто одни и те же слова могут начинаться с маленькой и большой букв(например, в начале предложений). Чтобы модель не делала различий между этими двумя вариантами, нужно приводить текст к нижнему регистру. Для этого используется встроенный в Python метод - `lower`. Рассмотрим как приводить слова к нижнему регистру, когда вы используете библиотеку stanza и когда разделяете предложение с помощью `split`.

In [None]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(test_str)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))


#%%

test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        tokens.append(word.text.lower()) # Приведение к нижнему регистру

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))

4. Преобразование чисел. Часто в тексте встречаются числа. Моделям не обязательно знать, что это за числа. Поэтому, чтобы система не делала различий между числами, принято заменять их специальным токеном, например `__NUM__`. 

In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Помимо токенизатора используем модули, отвечающие за определение части речи. 
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        # Все числа имеюбт часть речи NUM
        # А если вы захотите удалить все знаки пунктуации, то вам поможет часть речи PUNCT
        if word.upos == 'NUM':
            tokens.append('__NUM__') # Заменяем все числа на специальный токен
        else:
            tokens.append(word.text.lower()) # Если нам встретилось не число, то помещаем его в список

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))


#%%

from nltk.corpus import stopwords

swords = stopwords.words('english')
print(swords)


5. Удаление стоп-слов. Для некоторых задач обработки естественного языка часть слов не только не несет какой-то значимой информации, но и мешают работе моделей. Примеры таких слов для английского языка: a, an, the, at, in и т.д. Весь список стоп-слов для конкретного языка можно увидеть, вызвав `nltk.corpus.stopwords.words('english')`. Рассмотрим, как удалить стоп-слова при обработке текста библиотекой stanza и при разделении текста с помощью функции split.

In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.text.lower()
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))


6. Лематизация. Часто в языках одни и те же слова имеют различные словоформы. Например, для русского языка - дом, дома, дому и т.д. Модели машинного обучения нужно понимать, что все эти формы слова означают одно и тоже. Для этого используют лематизацию - приведение слов к изначальной форме.

In [None]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Добавляем обработчик, ответственный за нахождение изначальных форм слов
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.lemma.lower() # Находим изначальную форму слова
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))

**Инструменты**

Инструментами разработчика искусственного интеллекта в сфере NLP являются библиотеки и фрейворки. PyTorch , Tensorflow, Scikit-learn являются основными инструментами. В качестве IDE используется Jypiter Notebook или Google Colab.