
# **Семинар 1: Классификация обращений граждан**
## Содержание занятия:


### Тема 1. Предварительная обработка текстовых данных (Data preprocessing)
Рассматриваемые вопросы:

*   Токенизация
*   Удаление нерелевантных символов
*   Удаление стоп-слов
*   Приведение слова к нормальной форме

### Тема 2. Модель классификации текстов
Рассматриваемые вопросы:

*   Exploratory Data Analysis
*   Предварительная обработка данных
*   Формирование векторов/массивов признаков (feature vectors) для обучения модели
*   Кодирование категориальных целевых перемменных (Labelling)
*   Построение простейшей нейронной сети для классификации в Tensorflow.Keras
*   Оценка качества обучения  



Начнём с импорта необходимых библиотек:

*   **pandas** — библиотека, которая применяется для обработки и анализа табличных данных. В этой библиотеке используется numpy для удобного хранения данных и вычислений.
*   **re**  — это встроенный модуль для работы с регулярными выражениями (regular expressions). С её помощью можно выполнять поиск, замену, разбор строк по шаблонам и многое другое.
*   **pymorphy3** — это морфологический анализатор для русского языка (а также для других славянских языков), написанный на Python. Он позволяет определять грамматические характеристики слова, лемматизировать (приводить к начальной форме), и делать разбор слов.
*   **NLTK** (Natural Language Processing Toolkit) -  пакет библиотек и программ для символьной и статистической обработки естественного языка.
*   **matplotlib.pyplot** - библиотека для построения графиков. Типы графиков, которые можно построить: https://matplotlib.org/stable/plot_types/index.html.
*   **tensorflow.keras** - для работы с нейросетями. Класс **Tokenizer** из модуля tensorflow.keras.preprocessing.text — это утилита для предобработки текста перед подачей в нейросеть. Он используется для токенизации — превращения текста в последовательности чисел. (Сейчас уже рекомендуется использовать tf.keras.layers.TextVectorization или tensorflow_text)
*   **scikit-learn** (обычно импортируется как sklearn) — одна из самых популярных библиотек для машинного обучения и анализа данных



In [None]:
# Загружаем в Google Colab внешнюю библиотеку
!pip install pymorphy3
# pip install pymorphy3-dicts-ru

In [None]:
# Импорт необходимых библиотек
# Успешное выполнение этой ячейки кода подтверждает правильную настройку среды разработки

import numpy as np # Для работы с массивами
import pandas as pd
import re
import pymorphy3
import nltk
import matplotlib.pyplot as plt # Для вывода графиков
%matplotlib inline
from tensorflow.keras.preprocessing.text import Tokenizer # Метод для работы с текстами и преобразования их в последовательности токенов

nltk.download('punkt_tab')
nltk.download('stopwords')

from tensorflow.keras import utils # Для работы с категориальными переменными
from keras.utils import plot_model
from tensorflow.keras.models import Sequential # Полносвязная модель
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.layers import Dense, Dropout, SpatialDropout1D, BatchNormalization, Embedding, Flatten, Activation # Слои для нейросети
from tensorflow.keras.preprocessing.sequence import pad_sequences # Метод для работы с последовательностями

from sklearn.preprocessing import LabelEncoder # Метод кодирования категориальных целевых перемменных
from sklearn.model_selection import train_test_split # Для разделения выборки на тестовую и обучающую

In [None]:
# Если нужно, подключаемся к Google Drive, чтобы получить доступ к данным на диске через pd.read_csv('/content/drive/MyDrive/.../Lesson_1_user_requests.csv')
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Читаем данные из файла и смотрим первые несколько строк таблицы с обращениями граждан
data = pd.read_csv('/content/drive/MyDrive/RUT_NLP_MLOps/Неделя_1/Семинар_1/Lesson_1_user_requests.csv')
data.head()

# Тема 1. Предварительная обработка текстовых данных (Data preprocessing)

В классическом случае предобработка текстовых данных начинается с определения языка, на котором написан текст. Для этого используются либо код языка, который часто идёт вместе с сообщением при парсинге данных из соцсетей, либо специальные библиотеки. Нам заранее известно, что сегодня мы работаем только с данными на русском языке, поэтому мы пропускаем этот шаг.

## Токенизация

Токенизация — это процесс разбиения текста на более мелкие единицы (токены), которые удобнее анализировать и обрабатывать. В нашем случае токенами будут отдельные слова. Однако, в зависимости от задачи, токенами могут быть отдельные символы, сочетания из нескольких букв, словосочетания, предложения, и даже абзацы.

Для примера мы используем токенизатор одной из самых популярных библиотек обработки естесственного языка - **NLTK** (Natural Language Processing Toolkit). С ее помощью можно анализировать тексты на русском, английском, немецком и других языках.

## Удаление нерелевантных символов

Удаление различных знаков препинания и специальных символов. В зависимости от задачи необходимость в удалении символов может отсутствовать.

## Удаление стоп-слов

Стоп-слова — это часто встречающиеся служебные слова (например: и, в, на, это, что, как), которые обычно не несут значимой смысловой нагрузки для анализа текста (предлоги, союзы, местоимения, междометия и тд., точный перечень зависит от конкретной решаемой задачи).

Ниже приведён пример использования NLTK для токенизации, удаления нерелевантных символов, и удаления стоп-слов.


In [None]:
# Токенизация с помощью nltk
sample_text = 'Перед тем как читать дальше, загадай парня (девушку). Загадал(а)? Читай дальше.'
tokenized = nltk.tokenize.word_tokenize(sample_text)
print(tokenized)

In [None]:
# Удаление нерелевантных символов
words = [word.lower() for word in tokenized if word.isalpha()]
print(words)

In [None]:
# Пример использования регулярных выражений для удаления нерелевантных символов.
# В данном случае всё, кроме последовательностей букв, цифр, подчёркиваний, и пробелов заменяется пустыми сроками.
sample_text = 'Перед тем как читать дальше, загадай парня (девушку). Загадал(а)? Читай дальше.'
print(re.sub(r'[^\w\s]', '', sample_text))

In [None]:
# Удаление стоп-слов
stopwords_ru = nltk.corpus.stopwords.words("russian")
words_without_stop = [word for word in words if word not in stopwords_ru]
print(words_without_stop)

### Использование Tokenizer из tensorflow.keras.preprocessing.text

Часто несколько шагов из предварительной обработки текстовых данных объединяют в один метод. Рассмотрим как пример метод fit_on_texts() класса Tokenizer для построения словаря (word index) на основе корпуса текстов.

Параметры:
*   num_words=maxWordsCount - определяем максимальное количество слов/индексов, учитываемое при преобразовании текста в последовательность индексов слов (в полученной последовательности используются только maxWordsCount-1 самых частых слов).
*   filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n' - избавляемся от ненужных символов
*   lower=True - приводим слова к нижнему регистру
*  oov_token='unknown' - токен для слов, которых нет в словаре
*   split=' ' - разделяем слова по пробелу
*   char_level=False - токенизируем по словам (Если будет True - каждый символ будет рассматриваться как отдельный токен)

Происходит следующее:

*   Разбиение текста на токены (по умолчанию — по пробелам, с удалением символов из filters).

*   Подсчёт частоты встречаемости слов.

*   Формирование словаря: каждому уникальному слову присваивается индекс (начиная с 1).

*   Индексы назначаются в порядке убывания частоты (самое частое слово получит индекс 1, следующее — 2 и т. д.).

*   0 обычно зарезервирован под padding.

In [None]:
sample_text = ['Перед тем как читать дальше, загадай парня (девушку). Загадал(а)? Читай дальше.']
maxWordsCount = 5

tokenizer = Tokenizer(num_words=maxWordsCount, filters='!"#$%&()*+,-–—./…:;<=>?@[\\]^_`{|}~«»\t\n\xa0\ufeff', lower=True, split=' ', oov_token='unknown', char_level=False)

tokenizer.fit_on_texts(sample_text) # "Скармливаем" наши тексты, т.е. даём в обработку методу, который соберет словарь частотности
print("Количество слов в тексте: ", len(sample_text[0].split()))

In [None]:
# Полученный словарь для необработанного текста
tokenizer.word_index

## Приведение слова к нормальной форме (лемматизация и стемминг)

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова, близкие по значению. Нормализацию используют для приведения всех встречающиеся форм слова к одной, нормальной форме.

Способы нормализации слов:

*   Лемматизация (более точная)
Приводит слово к словарной (начальной) форме:

детей → ребенок, делаешь → делать.

Инструменты: pymorphy3, spaCy, Stanza.

*   Стемминг (более грубый)
Отрезает окончания, иногда искажая слова:

машины, машиной → машин

Инструменты: nltk.stem.SnowballStemmer (есть русский).

Ниже приведён пример лемматизации с помощью pymorphy3

In [None]:
sample_text = 'Перед тем как читать дальше, загадай парня (девушку). Загадал(а)? Читай дальше.'

# создаём морфологический анализатор
morph = pymorphy3.MorphAnalyzer()

# удаляем пунктуацию
clean_text = re.sub(r"[^\w\s]", "", sample_text)

# разбиваем на слова
words = clean_text.split()

# приводим к леммам
lemmas = [morph.parse(word)[0].normal_form for word in words]

print("Исходный текст:", sample_text)
print("Лемматизированный текст в формате списка: ", lemmas)

In [None]:
# Построим новый словарь и посмотрим, что изменилось
tokenizer = Tokenizer(num_words=maxWordsCount, filters='!"#$%&()*+,-–—./…:;<=>?@[\\]^_`{|}~«»\t\n\xa0\ufeff', lower=True, split=' ', oov_token='unknown', char_level=False)

tokenizer.fit_on_texts(lemmas)

tokenizer.word_index

Мы видим, что количество уникальных слов в словаре уменьшилось за счёт повторяющихся нормализованных слов.


In [None]:
# Количество слов в документе
tokenizer.word_counts

# Тема 2. Модель классификации текстов

# Обращения граждан

Рассмотрим пример работы с текстом на реальных данных: обращения граждан с различными вопросами и проблемами, которые нужно классифицировать по темам.

In [None]:
# data = pd.read_csv('Lesson_1_user_requests.csv') #загружаем данные в dataframe, если ещё не сделали это ранее
data.head(10)    #посмотрим на содержимое

In [None]:
# Нас интересуют только значения "process_texts" - тексты самих обращений, и "sphera" - тема, к которой относится письмо
df_text = data.copy(deep=True)
df_text = df_text[['process_texts','sphera']]
df_text.head(10)

## Exploratory Data Analysis (EDA) - Первичный/разведочный анализ данных

Цели:


*   Понимание структуры и характеристик набора данных
*   Выявление аномалий и выбросов
*   Идентификация связей и корреляций между переменными (в нашем случае не нужно)
*   Подготовка данных для дальнейших этапов анализа

Начнём с оценки общего колчества обращений, пропущенных значений в таблице, и повторов.

In [None]:
print("Всего строк в таблице: ", df_text.shape[0])

# Поиск пропущенных значений

df_text.isna().sum()

In [None]:
# Удаляем строки с пропущенными значениями

df_text = df_text.dropna()
print("Всего строк в таблице без пропущенных значений: ", df_text.shape[0])

In [None]:
# Ищем повторяющиеся обращения (полные дубликаты)

duplicated_mask = df_text.duplicated(subset = 'process_texts', keep = False)
print(f'Всего {np.sum(duplicated_mask)} повторяющихся обращений в наборе данных.\n')
df_text[duplicated_mask].sort_values(by = 'process_texts').head(11)

In [None]:
df_text = df_text.drop_duplicates(subset = 'process_texts', keep = 'first')
print(f'Таблца без повторяющихся обращений содержит {df_text.shape[0]} строк.')

## Предварительная обработка данных

In [None]:
# Удаляем рабочие символы и знаки припенания

df_text['process_texts'] = [re.sub(r"[^\w\s]", "", x).lower() for x in df_text['process_texts']]
df_text.head()

In [None]:
# Посмотрим сколько уникальных слов в нашем корпусе текстов

results = set()
df_text['process_texts'].str.lower().str.split().apply(results.update)
print('Количество слов в массиве с обращениями', len(results))

In [None]:

texts = df_text['process_texts'].values #Извлекаем все тексты обращений

classes = list(df_text['sphera'].values) #Извлекаем соответствующие им значения классов

maxWordsCount = 60000 #Зададим максимальное количество слов/индексов, учитываемое при составлении векторов для обучения

print(df_text['sphera'].unique()) #Выводим все уникальные значения классов

nClasses = df_text['sphera'].nunique()+1  #Задаём количество классов, обращаясь к столбцу sphera и оставляя уникальные значения

# Прибавляем 1 из-за особенностей использования one-hot encoding с to_categorical()

print(nClasses) #Посмотрим на количество классов

In [None]:
len(classes)

In [None]:
texts.shape

## Формирование векторов/массивов признаков (feature vectors) для обучения модели
Для использования текстовых данных в машинном обучении нам необходимо получить для каждого документа в коллекции числовой вектор признаков фиксированной длины (feature vector).

In [None]:
# Воспользуемся встроенной в Keras функцией класса Tokenizer для разбиения текста и
# превращения в матрицу числовых значений

tokenizer = Tokenizer(num_words=maxWordsCount, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                      lower=True, split=' ', oov_token='unknown', char_level=False)

tokenizer.fit_on_texts(texts) #"Скармливаем" наши тексты, т.е. даём в обработку методу, который соберет словарь частотности

# Формируем матрицу индексов по принципу Bag of Words
xAll = tokenizer.texts_to_matrix(texts) #Каждое слово из текста нашло свой индекс в векторе длиной maxWordsCount
# и отметилось в нем единичкой
print(xAll.shape)  #Посмотрим на форму текстов
print(xAll[0, :20])#И отдельно на фрагмент начала первого вектора

In [None]:
# Посмотрим, что такое матрица индексов и сравним с исходным текстом
# Исходный текст
texts[0]

In [None]:
# Получим список слов, входящих в наш токенизатор (при наличии установленного maxWordsCount)
list_columns = ['0']
for key_word in list(tokenizer.word_index.keys())[:maxWordsCount-1]:
    list_columns.append(key_word)

In [None]:
df_1 = pd.DataFrame([xAll[0]]) #берем матричный вид первого обращения
df_1.columns = list_columns
df_1

In [None]:
# перейдем от индексов обратно к словами
df_1[df_1>0].dropna(axis = 1).columns

## Кодирование категориальных целевых перемменных (Labelling)

In [None]:
#Преобразовываем категории в вектор целевой переменной
encoder = LabelEncoder() # Вызываем метод кодирования тестовых лейблов из библиотеки sklearn
encoder.fit(classes) # Подгружаем в него категории из нашей базы
classesEncoded = encoder.transform(classes) # Кодируем категории
print("Все классы: ", encoder.classes_)
print("Длина вектора: ", classesEncoded.shape)
print("Начало вектора: ",classesEncoded[:20])

In [None]:
yAll = utils.to_categorical(classesEncoded, nClasses) # И выводим каждый лейбл в виде вектора длиной 22,
# с 1кой в позиции соответствующего класса и нулями (one-hot encoding)
print("Форма полученной матрицы: ", yAll.shape)
print("Отдельная вектор-строка матрицы, указывающая на класс " + encoder.classes_[classesEncoded[0]] + ": ", yAll[0]) # И отдельный вектор - строку матрицы, указывающую на класс 'Дороги и транспорт'

## Построение простейшей нейронной сети для классификации в Tensorflow.Keras

In [None]:
# разбиваем все данные на обучающую и тестовую выборки с помощью метода train_test_split из библиотеки sklearn
xTrain, xVal, yTrain, yVal = train_test_split(xAll, yAll, test_size=0.2, shuffle = True)
print(xTrain.shape) #посмотрим на форму текстов из обучающей выборки
print(yTrain.shape) #и на форму соответсвующих им классов

In [None]:
#Создаём полносвязную сеть
model01 = Sequential()
#Входной полносвязный слой
model01.add(Dense(100, input_dim=maxWordsCount,
                  activation="relu"))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Второй полносвязный слой
model01.add(Dense(100, activation='relu'))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Третий полносвязный слой
model01.add(Dense(100, activation='relu'))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Выходной полносвязный слой
model01.add(Dense(nClasses, activation='softmax'))


model01.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

#Обучаем сеть на выборке
history = model01.fit(xTrain,
                    yTrain,
                    epochs=20,
                    batch_size=128,
                    validation_data=(xVal, yVal))


## Оценка качества обучения  

In [None]:
plt.plot(history.history['accuracy'],
         label='Доля верных ответов на обучающем наборе')
plt.plot(history.history['val_accuracy'],
         label='Доля верных ответов на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(14,7))
plt.plot(history.history['loss'],
         label='Ошибка на обучающем наборе')
plt.plot(history.history['val_loss'],
         label='Ошибка на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Ошибка')
plt.legend()
plt.show()

In [None]:
model01.summary()

In [None]:
plot_model(model01, to_file='model_1.png')

# Формирование прогноза (Inference)

In [None]:
currPred = model01.predict(xTrain[[0]])
#Определяем номер распознанного класса для каждохо блока слов длины xLen
currOut = np.argmax(currPred, axis=1)

In [None]:
currOut

In [None]:
encoder.inverse_transform(currOut)

# Дополнительные задания

1.   Удалите стоп-слова из обращений
2.   Преобразуйте все слова в обращениях к нормальной форме
3.   Как при этом изменились размеры матрицы из векторов признаков?
4.   Как это повлияло на результаты обучения нейросети?
5.   Используйте tf.keras.layers.TextVectorization вместо Tokenizer

