# Лабораторная работа 1

Цель: освоить основные инструменты для предварительной обработки и первичного анализа текстовых данных

### План

*   Exploratory Data Analysis (EDA) - Первичный/разведочный анализ и очистка данных
*   Предварительная обработка текстовых данных
*   Формирование векторов/массивов признаков (feature vectors) для обучения модели
*   Кодирование категориальных целевых перемменных (Labelling)
*   Построение простейшей нейронной сети для классификации в Tensorflow.Keras
*   Оценка качества обучения  




In [None]:
# !pip install pymorphy3

In [None]:
# Импорт необходимых библиотек
# Успешное выполнение этой ячейки кода подтверждает правильную настройку среды разработки

import numpy as np
import pandas as pd
import re
import pymorphy3
import nltk
import matplotlib.pyplot as plt
%matplotlib inline
from tensorflow.keras.preprocessing.text import Tokenizer

nltk.download('punkt_tab')
nltk.download('stopwords')

from tensorflow.keras import utils
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.layers import Dense, Dropout, SpatialDropout1D, BatchNormalization, Embedding, Flatten, Activation
from tensorflow.keras.preprocessing.sequence import pad_sequences

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split


import seaborn as sns
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.stem.snowball import SnowballStemmer
nltk.download('wordnet')


# Exploratory Data Analysis (EDA) - Первичный/разведочный анализ и очистка данных

Вы снова будете работать с тем же датасетом из обращений граждан.



In [None]:
df = pd.read_csv('Lesson_1_user_requests.csv')
df.head()

In [None]:
# Нас интересуют только значения "process_texts" - тексты самих обращений, "sphera" - тема, к которой относится письмо, и "categoriya" - категория обращений
df_text = df.copy(deep=True)
df_text = df_text[['process_texts','sphera', 'categoriya']]
df_text.head(10)

In [None]:
# Ещё один удобный способ посмотреть на количество ненулевых и уникальных значений в таблице по каждой переменной (как и другие статистики по численным ппеременным) - функция describe()
df_text.describe(include='all')

# Задание 1 (Удаление пустых строк)
Найдите и удалите из таблицы все строки с пропущенными значениями текстов обращений и вашей целевой переменной (в зависимости от варианта sphera или categoriya)

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

print("Всего строк в таблице без пропущенных значений: ", df_text.shape[0])

# Задание 2 (Удаление повторяющихся обращений)
Найдите и удалите из таблицы все повторяющиеся обращения (полные дубликаты).

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

print(f'Таблца без повторяющихся обращений содержит {df_text.shape[0]} строк.')

Теперь посмотрим на распределение целевых переменных по классам

In [None]:
plt.figure(figsize=(8,5))
sns.countplot(y='sphera', data=df_text)
plt.title('Распределение по сферам')
plt.show()

In [None]:
plt.figure(figsize=(8,5))
sns.countplot(y='categoriya', data=df_text)
plt.title('Распределение по категориям')
plt.show()

Мы видим явную несбалансированность классов для обеих переменных. Скорее всего, при использовании подобного датасета наша простая модель будет склоняться к предсказанию чаще встречающихся классов, то есть будет предвзята (biased).


# Задание 2* (Удаление классов)
Если у вас в варианте указана дополнительная работа над целевой переменной, удалите из таблицы соответствующие строки.

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
...
####

In [None]:
print(f'Таблца теперь содержит {df_text.shape[0]} строк.')

# Предварительная обработка текстовых данных

# Задание 3 (Предварительная обработка)


*   Удалите из текстов обращений лишние символы, оставьте только слова (буквы)
*   Приведите слова к нижнеу регистру
*   Удалите русские стоп-слова из списка nltk.corpus.stopwords.words("russian")
*   Проведите нормализацию слов. В зависимости от варианта, стемминг (используйте nltk.stem.snowball.SnowballStemmer()) или лемматизацию (используйте pymorphy3.MorphAnalyzer())


In [None]:


# Можете использовать шаблон ниже, он поможет наглядно сравнить значения до обработки и после
# def preprocess(text):
#     ...
#     words = text.split()
#     tokens = [word for word in ... if ...]
#     ...
#     return " ".join(tokens)

In [None]:
# df_text['clean_text'] = df_text['process_texts'].apply(preprocess)

In [None]:
df_text.head()

Вы можете посмотреть на распределение длин обращений в словах, используя код ниже.

In [None]:
# Длина сообщений
df_text['len'] = df_text['clean_text'].apply(lambda x: len(x.split()))
sns.histplot(df_text['len'], bins=30)
plt.title('Распределение длин сообщений (в словах)')
plt.show()

# Формирование векторов/массивов признаков (feature vectors) для обучения модели

# Задание 4 (Токенизация и векторизация текстов)

Используйте методы fit_on_texts() и texts_to_matrix() класса Tokenizer для формирования словаря и векторизации текстов с учётом вашего варианта! (num_words и mode в texts_to_matrix())




In [None]:
texts = df_text['clean_text'].values #Извлекаем все тексты обращений

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
# ...
# xAll =
####
print(xAll.shape)  # Посмотрим на размерность матрицы
print(xAll[0, :20])# И отдельно на фрагмент начала первого вектора

# Задание 5 (Кодирование категориальных целевых перемменных - Labelling)

Вставьте пропущенные строки кода (по вариантам)

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
# ...
# classes =
# nClasses =
####

#Преобразовываем категории в вектор целевой переменной
encoder = LabelEncoder() # Вызываем метод кодирования категориальных переменных из библиотеки sklearn
encoder.fit(classes) # Подгружаем в него категории
classesEncoded = encoder.transform(classes) # Кодируем категории
print("Все классы: ", encoder.classes_)
print("Длина вектора: ", classesEncoded.shape)
print("Начало вектора: ",classesEncoded[:20])

In [None]:
yAll = utils.to_categorical(classesEncoded, nClasses) # И выводим каждый лейбл в виде вектора длиной 22,
# с 1кой в позиции соответствующего класса и нулями (one-hot encoding)
print("Форма полученной матрицы: ", yAll.shape)
print("Отдельная вектор-строка матрицы, указывающая на класс " + encoder.classes_[classesEncoded[0]] + ": ", yAll[0]) # И отдельный вектор - строку матрицы, указывающую на класс 'Дороги и транспорт'

# Задание 6 (Разбиение н тренировочную и тестовую выборки)
Используйте метод train_test_split(), проверьте, есть ли дополнительные требования в варианте

In [None]:
#### ВСТАВЬТЕ КОД СЮДА
# ...
# xTrain, xVal, yTrain, yVal =
####

## Построение простейшей нейронной сети для классификации в Tensorflow.Keras

In [None]:
#Создаём полносвязную сеть
model01 = Sequential()
#Входной полносвязный слой
model01.add(Dense(100, input_dim=maxWordsCount,
                  activation="relu"))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Второй полносвязный слой
model01.add(Dense(100, activation='relu'))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Третий полносвязный слой
model01.add(Dense(100, activation='relu'))
#Слой регуляризации Dropout
model01.add(Dropout(0.4))
#Выходной полносвязный слой
model01.add(Dense(nClasses, activation='softmax'))


model01.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

#Обучаем сеть на выборке
history = model01.fit(xTrain,
                    yTrain,
                    epochs=20,
                    batch_size=128,
                    validation_data=(xVal, yVal))

## Оценка качества обучения  

In [None]:
plt.plot(history.history['accuracy'],
         label='Доля верных ответов на обучающем наборе')
plt.plot(history.history['val_accuracy'],
         label='Доля верных ответов на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(14,7))
plt.plot(history.history['loss'],
         label='Ошибка на обучающем наборе')
plt.plot(history.history['val_loss'],
         label='Ошибка на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Ошибка')
plt.legend()
plt.show()

In [None]:
model01.summary()

# Формирование прогноза (Inference)

In [None]:
currPred = model01.predict(xTrain[[11]])
#Определяем номер распознанного класса для каждохо блока слов
currOut = np.argmax(currPred, axis=1)

In [None]:
currOut

In [None]:
encoder.inverse_transform(currOut)

In [None]:
label = np.argmax(yTrain[11], axis=0)

label

In [None]:
yTrain[11]

In [None]:
encoder.inverse_transform([label])

In [None]:
df_1 = pd.DataFrame([xTrain[11]]) #берем матричный вид обращения
df_1.columns = list_columns
df_1[df_1>0].dropna(axis = 1).columns