<font size="6">Машинное обучение</font>

# Два пути

Допустим, у нас есть задача автоматически опеределить тональность (эмоциональную окраску) отзыва на некоторый товар или услугу: является он позитивным, негативным или нейтральным. К её решению можно подойти двумя способами.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_task.png" width="650"></center>

**Вариант №1: подход на основе правил (rule-based)**

Будем использовать **вручную** заданные **правила** классификации и эмоционально размеченные **словари**. Эти правила рассчитывают класс текста на основе эмоциональных ключевых слов и их совместного использования с другими ключевыми словами.

Несмотря на высокую эффективность в текстах какой-то определенной тематики, методы на основе правил плохо способны обобщать. Чем больше примеров мы будем анализировать, тем больше исключений будет появляться.

Следовательно, потребуется добавлять новые правила и увеличивать размер словаря. Алгоритмическая сложность программы будет расти, ее будет сложнее поддерживать.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_rules.png" width="750"></center>

**Вариант №2: машинное обучение (machine learning)**

С появлением **машинного обучения** мы можем применить принципиально другой подход. Он заключается в том, чтобы обучить модель, которая сама будет извлекать шаблоны из данных.

Зачастую пользователь не только пишет текст отзыва, но и ставит оценку от 1 до 10. Мы можем использовать ее в качестве разметки для данных: отзывы с оценкой от 1 до 3 будем считать негативными, от 4 до 7 — нейтральными, от 8 до 10 — позитивными.

Соберем некоторое количество отзывов и оценок за определенное время. Загрузим данные в модель, и она обучится на этих данных. При достаточном количестве данных и адекватно подобранной модели мы сможем научить ее решать конкретные задачи.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_model.png" width="550"></center>

По сути, модели всё равно, что сделать: проанализировать тональность отзыва, отфильтровать спам-письма, распределить новости по тематикам, определить язык текста и т.д. Нет необходимости писать под каждый пример отдельную программу: достаточно собрать данные, и мы сможем решить множество абсолютно разных задач.

Важно лишь понимать, какую модель предпочтительнее выбрать. С этим мы будем разбираться в ходе курса.

# Задача курса

##  AI, ML, ANN, DL

**Место глубокого обучения и нейронных сетей в ИИ**

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/ai_ml_ann_dl.png" width="550"></center>

**Искусственный интеллект (ИИ)/ Artificial Intelligence (AI)**  — область компьютерных наук, связанная с моделированием интеллектуальных или творческих видов человеческой деятельности.

**Машинное обучение/ Machine learning (ML)** — подраздел ИИ, связанный с разработкой алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций.

**Искусственная нейронная сеть (ИНС)/  Artificial neural network (ANN)** — разновидность алгоритмов машинного обучения, математическая модель, построенная по принципу организации и функционирования биологических нейронных сетей. ИНС состоит из слоев «нейронов», которые связаны между собой. В простом случае это входной слой и выходной слой.

**Глубокое обучение/ Deep Learning (DL)** — обучение «глубоких» ИНС. Помимо входного и выходного слоя, они состоят из сотен дополнительных «скрытых» слоев между видимыми слоями для ввода и вывода.

Существует множество определений сильного и слабого ИИ, рассуждений о появлении искусственного сознания и восстании машин.

Всё намного **приземлённее**. Есть набор **объектов $X$** (для чего надо сделать предсказание) и набор **ответов $Y$** (что надо предсказать). Пары "объект-ответ" составляют **обучающую выборку**.

Мы будем заниматься **восстановлением решающей функции $F$**, которая переводит признаки $X$, описывающие объекты, в ответы $Y$.

$$ F: X \xrightarrow\ Y $$

По ходу курса мы будем уточнять постановку задачи.

## Области применения

В последнее время именно такого рода модели показывают высокую эффективность в тех областях, с которыми ранее могли справиться только люди.
Алгоритмы машинного обучения могут обрабатывать данные различного типа:
- Компьютерное зрение / Computer vision (CV) → изображения и видео
- Обработка естественного языка / Natural language processing (NLP) → тексты
- Распознавание и синтез речи / Automatic Speech Recognition (ASR) & Text to speech (TTS) → аудио

# Обзор курса

<big>Лекция 1 Машинное обучение</big>

**Зачем:**

* Разобраться, как в целом подходить к задачам машинного обучения.

**Что будет:**

* Основные понятия, обучение с учителем и без учителя;
* Инструменты (numpy, pandas);
* Разведывательный анализ, работа с данными;
* Базовые метрики;
* Методы векторизации: мешок слов, TF-IDF;
* Методы машинного обучения: наивный байесовский классификатор, логистическая регрессия;
* Построение классификатора и оценка качества.


<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/l01_meme.png" width="400" ></center>

<big>Лекция 2 Нейронные сети</big>

**Зачем:**

* Познакомиться с нейронными сетями — классом моделей машинного обучения, которые позволяют решать разнообразные задачи, начать их создавать и обучать.

**Что будет:**

* Интуиция, почему нейросети — очень выразительный класс моделей машинного обучения;
* Основные «строительные блоки» нейросетей;
* Основной метод обучения нейросетей — метод обратного распространения ошибки;
* Знакомство с **PyTorch** — основной программной библиотекой глубокого обучения, которой будем пользоваться на курсе;
* Построение векторных представлений слов на основе нейросетей;
* Процесс создания и обучения нейронной сети для задачи классификации по тональности отзывов на фильмы.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/nn_fully_connected.png" width="450"></center>

*Для остальных лекций пока нет расширенных таблиц с планом, и содержание может меняться, поэтому не стала вписывать их.*

# Задачи машинного обучения

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/machine_learning.png" width="700"></center>

## Обучение с учителем (supervised learning)

Каждый элемент выборки представляет собой пару «объект, ответ». Требуется найти функциональную зависимость ответов от описаний объектов и построить алгоритм, принимающий на входе описание объекта и выдающий на выходе ответ.


> **Классификация (classification)** — отнесение образца к одному из нескольких попарно не пересекающихся множеств. Множество допустимых ответов конечно. Их называют метками классов (class label).

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/classification.png" width="650"></center>

*Примеры задач классификации:* определение наличия заболевания у пациента, оценивание кредитоспособности заемщика, предсказание оттока клиентов.

*Примеры задач классификации из NLP:* фильтрация спама, анализ тональности, классификация по тематике, определение языка.

> **Регрессия (regression)** — соотнесение объекта с некоторым числом или числовым вектором. Отсутствуют жесткие ограничения на пространство ответов.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/regression.png" width="650"></center>

*Примеры задач регрессии:* оценка времени выздоровления, определение кредитного лимита, ожидаемый доход магазина на следующий месяц.

*Примеры задач регрессии из NLP:* предсказание стоимости товара по текстовому описанию.

## Обучение без учителя (unsupervised learning)

В этом случае ответы не задаются, и требуется искать зависимости между объектами.

> **Кластеризация (clustering)** — разбиение множества входных данных на группы с учетом попарного сходства объектов.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/clustering.png" width="650"></center>

*Примеры задач кластеризации:* выделение типичных групп покупателей,  разделение клиентов по уровню платёжеспособности, отнесение космических объектов к категории (планета, звёзда, чёрная дыра и т. п.).

*Пример задачи кластеризации из NLP:* распределение новостей по тематическим кластерам.

# Задача классификации

Мы подробно рассмотрим алгоритмы **обучения с учителем** для задачи **классификации**. В этом случае есть множество объектов $X$, множество ответов $y$ и функция, которая каждому объекту сопоставляет ответ. Она называется **алгоритмом** или **моделью**.

Имеющиеся данные разделяются на **обучающую** и **тестовую** выборку.
- Обучающая выборка — это примеры, на основе которых алгоритм ищет зависимость ответов от описаний объектов и строит общую закономерность.
- Тестовая выборка используется для оценки качества алгоритма на новых данных.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/train_test.png" width="700"></center>

## Оценка качества

Как оценивать качество алгоритма? Допустим, мы хотим внести изменения в алгоритм. Как узнать, сделают ли эти изменения алгоритм лучше?

В задачах машинного обучения для оценки качества моделей и сравнения  алгоритмов используются различные метрики. Мы рассмотрим некоторые из них вначале на примере бинарной классификации, а затем узнаем способы их усреднения для задач с несколькими классами.

### Матрица ошибок

Для подсчета метрик качества классификации используется матрица ошибок.

Есть алгоритм, предсказывающий принадлежность каждого объекта одному из классов.
- $\hat y$ — предсказанный алгоритмом класс объекта
- $y$ — истинный класс объекта

Два класса делятся на положительный (1) и отрицательный (0 или –1).
- Объекты, которые алгоритм относит к положительному классу, – положительные (Positive).
- Те, которые на самом деле принадлежат к этому классу, – истинно положительные (True Positive).
- Остальные – ложно положительные (False Positive).

Аналогичная терминология для отрицательного (Negative) класса.

Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).



\begin{array}{|c|c|} \hline
& y=1 & y=0 \\ \hline
\hat{y}=1 & \text{True Positive (TP)} & \text{False Positive (FP)}  \\ \hline
\hat{y}=0 & \text{False Negative (FN)} & \text{True Negative (TN)} \\ \hline
\end{array}

Пример задачи: определение беременности у пациентки.
- Пациентка беремена → положительный класс (positive).
- Пациентка не беремена → отрицательный класс (negative).

Модель может «предсказать» наличие беременности (true) или нет (false).

Пусть какой-то набор медицинских данных характерен для наличия беременности.
- Модель верно определила и поставила положительный класс → истинно положительный исход (true positive).
- Модель ставит отрицательную метку класса → ложно отрицательный исход (false negative).

В случае отсутствия беременности для рассматриваемого набора данных исходы модели остаются аналогичными.
- Модель относит запись к положительному классу → ложно положительный исход (false positive): модель «сказала», что пациентка беремена, но на самом деле нет.
- Модель определят запись как отрицательный класс → истинно отрицательный исход (true negative).

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/1_2_errors.png" width="400" ></center>

### Accuracy

Accuracy — доля правильных ответов алгоритма среди всех ответов (непоказательна в задачах с неравными классами):

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

Допустим, мы хотим оценить работу спам-фильтра почты.

*КАРТИНКА с подсчетом accuracy для двух моделей, одна из которых определяет все письма как не-спам.*

При этом модель 2 совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это поможет переход с общей для всех классов метрики к отдельным показателям качества классов.

В случае дисбаланса классов есть специальный аналог – метрика balanced accuracy.

$$\text{Balanced Accuracy} = \dfrac{1}{2} (\dfrac{TP}{TP + FN} + \dfrac{TN}{TN + FP})$$

*КАРТИНКА с подсчетом balanced accuracy для обоих моделей*

### Точность, полнота, F-мера

Точность — доля объектов, названных классификатором положительными и при этом действительно являющимися положительными.

$$\text{Precision} = \frac{TP}{TP + FP}$$

Важность метрики определяется тем, насколько высока «цена» ложно положительного результата. Например, если стоимость дальнейшей проверки наличия беременности у пациентки высока и мы не можем проверить все ложно положительные результаты, стоит максимизировать данную метрику.

Полнота — доля объектов положительного класса, которые нашел алгоритм, из всех объектов положительного класса.

$$\text{Recall} = \frac{TP}{TP + FN}$$

Необходимо уделить особое внимание этой оценке, когда в поставленной задаче ошибка нераспознания положительного класса высока. Например, если у рассматриваемой группы пациенток беременность может протекать особенно тяжело.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/precision-recall.png" width="650" ></center>

В реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма.

F-мера — среднее гармоническое точности и полноты:

$$\text{F-score}=2\frac{\text{Precision}×\text{Recall}}{\text{Precision}+\text{Recall}}$$
​
Данная формула придает одинаковый вес точности и полноте, поэтому F-мера будет падать одинаково при уменьшении и точности и полноты. Можно рассчитать F-меру придав различный вес точности и полноте, если отдать приоритет одной из этих метрик при разработке алгоритма.

$$\text{F-score}=(β^2+1)\frac{\text{Precision}×\text{Recall}}{β^2\text{Precision}+\text{Recall}}$$
​
$β$ принимает значения в диапазоне, $0<β<1$ если нужно отдать приоритет точности, а при $β>1$ приоритет отдается полноте. При $β=1$ формула сводится к предыдущей, что дает сбалансированную F-меру (также ее называют F1).

### Методы усреднения

В многоклассовых задачах подсчет качества сводится к вычислению одной из двухклассовых метрик.

Пусть выборка состоит из  $K$  классов. Задача классификации ставится как $K$  задач об отделении класса  $i$  от остальных $(i=1,...,K)$. Для каждой из них можно посчитать свою матрицу ошибок.

Выделяют три подхода:

1. Микроусреднение

Сначала элементы матрицы ошибок усредняются по всем классам. Например $TP = \frac{1}{K}\sum_{i=1}^KTP_i$. Затем по одной усреднённой матрице ошибок считаем точность, полноту, F-меру.

 $$\text{Micro-precision} = \frac{\sum_{i=1}^KTP_i}{\sum_{i=1}^KTP_i+\sum_{i=1}^KFP_i}$$

 $$\text{Micro-recall} = \frac{\sum_{i=1}^KTP_i}{\sum_{i=1}^KTP_i+\sum_{i=1}^KFN_i}$$

2. Макрусреднение

Сначала вычисляется итоговая метрика для каждого класса, а затем результаты усредняются по всем классам.

$$\text{Macro-precision} = \frac{\sum_{i=1}^K\text{Precision}_i}{K}$$

$$\text{Macro-recall} = \frac{\sum_{i=1}^K\text{Recall}_i}{K}$$

3. Взвешивание

Метрики для каждого класса умножаются на его вес, а затем складываются.

$$\text{Weighted-precision} = \sum_{i=1}^K{w_i*\text{Precision}_i}$$

$$\text{Weighted-recall} = \sum_{i=1}^K{w_i*\text{Recall}_i}$$

$$w_i = \frac{количество \; объектов\; класса\; i}{общее \; количество \; объектов}$$

## Библиотека scikit-learn

Для классификации будем использовать готовые методы из библиотеки [[doc] 🛠️ scikit-learn](https://scikit-learn.org/stable/) для машинного обучения.

 У них стандартные функции:
 - `fit` обучает модель на обучающей выборке
 - `predict` предсказывает классы на тестовой выборке

Составление матрицы ошибок и подсчет всех метрик также может осуществляться инструментами sklearn.
- матрица ошибок [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)
- точность [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)
- полнота [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)
- F-мера [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)

Чтобы не считать все метрики по отдельности, можно сразу получить отчет о классификации [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html):
- метрики для каждого класса
  - точность (precision)
  - полнота (recall)
  - F-мера (f1-score)
  - количество объектов каждого класса (support)
- усредненные метрики
  - микроусредненные (micro avg)
  - макроусредненные (macro avg)
  - взвешенные (weighted avg)
  
Если микроусредненные точность, полнота и F-мера равны, выводится одно значение, равное также accuracy.

# Методы векторизации текста

Каждый объект имеет некоторую числовую характеристику — признак. Совокупность всех признаков объекта называется его **признаковым описанием** и представляется в виде вектора.

Если объектом является текст, в качестве признаков выступают слова, которые он содержит. Процесс преобразования текста в числа называется **векторизацией**.

Рассмотрим два способа векторизации предложений из библиотеки scikit-learn. Для наглядности будем использовать небольшой корпус из трех предложений.

In [None]:
import pandas as pd
corpus = pd.Series(['She loves pizza, pizza is delicious.',
                     'She is good person.',
                     'Good people are the best.'])

## Мешок слов

Мешок слов (bag of words) — представление текста, которое описывает вхождение слова в документ.

\begin{array}{c} \hline
 & \text{she} & \text{loves} & \text{pizza} & \text{is} & \text{delicious} & \text{a} & \text{good} & \text{person} & \text{people} & \text{are} & \text{the} & \text{best} \\ \hline
\text{She loves pizza, pizza is delicious.} & 1 & 1 & 2 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
\text{She is a good person.} & 1 & 0 & 0 & 1 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\
\text{Good people are the best.} & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 & 1 & 1 & 1 \\ \hline
\end{array}

Реализуем векторизацию мешком слов с помощью класса `CountVectorizer` [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html). Метод `fit` собирает словарь, метод `transform` преобразует тексты в векторы на основе собранного словаря. Метод `fit_transform` выполняет все это сразу.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

bow = CountVectorizer()
#bow.fit(corpus)
#corpus_bow = bow.transform(corpus)
corpus_bow = bow.fit_transform(corpus)
corpus_bow

В результате мы получаем разрежённую (sparse) матрицу — это матрица с преимущественно нулевыми элементами. Если бо́льшая часть элементов матрицы ненулевая, она считается плотной (dense). Особенностью разреженных матриц является их компактность.

[[blog] ✏️ Введение в разреженные матрицы](https://python-school.ru/blog/python/sparse-matrix/)

Выведем результат для всех предложений.

In [None]:
import pandas as pd

bow_df = pd.DataFrame(corpus_bow.toarray(),
                      columns = bow.get_feature_names_out(),
                      index=corpus)
bow_df

По умолчанию в качестве признаков используются слова (униграммы). С помощью параметра `ngram_range` можно считать частоту встречаемости для *n*-грамм. Необходимо задать значения `min_n` и `max_n` (`default=(1, 1)`).

In [None]:
bow1 = CountVectorizer(ngram_range=(2,3))
corpus_bow1 = bow1.fit_transform(corpus)
corpus_bow1

In [None]:
bow1_df = pd.DataFrame(corpus_bow1.toarray(),
                      columns = bow1.get_feature_names_out(),
                      index=corpus)
bow1_df

Параметр `analyzer` определяет, какая единица предложения является признаком — целое слово или подслово. По умолчанию он принимает значение `‘word’`. Для использования символьных *n*-грамм нужно установить значение `‘char’` (границы слов включаются в *n*-граммы) или `‘char_wb’` (создает n-граммы символов только из текста внутри границ слов).

In [None]:
bow2 = CountVectorizer(ngram_range=(4,6), analyzer='char_wb')
corpus_bow2 = bow2.fit_transform(corpus)
corpus_bow2

In [None]:
bow2_df = pd.DataFrame(corpus_bow2.toarray(),
                      columns = bow2.get_feature_names_out(),
                      index=corpus)
bow2_df

## TF-IDF

$TF{\text -}IDF$ ($TF$ — term frequency, $IDF$ — inverse document frequency)  — это способ векторизации текста, отражающий важность слова в документе, а не только частоту его появления.

Частота слов ($TF$) — это мера частоты употребления слова $w$ в документе $d$. $TF$ определяется как отношение появления слова в документе к общему количеству слов в документе.

$$TF(w,d) = \frac{количество\:вхождений\:слова\:w\:в\:документе\:d}{общее\:количество\:слов\:n\:в\:документе\:d}$$

Обратная частота документов ($IDF$) —  это мера важности слова. Некоторые слова могут присутствовать наиболее часто, но не имеют большого значения. $IDF$ присваивает вес каждому слову в зависимости от его частоты в корпусе $D$.

$$IDF(w,D) = ln(\frac{общее\:количество\:документов\:N\:в\:корпусе\:D}{количество\:документов,\:содержащих\:слово\:w})$$

$TF{\text -}IDF$ является произведением $TF$ и $IDF$.
$$TF{\text -}IDF(w,d,D)=TF(w,d)*IDF(w,D)$$

Для векторизации воспользуемся классом `TfidfVectorizer` [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html). Применим метод `fit_transform` и посмотрим на результат.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
corpus_tfidf = tfidf.fit_transform(corpus)
corpus_tfidf

In [None]:
tfidf_df = pd.DataFrame(corpus_tfidf.toarray(),
                      columns = tfidf.get_feature_names_out(),
                      index=corpus)
tfidf_df

Можно ограничить размер словаря и включать только слова, которые встречаются не реже N раз(`min_df`). Также можно убрать слова, которые встречаются слишком часто и являются стоп-словами в пределах данного корпуса (`max_df`). Оба параметра могут быть выражены целым числом либо числом с плавающей точкой в диапазоне [0.0, 1.0].

In [None]:
tfidf1 = TfidfVectorizer(min_df=2)
corpus_tfidf1 = tfidf1.fit_transform(corpus)
corpus_tfidf1

In [None]:
tfidf1_df = pd.DataFrame(corpus_tfidf1.toarray(),
                      columns = tfidf1.get_feature_names_out(),
                      index=corpus)
tfidf1_df

# Библиотеки для анализа данных

## NumPy

[[doc] 🛠️ NumPy](https://numpy.org/) — это библиотека для поддержки больших многомерных массивов и быстрых математических функций для операций с этими массивами.

In [None]:
import numpy as np

### Базовые функции

Основным объектом NumPy является массив чисел одного типа (`np.ndarray`).

Один из способов создать массив — из обычных списков Python, используя функцию `numpy.array()`.

Количество измерений массива можно узнать с помощью свойства `.ndim`, размер массива — с помощью свойства `.shape`.

Кроме размерностей, можно также узнать тип элементов (свойство `.dtype`) и их количество (свойство `.size`).

In [None]:
a1 = np.array([1, 2, 3])
print(f'Array a1: {a1}')
print(f'Data type: {a1.dtype}')
print(f'Number of array dimensions: {a1.ndim}')
print(f'Shape of the array: {a1.shape}')
print(f'Number of elements in the array: {a1.size}')

a2 = np.array([[1.0, 2.0, 3.0]])
print(f'\nArray a2: {a2}')
print(f'Data type: {a2.dtype}')
print(f'Number of array dimensions: {a2.ndim}')
print(f'Shape of the array: {a2.shape}')
print(f'Number of elements in the array: {a2.size}')

a3 = np.array([[1],
               [2],
               [3]])
print(f'\nArray a3:\n{a3}')
print(f'Data type: {a3.dtype}')
print(f'Number of array dimensions: {a3.ndim}')
print(f'Shape of the array: {a3.shape}')
print(f'Number of elements in the array: {a3.size}')

### Доступ к элементам массива

Можно обращаться к отдельным элементам массива с помощью специального оператора `[]`.

In [None]:
b = np.array([[1, 2, 3, 4, 5, 6, 7],
              [8, 9, 10, 11, 12, 13, 14]])
b[0, 4]

Кроме отдельных элементов, можно обратиться к целой строке или столбцу с помощью оператора среза `:`. Он позволяет выбрать все элементы указанной строки или столбца.

In [None]:
print(f'Array b:\n{b}')
print(f'Elements in first row:\n{b[0, :]}')
print(f'Elements in first column:\n{b[:, 0]}')

Оператор `:` на самом деле представляет собой сокращённую форму конструкции начальный_индекс: конечный_индекс: шаг. Можно обращаться к любо выбранной последовательности элементов массива.

Мы указали, что хотим выбрать первую строку, а затем уточнили, какие именно столбцы нам нужны: `1:4:2`.
- Первое число означает, что мы начинаем брать элементы с первого индекса — второго столбца.
- Второе число — что мы заканчиваем итерацию на четвёртом индексе, то есть проходим всю строку.
- Третье число указывает, с каким шагом мы идём по строке. В нашем примере — с шагом в два элемента.

In [None]:
e = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8]])
e[0, 1:4:2]

### Создание специальных массивов

Имеется несколько функций для того, чтобы создавать массивы с каким-то исходным содержимым (по умолчанию тип создаваемого массива — float64).

Функция `zeros()` создает массив из нулей, а функция `ones()` — массив из единиц. Обе функции принимают кортеж с размерами.

In [None]:
print(f'Array filled with zeros:\n{np.zeros((3, 5))}')
print(f'\nArray filled with ones:\n{np.ones((2, 2))}')

Для создания последовательностей чисел в NumPy имеется функция `arange()`. Она возвращает одномерный массив с равномерно разнесенными значениями внутри заданного интервала.

In [None]:
print(f'Array with values from 0 to 10:\n{np.arange(11)}')
print(f'Array with values from 3 to 10:\n{np.arange(3, 11)}')
print(f'Array with values from 0 to 10 with spacing given by step 3:\n{np.arange(0, 11, 3)}')
print(f'Array with values from 1 to 10 with spacing given by step 3:\n{np.arange(1, 11, 3)}')

### Математические операции

Массивы можно складывать, умножать на число и на другой массив.

In [None]:
n = 5
print(f'Number n={n}')
v1 = np.array([7, 8, 9])
print(f'Vector v1: {v1}')
v2 = np.array([3, 4, 5])
print(f'Vector v2: {v2}')
m1 = np.array([[10, 11, 12], [13, 14, 15]])
print(f'Matrix m1:\n{m1}')
m2 = np.array([[1, 2, 3], [4, 5, 6]])
print(f'Matrix m2:\n{m2}')

print(f'\nSum of vectors v1 and v2: {v1 + v2}')
print(f'Product of vector v1 and number n: {v1 * n}')
print(f'Product of vectors v1 and v2: {v1 * v2}')

print(f'\nSum of matrices m1 and m2:\n{m1 + m2}')
print(f'Product of matrix m1 and number n:\n{m1 * n}')
print(f'Product of matrix m1 and vector v1:\n{m1 * v1}')
print(f'Product of matrix m1 and matrix m2:\n{m1 * m2}')

Напоминание про матричное умножение:

$ AB= \begin {pmatrix} 2 & 3\\ 4 & -1 \end{pmatrix} \times \begin{pmatrix} 1 & 0\\ 5 & -2 \end{pmatrix} =\begin {pmatrix} 2+15 & 0-6 \\ 4-5 & 0+2 \end{pmatrix} = \begin{pmatrix} 17 & -6\\ -1 & 2 \end{pmatrix}$

$ BA= \begin{pmatrix} 1 & 0\\ 5 & -2 \end{pmatrix} \times \begin {pmatrix} 2 & 3\\ 4 & -1 \end{pmatrix} =\begin {pmatrix} 2+0 & 3+0 \\ 10-8 & 15+2 \end{pmatrix} = \begin{pmatrix} 2 & 3\\ 2 & 17 \end{pmatrix}$

Скалярное произведение векторов:
$$\vec{a}\cdot\vec{b}=|\vec{a}|\cdot|\vec{b}|\cdot\cos(\alpha)$$

In [None]:
np.dot(v1, v2)

## Pandas

[[doc] 🛠️ Pandas](https://pandas.pydata.org/) — библиотека для обработки и анализа табличных данных. В этой библиотеке используется NumPy для удобного хранения данных и вычислений.

In [None]:
import pandas as pd

В библиотеке Pandas определены два класса объектов для работы с данными:

> `Series` – одномерный массив, который может хранить значения любого типа данных.

> `DataFrame` – двумерный массив (таблица), в котором столбцами являются объекты класса Series.

### Series

Создать объект класса `Series` можно следующим образом:

`s = pd.Series(data, index=index)`

В качестве `data` могут выступать: массив `numpy`, словарь, число. В аргумент `index` передаётся список меток строк. Метка может быть числом или строкой.

In [None]:
s1 = pd.Series(np.arange(10,35,5), index=["a", "b", "c", "d", "e"])
print(f'Series s1 from numpy array with letter indexes:\n{s1}')
s2 = pd.Series(np.arange(10,35,5))
print(f'\nSeries s2 from numpy array with number indexes:\n{s2}')
s3 = pd.Series({"a": 10, "b": 20, "c": 30, "d": 40})
print(f'\nSeries s3 from dictionary with number indexes:\n{s3}')

Для `Series` доступно взятие элемента по индексу, срезы, поэлементные математические операции аналогично массивам `numpy`.

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print(f'Series s:\n{s}')
print(f'\nChoice of element with index "a": {s["a"]}')
print(f'\nChoice of elements with indexes "a" and "d":\n{s[["a", "d"]]}')
print(f'\nChoice of elements from 1:\n{s[1:]}')

Для `Series` можно применять фильтрацию данных по условию, записанному в качестве индекса.

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
s[s > 2]

### DataFrame

Объект класса `DataFrame` работает с двумерными табличными данными. Создать `DataFrame` проще всего из словаря Python.

In [None]:
students_marks_dict = {"student": ["Студент_1", "Студент_2", "Студент_3"],
                       "math": [5, 3, 4],
                       "physics": [4, 5, 5]}
students = pd.DataFrame(students_marks_dict)
students

 У объекта класса `DataFrame` есть индексы по строкам (`index`) и столбцам(`columns`):

In [None]:
print(f'Row indexes: {students.index}')
print(f'Column indexes: {students.columns}')

Для индекса по строке по умолчанию задаётся числовое значение. Значения индекса можно заменить путем записи списка в атрибут `index`.

In [None]:
students.index = ["A", "B", "C"]
students

Для доступа к записям таблицы по строковой метке используется атрибут `loc`. При использовании строковой метки доступна операция среза.

In [None]:
students.loc["B":]

### Импорт данных из файла

Обычно табличные данные хранятся в файлах. Такие наборы данных принято называть датасетами. Файлы с датасетом могут иметь различный формат. Pandas поддерживает операции чтения и записи для CSV, Excel 2007+, SQL, HTML, JSON и др.

Несколько примеров, как получить датасет из файлов разных форматов:

> CSV. Используется функция `read_csv()`. Аргумент `file` является строкой, в которой записан путь до файла с датасетом. Для записи данных из DataFrame в CSV-файл используется метод `to_csv(file)`.

> Excel. Используется функция `read_excel()`. Для записи данных из `DataFrame` в Excel-файл используется метод `to_excel()`.

> JSON. Используется функция `read_json()`. Для записи данных из `DataFrame` в JSON используется метод `to_json()`.

Для работы с другими форматами файлов в Pandas есть функции, работающие аналогично рассмотренным.

Для дальнейшей работы загрузим файл с датасетом.

In [None]:
!wget -q https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/datasets/students_performance.csv

Получим датасет из CSV-файла с данными о студентах. Он относится к классу `DataFrame`. Для получения первых n строк датасета используется метод `head(n)`. По умолчанию возвращается 5 первых строк.

In [None]:
students = pd.read_csv("students_performance.csv")
students.head()

Для получения последних n строк используется метод `tail(n)`. По умолчанию возвращается 5 последних строк.

In [None]:
students.tail(3)

Можно вывести конкретные строки датасета.

In [None]:
students[10:13]

В качестве индекса можно использовать условия для фильтрации данных. Выберем 5 первых результатов теста по математике для студентов, прошедших подготовительный курс.

In [None]:
students[students["test preparation course"] == "completed"]["math score"].head()

Можно вывести 10 последних результатов теста по чтению для студентов, у которых родители имеют степень бакалавра.

In [None]:
students[students["parental level of education"] == "bachelor's degree"]["reading score"].tail(10)

# Разведочный анализ данных

**Разведочный анализ данных/ Exploratory data analysis (EDA)** — анализ основных свойств данных, нахождение в них общих закономерностей, зачастую с использованием инструментов визуализации.

## Загрузка данных

Скачаем набор данных [[doc] 🛠️ SMS Spam Collection Dataset](https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset). Он содержит смс-сообщения на английском языке, размеченные как «спам» (spam) и «не спам» (ham). О том, почему классы называются именно так, можно почитать в статье [[wiki] 📚 Spam (food)](https://simple.wikipedia.org/wiki/Spam_(food)#:~:text=The%20Hormel%20Foods%20Corporation%20once,%E2%80%9CSizzle%20Pork%20And%20Mmmm%E2%80%9D.)

In [None]:
!wget -q https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/datasets/SMS_Spam_Collection.csv

In [None]:
import pandas as pd
sms = pd.read_csv('SMS_Spam_Collection.csv', sep='\t',
                  # texts and labels are separated by tabs
                  header=None, names=['label', 'text'])
                  # give names to the columns
sms.head()

Проверим данные на наличие дублирующихся строк.

In [None]:
sms.duplicated()

Удалим повторяющиеся данные, сохранив первое вхождение для каждого дубля.

In [None]:
sms.drop_duplicates(keep='first',inplace=True)
sms.shape

Посмотрим, какое количество сообщений каждого класса представлено в датасете.

In [None]:
sms['label'].value_counts()

Распределение классов можно визуализировать. Воспользуемся библиотекой [[doc] 🛠️ Matplotlib](https://matplotlib.org/) для рисования круговой диаграммы.

In [None]:
import matplotlib.pyplot as plt
plt.pie(sms['label'].value_counts(), labels=sms['label'].unique(), autopct='%.1f%%')
plt.show()

Определим, насколько длинные сообщения встречаются в датасете. Разделим тексты по пробелам и посчитаем количество слов. Пословное деление предложений называется **токенизацией**. Токенизация может осуществляться не только на слова, но и на части слов (подслова). Об этом мы подробно поговорим в следующих лекциях.

Посчитаем количество слов для всех сообщений и запишем результат в датафрейм в качестве нового столбца.

In [None]:
sms['word_count'] = sms['text'].map(lambda x: len(x.split()))
sms.head(10)

Визуализируем результат с помощью гистограммы.

In [None]:
plt.hist(sms['word_count'])
plt.title('Word count in messages')
plt.show()

Можно отдельно вывести минимальную, максимальную и среднюю длину сообщения, которые встретились в датасете.

In [None]:
print(f"Minimum word count: {sms['word_count'].min()}")
print(f"Maximum word count: {sms['word_count'].max()}")
print(f"Mean word count: {sms['word_count'].mean():.1f}")

Посчитаем количество вхождений для каждого слова. Для этого создадим объект класса Counter(), он позволяет быстро посчитать количество появлений элементов в последовательности. Определим количество уникальных слов.

In [None]:
from collections import Counter
word_frequency = Counter(" ".join(sms['text']).split())
print(word_frequency)
print(len(word_frequency))

Запишем в отдельную переменную топ-10 самых частотных слов и выведем результат в виде столбчатой диаграммы.

In [None]:
top_10 = word_frequency.most_common(10)
plt.barh(y=[x[0] for x in top_10], width=[x[1] for x in top_10])
plt.title('Top 10 most frequently occuring words')
plt.show()

Можно заметить, что для слов разного регистра частотность считается отдельно (i vs. I). Также в топ-10 попало много служебных слов, которые вряд ли помогут понять, является ли сообщение спамом. Следовательно, прежде чем переходить к построении модели машинного обучения, необходимо осуществить подготовку и чистку данных.

## Предобработка текстов

Необходимо удалить стоп-слова — это часто используемые слова, которые не вносят никакой дополнительной информации в текст. В билиотеке [[doc] 🛠️ NLTK](https://www.nltk.org/) есть встроенный список стоп-слов, которым мы воспользуемся.

In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

In [None]:
print(stopwords.words('english'))

Проверим, входят ли наши самые частотные слова в этот список.

In [None]:
for item in top_10:
    print(f"'{item[0]}' in stopwords:\
    {item[0] in stopwords.words('english')}")

Слово I не вошло из-за того, что написано в верхнем регистре. Еще один этап предобработки текста — приведение слов к нижнему регистру. Это можно сделать с помощью метода `lower()`.

In [None]:
for item in top_10:
    print(f"'{item[0].lower()}' in stopwords: {item[0].lower() in stopwords.words('english')}")

Слово u отсутствует в исходном списке, но мы можем добавить его сами.

In [None]:
STOPWORDS = stopwords.words('english') + ['u']
for item in top_10:
    print(f"'{item[0].lower()}' in stopwords: {item[0].lower() in STOPWORDS}")

Теперь все частотные слова входят в список стоп-слов.

Наконец, из текста нужно удалить знаки препинания. Для этого воспользуемся `string.punctuation` — это предварительно инициализированная строка,содержащая знаки препинания.

In [None]:
from string import punctuation
print(punctuation)

Для примера к каждому токену первого текста применим метод `strip()` и удалим знаки препинания, а затем через пробел соединим токены обратно к строку.

In [None]:
print(sms['text'][0])
print(' '.join([token.strip(punctuation).lower()
for token in sms['text'][0].split()]))

Объединим все этапы предобработки в функции `text_preprocessing`. Она принимает на вход сырой текст и список стоп-слов. Функция токенизирует текст по словам, каждый токен приводит к нижнему регистру, удаляет знаки препинания и стоп-слова. На выходе мы должны получить строку из токенов после предобработки, разделенных пробелами.

In [None]:
def text_preprocessing(text, stopwords):
    tokens = [token.strip(punctuation).lower() for token in text.split()
    if token.lower() not in STOPWORDS]
    return ' '.join(tokens)

print(sms['text'][0])
print(text_preprocessing(sms['text'][0], STOPWORDS))

Осуществим предобработку всех текстов в датсете.

In [None]:
sms['preprocessed'] = sms['text'].apply(lambda x:
                                        text_preprocessing(x, STOPWORDS))
sms.head()

В следующем разделе обучим на наших данных модель для автоматической классификации спама.

# Наивный байесовский классификатор

Наивный байесовский классификатор — это алгоритм классификации, основанный на теореме Байеса с допущением о независимости признаков. Другими словами, НБА предполагает, что наличие какого-либо признака в классе не связано с наличием какого-либо другого признака.

Теорема Байеса позволяет рассчитать вероятность события $A$, основываясь на прошлом (априорном) знании условий $B$:

$$P (A | B) = \frac{P (B | A) × P(A)}{P(B)}$$

$P(A$) – априорная (безусловная) вероятность события $A$;
  - связана с некоторым случайным событием $A$;
  - представляет степень уверенности в том, что данное событие произошло, в отсутствие любой другой информации, связанной с этим событием.

Например, мы можем выдвинуть гипотезу H, что некоторый объект или наблюдение принадлежит классу C, безотносительно свойств этого объекта. Тогда P(H) будет априорной вероятностью данного события.

$P(A | B)$ – апостериорная вероятность $A$ (вероятность события $A$
при наступлении события $B$)
- вероятность значения, принимаемого случайной переменной,
-назначается после принятия во внимание некоторой новой, связанной с ней информации.
  
Иными словами, это вероятность события $A$ при условии, что произошло событие
$B$.

Например, при условии, что плод красный и круглый, мы с большой долей уверенности можем предположить, что это яблоко, чем в случае, если эта информация отсутствует, т.е. апостериорная вероятность данного события будет
$P (\text{яблоко|красный, круглый})$.

$P(B)$ – априорная вероятность события $B$;

$P(B | A)$ – апостериорная вероятность $B$ (вероятность наступления события $B$ при истинности события $A$)

## Классификация спама

Мы будем использовать наивный байесовский классификатор для фильтрации спама.  В рамках данной задачи имеются:
- Датасет из текстов сообщений с некоторым фиксированным словарём возможных слов.
- Два класса сообщений: спам и нормальное.
- Признаковое описание для каждого сообщения, характеризующее количество вхождений каждого из слов словаря в текст сообщения.

Для каждого класса $c$ требуется найти $P(c|d)$ — вероятность класса $c$ для документа $d$. Она рассчитывается по формуле Байеса:

$$P(c|d) = \frac{P(d|c) P(c)} {P(d)}$$

$P(d)$: вероятность документа $d$ одинакова для всех классов, поэтому её можно опустить.

Получим:

$$P(c|d) = P(d|c) P(c)$$

$P(c)$: вероятность класса $c$ — это доля документов класса $c$ среди всех документов.

$P(d|c)$: вероятность документа $d$ для класса $c$ зависит от слов $x_1, x_2, ..., x_n$, входящих в документ:

$$P(d|c) = P(x_1,x_2,...,x_n|c) = P(x_1|c)P(x_2|c)...P(x_n|c) $$

Пусть у нас есть датасет, где все письма состоят из слов $x_1, x_2, x_3, x_4$: **‘добрый’, ‘день’, ‘гости’, ‘деньги’**. Мы уже посчитали, сколько раз каждое слово встречается в каждом классе.

Мы можем посчитать $P(x_1|c)$ — вероятность встретить слово **‘добрый’** в нормальном письме: берем количество нормальных писем со словом **‘добрый’** и делим на количество всех нормальных писем. Аналогично для других слов.

*КАРТИНКА из блокнота [Naive_bayes_NLP](https://edunet.kea.su/repo/EduNet-additions/L02/naive_bayes_1.png) с исправлениями.*

Делаем то же самое для слов из спама.

*КАРТИНКА из блокнота [Naive_bayes_NLP](https://edunet.kea.su/repo/EduNet-additions/L02/naive_bayes_2.png) с исправлениями.*

Считаем $P(c)$ — вероятность того, что письмо не является спамом. Для этого количество нормальных писем делим на общее количество писем. Аналогично для спама.

*КАРТИНКА из блокнота [Naive_bayes_NLP](https://edunet.kea.su/repo/EduNet-additions/L02/naive_bayes_3.png).*

Мы можем вычислить $P(d|c)$ для письма **‘добрый день’**. Для этого перемножим $P(x_1|d)$ — вероятность нормального письма со словом **‘добрый’** и $P(x_2|d)$ — вероятность нормального письма со словом **‘день’**.

*КАРТИНКА с формулами:*

*p(добрый день|нормальное) = p(добрый|нормальное) × p(день|нормальное)*

*p(добрый день|СПАМ) = p(добрый|СПАМ) × p(день|СПАМ)*

Осталось получить $P(c|d)$ — вероятность нормального письма с фразой **‘добрый день’** в «наивном» предположении. Нужно умножить $P(d|c)$ — вероятность нормального письма **‘добрый день’** на $P(c)$  — вероятность того, что письмо не является спамом.

*КАРТИНКА из блокнота [Naive_bayes_NLP](https://edunet.kea.su/repo/EduNet-additions/L02/naive_bayes_3_5.png) с исправлениями.*

*Итоговый вариант*:

*p(нормальное|добрый день) = p(добрый день|нормальное) × p(нормальное)*

*p(СПАМ|добрый день) = p(добрый день|СПАМ) × p(СПАМ)*

## Обучение и тестирование модели

Будем работать с уже известным нам набором данных [[doc] 🛠️ SMS Spam Collection Dataset](https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset). Для удобства заменим словесные обозначения классов на числовые.

In [None]:
sms['num_label'] = sms['label'].astype('category').cat.codes
sms.head()

Запишем в отдельные переменные предобработанные тексты `X` и метки классов `y`.

In [None]:
X, y = sms['preprocessed'], sms['num_label']
X[:5], y[:5]

Разделим данные на обучающую и тестовую выборку.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
X_train.shape, X_test.shape

Чтобы подавать тексты в модель машинного обучения, необходимо представить каждое предложение в виде набора признаков — вектора. В качестве признаков будем подавать модели слова, встретившиеся в обучающей выборке. Те слова, которые встретятся в тестовой выборке, но отсутствуют в обучающей, не могут быть проинтерпретироованы моделью.

Будем использовать модель векторизации «мешок слов». Словарь необходимо собирать на основе обучающей выборки (метод `fit`). При этом преобразование текстов в векторы на основе собранного словаря нужно осуществить для всего датасета (метод `transform`).

Осуществим векторизацию обучающей и тестовой выборок.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer()
#vect.fit(X_train)
#X_train_vect = vect.transform(X_train)
X_train_vect = vect.fit_transform(X_train)
X_test_vect = vect.transform(X_test)
X_train_vect, X_test_vect

Создадим модель для классификации — наивный байесовский классификатор. Осуществим обучение модели на обучающей выборке из предложений (`X_train_bow`) и меток (`y_train`) с помощью метода `fit`. Затем используем обученную модель для предсказания меток на основе предложений тестовой выборки (`X_test_bow`) с помощью метода `predict`.

In [None]:
from sklearn.naive_bayes import MultinomialNB

mnb = MultinomialNB()
mnb.fit(X_train_vect, y_train)
y_mnb = mnb.predict(X_test_vect)
y_mnb

Оценим качество классификации  с помощью метрики accuracy.

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_mnb)

Поскольку классы не сбалансированы, посчитаем также точность (precision), полноту (recall) и F-меру (f1).

In [None]:
from sklearn.metrics import precision_score
precision_score(y_test, y_mnb)

In [None]:
from sklearn.metrics import recall_score
recall_score(y_test, y_mnb)

In [None]:
from sklearn.metrics import f1_score
f1_score(y_test, y_mnb)

Мы получили довольно высокое качество. Но можно ли еще улучшить его? Например, за счет гиперпараметров векторизации?

## Подбор гиперпараметров



Для автоматического подбора параметров используется модуль `GridSearchCV`[🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html). Он создает модель для каждой возможной комбинации параметров.

Все этапы обработки — векторизацию и классификацию — объединим в `Pipeline`[🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html). Пайплайн в машинном обучении — это процесс работы с данными от начала до конца, включая ввод данных, их обработку, применение модели с установленными параметрами и вывод результата.

Создаем словарь `parameters`, содержащий диапазон значений каждого параметра. Далее инициализируем объект `grid_search`, передавая ему пайплайн (векторизатор и модель). По умолчанию количество итераций равно 10 (`n_iter`), то есть будут сравниваться 10 разных моделей. Установим количество кросс-валидаций (`cv=5`).

Кросс-валидация — перекрестная проверка.

1. Фиксируется целое число $k$, меньшее числа примеров в датасете.
2. Датасет разбивается на $k$ одинаковых частей.
3. Происходит $k$ итераций, в каждой из которых одна часть выступает в роли тестового множества, а объединение остальных — в роли тренировочного.
4. Финальный результат модели получается либо усреднением получившихся тестовых результатов, либо измеряется на отложенном тестовом множестве, не участвовавшем в кросс-валидации.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/cross_validation_on_train_data.png" width="600"></center>

Рассмотрим следующие параметры:
- `ngram_range`:
  - (1, 1) — только униграммы;
  - (1, 2) — униграммы и биграммы.
- `min_df`
  -  0.0001 — исключаем токены, которые встретились в меньше чем 0,01% документов;
  -  0.001 — исключаем токены, которые встретились в меньше чем 0,1% документов.
- `max_df`:
  - 0.7 — исключаем токены, которые встретились в больше чем 70% документов;
  - 1.0 — исключаем токены, которые встретились в больше чем 100% документов.

В качестве метрики для сравнения (`scoring`) будем использовать F1-меру. Выведем лучшие значения параметров (`best_params_`) и лучшее значение метрики (`best_score_`).

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
           ('vect', CountVectorizer()),
           ('clf', MultinomialNB()),
])
parameters = {
    'vect__ngram_range': ((1, 1), (1, 2)),
    'vect__min_df': (0.0001, 0.001),
    'vect__max_df': (0.7, 1.0)
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, cv=5, scoring='f1')
grid_search.fit(X_train, y_train)
grid_search.best_params_, grid_search.best_score_.round(2)

In [None]:
grid_search.best_params_['vect__ngram_range']

In [None]:
pipeline = Pipeline([
           ('vect',
            CountVectorizer(max_df=grid_search.best_params_['vect__max_df'],
                            min_df=grid_search.best_params_['vect__min_df'],
                            ngram_range=grid_search.best_params_['vect__ngram_range'])),
           ('clf', MultinomialNB()),
])
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)
f1_score(y_test, y_pred).round(2)

За счет автоматического подбора гиперпараметров качество слегка возросло.

# Логистическая регрессия

Общее назначение регрессии состоит в анализе связи между несколькими независимыми переменными и зависимой переменной. Зависимая переменная $z$ является взвешенной суммой независимых переменных $x_1,x_2,...,x_n$ (признаков). Веса $w_1, w_2, ..., w_n$ подбираются на обучающих данных — в этом и состоит обучение модели.

$$z(x) = w_1x_1 + w_2x_2 + ... + w_nx_n$$

Переменная $z$ может принимать значения в любом диапазоне. Чтобы получить вероятность отнесения объекта к классу, нужно привести его в диапазон от 0 до 1 с помощью функции активации.

### Функция активации

В случае бинарной классификации используется сигмоида. Если получившееся значение больше 0.5, то объект относится к положительному классу, иначе — к отрицательному.

$$ σ(z(x))=\frac{1}{1+e^{-z(x)}}$$

Запишем формулу сигмоиды, используя методы из библиотеки NumPy:

- `np.exp(x)`  для подсчета $e^x$
- `np.arange()` для указания диапазона возможных значений

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import math

x = np.arange(-10, 10, 0.5)
z = 1/(1 + np.exp(-x))

plt.plot(x, z)
plt.xlabel("x")
plt.ylabel("Sigmoid(X)")

plt.show()

Для многоклассовой классификации используется функция активации softmax.  Вероятность $i$-го класса при наличии $K$ классов рассчитывается следующим образом:

$$\text{softmax}(z_{i}) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}$$
$$i=1,...,K$$

Для каждого объекта выбирается класс с наибольшей вероятностью.

Запишем формулу для функции софтмакс. Для подсчета суммы используем метод `np.sum()`.

In [None]:
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x))

x = np.array([2.6, 3.2, 0.5])
print(softmax(x))
print(np.sum(softmax(x)))

### Функция потерь

Необходимо определить оптимальные параметры $w_1,...,w_n$, при которых различие между предсказанными и истинными значениями будет минимально. Рассчитать величину ошибки позволяет **функция потерь**, которую необходимо минимизировать.

Используется функция кросс-энтропии ($L_{CE}$ — *Cross Entropy Loss*):

$$L_{CE}(\hat y,y) = -\sum^{K}_{i=1}y_i \cdot log(\hat y_i),$$

где $i$ — номер класса, $y$ — истинный ответ, $\hat y$ — предсказанный ответ.

В случае бинарной классификации имеет $K=2$, $y=0$ или $y=1$ ($L_{BCE}$ — *Binary Cross Entropy Loss*):

$$L_{BCE}(\hat y,y) = -(y \cdot log(\hat y)+(1-y) \cdot log(1-\hat y))$$

В случае многоклассовой классификации $K>2$. Истинный ответ $y$ — вектор длины $K$, где элемент вектора $y_c=1$, если $c$ — истинный класс, остальные элементы равны $0$.

Например, $K=3$ (классы $0,1,2$). Объект относится к классу $2$. Тогда $y = (0, 0, 1)$, $c=2$, $y_2 = 1$.

Модель предсказывает вектор $\hat y$ длины $K$. Функция кросс-энтропии имеет вид:

$$L_{CE}(\hat y,y) = -\log \hat y_c$$

## Метод градиентного спуска

Задача поиска оптимальных параметров модели сводится к задаче **поиска минимума функции потерь**.

### Точки минимума и максимума функции

Как найти минимум функции в простом случае?

- Найти производную функции.
- Найти значения, при которых производная равна нулю.
- Определить знаки производной. Когда функция возрастает, то производная положительна. Когда функция убывает, то производная отрицательна.
- Определить точки минимума и максимума. Если функция возрастала и в определенной точке начала убывать, то это точка максимума. Если функция убывала и в некоторой точке начала возрастать, то это точка минимума.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/function.png" width="700" ></center>

$$\text{Таблица производных:}$$
\begin{array}{|с|c|c|} \hline
 f(x) \text{ (функция)} & f'(x)  \text{ (производная)}\\ \hline
с \text{ (константа)} & 0 \\ \hline
cx & c \\ \hline
x^c & cx^{c-1} \\ \hline
\end{array}

Рассмотрим на примере функции $f(x)=x^2 + x + 3$.

Она зависит от одной переменной $x$.

Найдем производную $f'(x^2 - x + 3)$.
- $f'(x^2 - x + 3) = 2x - 1$
- $f'(x^2 - x + 3) = 0$ при $x =0.5$
-  $f'(x^2 - x + 3) < 0 $ при $x < 0.5$, $f'(x^2 - x + 3) > 0 $ при $x > 0.5$
- $f(x)$ убывает при $x < 0.5$, $f(x)$ возрастает при $x > 0.5$
- $x = 0.5$ — точка минимума

In [None]:
import numpy as np
x = np.linspace(-2, 3, 100)
y = x**2 - x + 3
plt.figure()
plt.title("$x^2 - x + 3$")
plt.plot(x, y)
plt.xticks(np.arange(-2, 3.5, step=0.5))
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.plot(0.5,2.75, marker='.')
plt.show()

### Частная производная и градиент функции

:Если функция зависит от нескольких переменных, можно говорить о частной производной, когда все остальные переменные, кроме интересующей нас, становятся константами. Производная функции $f$ от переменной $x_1$: $\large\frac{\partial f}{\partial x_1}$.

**Градиент** в математическом анализе — это вектор, указывающий на направление максимального роста функции в заданной точке. Вектор-градиент состоит из частных производных функции от каждой из ее переменных $(x_{1},...,x_{n})$:

$$ \nabla f(\vec{x}) = \begin{bmatrix}
\displaystyle\frac{\partial f}{\partial x_1}\\
\displaystyle\frac{\partial f}{\partial x_2}\\
...\\
\displaystyle\frac{\partial f}{\partial x_n}\\
\end{bmatrix}$$

Рассмотрим функцию $f(x,y,z)=2xy^3+3z^2$. Найдем градиент функции для переменных $x,y,z$.

$$
\nabla f(x, y, z)=\begin{bmatrix}
\displaystyle\frac{\partial f}{\partial x}\\
\displaystyle\frac{\partial f}{\partial y}\\
\displaystyle\frac{\partial f}{\partial z}\\
\end{bmatrix}
=\begin{bmatrix}
2y^3\\
\\
6xy^2\\
\\
6z\\
\end{bmatrix}
$$


Для минимизации ошибки нужен антиградиент, который показывает направление скорейшего убывания функции.

### Градиентный спуск и скорость обучения

**Градиентный спуск** — это некоторый алгоритм, который помогает нам итеративно шагами перемещаться по функции и в конце концов оказаться в ее минимуме. Мы не напрямую ищем точку, где производная равна нулю, а некоторыми манипуляциями передвигаемся вниз по функции. Градиентный спуск выбирает случайную точку, находит направление самого быстрого убывания функции и двигается до ближайшего минимума вдоль этого направления.

Важно настроить размер шага или **скорость обучения** $η$ — некоторый коэффициент, как правило, небольшой, который не позволяет нам двигаться слишком быстро. У нас есть точка, в которую мы хотим попасть. Если мы сделаем слишком большой шаг, то мы ее перескочим (график справа), поэтому надо подобрать шаг, который не позволит ее перескочить, но в то же время такой, чтобы тот же процесс не шел слишком медленно (как на графике слева).

<img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/learning_rate_optimal_value.png">

Если на каком-то этапе разность между старой точкой (до шага) и новой снижается ниже предела, считается, что минимум найден, алгоритм завершен.

Вспомним, что функция потерь $\mathcal{L}(y, \hat{y})$ зависит от нескольких переменных: весов $\overline{w} = (w_1, \cdots, w_m)$ и сдвига $b$.

Следовательно, мы будем использовать несколько частных производных:

- частные производные функции потерь от весов $w_1,\cdots,w_m$: $\large\frac{\partial \mathcal{L}(y, \hat{y})}{\partial w_1}, \cdots, \frac{\partial \mathcal{L}(y, \hat{y})}{\partial w_m}$
- частная производная функции потерь от сдвига $b$: $\large\frac{\partial \mathcal{L}(y, \hat{y})}{\partial b}$

После подсчета частных производных нам необходимо обновить значения весов и сдвига.

$$w_i = w_i-η\frac{\partial \mathcal{L}(y, \hat{y})}{\partial w_i}$$

$$b = b-η\frac{\partial \mathcal{L}(y, \hat{y})}{\partial b}$$

## Распознавание эмоций

Рассмотрим задачу многоклассовой классификации на примере распознавания эмоций.

Распознавание эмоций ≠ анализ тональности. Анализ тональности — выявление оценки авторов по отношению к объектам, речь о которых идёт в тексте. Она может быть позитивной, негативной или нейтральной. Эмоции могут включать не только радость или грусть, но ужас, гнев, удивление, отвращение и т.п.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/sentiment_emotion.png" width="700" ></center>

Чаще всего при обработке текстов стоит задача распознать 6 базовых эмоций: счастье (happiness), печаль (sadness), страх (fear), гнев (anger), отвращение (disgust), удивление (surprise). Данная классификация введена Полом Экманом в книге [[book] 📚 Basic emotions](https://www.paulekman.com/wp-content/uploads/2013/07/Basic-Emotions.pdf). Утверждается, что люди всех культур испытывают их и могут распознавать в других людях. Для каждой базовой эмоции есть соответствующее, безошибочно опознаваемое выражение лица.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/basic_emotions.png" width="1100" ></center>

### Загрузка и подготовка данных

Будем использовать русскоязычный набор данных, представленный в работе [[paper] 🎓 Emotion classification in Russian: feature engineering and analysis](https://link.springer.com/chapter/10.1007/978-3-030-72610-2_10).

Он размечен по **5 классам эмоций**:
- радость (joy),
- печаль (sadness),
- злость (anger),
- неуверенность (uncertainty),
- нейтральность (neutrality).

Из классификации Экмана удалена категория отвращения из-за отсутствия соответствующих данных. Категории страха и удивления  объединены в одну категорию неопределенности из-за сходства способов, которыми они выражаются.

Загрузим набор данных.

In [None]:
!wget -q https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/datasets/Emotion_Classification_Russian.csv

In [None]:
import pandas as pd
emo = pd.read_csv('Emotion_Classification_Russian.csv')
emo.head()

Помимо метки класса (label) и текста (text), присутствует столбец с лемматизированными предложениями (lemmatized). Лемматизация — процесс приведения словоформы к лемме, то есть её нормальной (словарной) форме.

В русском языке это следующие морфологические формы:

- для существительных — именительный падеж, единственное число
  - кошками → кошка;
- для прилагательных — именительный падеж, единственное число, мужской род
  - красивых → красивый;
- для глаголов, причастий, деепричастий — глагол в инфинитиве (неопределённой форме) несовершенного вида
  - бежал → бежать.

Лемматизация необходима для языков с богатой морфологией, чтобы не расширять размер словаря за счет слов, у которых одинаковый смысл, но разные морфологические формы.

В рассматриваемом наборе данных лемматизация проведена с помощью морфологического анализатора [[git] 🐾 RNNmorph](https://github.com/IlyaGusev/rnnmorph). Он использует реккурентную нейронную сеть для определения части речи и морфологических признаков слова с учетом контекста.

Рассмотрим пример его применения.

In [None]:
!pip install -q git+https://github.com/IlyaGusev/rnnmorph

In [None]:
from rnnmorph.predictor import RNNMorphPredictor
predictor = RNNMorphPredictor(language="ru")

forms = predictor.predict(["мама", "поймала", "мышь"])
print(f'Часть речи слова "мама": {forms[0].pos}')
print(f'Лемма слова "поймала": {forms[1].normal_form}')
print(f'Морфологический анализ слова "мышь": {forms[2].tag}')

Для удобства заменим словесные обозначения классов в датасете на числовые. Метки присваиваются в алфавитном порядке:
- **a**nger → 0
- **j**oy → 1
- **n**eutrality →  2
- **s**adness → 3
- **u**ncertainty → 4

In [None]:
emo['num_label'] = emo['label'].astype('category').cat.codes
emo.head()

Узнаем количество данных в датасете и их распределение по классам эмоций.

In [None]:
emo.shape

In [None]:
import matplotlib.pyplot as plt
plt.pie(emo['label'].value_counts(), labels=emo['label'].unique(), autopct='%.1f%%')
plt.show()

Проведем уже знакомые операции для подготовки данных:
- запишем в отдельные переменные лемматизированные тексты `X` и метки классов `y`;
- разделим данные на обучающую и тестовую выборку;
- осуществим векторизацию обучающей и тестовой выборок.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

X, y = emo['lemmatized'], emo['num_label']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

vect = TfidfVectorizer(min_df=0.0002, max_df=0.2)
X_train_vect = vect.fit_transform(X_train)
X_test_vect = vect.transform(X_test)
X_train_vect, X_test_vect

### Обучение и анализ модели

Обучим модель логистической регрессии (при дефолтном параметре `max_iter=100` модель не сходится; чтобы добиться сходимости алгоритма, установим большее количество итераций).

In [None]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(random_state=42, max_iter=300) # model initialization
logreg.fit(X_train_vect, y_train) # trainig
y_logreg = logreg.predict(X_test_vect) # predicting labels
y_logreg

Результаты классификации можно отразить в виде матрицы ошибок.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

def show_confusion_matrix(confusion_matrix):
  hmap = sns.heatmap(confusion_matrix, annot=True, fmt="d", cmap="Greens")
  hmap.yaxis.set_ticklabels(hmap.yaxis.get_ticklabels(), rotation=0, ha='right')
  hmap.xaxis.set_ticklabels(hmap.xaxis.get_ticklabels(), rotation=30, ha='right')
  plt.ylabel('True emotion')
  plt.xlabel('Predicted emotion')

class_names = ['anger', 'joy', 'neutrality', 'sadness', 'uncertainty']
cm = confusion_matrix(y_test, y_logreg)
df_cm = pd.DataFrame(cm, index=class_names, columns=class_names)
show_confusion_matrix(df_cm)

Метрики для каждого класса, а также усредненные метрики представлены в отчете о классификации.

In [None]:
from sklearn.metrics import classification_report
target_names = ['anger', 'joy', 'neutrality', 'sadness', 'uncertainty']
print(classification_report(y_test, y_logreg, target_names=target_names))

Для каждого класса были посчитаны свои коэффициенты регрессии. Они представляют матрицу $K \times n$, где $K$ — количество классов, $n$ — количество признаков (слов).

In [None]:
coefficient_matrix = logreg.coef_
print(coefficient_matrix)
print(coefficient_matrix.shape)

 Каждый из коэффициентов регрессии описывает размер вклада соответствующего признака.
 - Положительный коэффициент — признак повышает вероятность принадлежности к классу, отрицательный коэффициент — признак уменьшает вероятность.
 - Большой коэффициент — признак существенно влияет на вероятность принадлежности к классу, почти нулевой коэффициент — признак имеет небольшое влияние на вероятность результата.

Выведем признаки с самыми большими коэффициентами для каждого класса и получим наиболее характерные слова для каждой эмоции.

In [None]:
labels = ['Злость', 'Радость', 'Нейтральность', 'Печаль', 'Неуверенность']
coefficient_matrix = logreg.coef_

for i in range(coefficient_matrix.shape[0]):

    print(f"\n{labels[i]}:")

    feature_names = vect.get_feature_names_out() # word features
    order = coefficient_matrix[i].argsort() # ascending order for coefficients
    class_coefficients = coefficient_matrix[i][order][::-1][:5] # sort and extract top-5 coefficients
    feature_names = feature_names[order][::-1][:5] # words with the highest coefficients

    for feature, coefficient in zip(feature_names, class_coefficients):
      print(feature, coefficient.round(2))

<font size="6">Литература</font>

<font size="5">Инструменты:</font>

- [[doc] 🛠️ Scikit-learn](https://scikit-learn.org/stable/) — ML алгоритмы
- [[doc] 🛠️ NumPy](https://numpy.org/) — массивы и математические функции
- [[doc] 🛠️ Pandas](https://pandas.pydata.org/) — табличные данные
- [[doc] 🛠️ Matplotlib](https://matplotlib.org/) — визуализация
- [[doc] 🛠️ NLTK](https://www.nltk.org/) — токенизация, словари стоп-слов
- [[git] 🐾 RNNmorph](https://github.com/IlyaGusev/rnnmorph) — морфологический парсер для русского и английского языков
- [[doc] 🛠️ UDPipe](https://ufal.mff.cuni.cz/udpipe) — морфологический и синтаксический парсер для различных языков

<font size="5">Методы и алгоритмы:</font>

- [[wiki] 📚 Мешок слов](https://ru.wikipedia.org/wiki/Мешок_слов)
- [[wiki] 📚 TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF)
- [[wiki] 📚 Наивный байесовский классификатор](https://ru.wikipedia.org/wiki/Наивный_байесовский_классификатор)
- [[wiki] 📚 Логистическая регрессия](https://ru.wikipedia.org/wiki/Логистическая_регрессия)