<font size="6">Введение в машинное обучение</font>

# Два пути

Допустим, у нас есть задача автоматически опеределить тональность (эмоциональную окраску) отзыва на некоторый товар или услугу: является он позитивным, негативным или нейтральным. К её решению можно подойти двумя способами.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_task.png" width="650"></center>

**Вариант №1: подход на основе правил (rule-based)**

Будем использовать **вручную** заданные **правила** классификации и эмоционально размеченные **словари**. Эти правила рассчитывают класс текста на основе эмоциональных ключевых слов и их совместного использования с другими ключевыми словами.

Несмотря на высокую эффективность в текстах какой-то определенной тематики, методы на основе правил плохо способны обобщать. Чем больше примеров мы будем анализировать, тем больше исключений будет появляться.

Следовательно, потребуется добавлять новые правила и увеличивать размер словаря. Алгоритмическая сложность программы будет расти, ее будет сложнее поддерживать.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_rules.png" width="750"></center>

**Вариант №2: машинное обучение (machine learning)**

С появлением **машинного обучения** мы можем применить принципиально другой подход. Он заключается в том, чтобы обучить модель, которая сама будет извлекать шаблоны из данных.

Зачастую пользователь не только пишет текст отзыва, но и ставит оценку от 1 до 10. Мы можем использовать ее в качестве разметки для данных: отзывы с оценкой от 1 до 3 будем считать негативными, от 4 до 7 — нейтральными, от 8 до 10 — позитивными.

Соберем некоторое количество отзывов и оценок за определенное время. Загрузим данные в модель, и она обучится на этих данных. При достаточном количестве данных и адекватно подобранной модели мы сможем научить ее решать конкретные задачи.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/sentiment_model.png" width="550"></center>

По сути, модели всё равно, что сделать: проанализировать тональность отзыва, отфильтровать спам-письма, распределить новости по тематикам, определить язык текста и т.д. Нет необходимости писать под каждый пример отдельную программу: достаточно собрать данные, и мы сможем решить множество абсолютно разных задач.

Важно лишь понимать, какую модель предпочтительнее выбрать. С этим мы будем разбираться в ходе курса.

# Задача курса

##  AI, ML, ANN, DL

**Место глубокого обучения и нейронных сетей в ИИ**

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/ai_ml_ann_dl.png" width="550"></center>

**Искусственный интеллект (ИИ)/ Artificial Intelligence (AI)**  — область компьютерных наук, связанная с моделированием интеллектуальных или творческих видов человеческой деятельности.

**Машинное обучение/ Machine learning (ML)** — подраздел ИИ, связанный с разработкой алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций.

**Искусственная нейронная сеть (ИНС)/  Artificial neural network (ANN)** — разновидность алгоритмов машинного обучения, математическая модель, построенная по принципу организации и функционирования биологических нейронных сетей. ИНС состоит из слоев «нейронов», которые связаны между собой. В простом случае это входной слой и выходной слой.

**Глубокое обучение/ Deep Learning (DL)** — обучение «глубоких» ИНС. Помимо входного и выходного слоя, они состоят из сотен дополнительных «скрытых» слоев между видимыми слоями для ввода и вывода.

## Области применения

В последнее время именно такого рода модели показывают высокую эффективность в тех областях, с которыми ранее могли справиться только люди.
Алгоритмы машинного обучения могут обрабатывать данные различного типа:
- Компьютерное зрение / Computer vision (CV) → изображения и видео
- Обработка естественного языка / Natural language processing (NLP) → тексты
- Распознавание и синтез речи / Automatic Speech Recognition (ASR) & Text to speech (TTS) → аудио

# Обзор курса

<big>Лекция 1 Машинное обучение</big>

**Зачем:**

* Разобраться, как в целом подходить к задачам машинного обучения.

**Что будет:**

* Основные понятия, обучение с учителем и без учителя;
* Инструменты (NumPy, Pandas, Scikit-learn, Matplotlib, Seaborn);
* Разведывательный анализ, работа с данными;
* Базовые метрики;
* Методы векторизации: мешок слов, TF-IDF;
* Методы машинного обучения: наивный байесовский классификатор, логистическая регрессия;
* Построение классификатора и оценка качества.


<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/l01_meme.png" width="400" ></center>

<big>Лекция 2 Нейронные сети</big>

**Зачем:**

* Познакомиться с нейронными сетями — классом моделей машинного обучения, которые позволяют решать разнообразные задачи, начать их создавать и обучать.

**Что будет:**

* Интуиция, почему нейросети — очень выразительный класс моделей машинного обучения;
* Основные «строительные блоки» нейросетей;
* Основной метод обучения нейросетей — метод обратного распространения ошибки;
* Знакомство с **PyTorch** — основной программной библиотекой глубокого обучения, которой будем пользоваться на курсе;
* Построение векторных представлений слов на основе нейросетей;
* Процесс создания и обучения нейронной сети для задачи классификации по тональности отзывов на фильмы.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/nn_fully_connected.png" width="450"></center>

# Задачи машинного обучения

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/machine_learning.png" width="800"></center>

По типу обучения можно выделить **обучение с учителем** и **обучение без учителем**. Это основные типы; по ходу курса мы познакомимся ещё с несколькими.

## Обучение с учителем (supervised learning)

В этом случае есть множество **объектов** $X$, множество **ответов** $y$. Каждый объект имеет некую числовую характеристику — **признак**. Совокупность всех признаков объекта называется его **признаковым описанием**.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/features_target.png" width="500"></center>

Требуется найти функциональную зависимость ответов от описаний объектов и построить алгоритм, принимающий на входе описание объекта и выдающий на выходе ответ.

Имеющиеся данные разделяются на **обучающую** и **тестовую** выборку.
- Обучающая выборка — это примеры, на основе которых алгоритм ищет зависимость ответов от описаний объектов и строит общую закономерность.
- Тестовая выборка используется для оценки качества алгоритма на новых данных.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/train_test.png" width="900"></center>

> **Классификация (classification)** — отнесение образца к одному из нескольких попарно не пересекающихся множеств. Множество допустимых ответов конечно. Их называют метками классов (class label).

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/classification.png" width="650"></center>

*Примеры задач классификации:* фильтрация спама, анализ тональности, классификация по тематике, определение языка.

> **Регрессия (regression)** — соотнесение объекта с некоторым числом или числовым вектором. Отсутствуют жесткие ограничения на пространство ответов.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/regression.png" width="650"></center>

*Примеры задач регрессии:* предсказание стоимости товара по текстовому описанию.

## Обучение без учителя (unsupervised learning)

В этом случае ответы не задаются, и требуется искать зависимости между объектами.

> **Кластеризация (clustering)** — разбиение множества входных данных на группы с учетом попарного сходства объектов.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/clustering.png" width="650"></center>

*Пример задачи кластеризации:* распределение новостей по тематическим кластерам.

# План исследования

Допустим, вы решили заняться разработкой классификатора спама. Как будет выглядеть план исследования?

<center><img src ="https://edunet.kea.su/repo/EduNet-content/dev-2.1/L01/out/pipeline.png" width="700"></center>

## Сбор данных

Где можно добыть данные?

* Эксперименты в вашей лаборатории
* [[doc] 🛠️ HuggingFace](https://huggingface.co/datasets)
* [[doc] 🛠️ Соревнования Kaggle](https://www.kaggle.com/datasets)
* [[doc] 🛠️ Google Datasets](https://datasetsearch.research.google.com/)
* [[article] 🎓 Сайт Papers with Code](https://paperswithcode.com/)

Пройдитесь по соседним лабораториям. Напишите письма авторам статей.

Если вы используете данные, скачанные из сети, проверьте, откуда они. Описаны ли они в статье? Если да, посмотрите на документ, убедитесь, что он был опубликован в авторитетном месте, и проверьте, упоминают ли авторы какие-либо ограничения на использованные датасеты.

Если данные использовались в ряде работ, это еще не гарантирует высокое качество датасета. **Иногда данные используются только потому, что их легко достать**.

## Предобработка текста

## Векторизация текста

Методы машинного обучения работают с числами. Нам нужно найти способы, которые позволят представлять тексты в виде числовых данных.

Если объектом является текст, в качестве признаков выступают слова, которые он содержит. Процесс преобразования текста в числа называется **векторизацией**.

<center><img src ="https://monkeylearn.com/static/e7dd6511434a685cc7d20a7147e108d3/4394e/Text-to-vector-3_normal.webp" width="600"></center>



<center><em>Источник: <a href="https://monkeylearn.com/blog/word-embeddings-transform-text-numbers/">How to transform text into numbers</a></em></center>

Рассмотрим два способа векторизации предложений из библиотеки scikit-learn. Для наглядности будем использовать небольшой корпус из трех предложений.

In [None]:
import pandas as pd
corpus = pd.Series(['She loves pizza, pizza is delicious.',
                     'She is good person.',
                     'Good people are the best.'])

### Мешок слов

<center><img src ="https://i.ibb.co/jb4wrW9/bag.webp" width="600"></center>


<center><em>Источник: <a href="https://bigdataschool.ru/blog/feature-extraction-text-data-preparation.html">Оцифровываем текст</a></em></center>

Мешок слов (bag of words) — представление текста, которое описывает вхождение слова в документ.

Реализуем векторизацию мешком слов с помощью класса `CountVectorizer` [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html). Метод `fit` собирает словарь, метод `transform` преобразует тексты в векторы на основе собранного словаря. Метод `fit_transform` выполняет все это сразу.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

bow = CountVectorizer()
#bow.fit(corpus)
#corpus_bow = bow.transform(corpus)
corpus_bow = bow.fit_transform(corpus)
corpus_bow

В результате мы получаем разрежённую (sparse) матрицу — это матрица с преимущественно нулевыми элементами. Если бо́льшая часть элементов матрицы ненулевая, она считается плотной (dense). Особенностью разреженных матриц является их компактность.

[[blog] ✏️ Введение в разреженные матрицы](https://python-school.ru/blog/python/sparse-matrix/)

Выведем результат для всех предложений.

In [None]:
import pandas as pd

bow_df = pd.DataFrame(corpus_bow.toarray(),
                      columns = bow.get_feature_names_out(),
                      index=corpus)
bow_df

По умолчанию в качестве признаков используются слова (униграммы). С помощью параметра `ngram_range` можно считать частоту встречаемости для *n*-грамм. Необходимо задать значения `min_n` и `max_n` (`default=(1, 1)`).

In [None]:
bow1 = CountVectorizer(ngram_range=(2,3))
corpus_bow1 = bow1.fit_transform(corpus)
corpus_bow1

In [None]:
bow1_df = pd.DataFrame(corpus_bow1.toarray(),
                      columns = bow1.get_feature_names_out(),
                      index=corpus)
bow1_df

Параметр `analyzer` определяет, какая единица предложения является признаком — целое слово или подслово. По умолчанию он принимает значение `‘word’`. Для использования символьных *n*-грамм нужно установить значение `‘char’` (границы слов включаются в *n*-граммы) или `‘char_wb’` (создает n-граммы символов только из текста внутри границ слов).

In [None]:
bow2 = CountVectorizer(ngram_range=(4,6), analyzer='char_wb')
corpus_bow2 = bow2.fit_transform(corpus)
corpus_bow2

In [None]:
bow2_df = pd.DataFrame(corpus_bow2.toarray(),
                      columns = bow2.get_feature_names_out(),
                      index=corpus)
bow2_df

### TF-IDF

<center><img src ="https://contentpowered-bc85.kxcdn.com/wp-content/uploads/2021/12/TF-IDF-Illustration.jpg.webp" width="600"></center>


<center><em>Source: <a href="https://www.contentpowered.com/blog/tfidf-algorithm-content-seo/">What Is The TF*IDF Algorithm?</a></em></center>

$TF{\text -}IDF$ ($TF$ — term frequency, $IDF$ — inverse document frequency)  — это способ векторизации текста, отражающий важность слова в документе, а не только частоту его появления.

Частота слов ($TF$) — это мера частоты употребления слова $w$ в документе $d$. $TF$ определяется как отношение появления слова в документе к общему количеству слов в документе.

$$TF(w,d) = \frac{количество\:вхождений\:слова\:w\:в\:документе\:d}{общее\:количество\:слов\:n\:в\:документе\:d}$$

Обратная частота документов ($IDF$) —  это мера важности слова. Некоторые слова могут присутствовать наиболее часто, но не имеют большого значения. $IDF$ присваивает вес каждому слову в зависимости от его частоты в корпусе $D$.

$$IDF(w,D) = ln(\frac{общее\:количество\:документов\:N\:в\:корпусе\:D}{количество\:документов,\:содержащих\:слово\:w})$$

$TF{\text -}IDF$ является произведением $TF$ и $IDF$.
$$TF{\text -}IDF(w,d,D)=TF(w,d)*IDF(w,D)$$

Для векторизации воспользуемся классом `TfidfVectorizer` [🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html). Применим метод `fit_transform` и посмотрим на результат.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
corpus_tfidf = tfidf.fit_transform(corpus)
corpus_tfidf

In [None]:
tfidf_df = pd.DataFrame(corpus_tfidf.toarray(),
                      columns = tfidf.get_feature_names_out(),
                      index=corpus)
tfidf_df

Можно ограничить размер словаря и включать только слова, которые встречаются не реже N раз(`min_df`). Также можно убрать слова, которые встречаются слишком часто и являются стоп-словами в пределах данного корпуса (`max_df`). Оба параметра могут быть выражены целым числом либо числом с плавающей точкой в диапазоне [0.0, 1.0].

In [None]:
tfidf1 = TfidfVectorizer(min_df=2)
corpus_tfidf1 = tfidf1.fit_transform(corpus)
corpus_tfidf1

In [None]:
tfidf1_df = pd.DataFrame(corpus_tfidf1.toarray(),
                      columns = tfidf1.get_feature_names_out(),
                      index=corpus)
tfidf1_df

## Разведочный анализ данных

**Разведочный анализ данных/ Exploratory data analysis (EDA)** — анализ основных свойств данных, нахождение в них общих закономерностей, зачастую с использованием инструментов визуализации.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/dev-2.1/L01/eda.png" width="450"></center>

<center><em>Source: <a href="https://chernobrovov.ru/articles/kak-naglyadno-pokazat-data-science-vizualizaciya-bolshih-dannyh.html">Как наглядно показать Data Science</a></em></center>

Примеры:

* [[git] 🐾 Три блокнота с подробным анализом реального датасета](https://github.com/AleksandrIvchenko/machine-learning-project-walkthrough)
* [[blog] ✏️ Как избежать «подводных камней» машинного обучения: руководство для академических исследователей](https://habr.com/ru/post/664102/)

## Обучение модели

Мы будем использовать наивный байесовский классификатор для фильтрации спама.  В рамках данной задачи имеются:
- Датасет из текстов сообщений с некоторым фиксированным словарём возможных слов.
- Два класса сообщений: спам и нормальное.
- Признаковое описание для каждого сообщения, характеризующее количество вхождений каждого из слов словаря в текст сообщения.

Для каждого класса $c$ требуется найти $P(c|d)$ — вероятность класса $c$ для документа $d$. Она рассчитывается по формуле Байеса:

$$P(c|d) = \frac{P(d|c) P(c)} {P(d)}$$

$P(d)$: вероятность документа $d$ одинакова для всех классов, поэтому её можно опустить.

Получим:

$$P(c|d) = P(d|c) P(c)$$

$P(c)$: вероятность класса $c$ — это доля документов класса $c$ среди всех документов.

$P(d|c)$: вероятность документа $d$ для класса $c$ зависит от слов $x_1, x_2, ..., x_n$, входящих в документ:

$$P(d|c) = P(x_1,x_2,...,x_n|c) = P(x_1|c)P(x_2|c)...P(x_n|c) $$

Пусть у нас есть датасет, где все письма состоят из слов $x_1, x_2, x_3, x_4$: **‘добрый’, ‘день’, ‘гости’, ‘деньги’**. Мы уже посчитали, сколько раз каждое слово встречается в каждом классе.

Мы можем посчитать $P(x_1|c)$ — вероятность встретить слово **‘добрый’** в нормальном письме: берем количество нормальных писем со словом **‘добрый’** и делим на количество всех нормальных писем. Аналогично для других слов.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/naive_bayes_spam_1.png" width="700" ></center>

Делаем то же самое для слов из спама.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/naive_bayes_spam_2.png" width="700" ></center>

Считаем $P(c)$ — вероятность того, что письмо не является спамом. Для этого количество нормальных писем делим на общее количество писем. Аналогично для спама.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/naive_bayes_3.png" width="700" ></center>

Мы можем вычислить $P(d|c)$ для письма **‘добрый день’**. Для этого перемножим $P(x_1|d)$ — вероятность нормального письма со словом **‘добрый’** и $P(x_2|d)$ — вероятность нормального письма со словом **‘день’**.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/naive_bayes_spam_4.png" width="700" ></center>

Осталось получить $P(c|d)$ — вероятность нормального письма с фразой **‘добрый день’** в «наивном» предположении. Нужно умножить $P(d|c)$ — вероятность нормального письма **‘добрый день’** на $P(c)$  — вероятность того, что письмо не является спамом.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/naive_bayes_spam_5.png" width="700" ></center>

## Обучение vs. применение

Как будут выглядеть данные во время **инференса** модели?

Не окажется ли, что при в обучающих данных модели содержатся примеры спама из электронной почты, а в тестовых — из смс-сообщений?

<div align="center">
    <table >
     <tr>
       <td>
       
<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/email.png" width="550"></center>

<em>Источник: электронная почта</em>

</td>

<td>

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/sms.png" width="350"></center>

<em>Источник: смс-сообщения</em>

</td>
     </tr>
    </table>
    </div>

**Что делать?**

* Добавить целевые данные
* Попробовать оценить смещение признаков данных и добавить это смещение к данным при обучении
* Костыли и велосипеды

Подробнее с этим вы познакомитесь в ходе курса.

[[blog] ✏️ Обсуждение проблемы](https://stats.stackexchange.com/questions/362906/co-variate-shift-between-train-and-test-data-set)

## Оценка качества классификации

Как оценивать качество алгоритма? Допустим, мы хотим внести изменения в алгоритм. Как узнать, сделают ли эти изменения алгоритм лучше?

В задачах машинного обучения для оценки качества моделей и сравнения  алгоритмов используются различные метрики. Мы рассмотрим некоторые из них вначале на примере бинарной классификации, а затем узнаем способы их усреднения для задач с несколькими классами.

### Матрица ошибок

Для подсчета метрик качества классификации используется матрица ошибок.

Есть алгоритм, предсказывающий принадлежность каждого объекта одному из классов.
- $\hat y$ — предсказанный алгоритмом класс объекта
- $y$ — истинный класс объекта

Два класса делятся на положительный (1) и отрицательный (0 или –1).
- Объекты, которые алгоритм относит к положительному классу, – положительные (Positive).
- Те, которые на самом деле принадлежат к этому классу, – истинно положительные (True Positive).
- Остальные – ложно положительные (False Positive).

Аналогичная терминология для отрицательного (Negative) класса.

Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).

\begin{array}{|c|c|} \hline
& \hat{y}=0 & \hat{y}=1 \\ \hline
y=0 & \text{True Negative (TN)} & \text{False Positive (FP)}  \\ \hline
y=1 & \text{False Negative (FN)} & \text{True Positive (TP)} \\ \hline
\end{array}

Каждое письмо изначально относится к одному из классов:
- является спамом → положительный класс (positive, $y=1$).
- не является спамом → отрицательный класс (negative, $y=0$).

Модель может «предсказать, является письмо спамом (true, $\hat y = 1$) или нет (false, $\hat y = 0$).

Пусть какой-то набор слов характерен для спамового письма.
- Модель верно определила и поставила положительный класс → истинно положительный исход (true positive).
- Модель ставит отрицательную метку класса → ложно отрицательный исход (false negative): модель «сказала», что письмо является нормальным, но на самом деле оно является спамом.

В случае, если письмо является нормальным, исходы модели остаются аналогичными.
- Модель относит письмо к положительному классу → ложно положительный исход (false positive): модель «сказала», что письмо относится к спаму, но на самом деле нет.
- Модель определят письмо как отрицательный класс → истинно отрицательный исход (true negative).

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/1_2_errors.png" width="400" ></center>

### Accuracy

Accuracy — доля правильных ответов алгоритма среди всех ответов (непоказательна в задачах с неравными классами):

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

Допустим, мы хотим оценить работу спам-фильтра почты.

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/imbalanced_data.png" width="800"></center>

При этом модель 2 совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это поможет переход с общей для всех классов метрики к отдельным показателям качества классов.

В случае дисбаланса классов есть специальный аналог – метрика balanced accuracy.

$$\text{Balanced Accuracy} = \dfrac{1}{2} (\dfrac{TP}{TP + FN} + \dfrac{TN}{TN + FP})$$

<center><img src="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/balanced_accuracy.png" width="500"></center>

### Точность, полнота, F-мера

Точность — доля объектов, названных классификатором положительными и при этом действительно являющимися положительными.

$$\text{Precision} = \frac{TP}{TP + FP}$$

Важность метрики определяется тем, насколько высока «цена» ложно положительного результата. Например, если стоимость дальнейшей проверки наличия беременности у пациентки высока и мы не можем проверить все ложно положительные результаты, стоит максимизировать данную метрику.

Полнота — доля объектов положительного класса, которые нашел алгоритм, из всех объектов положительного класса.

$$\text{Recall} = \frac{TP}{TP + FN}$$

Необходимо уделить особое внимание этой оценке, когда в поставленной задаче ошибка нераспознания положительного класса высока. Например, если у рассматриваемой группы пациенток беременность может протекать особенно тяжело.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/precision-recall.png" width="650" ></center>

В реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма.

F-мера — среднее гармоническое точности и полноты:

$$\text{F-score}=2\frac{\text{Precision}×\text{Recall}}{\text{Precision}+\text{Recall}}$$
​
Данная формула придает одинаковый вес точности и полноте, поэтому F-мера будет падать одинаково при уменьшении и точности и полноты. Можно рассчитать F-меру придав различный вес точности и полноте, если отдать приоритет одной из этих метрик при разработке алгоритма.

$$\text{F-score}=(β^2+1)\frac{\text{Precision}×\text{Recall}}{β^2\text{Precision}+\text{Recall}}$$
​
$β$ принимает значения в диапазоне, $0<β<1$ если нужно отдать приоритет точности, а при $β>1$ приоритет отдается полноте. При $β=1$ формула сводится к предыдущей, что дает сбалансированную F-меру (также ее называют F1).

## Инструменты

В ходе курса мы будем опираться на существующие методы, реализованные в следующих основных библиотеках:

* [[doc] 🛠️ NumPy](https://numpy.org/) — поддержка больших многомерных массивов и быстрых математических функций для операций с этими массивами.
* [[doc] 🛠️ Scikit-learn](https://scikit-learn.org/stable/) — ML алгоритмы, "toy"-датасеты.
* [[doc] 🛠️ Pandas](https://pandas.pydata.org/) — удобная работа с табличными данными.
* [[doc] 🛠️ **PyTorch**](https://pytorch.org/) — основной фреймворк машинного обучения, который будет использоваться на протяжении всего курса.
* [[doc] 🛠️ Matplotlib](https://matplotlib.org/) — основная библиотека для визуализации. Вывод различных графиков.
* [[doc] 🛠️ Seaborn](https://seaborn.pydata.org/) — удобная библиотека для визуализации статистик. Прямо из коробки вызываются и гистограммы, и тепловые карты, и визуализация статистик по датасету, и многое другое.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/L01/sns.png" width="850"></center>

<center><em>Source: <a href="https://www.acte.in/what-is-seaborn-in-python-article/">What is Seaborn in Python? A Complete Guide For Beginners & REAL-TIME Examples</a></em></center>

# Пример работы с данными и моделью

Скачаем набор данных [[doc] 🛠️ SMS Spam Collection Dataset](https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset). Он содержит смс-сообщения на английском языке, размеченные как «спам» (spam) и «не спам» (ham). О том, почему классы называются именно так, можно почитать в статье [[wiki] 📚 Spam (food)](https://simple.wikipedia.org/wiki/Spam_(food)#:~:text=The%20Hormel%20Foods%20Corporation%20once,%E2%80%9CSizzle%20Pork%20And%20Mmmm%E2%80%9D.)

In [None]:
!wget -q https://edunet.kea.su/repo/EduNet_NLP-web_dependencies/datasets/SMS_Spam_Collection.csv

In [None]:
import pandas as pd
sms = pd.read_csv('SMS_Spam_Collection.csv', sep='\t',
                  # texts and labels are separated by tabs
                  header=None, names=['label', 'text'])
                  # give names to the columns
sms.head()

## Предобработка данных

Проверим данные на наличие дублирующихся строк.

In [None]:
sms.duplicated()

Удалим повторяющиеся данные, сохранив первое вхождение для каждого дубля.

In [None]:
sms.drop_duplicates(keep='first',inplace=True)
sms.shape

Необходимые инструменты для предобработки текстов есть в билиотеке [[doc] 🛠️ NLTK](https://www.nltk.org/).

In [None]:
import nltk
nltk.download('wordnet')
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

Также нам понадобится строка из знаков препинания, которые мы будем удалять.

In [None]:
from string import punctuation
print(punctuation)

Для примера к каждому токену одного из сообщений применим метод `strip()` и удалим знаки препинания, а затем через пробел соединим токены обратно к строку.

In [None]:
print(sms['text'][4])
print(' '.join([ps.stem(token.strip(punctuation).lower())
for token in sms['text'][4].split()]))

Добавим лемматизацию токенов.

In [None]:
lemmatizer = WordNetLemmatizer()
print(sms['text'][4])
print(' '.join([lemmatizer.lemmatize(token.strip(punctuation).lower())
for token in sms['text'][4].split()]))

Удалим стоп-слова.

In [None]:
STOPWORDS = stopwords.words('english')
print(stopwords.words('english'))

In [None]:
print(sms['text'][4])
print(' '.join([lemmatizer.lemmatize(token.strip(punctuation).lower())
for token in sms['text'][4].split()
if token.lower() not in STOPWORDS]))

Объединим все этапы предобработки в функции `text_preprocessing`. Она принимает на вход сырой текст, токенизирует его по словам, каждый токен приводит к нижнему регистру, лемматизирует, удаляет знаки препинания и стоп-слова. На выходе мы должны получить строку из токенов после предобработки, разделенных пробелами.

Осуществим предобработку всех текстов в датсете.

In [None]:
def text_preprocessing(text):
    STOPWORDS = stopwords.words('english')
    tokens = [lemmatizer.lemmatize(token.strip(punctuation).lower())
    for token in text.split()
    if token.lower() not in STOPWORDS]
    return ' '.join(tokens)

sms['preprocessed'] = sms['text'].apply(lambda x:
                                        text_preprocessing(x))
sms.head()

In [None]:
sms.dropna(subset=['preprocessed'], inplace=True)
sms

В следующем разделе обучим на наших данных модель для автоматической классификации спама.

## Разведочный анализ данных

Посмотрим, какое количество сообщений каждого класса представлено в датасете.

In [None]:
sms['label'].value_counts()

Распределение классов можно визуализировать. Воспользуемся библиотекой [[doc] 🛠️ Matplotlib](https://matplotlib.org/) для рисования круговой диаграммы.

In [None]:
import matplotlib.pyplot as plt

plt.pie(sms['label'].value_counts(), labels=sms['label'].unique(), autopct='%.1f%%')
plt.show()

Определим, насколько длинные сообщения встречаются в датасете.

Посчитаем количество слов для всех сообщений и запишем результат в датафрейм в качестве нового столбца.

In [None]:
sms['word_count'] = sms['preprocessed'].map(lambda x: len(x.split()))
sms.head(10)

Визуализируем результат с помощью гистограммы.

In [None]:
plt.hist(sms['word_count'], bins=60)
plt.title('Word count in messages')
plt.show()

Можно отдельно вывести минимальную, максимальную и среднюю длину сообщения, которые встретились в датасете.

In [None]:
print(f"Minimum word count: {sms['word_count'].min()}")
print(f"Maximum word count: {sms['word_count'].max()}")
print(f"Mean word count: {sms['word_count'].mean():.1f}")

Посчитаем количество вхождений для каждого слова. Для этого создадим объект класса Counter(), он позволяет быстро посчитать количество появлений элементов в последовательности. Определим количество уникальных слов.

In [None]:
from collections import Counter
word_frequency = Counter(" ".join(sms['preprocessed']).split())
print(word_frequency)
print(len(word_frequency))

Запишем в отдельную переменную топ-10 самых частотных слов и выведем результат в виде столбчатой диаграммы.

In [None]:
top_10 = word_frequency.most_common(10)
plt.barh(y=[x[0] for x in top_10], width=[x[1] for x in top_10])
plt.title('Top 10 most frequently occuring words')
plt.show()

## Обучение и тестирование модели

Продолжим работу с набором данных [[doc] 🛠️ SMS Spam Collection Dataset](https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset). Для удобства заменим словесные обозначения классов на числовые.

In [None]:
sms['num_label'] = sms['label'].astype('category').cat.codes
sms.head()

Запишем в отдельные переменные предобработанные тексты `X` и метки классов `y`.

In [None]:
X, y = sms['preprocessed'], sms['num_label']
X[:5], y[:5]

Разделим данные на обучающую и тестовую выборку.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
X_train.shape, X_test.shape

Чтобы подавать тексты в модель машинного обучения, необходимо представить каждое предложение в виде набора признаков — вектора. В качестве признаков будем подавать модели слова, встретившиеся в обучающей выборке. Те слова, которые встретятся в тестовой выборке, но отсутствуют в обучающей, не могут быть проинтерпретироованы моделью.

Будем использовать модель векторизации «мешок слов». Словарь необходимо собирать на основе обучающей выборки (метод `fit`). При этом преобразование текстов в векторы на основе собранного словаря нужно осуществить для всего датасета (метод `transform`).

<center><img src ="https://i.ibb.co/FWW9w3K/fit-transform.png" width="500"></center>

Осуществим векторизацию обучающей и тестовой выборок.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer()
#vect.fit(X_train)
#X_train_vect = vect.transform(X_train)
X_train_vect = vect.fit_transform(X_train)
X_test_vect = vect.transform(X_test)
X_train_vect, X_test_vect

Создадим модель для классификации — наивный байесовский классификатор. Осуществим обучение модели на обучающей выборке из предложений (`X_train_bow`) и меток (`y_train`) с помощью метода `fit`. Затем используем обученную модель для предсказания меток на основе предложений тестовой выборки (`X_test_bow`) с помощью метода `predict`.

In [None]:
from sklearn.naive_bayes import MultinomialNB

mnb = MultinomialNB()
mnb.fit(X_train_vect, y_train)
y_mnb = mnb.predict(X_test_vect)
y_mnb

Оценим качество классификации  с помощью метрики accuracy, а также точности (precision), полноты (recall) и F-меры (f1).

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

report = pd.DataFrame(
    [accuracy_score(y_test, y_mnb),
     recall_score(y_test, y_mnb),
     precision_score(y_test, y_mnb),
     f1_score(y_test, y_mnb)]).round(2)
report = report.rename(columns={0: 'Naïve bayes'})
report = report.rename(index={0: "accuracy", 1: "recall", 2: "precision", 3: "f1_score", 4: "accuracy"})
report

Мы получили довольно высокое качество. Но можно ли еще улучшить его? Например, за счет гиперпараметров векторизации?

## Подбор гиперпараметров



Для автоматического подбора параметров используется модуль `GridSearchCV`[🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html). Он создает модель для каждой возможной комбинации параметров.

Все этапы обработки — векторизацию и классификацию — объединим в `Pipeline`[🛠️[doc]](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html). Пайплайн в машинном обучении — это процесс работы с данными от начала до конца, включая ввод данных, их обработку, применение модели с установленными параметрами и вывод результата.

Создаем словарь `parameters`, содержащий диапазон значений каждого параметра. Далее инициализируем объект `grid_search`, передавая ему пайплайн (векторизатор и модель). По умолчанию количество итераций равно 10 (`n_iter`), то есть будут сравниваться 10 разных моделей. Установим количество кросс-валидаций (`cv=5`).

Кросс-валидация — перекрестная проверка.

1. Фиксируется целое число $k$, меньшее числа примеров в датасете.
2. Датасет разбивается на $k$ одинаковых частей.
3. Происходит $k$ итераций, в каждой из которых одна часть выступает в роли тестового множества, а объединение остальных — в роли тренировочного.
4. Финальный результат модели получается либо усреднением получившихся тестовых результатов, либо измеряется на отложенном тестовом множестве, не участвовавшем в кросс-валидации.

<center><img src ="https://edunet.kea.su/repo/EduNet_NLP-content/L01/out/cross_validation_on_train_data.png" width="600"></center>

Рассмотрим следующие параметры:
- `ngram_range`:
  - (1, 1) — только униграммы;
  - (1, 2) — униграммы и биграммы.
- `min_df`
  -  0.0001 — исключаем токены, которые встретились в меньше чем 0,01% документов;
  -  0.001 — исключаем токены, которые встретились в меньше чем 0,1% документов.
- `max_df`:
  - 0.7 — исключаем токены, которые встретились в больше чем 70% документов;
  - 1.0 — исключаем токены, которые встретились в больше чем 100% документов.

В качестве метрики для сравнения (`scoring`) будем использовать F1-меру. Выведем лучшие значения параметров (`best_params_`) и лучшее значение метрики (`best_score_`).

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
           ('vect', TfidfVectorizer()),
           ('clf', MultinomialNB()),
])
parameters = {
    'vect__ngram_range': ((1, 1), (1, 2)),
    'vect__min_df': (0.0001, 0.001),
    'vect__max_df': (0.7, 1.0)
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, cv=5, scoring='f1')
grid_search.fit(X_train, y_train)
grid_search.best_params_, grid_search.best_score_.round(2)

In [None]:
pipeline = Pipeline([
           ('vect',
            TfidfVectorizer(max_df=grid_search.best_params_['vect__max_df'],
                            min_df=grid_search.best_params_['vect__min_df'],
                            ngram_range=grid_search.best_params_['vect__ngram_range'])),
           ('clf', MultinomialNB()),
])
pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)
f1_score(y_test, y_pred).round(2)

За счет автоматического подбора гиперпараметров качество возросло.