# 1/7  1. Введение

В этом модуле мы:

* рассмотрим этапы разработки проекта и подготовки данных в машинном обучении;

* узнаем, как оценивать качество работы алгоритмов обучения с учителем;

* изучим один из простейших алгоритмов в МО — метод ближайших соседей.

*После прохождения этого модуля вас, как и в прошлый раз, будет ждать домашнее задание, которое необходимо будет отправить на проверку ментору.*

# 2/7  2. Процесс разработки проекта в машинном обучении

**Цель занятия** — рассмотреть процесс разработки проекта в машинном обучении.

Разработка проекта в машинном обучении обычно состоит из четырёх этапов:

1. Определение задачи.
2. Подготовка данных.
3. Разработка модели МО.
4. Запуск модели.

Давайте разберём их подробнее.

1. ОПРЕДЕЛЕНИЕ ЗАДАЧИ

На этом этапе вы определяете, какую задачу необходимо решить. Например, это может быть задача классификации или регрессии.

2. ПОДГОТОВКА ДАННЫХ

На этом этапе происходит сбор, исследование, очистка и исправление данных, а затем разделение выборки. После этого проводят предобработку признаков, создание новых и их отбор.

* **Сбор данных**, необходимых для обучения модели. Можно собрать данные самостоятельно или использовать уже существующие наборы данных.

* **Исследование данных** **(exploratory data analysis, EDA)** нужно для получения полезной информации и выявления особенностей данных перед тем, как применять модель машинного обучения. EDA включает в себя методы визуализации и статистические техники, которые помогают понять данные и выделить их важные характеристики.

* **Очистка и исправление данных**. Данные очищают от пропусков, дубликатов и ошибок.

* **Разделение выборки** на тренировочную и тестовую помогает оценить качество работы модели на новых данных. Тренировочную выборку применяют для обучения модели, тестовую — для проверки качества её работы.

* **Предобработка признаков** — преобразование признаков, их нормализация и т. д.

* **Создание новых признаков** может сделать работу модели качественнее и помочь ей лучше выявлять закономерности в данных. Существует несколько способов создать новые признаки:

  * **Инженерия признаков на основе знаний об отрасли**. Эксперты отрасли и/или аналитики создают новые признаки на основе социально-экономических показателей, метеорологических данных, информации об исторических событиях и других знаний о предметной области.

  * **Преобразование существующих признаков**. Существующие признаки преобразуют в новые с помощью математических операций (логарифмирование, возведение в степень, извлечение корня и т. д.).

  * **Создание признаков на основе текстов**. При анализе текстовых данных новые признаки можно создать, извлекая ключевые слова и фразы, используя стемминг и лемматизацию, а также методы МО для анализа тональности и определения тем.

  * **Создание признаков на основе временных рядов**. При анализе временных рядов новые признаки можно создать, вычислив статистические показатели (скользящее среднее, стандартное отклонение, корреляция и т. д.).

* Важно понимать, что создание новых признаков может увеличить размерность данных, а значит, сделать сложнее их обработку и анализ. Поэтому необходимо учитывать баланс между количеством признаков и качеством модели, а также проводить валидацию модели и контролировать переобучение.

* **Отбор признаков** можно выполнить двумя способами: автоматически и вручную. При автоматическом отборе используют алгоритмы, которые оценивают важность каждого признака и выбирают только наиболее значимые. Также признаки можно выбрать вручную, опираясь на экспертные знания в предметной области.

3. РАЗРАБОТКА МОДЕЛИ

* **Выбор модели**. На этом этапе вы выбираете модель МО, которая подходит для решения вашей задачи. В зависимости от задачи можно использовать различные типы моделей: метрические модели, линейную регрессию, деревья решений и т. д.

* **Обучение и настройка модели**. После выбора модели и подготовки данных вы можете обучить модель на тренировочных данных. Обычно это делается путём минимизации функции потерь с помощью градиентного спуска или других алгоритмов оптимизации. Если модель не даёт достаточно хороших результатов, её можно настроить, изменив гиперпараметры, или использовать другую модель.

* **Оценка и валидация модели**. После обучения необходимо оценить качество работы модели на данных, которые она не видела в процессе обучения. Это можно сделать с помощью различных метрик: точность, F1-мера и т. д. Так вы поймёте, способна ли модель работать на новых данных.

4. ЗАПУСК МОДЕЛИ

* **Развёртывание модели**. Когда модель прошла все тесты и достигла удовлетворительных результатов на новых данных, её можно развернуть для решения реальных задач.

* **Обслуживание модели**. После того как модель развёрнута в производство, её необходимо периодически обновлять и обслуживать, чтобы она продолжала давать актуальные результаты.

# 3/7  3. Подготовка данных

**Важно!** Рекомендуем вам скачать [архив с датасетами](https://lms-cdn.skillfactory.ru/assets/courseware/v1/350aa112663b017b67d448535a581109/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/maml_datasets.zip), которые понадобятся для выполнения дополнительных практических заданий в ходе изучения данного раздела.

**Цель занятия** — рассмотреть этапы подготовки данных для моделей машинного обучения.

Подготовка данных для алгоритмов МО включает:

* исследование данных;
* очистку и исправление данных;
* разделение выборки на тренировочную и тестовую;
* определение видов признаков;
* предобработку признаков;
* создание новых признаков;
* отбор признаков.

Pассмотрим каждый из этих этапов.

**1. ИССЛЕДОВАНИЕ ДАННЫХ**

**Исследование данных (EDA)** позволяет понять данные, выявить скрытые связи и паттерны, определить выбросы и пропущенные значения, а также принять решение о необходимости дополнительной предобработки данных.

*EDA* может включать в себя следующие шаги:

* **Визуализация данных** — создание графиков и диаграмм, чтобы выявить скрытые закономерности и паттерны.

* **Изучение связей между различными переменными** и определение того, какие из них сильно влияют на другие.

В результате исследования мы лучше понимаем данные, что помогает выбрать подходящую модель МО, провести более эффективную предобработку данных и принять правильные решения на этапе обучения модели.

**2. ОЧИСТКА И ИСПРАВЛЕНИЕ ДАННЫХ**

**Очистка данных** — это процесс предварительной обработки данных, направленный на удаление или исправление ошибочных, неактуальных, неполных, повреждённых, дублированных или неправильно форматированных данных. Это делается, чтобы улучшить качество и точность модели машинного обучения.

Вот некоторые методы очистки данных в МО:

* **Удаление дубликатов**.

* **Исправление ошибок.** В данных могут быть опечатки или неверные значения. Такие ошибки можно исправить с помощью автоматических методов, например через автоисправление опечаток.

**3. РАЗДЕЛЕНИЕ ВЫБОРКИ НА ТРЕНИРОВОЧНУЮ И ТЕСТОВУЮ**

Разбиение выборки на тренировочную (обучающую) и тестовую — один из ключевых этапов *МО*, который позволяет оценить качество работы модели на новых данных. При этом часть данных используется для обучения модели (обучающая выборка), а оставшаяся часть — для проверки её качества (тестовая выборка). Благодаря такому разделению можно убедиться, что модель обладает высокой точностью на новых данных и не переобучена на имеющейся выборке.

***Важно!** Разделить выборку на тренировочную и тестовую нужно до начала обработки данных и обучения модели.*

Также необходимо убедиться, что выборки не содержат дублирующихся или повторяющихся данных и что разделение происходит случайным образом или с учётом определённого критерия. Это поможет избежать смещения в оценке качества модели.

Существует несколько способов разделения выборки на тренировочную, валидационную (выборка для настройки гиперпараметров модели) и тестовую. Факторы, которые можно учитывать при выборе метода разбиения:

* **Размер выборки.** Чтобы точнее оценить модель на небольших выборках, может быть лучше использовать кросс-валидацию (перекрёстную проверку).

* **Целевой признак.** Если целевой признак несбалансированный, необходимо убедиться, что он представлен в обеих выборках.

* **Распределение признаков.** Если признаки имеют разное распределение в тренировочной и тестовой выборках, это может привести к переобучению или недообучению модели.

* **Временные ряды.** При анализе временных рядов необходимо учитывать хронологический порядок данных и использовать методы, которые могут учитывать этот фактор.

* **Доступность данных.** Иногда сложно получить достаточное количество данных, чтобы построить отдельные тренировочную и тестовую выборки. В этом случае можно максимизировать использование имеющихся данных с помощью специальных методов.

*Выбор метода разбиения выборки зависит от конкретной задачи и доступных данных. Чтобы найти наилучший вариант, могут потребоваться эксперименты с различными методами.*


Наиболее распространённые эксперименты:

* **Разбиение на обучающую, валидационную и тестовую выборки** в пропорции 60–20–20 (или любой другой на выбор). Разбиение реализовано в функциях *train_test_split* и *test_train_split* библиотеки *sklearn*.

* **Использование кросс-валидации**, при которой данные разбиваются на несколько равных частей (фолдов), и каждая часть используется в качестве тестовой выборки, а остальные части объединяются и используются для обучения модели. Кросс-валидация реализована в функциях *KFold*, *StratifiedKFold*, *TimeSeriesSplit* библиотеки *sklearn*.

* **Однократное разбиение на обучающую и тестовую выборки, а затем использование внутренней кросс-валидации** на обучающей выборке для подбора параметров модели и оценки её качества на валидационной выборке.

* **Разбиение на обучающую, валидационную и тестовую выборки с помощью временных рядов**, когда данные разбиваются на обучающую и тестовую выборки в хронологическом порядке, а затем выборка для валидации формируется из части обучающей выборки, расположенной в более раннем временном периоде, чем тестовая выборка.

Кроме того, для некоторых задач может быть полезно использовать **стратифицированное разбиение**, когда сохраняется пропорция классов в каждой выборке, или **разбиение с учётом баланса** классов, когда классы распределяются между выборками с учетом их дисбаланса.

**4. ОПРЕДЕЛЕНИЕ ВИДОВ ПРИЗНАКОВ**

В машинном обучении существуют различные виды признаков, которые можно использовать для описания объектов или данных.

Виды признаков:

* **Категориальные признаки** — признаки, которые принимают значения из определённого набора категорий или классов (цвет, тип материала и т. д.).

* **Числовые признаки** — признаки, которые принимают числовые значения (длина, ширина, высота, возраст и т. д.).

* **Бинарные признаки** — признаки, которые могут принимать только два значения (0 и 1, да или нет и т. д.).

* **Текстовые признаки** — признаки, которые описывают текстовые данные (заголовки новостей, описания продуктов и т. д.).

* **Географические признаки** — признаки, которые описывают географические данные (координаты, адреса и т. д.).

* **Временные признаки** — признаки, которые описывают данные, относящиеся ко времени (дата, время, длительность и т. д.).

*Работа с разными видами признаков в МО требует специфических методов, так как у каждого вида есть уникальные свойства.*

* **Категориальные признаки** нуждаются в преобразовании перед использованием в модели. Для этого можно использовать, например, *One-Hot Encoding* или *Label Encoding* (определение этих методов мы рассмотрим ниже). Некоторые алгоритмы машинного обучения (деревья решений и случайный лес) могут обрабатывать категориальные признаки напрямую.

* **Числовые признаки** можно использовать без какой-либо специальной обработки, но нормализация и стандартизация улучшают результаты. При работе с числовыми признаками также может быть полезно создать новые признаки, например путём извлечения корня или возведения в квадрат.

* **Бинарные признаки** также можно использовать без специальной обработки. Однако может потребоваться обработка выбросов, так как значения могут быть ограничены только двумя значениями.

* **Текстовые признаки** необходимо преобразовать в числовой формат для использования в модели. Для этого можно применять, например, *CountVectorizer* или *TF-IDF*.

**CountVectorizer** — это метод векторизации текста в машинном обучении, который преобразует текстовые данные в числовые векторы, где каждый элемент вектора соответствует количеству вхождений определённого слова в документ. Таким образом, каждый документ представлен в виде вектора, где размерность вектора равна общему числу уникальных слов во всех документах, а каждый элемент вектора соответствует количеству вхождений соответствующего слова в документ.

**TF-IDF (Term Frequency-Inverse Document Frequency)** — это метод векторизации текста, который используют для вычисления важности слова в документе на основе его частоты встречаемости в этом документе и общего количества документов, в которых встречается это слово.

*TF-IDF* учитывает, что некоторые слова могут часто встречаться во многих документах, поэтому их нельзя использовать для того, чтобы отличить один документ от другого. С другой стороны, редкие слова, которые встречаются только в некоторых документах, могут предоставить более ценную информацию для их классификации. TF-IDF вычисляется путём умножения частоты слова в документе (*Term Frequency — TF*) на обратную частоту документа (*Inverse Document Frequency — IDF*).

* **Географические признаки** можно преобразовать в числовой формат, например через координаты или почтовый индекс. При работе с географическими признаками также могут быть полезны новые признаки — расстояние между объектами или количество объектов в радиусе действия.

* **Временные признаки** можно использовать без специальной обработки, но также могут быть полезны новые признаки, например, день недели или время суток.

**5. ПРЕДОБРАБОТКА ПРИЗНАКОВ**

**Предобработка признаков** — это процесс подготовки данных перед применением модели МО. Цель предобработки — привести данные к такому виду, который будет оптимальным для обучения модели и получения максимальной точности предсказаний.

Этапы предобработки признаков в машинном обучении:

* Обработка выбросов, заполнение пропущенных значений и т. д.

* Преобразование признаков — преобразование данных в числовой формат, нормализация и масштабирование признаков, преобразование категориальных признаков и т. д.

Рассмотрим эти этапы предобработки подробнее.

ОБРАБОТКА ВЫБРОСОВ

**Обработка выбросов** — это процесс идентификации и обработки экстремальных значений (наблюдений), которые могут исказить результаты анализа и привести к ошибочным выводам.

Выбросы могут возникать из-за ошибок в измерениях, аномалий в данных или других факторов.

Существует несколько способов обработки выбросов.

**Замена выбросов** на какое-то более типичное значение. Это может быть медиана, среднее или любое другое значение, которое соответствует типичным значениям признаков в выборке данных.

**Удаление выбросов.** Важно помнить, что удаление выбросов может привести к потере информации. Поэтому решение о том, следует ли удалять выбросы, должно быть основано на конкретной задаче и анализе данных.

Существует несколько способов удалить выбросы:

  * **Метод межквартильного размаха (interquartile range, IQR)** основан на вычислении межквартильного размаха данных, который определяет расстояние между 25-м и 75-м процентилем данных. Затем выбросы определяются как значения, находящиеся за пределами верхнего и нижнего порогов, определяемых как $\text{Q1} - 1.5 \ * \ \text{IQR}$ и $\text{Q3} + 1.5 \ *\  \text{IQR}$ соответственно.

  * **Удаление выбросов на основе статистических критериев.** Этот метод использует статистические критерии (Z-оценку или T-тест) для определения, является ли значение выбросом. Если оно превышает определённый пороговый уровень, то считается выбросом и удаляется.

* **Использование робастных (устойчивых к выбросам) моделей.** Робастные модели машинного обучения устойчивы к выбросам и могут работать более точно, даже если в выборке есть выбросы. Например, линейные модели, которые используют *L1*-регуляризацию (*Lasso*) или *L2*-регуляризацию (*Ridge*), могут быть более устойчивыми к выбросам, чем стандартные линейные модели.

Некоторые алгоритмы машинного обучения (метод случайных деревьев, градиентный бустинг) могут учитывать выбросы, используя различные стратегии сэмплирования и ансамблирования.

* **Проведение дополнительного исследования.** Если выбросы вызваны реальными аномалиями, то они могут содержать важную информацию о данных. Поэтому может быть полезно провести дополнительное исследование, чтобы понять, почему выбросы возникли и как их можно использовать в моделировании.

ЗАПОЛНЕНИЕ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ

Некоторые значения могут быть пропущены или недоступны, например из-за ошибок или недоступности источника данных. Пропущенные значения можно заменить средним, медианным или модальным значением или использовать другие методы заполнения, например на основе предсказаний модели.


ПРЕОБРАЗОВАНИЕ ДАННЫХ В ЧИСЛОВОЙ ФОРМАТ

У некоторых признаков может быть неправильный тип данных, например, строковые данные вместо числовых. Необходимо преобразовать типы данных в правильный формат.

НОРМАЛИЗАЦИЯ И МАСШТАБИРОВАНИЕ ПРИЗНАКОВ

**Нормализация и масштабирование признаков** — это процесс приведения значений признаков к определённому диапазону или масштабу. Это важная часть предобработки данных в МО, которая может улучшить качество модели.

Многие алгоритмы машинного обучения требуют, чтобы все признаки имели одинаковый масштаб, так как некоторые из них могут быть гораздо вариативнее других. Например, если у нас есть признаки «возраст» (от 0 до 100 лет) и «ежемесячный доход» (от 0 до 1 000 000 рублей), то ежемесячный доход будет иметь значительно большую вариативность. Это может привести к тому, что алгоритмы МО будут отдавать большее значение признаку с большей вариативностью.

*Существует несколько основных методов масштабирования признаков.*

**Нормализация**

**Нормализация (MinMax-нормализация)** преобразует значения признаков в диапазон от 0 до 1 или от -1 до 1.

Это можно сделать с помощью формулы:
$$x_{\text {norm }}=\frac{x-x_{\min }}{x_{\max }-x_{\min }}$$
, где:

 $x$ — исходное значение;

$x_{min}$ и $x_{max}$ — минимальное и максимальное значения в наборе данных;

$x_{norm}$ — нормализованное значение.

Рассмотрим MinMax-нормализацию на примере числового признака «возраст»:

<table style="width: 60%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;"><strong>Возраст</strong></td>
<td style="width: 50%; padding-left: 10px;">MinMax-нормализация</td>
</tr>
<tr>
<td>20</td>
<td>0.0000</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>30</td>
<td>0.3333</td>
</tr>
<tr>
<td>40</td>
<td>0.6667</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>50</td>
<td>1.0000</td>
</tr>
</tbody>
</table>

Для каждого значения признака мы вычисляем новое значение, используя формулу, приведённую выше. В этом примере минимальное значение возраста равно 20, а максимальное — 50. Применяя формулу, мы получаем новые значения признака, которые находятся в диапазоне от 0 до 1. Например, возраст 30 будет масштабирован до 0.3333, а возраст 50 — до 1.0000.

*MinMax*-нормализация может быть полезна, когда значения признаков имеют разный масштаб и диапазон значений. Однако необходимо быть осторожным при применении *MinMax*-нормализации, если выборка содержит выбросы, так как они могут сильно искажать результаты масштабирования. Кроме того, необходимо обрабатывать случаи, когда в тестовой выборке встречаются значения признака, которых не было в обучающей выборке.

**Стандартизация**

**Стандартизация (L2 масштабирование, Z-оценка)** преобразует значения признаков в распределение со средним значением 0 и стандартным отклонением 1.

Это можно сделать с помощью формулы:
$$x_{s t d}=\frac{x-\mu}{\sigma}$$
, где:

$x$ — значение признака;

$\mu$ — среднее значение признака в выборке;

$\sigma$ — стандартное отклонение признака в выборке.

Рассмотрим стандартизацию на примере числового признака «возраст»:

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;"><strong>Возраст</strong></td>
<td style="width: 50%; padding-left: 10px;">Стандартизация</td>
</tr>
<tr>
<td>20</td>
<td>-1.3416</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>30</td>
<td>-0.4472</td>
</tr>
<tr>
<td>40</td>
<td>0.4472</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>50</td>
<td>1.3416</td>
</tr>
</tbody>
</table>

Для каждого значения признака мы вычисляем новое значение, используя формулу, приведённую выше.

В примере среднее значение возраста равно 35, а стандартное отклонение — 12.5. Применяя формулу, мы получаем новые значения признака, которые находятся в стандартном нормальном распределении со средним значением, равным 0, и стандартным отклонением, равным 1. Например, возраст 30 будет масштабирован до -0.4472, а возраст 50 — до 1.3416.

Стандартизация может быть полезна, когда значения признаков имеют разный масштаб и диапазон значений, но при этом не содержат выбросы. Стандартизация также может улучшить качество модели, которая использует линейные методы машинного обучения, так как они часто основаны на предположении о стандартном нормальном распределении данных.

*Выбор метода масштабирования признаков зависит от конкретной задачи и данных. Также важно отметить, что в производственной среде масштабирование признаков следует выполнять только на тренировочных данных, а затем применять те же параметры масштабирования на тестовых данных и новых данных.*

ПРЕОБРАЗОВАНИЕ КАТЕГОРИАЛЬНЫХ ПРИЗНАКОВ

Категориальные признаки (например, цвет, размер, марка автомобиля) — один из типов данных, используемых в машинном обучении. Однако многие алгоритмы машинного обучения работают только с числовыми данными. Поэтому необходимо преобразовать категориальные признаки в числовые. Этот процесс называется **кодированием категориальных признаков.**

Существует несколько методов кодирования категориальных признаков.

**One-Hot Encoding**

Этот метод преобразует каждую категориальную переменную в набор бинарных переменных. Для каждого уникального значения переменной создаётся отдельная бинарная переменная. Если переменная принимает значение, равное значению категории, то соответствующая бинарная переменная будет равна 1, в противном случае — 0.

Рассмотрим *One-Hot Encoding* на примере категориального признака «фрукт» с тремя уникальными значениями: яблоко, банан и апельсин.

<table style="width: 80%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 25%; padding-left: 10px;">Фрукт</td>
<td style="width: 25%; padding-left: 10px;">Яблоко</td>
<td style="width: 25%; padding-left: 10px;">Банан</td>
<td style="width: 25%; padding-left: 10px;">Апельсин</td>
</tr>
<tr>
<td style="text-transform: uppercase;"><strong>Яблоко</strong></td>
<td>1</td>
<td>0</td>
<td>0</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td style="text-transform: uppercase;"><strong>Банан</strong></td>
<td>0</td>
<td>1</td>
<td>0</td>
</tr>
<tr>
<td style="text-transform: uppercase;"><strong>Апельсин</strong></td>
<td>0</td>
<td>0</td>
<td>1</td>
</tr>
</tbody>
</table>

Каждый уникальный фрукт превращается в отдельный столбец, значениями в котором могут быть 1 или 0 в зависимости от того, какой фрукт присутствует в конкретном наблюдении. Если в наблюдении присутствуют несколько фруктов, соответствующие столбцы получат значение 1.

В приведённом примере первое и последнее наблюдение содержат яблоко, поэтому столбцы «Яблоко» для этих наблюдений имеют значение 1. Второе и четвёртое наблюдение содержат банан, поэтому соответствующий столбец «Банан» имеет значение 1. Третье и шестое наблюдение содержат апельсин, поэтому соответствующий столбец «Апельсин» имеет значение 1.

**Label Encoding**

Этот метод присваивает каждому уникальному значению категориальной переменной уникальный целочисленный код.

Рассмотрим *Label Encoding* на примере категориального признака «фрукт» с тремя уникальными значениями: яблоко, банан и апельсин.

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;">Фрукт</td>
<td style="width: 50%; padding-left: 10px;">Код</td>
</tr>
<tr>
<td>Яблоко</td>
<td>1</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Банан</td>
<td>2</td>
</tr>
<tr>
<td>Апельсин</td>
<td>3</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Банан</td>
<td>2</td>
</tr>
<tr>
<td>Яблоко</td>
<td>1</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Апельсин</td>
<td>3</td>
</tr>
</tbody>
</table>

Каждая уникальная категория получает уникальный числовой код. В этом примере яблоко имеет код 1, банан — код 2, а апельсин — код 3.

При использовании *Label Encoding* важно знать, что коды не являются порядковыми. То есть код 2 для банана не означает, что банан в два раза больше яблока. Коды используются только для идентификации категорий.

*Label Encoding* может быть полезен, когда категории обладают некоторой внутренней упорядоченностью: например, признак «образование», где можно использовать порядковые числа для идентификации уровней образования. Однако если категории не обладают внутренней упорядоченностью (например, цвета), то использование *Label Encoding* может быть менее эффективным.

**Mean Encoding (также Target Encoding)**

Этот метод преобразует категориальные признаки в числовые значения, которые представляют среднее значение целевой переменной для каждой категории.

Допустим, у нас есть набор данных с категориальным признаком «цвет» и целевой переменной «цена». Мы хотим закодировать категориальный признак «цвет» с помощью Mean Encoding.



Посчитаем среднее значение целевой переменной для каждой категории «цвета»:

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;">Цвет</td>
<td style="width: 50%; padding-left: 10px;">Цена</td>
</tr>
<tr>
<td>Красный</td>
<td>10</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Зеленый</td>
<td>20</td>
</tr>
<tr>
<td>Синий</td>
<td>30</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Красный</td>
<td>15</td>
</tr>
<tr>
<td>Зеленый</td>
<td>25</td>
</tr>
</tbody>
</table>

Средние значения для каждой категории:

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;">Цвет</td>
<td style="width: 50%; padding-left: 10px;">Цена</td>
</tr>
<tr>
<td>Красный</td>
<td>12.5</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Зеленый</td>
<td>22.5</td>
</tr>
<tr>
<td>Синий</td>
<td>30.0</td>
</tr>
</tbody>
</table>

Заменим значения категориального признака «цвет» на его средние значения:

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;">Цвет</td>
<td style="width: 50%; padding-left: 10px;">Цена</td>
</tr>
<tr>
<td>Красный</td>
<td>12.5</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Зеленый</td>
<td>22.5</td>
</tr>
<tr>
<td>Синий</td>
<td>30.0</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Красный</td>
<td>12.5</td>
</tr>
<tr>
<td>Зеленый</td>
<td>22.5</td>
</tr>
</tbody>
</table>

Таким образом, мы закодировали категориальный признак «цвет» в числовые значения с помощью *Mean Encoding*, используя информацию о целевой переменной «цена». Это может улучшить точность модели машинного обучения при работе с категориальными признаками.

**Frequency Encoding**

Этот метод присваивает каждому уникальному значению категориальной переменной частоту его появления в данных.

Рассмотрим *Frequency Encoding* на примере категориального признака «фрукт» с тремя уникальными значениями: яблоко, банан и апельсин.

<table style="width: 50%; margin: auto;">
<tbody>
<tr style="background-color: #88cdb2; vertical-align: middle; text-transform: uppercase; color: #062425; font-weight: bold;">
<td style="width: 50%; padding-left: 10px;">Фрукт</td>
<td style="width: 50%; padding-left: 10px;">Frequency Encoding</td>
</tr>
<tr>
<td>Яблоко</td>
<td>0.3333</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Банан</td>
<td>0.3333</td>
</tr>
<tr>
<td>Апельсин</td>
<td>0.3333</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Банан</td>
<td>0.3333</td>
</tr>
<tr>
<td>Яблоко</td>
<td>0.3333</td>
</tr>
<tr style="background-color: #f5f5f5;">
<td>Апельсин</td>
<td>0.3333</td>
</tr>
</tbody>
</table>

Каждое уникальное значение категориального признака заменяется на частоту его появления в данных. В этом примере все три значения фруктов встречаются по два раза, поэтому их частота равна $\frac{2}{6} = 0.3333$. В строках, где фрукт повторяется, значения Frequency Encoding остаются одинаковыми.

*Frequency Encoding* может быть полезен, когда категории не имеют внутренней упорядоченности, а частота появления категории в данных может быть связана с целевой переменной. Однако при использовании *Frequency Encoding* необходимо быть осторожным, чтобы избежать переобучения модели. Кроме того, необходимо обработать случаи, когда в тестовой выборке встречаются значения категориального признака, которых не было в обучающей выборке.

В зависимости от исходных данных перечисленные методы можно применять как отдельно, так и в сочетании друг с другом.

**6. СОЗДАНИЕ НОВЫХ ПРИЗНАКОВ**

**Создание новых признаков (feature engineering)** в машинном обучении — это процесс преобразования исходных данных в новые признаки, которые могут улучшить качество модели и её способность к предсказанию.

Ниже перечислены некоторые методы создания новых признаков в машинном обучении.


* **Инженерия признаков на основе знаний об отрасли.** В этом подходе эксперты отрасли и/или аналитики создают новые признаки на основе своих знаний о предметной области. Это может включать в себя социально-экономические показатели, метеорологические данные, информацию об исторических событиях и т. д.

  Например, в медицинских данных на основе роста и веса пациента можно создать признак «индекс массы тела» (BMI), используя специальную формулу

* **Преобразование существующих признаков.** В этом подходе существующие признаки можно преобразовать в новые с помощью математических операций логарифмирования, возведения в степень, извлечения корня и т. д.

* **Извлечение значений из других признаков.** Так, можно извлечь день недели или время из даты и времени.

* **Создание признаков на основе текстов.** При анализе текстовых данных новые признаки можно создать, извлекая ключевые слова и фразы, используя стемминг, лемматизацию, *CountVectorizer*, *TF-IDF*, *BPE*, а также методы МО для анализа тональности и определения тем.

* **Создание признаков на основе временных рядов.** При анализе временных рядов новые признаки можно создать путём вычисления статистических показателей: скользящего среднего, стандартного отклонения, корреляции и т. д.

**7. ОТБОР ПРИЗНАКОВ**

**Отбор признаков (feature selection)** — это процесс выбора из множества доступных признаков наиболее значимых, которые будут использоваться для обучения модели. Цель отбора признаков — уменьшить размерность данных, устранить шум, повысить точность модели и улучшить её интерпретируемость.

Существует несколько методов отбора признаков:

* **Рекурсивное устранение признаков (recursive feature elimination).** Алгоритм удаляет признаки с наименьшей важностью для модели, пока не останется необходимое число признаков.

* **Подход на основе важности признаков.** Важность признаков для модели определяют с помощью алгоритмов (случайный лес или градиентный бустинг). На основе этого отбирают наиболее важные признаки.

* **Подход на основе корреляции признаков.** Признаки, которые сильно коррелируют друг с другом, могут увеличивать сложность модели без улучшения её качества. Поэтому такие признаки удаляют.

Важно понимать, что отбор признаков — это процесс, который может повлиять на точность модели. Поэтому необходимо тщательно оценить каждый метод и выбрать наиболее подходящий в конкретной ситуации.

# 4/7  4. Оценка качества алгоритмов обучения с учителем

**Цель занятия** — научиться самостоятельно подбирать подходящую метрику качества.

Прежде чем начать работать с алгоритмами машинного обучения, давайте разберёмся, как оценивать качество их работы. Это позволит в дальнейшем оценивать все алгоритмы, с которыми мы будем иметь дело. Для этого используются специальные формулы — метрики качества.

**Метрики качества** в машинном обучении нужны для оценки качества работы алгоритмов. Они позволяют сравнивать разные модели машинного обучения и выбирать наилучшую для конкретной задачи. Кроме того, метрики качества позволяют определить, насколько хорошо обученная модель справляется с поставленной перед ней задачей и насколько её результаты достоверны.

Метрики качества для задачи классификации позволяют определить, насколько точно модель предсказывает метки классов для тестовых данных, а метрики качества для задачи регрессии — насколько близки предсказанные значения к истинным.

Метрики качества можно использовать для выбора оптимального набора *гиперпараметров модели*, настройки её параметров, а также для сравнения разных алгоритмов машинного обучения и выбора наилучшего из них.

**Гиперпараметры модели** — это параметры, которые определяют до обучения модели. Они регулируют поведение алгоритма обучения: скорость обучения, количество скрытых слоёв в нейронной сети, количество деревьев в случайном лесу и т. д.

## <CENTER>МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ

**Метрики качества регрессии** — это числовые характеристики, которые используют для оценки того, насколько хорошо модель регрессии соответствует данным.

Рассмотрим некоторые из наиболее распространённых метрик качества регрессии с примерами.

### СРЕДНЕКВАДРАТИЧНАЯ ОШИБКА

**Среднеквадратичная ошибка (Mean Squared Error, MSE)** — это среднее значение квадратов разностей между прогнозируемыми и фактическими значениями.

Формула для среднеквадратичной ошибки (MSE):
$$M S E=\frac{1}{n} \sum_{i=1}^n\left(y_i-\hat{y}_i\right)^2$$
, где:

* $y_i$ — наблюдаемое значение;

* $\hat{y}_i$ — предсказанное значение.

*MSE* особенно часто используют, когда существует линейная зависимость между признаками и целевой переменной. Это происходит, когда мы имеем дело с непрерывными переменными, например, ценой на недвижимость или доходом.

Так, если у нас есть модель, которая предсказывает количество продаж в магазине, *MSE* можно рассчитать как среднее значение квадратов разностей между прогнозируемыми и фактическими продажами.

### СРЕДНЯЯ АБСОЛЮТНАЯ ОШИБКА

**Средняя абсолютная ошибка (Mean Absolute Error, MAE)** — это среднее значение абсолютных разностей между прогнозируемыми и фактическими значениями.

Формула для средней абсолютной ошибки (MAE):
$$M A E=\frac{1}{n} \sum_{i=1}^n\left|y_i-\hat{y}_i\right|$$
, где:

* $y_i$ — наблюдаемое значение;

* $\hat{y}_i$ — предсказанное значение.

*MAE* чаще используется, когда мы имеем дело с выбросами и выбивающимися значениями. Она более устойчива к выбросам, чем *MSE*.

Предположим, что у нас есть модель, которая прогнозирует цены на недвижимость.*MAE* для этой модели можно рассчитать как среднее значение абсолютных разностей между прогнозируемыми и реальными ценами.

### ФУНКЦИЯ ПОТЕРЬ ХЬЮБЕРА

**Функция потерь Хьюбера (Huber loss)** — это функция потерь, которая комбинирует свойства среднеквадратичной ошибки (MSE) и средней абсолютной ошибки (MAE) в зависимости от значения отклонения. Её используют для задач регрессии и оптимизации моделей машинного обучения.

Формула для функции потерь Хьюбера выглядит следующим образом:
$$L_\delta\left(y_i, \hat{y}_i\right)= \begin{cases}\frac{1}{2}\left(y_i-y_i\right)^2 & \text { если }\left|y_i-y_i\right| \leq \\ \delta\left(\left|y_i-\hat{y}_i\right|-\frac{1}{2} \delta\right) & \text { иначе }\end{cases}$$

Здесь:

* $y_i$ — наблюдаемое значение;

* $\hat{y}_i$ — предсказанное значение;

* $\delta$ — параметр для определения порога между квадратичной и линейной потерями.

Функция потерь Хьюбера вычисляется как среднее значение потерь для всех примеров. Она более устойчива к выбросам, чем *MSE*, так как уменьшает вклад выбросов в общую ошибку. При этом она сохраняет свойства *MSE*, когда отклонение мало, и свойства *MAE*, когда отклонение большое.

Предположим, что у нас есть модель, которая прогнозирует цены на недвижимость. *Huber loss* для этой модели можно рассчитать как среднее значение функции потерь Хьюбера между прогнозируемыми и реальными ценами. Параметр  можно выбрать в зависимости от того, насколько сильно мы хотим уменьшить влияние выбросов на общую ошибку.

Это только некоторые из наиболее распространённых метрик качества регрессии. В зависимости от задачи и данных можно использовать и другие.

### ОТОБРАЖЕНИЕ МЕТРИК КАЧЕСТВА РЕГРЕССИИ

В основе *MSE, MAE* и функции потерь Хьюбера лежит вычислительный процесс, который учитывает отклонения наблюдений от аппроксимирующей гиперплоскости.

<div class="black-frame">
<figure style="text-align: center;"><img style="margin-bottom: 10px; width: 60%;" src="//lms-cdn.skillfactory.ru/assets/courseware/v1/c56f972223170099df7db8453f241c4e/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/MFTI_MATHML_1_4_002.png" alt="img"> <figcaption><i>Визуализация вычисления метрик качества регрессии</i><br></figcaption></figure>
</div>

Отображение графика отклонений от аппроксимирующей линии для *MSE и MAE* позволяет оценить точность модели и выявить наличие систематических ошибок в предсказаниях.

* Если на графике присутствует какая-то структура или зависимость между отклонениями и значением переменных, это может указывать на недостатки модели и необходимость её улучшения.

* Если график показывает случайное распределение отклонений вокруг нуля, это свидетельствует о том, что модель хорошо справляется с предсказаниями.

## <center>МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ

**Метрики качества классификации** — это числовые характеристики, которые используют для оценки того, насколько хорошо модель классификации соответствует данным.

**КОНЦЕПЦИЯ TP, TN, FP, FN В МЕТРИКАХ КАЧЕСТВА КЛАССИФИКАЦИИ**