# Machine Learning (машинное обучение) 

**Machine Learning (машинное обучение)** *— это направление, объединяющее технологии создания самообучающихся алгоритмов.*

Напомним, что в широком понимании Data Science состоит из трёх частей:

* Data Engineering (инженерия данных),
* Data Analytics (анализ данных),
* Machine Learning (машинное обучение).

В узком смысле под Data Science подразумевается практика применения моделей машинного обучения для различных прикладных задач. Таким образом, главный навык любого дата-сайентиста — это умение выбирать, строить и обучать методы машинного обучения. Без этого навыка невозможно представить профессию; его определённо можно назвать ключевым. Изучению методов машинного обучения и работе с ними мы и посвятим бόльшую часть нашего курса.

**ЦЕЛИ МОДУЛЯ:**

- изучить основные термины машинного обучения,
- познакомиться с видами машинного обучения,
- рассмотреть основные типовые задачи машинного обучения,
- познакомиться с методологиями разработки проектов и детально рассмотреть процесс разработки ML-проектов.

Очень часто на теоретической части собеседования можно услышать вопросы:

- Чем отличается искусственный интеллект от машинного обучения?
- Чем отличается машинное обучение от глубокого обучения?

Поэтому наша первая задача — понять, чем различаются термины **«искусственный интеллект»**, **«машинное обучение»** и **«глубокое обучение»**. Они тесно связаны между собой, но в то же время имеют принципиальные различия. Приступим!

### ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, МАШИННОЕ И ГЛУБОКОЕ ОБУЧЕНИЕ

Давайте раз и навсегда разграничим для себя эти три термина. Поможет нам в этом следующая схема:

![](./2024-07-20_17-38-12.png)

#### ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

**Искусственный интеллект (Artificial Intelligence, ИИ)** *— это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений (например, выдавать кредит заёмщику или нет).*

Искусственный интеллект — это комплексная наука, находящаяся на стыке математики, биологии, психологии, логики и многих других дисциплин.

    Цель этой науки — понять, как устроен мозг человека и научиться моделировать его работу с помощью компьютера. 

Существует два типа искусственного интеллекта:

**СЛАБЫЙ ИИ (WEAK AI)**

Слабый ИИ способен решать только одну задачу. Зачастую он справляется с ней даже лучше, чем человек. В качестве примера слабого ИИ можно назвать Deep Blue. Это компьютерная программа, которая обыграла Гарри Каспарова в шахматы ещё в 1996 году. Но Deep Blue не умеет делать ничего другого и никогда этому не научится.

Слабый ИИ используют в медицине, логистике, банковском деле, бизнесе.

Вот ещё несколько примеров слабого ИИ:

* Искусственный интеллект от Google смог опередить опытных врачей в точности диагностики рака молочной железы. Чтобы это сделать, использовали сотни тысяч результатов скрининга. По данным Американского онкологического общества, врачи не диагностируют рак примерно в 20 % случаев и часто ставят ложный диагноз. ИИ не только поставил более точный диагноз, чем врачи, — на 9.4 % точнее, — но и чаще указывал на болезнь там, где онкологи не сумели её распознать.
* Amazon — одна из ведущих ИИ-компаний в мире — разработала систему Fraud Detector. Она помогает бороться с онлайн-мошенничеством, из-за которого люди и компании теряют миллионы долларов. Алгоритм следит за действиями пользователей в реальном времени, находит их и сообщает об аномалиях — например, помечает подозрительные заказы, которые нужно проверить до совершения платежа. Это можно использовать в банках, онлайн-магазинах и крупных компаниях.
* Беспилотные автомобили Waymo благодаря машинному обучению способны передвигаться по реальным дорогам без вреда для пассажиров и прохожих.

**СИЛЬНЫЙ ИИ (STRONG AI)**

Сильный искусственный интеллект пока остаётся мечтой.

    Это интеллект, которые решает множество задач и умеет обучаться для решения других. Сильный ИИ осознаёт себя и своё существование.

То, как мог бы выглядеть сильный искусственный интеллект, можно увидеть в игре "Detroit: Become Human", а также в сериале «Воспитанные волками», главные герои которого — андроиды, обученные для воспитания последних человеческих детей. В обеих этих вселенных роботы способны учиться, мыслить, чувствовать, осознавать себя и принимать решения. Одним словом, они становятся похожими на человека.

В нашей реальности ближе всего к Strong AI находятся чат-боты и виртуальные ассистенты, которые имитируют человеческое общение. Ключевое слово здесь — имитируют. Siri или Алиса не думают и неспособны принимать решения в ситуациях, которым их не обучили.

В области искусственного интеллекта есть несколько подразделов:

* робототехника *(Robotics)*,
* компьютерное зрение *(Computer Vision)*,
* обработка естественного языка *(Natural Language Processing)*,
* машинное обучение *(Machine Learning)*.

Нас будет интересовать только машинное обучение, остальные подразделы мы не будем рассматривать в нашем курсе. Стоит также отметить, что такое разделение очень условно и ни одна из приведённых областей не исключает другую.

**МАШИННОЕ ОБУЧЕНИЕ**

**Машинное обучение (Machine Learning)** *— это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.*

Машинное обучение как науку можно отнести к разделу прикладной математики. Оно находится на стыке статистики, математического анализа, линейной алгебры, численных методов оптимизации и дискретной математики.

        В шутку можно сказать, что машинное обучение — это старая наука, так как статистические методы и теоремы, на которых основано современное машинное обучение, зародились ещё в XVIII-XIX веках и связаны с работами И. Гаусса, Д. Бернулли, П. Лапласа и других.

        Однако сам термин Machine Learning вошёл в употребление только в 1959 году. Он связан с появлением возможностей обрабатывать большие данные и программировать статистические методы на компьютерах (машинах). С тех пор теория машинного обучения сделала невероятный скачок по сравнению с классической статистикой. Ранние методы получили своё развитие и нашли применение во многих прикладных задачах.

        С математическими основами машинного обучения мы будем более детально знакомиться в следующем блоке нашего курса.

Всё машинное обучение держится на трёх очень важных столпах:

**Набор данных (dataset)** *— это множество примеров (выборка), на котором происходит обучение модели. Это могут быть табличные данные, с которыми мы уже работали, текст, аудио, изображения (видео) и т. д.*

Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.

Помимо самих данных, всегда нужно помнить об их «качестве». Мы с вами уже неоднократно говорили на протяжении курса: «Мусор на входе — мусор на выходе».


**Признаки (features)** *— это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.*

Признак, который мы хотим предсказать, называется **целевым признаком (target feature)**. Иногда признаки, на основе которых мы хотим предсказать целевой, могут называться **факторами (factors)**.

Например, хотим предсказать цену недвижимости, цена — наш целевой признак, остальные (площадь, этаж, район) — факторы.

В случае с табличными данными всё предельно просто: признаки — это столбцы таблицы. Но всё становится сложнее в случае с картинкой или звуком. Что является признаками для таких данных? Ответ на этот вопрос мы узнаем в модулях по глубокому обучению.


**Модель машинного обучения (ML-model)** *— это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.*

В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком. Вспомним пример из школы: формула y = kx^2 связывает целевую переменную y и фактор x квадратичной зависимостью, а коэффициент k — это параметр.

В более обширном понимании модель может выражаться не формулой — это может быть математически описанная последовательность действий (**алгоритм**).

Математическая основа моделей позволяет реализовывать их в виде программ. Так, в Python существуют библиотеки, содержащие в себе уже запрограммированные алгоритмы, в которые достаточно лишь подать данные, и они обучаются сами. Примером может являться уже знакомая вам библиотека sklearn.

*Управляя своими параметрами, модель подстраивается под зависимости в данных, чтобы описать эту зависимость и свести ошибку в предсказаниях к минимуму. Такой процесс называется* **обучением модели (model learning)**.

Самый распространённый процесс обучения (обучение с минимизацией ошибки) модели можно описать упрощённой схемой:

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-2_1.png)

**Давайте разберём части этой схемы ↓**

Предположим, мы обучаем модель для предсказания цены недвижимости. У нас есть некоторые факторы, например площадь дома, количество комнат в нём, коэффициент преступности в районе и т. д. Также есть целевая переменная — собственно, цена недвижимости.

В модель поступают примеры описания домов — *факторы*. Модель на основе примеров выдаёт какое-то предсказание. В самом начале обучения модели результаты будут весьма странными и непредсказуемыми, поскольку, как правило, её параметры проинициализированы случайными значениями. Но если мы правильно поправим параметры, то сможем получить ответ, близкий к реальному. Но параметры могут изменяться как угодно — как выбрать правильные?

*За управление параметрами отвечает некоторая **функция ошибки**, или, как её ещё называют, **функция потерь (loss function)**. Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.*

Самый простой пример функции ошибки — **MSE (Mean Squared Error)**, средний квадрат разницы между ответами. Формально она записывается следующим образом:

![](./2024-07-20_17-52-22.png)

где $y$ — истинные ответы, $y^-_i$ — предсказания, $n$ — количество примеров.

Например, модель предсказала для какого-то дома цену в 15 тыс. долларов, а он на самом деле стоит 20 тыс. долларов. Считаем квадрат ошибки (SE) для этого примера: $(20 - 15)^2 = 5^2 = 25$. А если посчитать такую ошибку для нескольких примеров и взять среднее, получим MSE.

Теперь на основе значения MSE меняем параметры таким образом, чтобы уменьшить эту ошибку (свести её к минимуму).

    → Как нам это сделать? Это отдельный вопрос, которым занимается теория оптимизации. Обсудим его в своё время, а пока нам важно понять принцип.

Суть всего обучения и заключается в поиске параметров.

В нашей схеме мы подаём данные в модель, считаем ошибку и сводим её к минимуму, меняя параметры. Мы пытаемся подобрать такие параметры модели, при которых функция ошибки нашего предсказания была бы наименее возможной на предоставленных данных. Такие параметры называются **оптимальными**. Как правило, обучение заканчивается, когда мы прогнали через модель все доступные обучающие примеры.

    Примечание. Рассмотренная схема называется обучением на основе минимизации ошибок, или, говоря более научным языком, минимизацией эмпирического риска (риска ошибки).

    Стоит отметить, что такая схема обучения далеко не единственная и подходит не для всех моделей. Однако она является наиболее популярной.

    Помимо обучения на основе ошибок, существуют следующие схемы:

    - на основе прироста информации (используются в деревьях решений);
    - на основе «сходства» объектов (используется в методе ближайших соседей);
    - на основе вероятностных законов (например, метод максимального правдоподобия).
    
    Каждую из неописанных пока схем мы рассмотрим в своё время.

    Более того, мы увидим, что бывают задачи, где нет правильных ответов, то есть мы не можем подсчитать функцию ошибки. Этот класс задач называется обучением без учителя.

*Допустим, мы обучили модель, но теперь возникает вопрос: а как оценить её качество? А что, если мы обучили не одну, а несколько моделей? Как сравнить их по качеству?*

Первая идея, которая приходит в голову, — посмотреть на финальное значение функции ошибки и сравнить модели по нему. Но тут мы сразу столкнёмся с проблемой.

Очень часто функции ошибок сложно интерпретировать: например, существует функция ошибки log loss (логистическая функция потерь), она может изменяться от 0 до бесконечности. Непонятно, что считать хорошим качеством, а что — плохим, где эта грань. Например, 15.332 — это хороший результат? А 1.67 — это хороший результат? К тому же, если вам надо узнать, как часто ваша модель угадывает правильный ответ, log loss вам этого не скажет.

Поэтому для оценки качества модели вводится ещё одно понятие — **метрика**.

**Примечание**. Метрика ≠ функция потерь.

**Метрика (metric)** *— это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.*

Например, если сказать заказчику, что логистическая функция потерь (log loss) модели составила 1.67, он вас, скорее всего, не поймёт, ведь он не знает, плохо это или хорошо. А вот если сказать ему, что точность предсказания модели (метрика accuracy) составила 87 %, заказчик определённо поймёт, о чём идёт речь.

Вот теперь, когда мы с вами разобрались с основными понятиями и составили общее представление о процессе обучения модели, стоит перейти к примеру.

**ПРИМЕР ОБУЧЕННОЙ МОДЕЛИ**

Самый простой пример модели машинного обучения — **линейная регрессия**, с которой мы будем знакомиться уже в следующем модуле.

Суть алгоритма очень проста: мы пытаемся описать зависимость в данных в виде некоторой прямой. Из школьного курса математики нам известно, что уравнение прямой в двумерном случае записывается в следующем виде:

$$y=kx + b,$$

где:

 $x$ — это некоторый признак (фактор), от которого зависит целевая переменная $y$: например, зависимость объёма продаж в магазине в млн долларов ($y$) от его площади в тыс. квадратных футов ($x$);
 $k$ — коэффициент наклона прямой;
 $b$ — коэффициент смещения прямой по оси $y$.

Настраивая параметры $k$ и $b$, мы можем найти их оптимальные значения и тем самым подстроить прямую под наши данные. Пример — ниже:

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-2_2.png)

Был собран набор данных об объёмах годовых продаж в различных магазинах. Признаком, от которого зависит объём продаж, выступает площадь магазина. На этом наборе данных было произведено обучение модели — линейной регрессии. В качестве функции потерь использовалась среднеквадратичная ошибка (MSE).

В результате этого обучения были найдены оптимальные параметры модели — коэффициенты прямой: $k = 1.6699$, $b = 0.9645$.

Самое приятное в модели линейной регрессии то, что её параметры (коэффициенты) можно интерпретировать:

Например, параметр $k$ означает, на сколько в среднем изменится объём годовых продаж при увеличении площади здания на одну тысячу квадратных футов. То есть если площадь здания увеличится на одну тысячу квадратных футов, объём продаж в среднем увеличится примерно на 1.7 млн долларов.

Математически параметр $b$ показывает, чему будет равен $y$ (объём прибыли) при $x = 0$ (площадь равна 0). Однако данный коэффициент не стоит воспринимать бездумно, иначе можно сказать, что если магазина не существует (площадь = 0), то он приносит примерно 965 тысяч долларов прибыли, что, конечно же, абсурд. Поэтому говорят, что данный коэффициент показывает влияние внешних факторов, не учтённых в модели. Но лучше вообще не пытаться интерпретировать этот коэффициент, когда дело касается экономических задач.

Была рассчитана метрика $R^2$ — это метрика качества линейной модели (формулу для расчёта этой метрики мы приведём в следующем модуле). Она интерпретируется как доля информации (дисперсии), которую описывает модель. Чем она ближе к 1, тем лучше модель описывает зависимость в данных. Значение $R^2 = 0.902$ — хороший показатель: это значит, что модель хорошо описывает наши данные.

Теперь, если в нашей торговой сети будет построен новый магазин, то, подставив значение его площади в уравнение прямой, мы сможем предсказать объём годовых продаж в этом магазине.

Помимо линейной регрессии, существует множество видов моделей машинного обучения, причём чаще всего они разработаны для решения конкретного типа задач, о которых мы поговорим дальше.

Многие классические методы пришли к нам из прикладной статистики и нашли своё применение в бизнес-задачах. Благодаря тому что мир не стоит на месте, постоянно выходят новые алгоритмы и модернизации уже существующих.

Вот лишь несколько примеров моделей (алгоритмов) машинного обучения, которые мы будем изучать на курсе:

* линейная регрессия (Linear Regression),
* логистическая регрессия (Logistic Regression),
* наивный метод Байеса (Naive Bayes),
* метод k ближайших соседей (kNN),
* деревья решений (Decision Tree),
* случайный лес (Random Forest),
* градиентный бустинг (Gradient Boosting),
* нейронные сети (Neural Network).

**ГЛУБОКОЕ ОБУЧЕНИЕ**

**Глубокое обучение (Deep Learning)** *— подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач ***искусственных нейронных сетей***. Данные алгоритмы основаны на имитации работы человеческого мозга.*

Глубокому обучению и нейронным сетям мы посвятим отдельную часть нашего курса, разберём то, как они устроены, как работают и для чего предназначены.

Сейчас, как вы уже, скорее всего, знаете, нейронные сети являются лидером на рынке искусственного интеллекта. Нейронные сети:

* обыгрывают гроссмейстеров в шахматы и нарды;
* используются для биометрии;
* прогнозируют падения акций;
* используются для синтеза речи;
* переводят с одного языка на другой;
* обнаруживают рак на медицинских изображениях.

Кроме того, благодаря нейронным сетям существуют беспилотные автомобили, маски в Instagram и многое другое.

    Но почему только развитие скоростных вычислений и хранение больших объёмов данных смогло дать толчок развитию глубокого обучения? Ответ содержится в главном недостатке нейронных сетей: для их обучения требуется огромное количество данных. И чем сложнее задача, тем больше данных нужно «скормить» сети, чтобы она начала «думать». 

    Обработка больших объёмов данных занимает время и требует больших вычислительных ресурсов, из-за чего нейронные сети могут обучаться часами, днями или неделями.

    Именно по этой причине в истории зафиксированы «зимы глубокого обучения» — периоды застоя, когда человечество попросту не обладало необходимой для обучения мощностью компьютеров.

Самым важным качеством любой нейронной сети является её **архитектура** (набор и порядок её слоёв). От неё зависит качество и скорость обучения. В настоящее время миру известно множество различных архитектур, многие из которых объединены для решения целых классов задач.

Особенности архитектуры нейронной сети позволяют ей работать не только с простым табличным типом данных (низкоразмерная информация), но и с более сложными: текстом, звуком, изображениями, видео. Работа с такими данными либо недоступна для классических моделей, либо её качество оставляет желать лучшего.

Причём благодаря этим особенностям архитектурам можно переводить данные из одного типа в другой: например из текста в изображение (существуют сети, которые по текстовому описанию генерируют изображение) или из аудио в текст (голосовые сообщения в VK переводятся из звука в текст с помощью нейронных сетей).

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-2_3.png)

Однако, как правило, для простых задач, где есть набор данных, представленный признаками, оформленными в виде таблицы (низкоразмерная информация), используют методы классического машинного обучения.

Как показывает практика, в таких задачах разница в качестве моделей является незначительной. Зачем «натравливать» огромную нейронную сеть, которая будет обучаться два часа, на задачу, где хватит обычной линейной регрессии, время обучения которой составляет около одной-двух секунд?

    → Однако смысл есть, когда лишние 2 % точности могут принести вам пару лишних миллионов долларов. Поэтому крупные корпорации так заинтересованы в развитии глубокого обучения.

✍ Подведём небольшой итог:

* Искусственный интеллект — это общее название науки, которая занимается построением моделей, имитирующих деятельность человека. Как, например, общий раздел — химия.
* Машинное обучение — это раздел искусственного интеллекта (важный, но не единственный), который сосредоточен на применении моделей машинного обучения для решения конкретных задач. Как, например, подраздел химии — органическая химия.
* Глубокое обучение — это раздел машинного обучения, который сосредоточен на разработке и обучении нейронных сетей в качестве модели для решения сложных прикладных задач. Как, например, подраздел органической химии — органическая химия углеводородов.

Надеемся, теперь вам понятна разница между этими терминами и вы сможете ответить на вопросы, о которых мы говорили в самом начале.

✍ Ещё несколько популярных вопросов на собеседованиях по машинному обучению звучат следующим образом:

- Назовите основные виды обучения.
- Какие типы задач машинного обучения вы знаете? Приведите примеры алгоритмов для их решения.

Ответ на эти вопросы содержится в следующей карте машинного обучения:

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_1.png)

Данная схема отражает виды машинного обучения (обозначены прямоугольниками), которые в свою очередь делятся на задачи (обозначены овалами). Также на схеме отображены алгоритмы, с помощью которых решаются те или иные задачи. С самими алгоритмами и их работой мы начнём знакомиться уже со следующего модуля, а пока рассмотрим основные виды машинного обучения и типы задач. 

В зависимости от наличия разметки (о том, что такое разметка, мы поговорим ниже) в данных и особенностей обучения выделяют следующие **виды машинного обучения**:

* **обучение с учителем (supervised learning)**,
* **обучение без учителя (unsupervised learning)**.

В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — **обучение с подкреплением (reinforcement learning)**.

При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как **регрессия, классификация, кластеризация, понижение размерности и ассоциация**.

    Примечание. Ассоциацию как задачу мы будем рассматривать поверхностно только в этом модуле. Всем остальным задачам и алгоритмам их решения мы посвятим отдельные модули.

Начнём наше знакомство с видами машинного обучения. Первым рассмотрим обучение с учителем, то есть следующую часть карты:

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_2.png)

#### ОБУЧЕНИЕ С УЧИТЕЛЕМ

    Данный вид обучения основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

    Данные, в которых содержится информация о целевом признаке, называются размеченными.

Разметка данных — это, как правило, довольно сложный и длительный процесс, если его нельзя автоматизировать. Особенно сложна разметка текстов, звука и изображений. Причём легко догадаться, что от качества разметки зависит и качество финальной модели.

Например, для решения задач **классификации**, **детектирования** и **сегментации** объектов на изображениях разметку выполняют вручную.

Представьте, каково это — попиксельно разметить несколько десятков тысяч изображений!

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_3.png)

    Процесс обучения с учителем можно сравнить с тем, как современный школьник готовится к сдаче ЕГЭ на высокий балл. Он решает огромное количество тренировочных вариантов, сверяясь с ответами в конце сборника и обучаясь на своих ошибках.

    Но что, если выпускник идеально выучил ответы для всех вариантов из сборника, но так и не понял, как решаются сложные задачи? Тогда на тренировочном экзамене, где школьнику предложат вариант из того же самого сборника у него будет высший балл. Но на настоящем экзамене варианты разрабатывают эксперты и меняют их каждый год, поэтому, если выпускник так и не понял принцип решения задач, то итоговый балл будет значительно ниже, чем он ожидал.

```На этом же примере можно выявить главную проблему обучения с учителем. Эта проблема называется возможностью переобучения. Это ситуация, когда модель полностью подстраивается под данные, на которых происходит обучение, но на реальных данных показывает значительно более низкое качество. Борьба с переобучением — очень важная задача, о которой мы поговорим отдельно.```

Вид обучения с учителем включается в себя два основных типа задач: регрессия — предсказание числа и классификация — предсказание категории объекта.

**РЕГРЕССИЯ**

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_4.png)

**Задача регрессии (regression)** *— это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.*

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_5.png)

Для регрессии всегда нужен учитель — размеченные данные с признаками и целевым признаком, который машина будет пытаться предсказать.

    К примеру, с помощью регрессии мы предсказываем цену квартиры, рейтинг вина при слепом тестировании, длительность поездки в такси в зависимости от времени суток, желаемую заработную плату соискателя.

    Примечание. На самом деле мы уже сталкивались с задачей регрессии и даже решали её в модуле по знакомству с Kaggle, где мы предсказывали цену авто, и в проекте по EDA, где мы предсказывали рейтинг отеля.

**Цель обучения** *— построить модель, которая отражала бы зависимость между признаками и целевой числовой переменной.*

Классическими методами регрессии являются **линейная (Linear)** и **полиномиальная (Polynomial)** регрессия. Но они являются далеко не единственными.

Линейную регрессию мы с вами уже рассматривали на примере предсказания объёма годовых продаж в прошлом юните. В качестве модели используется уравнение прямой, и зависимость считается линейной.

    Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.

Нередко в качестве отдельного подвида задачи регрессии выделяют задачу прогнозирования. 

**Прогнозирование (forecasting)** *— это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.*

    Примеры таких задач: прогнозирование стоимости ценной бумаги в будущем, ожидаемого дохода магазина на следующий месяц, курса валюты на следующую неделю, выработки электроэнергии на солнечных батареях на следующий месяц.

Методы регрессии с небольшими изменениями подходят и для решения задачи прогнозирования. Однако, как правило, большей эффективностью обладают модели, которые разработаны специально для прогнозирования временных рядов, например:

* **ARIMA**,
* **SARIMA** (модификация ARIMA),
* **ARCH** (модель для финансовых временных рядов).

**КЛАССИФИКАЦИЯ**

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_8.png)

**Задача классификации (classification)** *— задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.*

![](./asset-v1_SkillFactory+DST-3.0+28FEB2021+type@asset+block@dst3-ml1-3_9.png)

Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам.

Классифицировать можно всё что угодно: пользователей по интересам, статьи по языкам и тематикам, музыку по жанрам — вспомните плейлисты Spotify и Яндекс.Музыки, письма в вашем почтовом ящике.

Чаще всего мы сталкиваемся с бинарной классификацией: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0). Например, мы можем предсказать, болен ли пациент раком, является ли изображение человеческим лицом, является ли письмо спамом и т. д.

Когда классов, которые мы хотим предсказать, более двух, классификация называется мультиклассовой (многоклассовой). Например, предсказание модели самолёта по радиолокационным снимкам, классификация животных на фотографиях, определение языка, на котором говорит пользователь, разделение писем на группы.

Забегая вперёд, отметим, что любую мультиклассовую задачу классификации можно свести к бинарной классификации **методом «один против всех»**.

    Суть метода: какую-то из категорий мы обозначаем за 1, а оставшиеся за — 0 и решаем задачу бинарной классификации. Затем повторяем процедуру для остальных категорий.

**Цель обучения** *— построить модель, которая на основе признаков разделяет объекты на классы наилучшим образом. С математической точки зрения это означает построение разделяющей поверхности для классов в пространстве признаков.*

Для решения задачи классификации может использоваться множество моделей:

* **логистическая регрессия (Logistic Regression),**
* **метод опорных векторов (SVM),**
* **деревья решений (Decision Tree),**
* **наивный байесовский классификатор (Naive Bayes),**
* **метод ближайших соседей (kNN).**

    Когда тип данных, которые мы пытаемся классифицировать, более сложный, чем простая Pandas-табличка, — текст, аудио, изображение — то для классификации лучше сразу прибегать к нейронным сетям. Сложность и различные архитектуры сетей позволяют значительно повысить качество классификации по сравнению с классическими алгоритмами.

    Например, с помощью нейронных сетей можно решать задачи классификации музыки по жанрам, комментариев под постами на положительные и отрицательные, животных на картинках.