# **Введение**

**Machine Learning (машинное обучение)** — это направление, объединяющее технологии создания самообучающихся алгоритмов.

Напомним, что в широком понимании Data Science состоит из трёх частей:

* Data Engineering (инженерия данных),
* Data Analytics (анализ данных),
* Machine Learning (машинное обучение).

В узком смысле под Data Science подразумевается **практика применения моделей машинного обучения для различных прикладных задач**. Таким образом, главный навык любого дата-сайентиста — это умение выбирать, строить и обучать методы машинного обучения. Без этого навыка невозможно представить профессию; его определённо можно назвать ключевым.



***
# **Общие понятия ML**

✍ Очень часто на теоретической части собеседования можно услышать вопросы:

* Чем отличается искусственный интеллект от машинного обучения?
* Чем отличается машинное обучение от глубокого обучения?

Поэтому наша первая задача — понять, чем различаются термины **«искусственный интеллект», «машинное обучение» и «глубокое обучение»**. Они тесно связаны между собой, но в то же время имеют принципиальные различия. Приступим!



### **ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ**

**Искусственный интеллект** (Artificial Intelligence, ИИ) — это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений (например, выдавать кредит заёмщику или нет).

Искусственный интеллект — это комплексная наука, находящаяся на стыке математики, биологии, психологии, логики и многих других дисциплин.

Цель этой науки — понять, как устроен мозг человека и научиться моделировать его работу с помощью компьютера. 

Существует два типа искусственного интеллекта:

**СЛАБЫЙ ИИ (WEAK AI)**

Слабый ИИ способен решать только одну задачу. Зачастую он справляется с ней даже лучше, чем человек. В качестве примера слабого ИИ можно назвать Deep Blue. Это компьютерная программа, которая обыграла Гарри Каспарова в шахматы ещё в 1996 году. Но Deep Blue не умеет делать ничего другого и никогда этому не научится.

Слабый ИИ используют в медицине, логистике, банковском деле, бизнесе.

**СИЛЬНЫЙ ИИ (STRONG AI)**

Сильный искусственный интеллект пока остаётся мечтой.

Это интеллект, которые решает множество задач и умеет обучаться для решения других. Сильный ИИ осознаёт себя и своё существование.

В нашей реальности ближе всего к Strong AI находятся чат-боты и виртуальные ассистенты, которые имитируют человеческое общение. Ключевое слово здесь — имитируют. Siri или Алиса не думают и неспособны принимать решения в ситуациях, которым их не обучили.

В области искусственного интеллекта есть несколько подразделов:

* **робототехника** (Robotics),
* **компьютерное зрение** (Computer Vision),
* **обработка естественного языка** (Natural Language Processing),
* **машинное обучение** (Machine Learning).



### **МАШИННОЕ ОБУЧЕНИЕ**

**Машинное обучение (Machine Learning)** — это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.

Машинное обучение как науку можно отнести к разделу прикладной математики. Оно находится на стыке статистики, математического анализа, линейной алгебры, численных методов оптимизации и дискретной математики.

**Состав машинного обучения:**

* **Набор данных (dataset)** — это множество примеров (выборка), на котором происходит обучение модели. Это могут быть табличные данные, с которыми мы уже работали, текст, аудио, изображения (видео) и т. д.  
Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.  
Помимо самих данных, всегда нужно помнить об их «качестве». Мы с вами уже неоднократно говорили на протяжении курса: «Мусор на входе — мусор на выходе».  

* **Признаки (features)**— это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.  
Признак, который мы хотим предсказать, называется целевым признаком (target feature). Иногда признаки, на основе которых мы хотим предсказать целевой, могут называться факторами (factors).  
Например, хотим предсказать цену недвижимости, цена — наш целевой признак, остальные (площадь, этаж, район) — факторы.  
В случае с табличными данными всё предельно просто: признаки — это столбцы таблицы. Но всё становится сложнее в случае с картинкой или звуком. Что является признаками для таких данных? Ответ на этот вопрос мы узнаем в модулях по глубокому обучению.

* **Модель машинного обучения (ML-model)** — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.
В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком. Вспомним пример из школы: формула y = kx^2 связывает целевую переменную y и фактор x квадратичной зависимостью, а коэффициент k — это параметр.  
В более обширном понимании модель может выражаться не формулой — это может быть математически описанная последовательность действий (алгоритм).  
Математическая основа моделей позволяет реализовывать их в виде программ. Так, в Python существуют библиотеки, содержащие в себе уже запрограммированные алгоритмы, в которые достаточно лишь подать данные, и они обучаются сами. Примером может являться уже знакомая вам библиотека sklearn.  
Управляя своими параметрами, модель подстраивается под зависимости в данных, чтобы описать эту зависимость и свести ошибку в предсказаниях к минимуму. Такой процесс называется обучением модели (model learning).

![схема ML](https://lms.skillfactory.ru/assets/courseware/v1/5fac5fe11d423f674949523e3db643c9/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml1-2_1.png)

**Давайте разберём части этой схемы**

Предположим, мы обучаем модель для предсказания цены недвижимости. У нас есть некоторые факторы, например площадь дома, количество комнат в нём, коэффициент преступности в районе и т. д. Также есть целевая переменная — собственно, цена недвижимости.

В модель поступают примеры описания домов — факторы. Модель на основе примеров выдаёт какое-то предсказание. В самом начале обучения модели результаты будут весьма странными и непредсказуемыми, поскольку, как правило, её параметры проинициализированы случайными значениями. Но если мы правильно поправим параметры, то сможем получить ответ, близкий к реальному. Но параметры могут изменяться как угодно — как выбрать правильные?

За управление параметрами отвечает некоторая **функция ошибки**, или, как её ещё называют, **функция потерь (loss function)**. Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.

Самый простой пример функции ошибки — **MSE (Mean Squared Error)**, средний квадрат разницы между ответами. Формально она записывается следующим образом:

![formula](data\f1.png)

где y — истинные ответы, y` — предсказания, n — количество примеров.

Например, модель предсказала для какого-то дома цену в 15 тыс. долларов, а он на самом деле стоит 20 тыс. долларов. Считаем квадрат ошибки (SE) для этого примера: (20-15)^2 = 5^2 = 25. А если посчитать такую ошибку для нескольких примеров и взять среднее, получим MSE.

Теперь на основе значения MSE меняем параметры таким образом, чтобы уменьшить эту ошибку (свести её к минимуму).  
Как нам это сделать? Это отдельный вопрос, которым занимается **теория оптимизации**. Обсудим его в своё время, а пока нам важно понять принцип.

                                        Суть всего обучения и заключается в поиске параметров.

В нашей схеме мы подаём данные в модель, считаем ошибку и сводим её к минимуму, меняя параметры. Мы пытаемся подобрать такие параметры модели, при которых функция ошибки нашего предсказания была бы наименее возможной на предоставленных данных. Такие параметры называются оптимальными. Как правило, обучение заканчивается, когда мы прогнали через модель все доступные обучающие примеры.

                                        Рассмотренная схема называется обучением на основе
                                        минимизации ошибок, или, говоря более научным языком,
                                        минимизацией эмпирического риска (риска ошибки).

Стоит отметить, что такая схема обучения далеко не единственная и подходит не для всех моделей. Однако она является наиболее популярной.

Помимо обучения на основе ошибок, существуют следующие схемы:

* на основе **прироста информации** (используются в деревьях решений);
* на основе **«сходства» объектов** (используется в методе ближайших соседей);
* на основе **вероятностных законов** (например, метод максимального правдоподобия).
Каждую из неописанных пока схем мы рассмотрим в своё время.  

Более того, мы увидим, что бывают задачи, где нет правильных ответов, то есть мы **не можем подсчитать функцию ошибки**. Этот класс задач называется **«обучением без учителя»**.



**Допустим, мы обучили модель, но теперь возникает вопрос: а как оценить её качество? А что, если мы обучили не одну, а несколько моделей? Как сравнить их по качеству?**

Первая идея, которая приходит в голову, — посмотреть на финальное значение функции ошибки и сравнить модели по нему. Но тут мы сразу столкнёмся с проблемой.

Очень часто функции ошибок сложно интерпретировать: например, существует функция ошибки log loss (логистическая функция потерь), она может изменяться от 0 до бесконечности. Непонятно, что считать хорошим качеством, а что — плохим, где эта грань. Например, 15.332 — это хороший результат? А 1.67 — это хороший результат? К тому же, если вам надо узнать, как часто ваша модель угадывает правильный ответ, log loss вам этого не скажет.

Поэтому для оценки качества модели вводится ещё одно понятие — **метрика**.

                                                Метрика ≠ функция потерь.

**Метрика (metric)** — это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.  
Например, если сказать заказчику, что логистическая функция потерь (log loss) модели составила 1.67, он вас, скорее всего, не поймёт, ведь он не знает, плохо это или хорошо. А вот если сказать ему, что точность предсказания модели (метрика accuracy) составила 87 %, заказчик определённо поймёт, о чём идёт речь.
***
Вот лишь несколько примеров моделей (алгоритмов) машинного обучения, которые мы будем изучать на курсе:

* линейная регрессия (Linear Regression),
* логистическая регрессия (Logistic Regression),
* наивный метод Байеса (Naive Bayes),
* метод k ближайших соседей (kNN),
* деревья решений (Decision Tree),
* случайный лес (Random Forest),
* градиентный бустинг (Gradient Boosting),
* нейронные сети (Neural Network).

Когда в качестве модели машинного обучения используются нейронные сети, такой вид машинного обучения называется **глубоким обучением**. И тут снова стоит вспомнить первую схему в этом юните.

### **ГЛУБОКОЕ ОБУЧЕНИЕ**

**Глубокое обучение (Deep Learning)** — подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач искусственных нейронных сетей. Данные алгоритмы основаны на имитации работы человеческого мозга.

Но почему только развитие скоростных вычислений и хранение больших объёмов данных смогло дать толчок развитию глубокого обучения? Ответ содержится в главном недостатке нейронных сетей: для их обучения требуется огромное количество данных. И чем сложнее задача, тем больше данных нужно «скормить» сети, чтобы она начала «думать». 

Обработка больших объёмов данных занимает время и требует больших вычислительных ресурсов, из-за чего нейронные сети могут обучаться часами, днями или неделями.

Именно по этой причине в истории зафиксированы «зимы глубокого обучения» — периоды застоя, когда человечество попросту не обладало необходимой для обучения мощностью компьютеров.

Самым важным качеством любой нейронной сети является её **архитектура** (набор и порядок её слоёв). От неё зависит качество и скорость обучения. В настоящее время миру известно множество различных архитектур, многие из которых объединены для решения целых классов задач. Подробнее с видами архитектур вы можете познакомиться [здесь](https://habr.com/ru/company/oleg-bunin/blog/340184/).



### ✍ Подведём небольшой итог:

* И**скусственный интеллект** — это общее название науки, которая занимается построением моделей, имитирующих деятельность человека. Как, например, общий раздел — химия.
* **Машинное обучение** — это раздел искусственного интеллекта (важный, но не единственный), который сосредоточен на применении моделей машинного обучения для решения конкретных задач. Как, например, подраздел химии — органическая химия.
* **Глубокое обучение** — это раздел машинного обучения, который сосредоточен на разработке и обучении нейронных сетей в качестве модели для решения сложных прикладных задач. Как, например, подраздел органической химии — органическая химия углеводородов.

Надеемся, теперь вам понятна разница между этими терминами и вы сможете ответить на вопросы, о которых мы говорили в самом начале. Дополнительно почитать о различиях между понятиями можно [здесь](https://habr.com/ru/post/401857/).

