# Tеория машинного обучения

Machine Learning (машинное обучение) — это направление, объединяющее технологии создания самообучающихся алгоритмов.

## 2. Общие понятия ML

#### Искусственный интеллект (Artificial Intelligence, ИИ) — это способность компьютерной системы имитировать когнитивные функции человека, такие как обучение и решение задач. ИИ позволяет компьютеру моделировать рассуждения людей для получения новых сведений и принятия решений (например, выдавать кредит заёмщику или нет).

Искусственный интеллект — это комплексная наука, находящаяся на стыке математики, биологии, психологии, логики и многих других дисциплин.

Цель этой науки — понять, как устроен мозг человека и научиться моделировать его работу с помощью компьютера. 



В области искусственного интеллекта есть несколько подразделов:

    - робототехника (Robotics),
    - компьютерное зрение (Computer Vision),
    - обработка естественного языка (Natural Language Processing),
    - машинное обучение (Machine Learning).

#### Машинное обучение (Machine Learning) — это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.

Машинное обучение как науку можно отнести к разделу прикладной математики. Оно находится на стыке статистики, математического анализа, линейной алгебры, численных методов оптимизации и дискретной математики.

Набор данных (dataset) — это множество примеров (выборка), на котором происходит обучение модели. Это могут быть табличные данные, с которыми мы уже работали, текст, аудио, изображения (видео) и т. д.


Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.

Помимо самих данных, всегда нужно помнить об их «качестве». Мы с вами уже неоднократно говорили на протяжении курса: «Мусор на входе — мусор на выходе».

Признаки (features) — это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.


Признак, который мы хотим предсказать, называется целевым признаком (target feature). Иногда признаки, на основе которых мы хотим предсказать целевой, могут называться факторами (factors).


Например, хотим предсказать цену недвижимости, цена — наш целевой признак, остальные (площадь, этаж, район) — факторы.

В случае с табличными данными всё предельно просто: признаки — это столбцы таблицы. Но всё становится сложнее в случае с картинкой или звуком. Что является признаками для таких данных? Ответ на этот вопрос мы узнаем в модулях по глубокому обучению.

Модель машинного обучения (ML-model) — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.


В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком. Вспомним пример из школы: формула y = kx^2 связывает целевую переменную y и фактор x квадратичной зависимостью, а коэффициент k — это параметр.


В более обширном понимании модель может выражаться не формулой — это может быть математически описанная последовательность действий (алгоритм).


Математическая основа моделей позволяет реализовывать их в виде программ. Так, в Python существуют библиотеки, содержащие в себе уже запрограммированные алгоритмы, в которые достаточно лишь подать данные, и они обучаются сами. Примером может являться уже знакомая вам библиотека sklearn.


Управляя своими параметрами, модель подстраивается под зависимости в данных, чтобы описать эту зависимость и свести ошибку в предсказаниях к минимуму. Такой процесс называется обучением модели (model learning).

За управление параметрами отвечает некоторая функция ошибки, или, как её ещё называют, функция потерь (loss function). Это некоторая математическая функция, которая показывает различие между фактическими ответами и предсказаниями модели.

Самый простой пример функции ошибки — MSE (Mean Squared Error), средний квадрат разницы между ответами. 

В нашей схеме мы подаём данные в модель, считаем ошибку и сводим её к минимуму, меняя параметры. Мы пытаемся подобрать такие параметры модели, при которых функция ошибки нашего предсказания была бы наименее возможной на предоставленных данных. Такие параметры называются оптимальными. Как правило, обучение заканчивается, когда мы прогнали через модель все доступные обучающие примеры.

Помимо обучения на основе ошибок, существуют следующие схемы:

    - на основе прироста информации (используются в деревьях решений);
    - на основе «сходства» объектов (используется в методе ближайших соседей);
    - на основе вероятностных законов (например, метод максимального правдоподобия).


#### Метрика (metric) — это численное выражение качества модели (или её ошибки). Иногда метрика может совпадать с функцией потерь, но чаще всего они различны. Метрика, как правило, должна быть интерпретируемой и понятной — в этом её главное отличие от функции потерь.

Вот лишь несколько примеров моделей (алгоритмов) машинного обучения, которые мы будем изучать на курсе:

    1) линейная регрессия (Linear Regression),
    2) логистическая регрессия (Logistic Regression),
    3) наивный метод Байеса (Naive Bayes),
    4) метод k ближайших соседей (kNN),
    5) деревья решений (Decision Tree),
    6) случайный лес (Random Forest),
    7) градиентный бустинг (Gradient Boosting),
    8) нейронные сети (Neural Network).

Когда в качестве модели машинного обучения используются нейронные сети, такой вид машинного обучения называется глубоким обучением. И тут снова стоит вспомнить первую схему в этом юните.

#### Глубокое обучение (Deep Learning) — подраздел машинного обучения. Глубокое обучение основано на изучении и применении в качестве инструмента для решения задач искусственных нейронных сетей. Данные алгоритмы основаны на имитации работы человеческого мозга.

 Подведём небольшой итог:

    1) Искусственный интеллект — это общее название науки, которая занимается построением моделей, имитирующих деятельность человека. Как, например, общий раздел — химия.
    2) Машинное обучение — это раздел искусственного интеллекта (важный, но не единственный), который сосредоточен на применении моделей машинного обучения для решения конкретных задач. Как, например, подраздел химии — органическая химия.
    3) Глубокое обучение — это раздел машинного обучения, который сосредоточен на разработке и обучении нейронных сетей в качестве модели для решения сложных прикладных задач. Как, например, подраздел органической химии — органическая химия углеводородов.


## 3. Виды машинного обучения: обучение с учителем

В зависимости от наличия разметки (о том, что такое разметка, мы поговорим ниже) в данных и особенностей обучения выделяют следующие виды машинного обучения:

        обучение с учителем (supervised learning),
        обучение без учителя (unsupervised learning).

В отдельную категорию, не похожую на предыдущие, выделяют ещё один вид машинного обучения — обучение с подкреплением (reinforcement learning).

При этом обучение с учителем и обучение без учителя содержат в себе отдельные типы задач машинного обучения, такие как регрессия, классификация, кластеризация, понижение размерности и ассоциация.

### ОБУЧЕНИЕ С УЧИТЕЛЕМ

Данный вид обучения основан на том, что у машины есть некий учитель, который сообщает ей, как поступать правильно, рассказывает, что на этой картинке изображена кошка, а на этой — собака. То есть мы заранее разделили все данные на кошек и собак, а машина учится на конкретных примерах и правильных ответах к ним.

Данные, в которых содержится информация о целевом признаке, называются размеченными.

#### Задача регрессии (regression) — это задача, в которой мы пытаемся предсказать вещественное число на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является числовым.

Для регрессии всегда нужен учитель — размеченные данные с признаками и целевым признаком, который машина будет пытаться предсказать.

Цель обучения — построить модель, которая отражала бы зависимость между признаками и целевой числовой переменной.

Классическими методами регрессии являются линейная (Linear) и полиномиальная (Polynomial) регрессия. Но они являются далеко не единственными.

Линейную регрессию мы с вами уже рассматривали на примере предсказания объёма годовых продаж в прошлом юните. В качестве модели используется уравнение прямой, и зависимость считается линейной.

Полиномиальная регрессия использует в качестве модели полином (многочлен), который отражает нелинейную зависимость.

#### Прогнозирование (forecasting) — это задача регрессии, в которой мы пытаемся предсказать будущее поведение временного ряда, то есть целевая переменная является числовой и зависит от времени. Причём каждому моменту времени соответствует одно конкретное значение. Можно сказать, что прогнозирование — это частный случай регрессии.

Методы регрессии с небольшими изменениями подходят и для решения задачи прогнозирования. Однако, как правило, большей эффективностью обладают модели, которые разработаны специально для прогнозирования временных рядов, например:

        ARIMA,
        SARIMA (модификация ARIMA),
        ARCH (модель для финансовых временных рядов).


#### Задача классификации (classification) — задача, в которой мы пытаемся предсказать класс объекта на основе признаков в наборе данных. То есть задача сводится к предсказанию целевого признака, который является категориальным.

Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам.

Классифицировать можно всё что угодно: пользователей по интересам, статьи по языкам и тематикам, музыку по жанрам — вспомните плейлисты Spotify и Яндекс.Музыки, письма в вашем почтовом ящике.

Чаще всего мы сталкиваемся с бинарной классификацией: целевой признак имеет две возможные категории («да» — 1 или «нет» — 0). Например, мы можем предсказать, болен ли пациент раком, является ли изображение человеческим лицом, является ли письмо спамом и т. д.

Забегая вперёд, отметим, что любую мультиклассовую задачу классификации можно свести к бинарной классификации методом «один против всех».

Суть метода: какую-то из категорий мы обозначаем за 1, а оставшиеся за — 0 и решаем задачу бинарной классификации. Затем повторяем процедуру для остальных категорий.

Цель обучения — построить модель, которая на основе признаков разделяет объекты на классы наилучшим образом. С математической точки зрения это означает построение разделяющей поверхности для классов в пространстве признаков.

Для решения задачи классификации может использоваться множество моделей:

    1) логистическая регрессия (Logistic Regression),
    2) метод опорных векторов (SVM),
    3) деревья решений (Decision Tree),
    4) наивный байесовский классификатор (Naive Bayes),
    5) метод ближайших соседей (kNN).


## 4. Виды машинного обучения: обучение без учителя