## Основные понятия и задачи машинного обучения

**Машинное обучение (machine learning, ML)** – наука, позволяющая компьютерам принимать сложные решения без явной спецификации алгоритма принятия решения. Компьютер учится на заданном опыте решать некоторый класс задач относительно некоторого показателя качества, если этот показатель растет на классе задач после получения опыта.

### Достоинства машинного обучения
* точность (люди могут извлекать лишь простые правила и хуже оперируют большими объемами признаков, а машинное обучение способно улавливать тонкие закономерности)
* быстрота и низкая стоимость разработки (сокращается количество специалистов)
### Нюансы
* для обучения модели нужен некоторый "опыт" (обучающая выборка)
* для настройки моделей требуется больше вычислительных ресурсов

### Примеры задач машинного обучения
* предсказать, уйдёт ли клиент к конкурентам (churn prediction)
* является ли последовательность финансовых транзакций мошеннической (fraud detection)
* предсказание пробок и времени в пути при планировании маршрута (traffic prediction)
* стоит ли показывать заданный товар покупателю в качестве рекомендации (recommender systems)
* рекомендовать ли человека в качестве друга в социальной сети
* голосовой ассистент: распознавание речи, автоматический ответ на вопросы, генерация речевого ответа
* идентификация человека по лицу
* распознавание номера машины на камерах
* и т. д. и т. п.

### Виды обучения
* **Машинное обучение** – в общем и целом настройка прогнозирующих алгоритмов  
* **Глубокое обучение** – сложные многоуровневые модели (нейросети), оптимальный вектор признаков генерируется автоматически  
* **Обучение с подкреплением** – выработка интерактивной стратегии поведения в изменяемой среде, мышление вперед (например, шахматы, игровые персонажи, автомобили, дроны, роботы)

## Формальное определение задачи
Каждый объект из некоторого класса $Z$ описывается вектором известных характеристик **(признаков)** $x \in X$ и вектором предсказываемых характеристик **(откликов)** $y \in Y$. $$z = (x, y) \in Z$$
Требуется найти такое отображение $f: X \rightarrow Y$, которое точно описывало бы взаимосвязь этих множеств для любых возможных значений $x$, используя конечный набор известных пар $(x, y)$ **(обучающую выборку)**.  

Входное описание объекта $x \in X$ состоит из индивидуальных признаков $x^i \in X_i$. Они могут быть следующих типов:
* $X_i = \mathbb{R}$  –  **вещественные (количественные)**: денежная стоимость, расстояние и т. п.
* $X_i = \{0, 1\}$  –  **бинарные**: да/нет
* $|X_i| < \infty$  –  **дискретные категориальные**: профессия, тип товара, ...
* $|X_i| < \infty$, элементы $x \in X_i$ упорядочены   –  **дискретные упорядоченные**: место в гонке, уровень образования

### Возможные постановки задачи
* **обучение с учителем (supervised learning)** – дана обучающая выборка $\{(x_i, y_i): i = 1, 2, ..., n\}$, модель обучается принудительно по известным откликам
    * иногда возможно **трансдуктивное обучение** – когда все возможные входы $x$ известны заранее
* **обучение без учителя (unsupervised learning)** – даны только входы $x_1, x_2, ..., x_n$ и некоторые метрические признаки взаимосвязи ("расстояния") между объектами, модель обучается спонтанно, самостоятельно обнаруживая закономерности

Примеры задач на обучение с учителем:
* **регрессия** – прогнозирование $y \in \mathbb{R}$ для любых значений $x$, построение функциональной зависимости $y$ от $x$.
* **классификация** – прогнозирование дискретного $y$, назначение объекта одному из заданных классов
* **ранжирование**

Примеры задач на обучение без учителя:
* **кластеризация** – разбиение объектов на похожие группы
* **снижение размерности** – переход к низшей размерности с минимальным искажением геометрии
* **обнаружение аномалий** – выделение нетипичных, нестандартно распределенных объектов
* **поиск ассоциативных правил** – по наборам множеств $\{a, b, c\}, \{a, d, e\}, \{a, b\}, \{a, b, g , h\}$ генерировать правила: $a → b, b → a, ...$ (например, анализируя потребительские корзины, можно установить, что масло хорошо сочетается с хлебом)

Простой пример - регрессия (предсказать ожидаемый y для любого x), аппроксимируя регрессионной кривой. Классификация - по набору признаков отнести объект к какой-либо категории.

Обучение с учителем - дана обучающая выборка {(xi, yi)} (м.б. трансдуктивное обучение - входные x известны заранее).  
Без учителя - даны лишь некоторые метрические признаки взаимосвязи между объектами (например, кластеризация, снижение размерности (переход к низшей размерности с минимальным искажение геометрии), обнаружение аномалий (выделение нетипичных, нестандартно распределенных объектов), поиск ассоциативных правил (масло покупается с хлебом), ранжирование).

Регрессия представляется параметрозованной функцией y = g(x). Параметризация прогноза дискретной сущности: для каждого класса настраивается такая функция, выбираем тот класс, функция которого принимает максимальное значение

Точность предсказаний может оцениваться критерием качества (score function) и функцией потерь (loss function): i.e. y^-y

Обучающая выборка задается матрицей признаков X и вектором откликов y. Тестовая выборка может быть задана аналогично: X', нужно найти y'.

Кривая обучения задает типичную зависимость от N для параметрических моделей. Чем больше N, тем потери на обучении ближе к потерям на тесте.

Проблема недообучения: модель слишком простая для реальных данных (не улавливает тонких закономерностей)
Проблема переобучения: слишком сложная (настраивается на шум в измерениях), бывает, когда слишком много параметров (близко к размеру обучающей выборки)


## Функциональные классы

### Пример линейного класса функций
* регрессия: $Y = \mathbb{R};\quad \hat{y} = g(x),\: g(x)$ параметризовано $\theta$.
* Многоклассовый классификатор ($Y = \{1, 2, \ldots, C\}$):  
  $\hat{y}(x) = \arg\max\limits_{c}g_c(x),\: g(x)$ параметризовано $\theta$  
  $\{x: g_i(x) = g_j(x)\}$ – граница между классами $i, j$  
  $M(x, y) = g_y(x) − \max\limits_{c \ne y}g_c(x)$ – отступ (качество классификации)
* Бинарный классификатор ($y \in \{+1, −1\}$):  
  $\DeclareMathOperator{\sign}{sign} \hat{y}(x) = \arg\max\limits_{c \in \{+1,−1\}}g_c(x) = \sign (g_{+1}(x) − g_{−1}(x)) = \sign g(x)$  
  $M(x, y) = g_y(x) − g_{−y}(x) = y(g_{+1}(x) − g_{−1}(x)) = yg(x)$


## Обучающие материалы

* Документация sklearn
* [kaggle.com](kaggle.com) (соревнования по МЛ)
* [paperswithcode.com](paperswithcode.com) (описание/код методов, только нейросети)

## Датасеты
* Репозиторий UCI (небольшие датасеты)
* [openml.org](openml.org) (много датасетов, есть большие)

## Метрические методы

3-классовый метод ближайших центроидов
метод k ближайших соседей (классификация - найти k ближайших объектов в обучающей выборке к заданному x и сопоставить x ч самый частотный класс среди k ближайших объектов, регресия - сопоставить x среднему отклику). У него можно варьировать кол-во соседей, функцию расстояния Его легко реализовать, он простой, интерпретируемый (легко понимать, почему следует принимать решение, т. к. есть похожие известные случаи), но велика сложность O(ND) и плохо влияет повышение размерности (близких точек становится мало). Масштабирование признаков влияет на прогнозы KNN, поэтому желательно их нормализировать (стандартизация, нормализация средним или применить диапазонное шкалирование).

заебало писать короче