# Постановка задачи машинного обучения.

## Задача обучения по прецедентам.

$X$ - пространство объектов;<br>
$Y$ - пространство ответов;<br>
$y: X \rightarrow Y$ - неизвестная функция.

**Дано:**  
$\{x_1, \ldots, x_l\}\subset X$ - обучающая выборка (training sample);<br>
$y_i=y(x_i), i=1,\ldots,l$ - известные ответы.

**Найти:**<br>
$a: X \rightarrow Y$ - алгоритм, приближающий $y$ на всем множестве $X$.

---------------------------------------------------------------

Рассмотрим задачу подробнее:<br>
1. как задаются объекты и какими могут быть ответы;<br>
2. что значит $a$ приближает $y$;<br>
3. как построить $a$.

---------------------------------------------------------------

##  Как задаются объекты

Как правило, каждый из объектов задается набором признаков (features):<br>
$f_j: X\rightarrow D_j, j=1,\ldots,n$.

Признаки могут быть разных типов:
1. бинарные $D_j=\{0,1\}$;
2. номинальные $|D_j| < \infty$;
3. порядковые $|D_j| < \infty$, $D_j$ - упорядочено;
4. количественные $D_j = \mathcal{R}$.

Вектор $(f_1(x), \ldots, f_n(x))$ - признаковое описание объекта $x$.

Матрица "объекты-признаки"  \begin{pmatrix} f_1(x_1) & \ldots & f_n(x_1) \\ \ldots & \ldots & \ldots \\ f_1(x_l) & \ldots & f_n(x_l) \end{pmatrix}

-------------------------------

##  Как задаются ответы

Задачи классификации (classification).
* $Y=\{-1, +1\}$ - классификация на 2 класса (бинарная);
* $Y=\{1,\ldots,M\}$ - на $M$ непересекающихся классов;
* $Y=\{0,1\}^M$ - на $M$ классов, которые могут пересекаться.

Задачи восстановления регрессии (regression):
* $Y=\mathcal{R}$ или $Y=\mathcal{R}^m$.

Задачи ранжирования (ranking):
* $Y$ - конечное упорядоченное множество.

-------------------------------

![title](regr_clas.png)

-------------------------------

![title](iris.png)

## Модель алгоритмов

Модель (predictive model) - параметрическое семейство функций $A=\{g(x,\theta) | \theta\in\Theta\}$,
где $g: X\times\Theta\rightarrow Y$ - фиксированная функция.

Важно, как задавать признаковое описание!

![title](regr.png)

## Метод обучения

Метод обучения (learning algorithm) - это отображение вида $\mu: (X\times Y)\rightarrow A$,
которое произвольной выборке $X^l=(x_i, y_i)_{i=1}^l$ ставит в соответствии некоторый алгоритм $a\in A$.

![title](threshold.png)

Два этапа задачи обучения по прецедентам:
* Этап обучения (training): метод $\mu$ по выборке $X^l$ строит алгоритм $a=\mu(X^l)$.

$\Bigg[\begin{pmatrix} f_1(x_1) & \ldots & f_n(x_1) \\ \ldots & \ldots & \ldots \\ f_1(x_l) & \ldots & f_n(x_l) \end{pmatrix} \rightarrow \begin{pmatrix} y_1 \\ \ldots \\ y_l \end{pmatrix} \Bigg]\rightarrow a$
* Этап применения (testing): алгоритм $a$ для новых объектов $x$ выдает ответы $a(x)$.

$\begin{pmatrix} f_1(x'_1) & \ldots & f_n(x'_1) \\ \ldots & \ldots & \ldots \\ f_1(x'_k) & \ldots & f_n(x'_k) \end{pmatrix} \rightarrow \begin{pmatrix} a(x'_1) \\ \ldots \\ a(x'_k) \end{pmatrix}$

## Как измерить качество алгоритма?

$L(a,x)$ - функция потерь (loss function) - величина ошибки алгоритма $a\in A$ на объекте $x\in X$.

*Примеры:*

Задачи классификации:
* $L(a,x)=[a(x)\neq y(x)]$

Задачи регрессии:
* $L(a,x)=|a(x)-y(x)|$
* $L(a,x)=(a(x)-y(x))^2$

Эмпирический риск: $Q(a, X^l)=\frac{1}{l}\sum_{i=1}^l L(a, x_i)$

Логично предположить, что $\mu(X^l)=\arg\min_{a\in A}Q(a, X^l)$

## Как найти подходящий алгоритм?

Пусть наша модель работает следующим образом: $\mu(X^l)=\arg\min_{a\in A}Q(a, X^l)$

Есть риск переобучения!

![title](overfit.png)

Переобучения нельзя избежать, но можно его минимизировать.

## Особенности данных
* разнородность (признаки в измерены в разных шкалах);
* неполнота (есть пропуски в данных);
* неточность (погрешности);
* противоречивость (разные ответы для одинаковых объектов);
* избыточность (big data);
* недостаточность (объектов мало, признаков много);
* неструктурированность (нет признаковых описаний)

## Примеры задач

**Задача предсказания оттока клиентов**

Объекты - абоненты, ответы - вероятность их ухода в следующем месяце.

Особенности: очень много "сырых" признаков; нет ясности, какие вычислять признаки по исходным данным.

**Задача распознавания надписей**

Kaggle Digit Recognizer

![title](digit_recog.gif)

Особенности: очень много зашумленных данных, относительно большая размерность пространства признаков.

**Задача прогнозирования стоимости недвижимости**

Объекты - квартиры, ответы - их стоимости.

Особенности: изменение стоимости со временем, разнотипность признаков.


**Задача прогнозирования объемов продаж**

Объект - тройка <товар, магазин, день>.

![title](prod.png)

Особенности задачи: нестандартная функция потерь, разреженные данные.

**Задача прогнозирования прибыли ресторана**

Kaggle Restaurant Revenue Prediction

Объекты - место для открытия нового ресторана, ответ - прибыль через год.

Особенности: мало объектов, много признаков; есть выбросы; разнотипные признаки.

**Задача ранжирования поисковой выдачи**

Объект - пара <запрос, документ>, ответ - релеватность.

Особенности: проблема конструирования признаков по сырым данным; исходная разметка делается людьми; сверхбольшие выборки; оптимизируется не число ошибок, а качество ранжирования.