In [1]:
import IPython.display
IPython.display.display_latex(IPython.display.Latex(filename="macros.tex"))

# <center>Машинное обучение</center>

## <center> introduction </center>

**Искусственный Интелелкт (ИИ)** - область науки и технолгии, целью которой является создание _"умных машин"_, а так же "умных программ".
<br>
** Машинное обучение ** - подраздел ИИ, целью которого является создание алгоритмов, которые способны _"обучаться"_.

Связанные области из матетматики:
* Математическая статистика
* Методы оптимизации
* Линейная алгебра

Типы машинного обучения:
1. Обучение с учителем
* Обучение без учителя
<br><br>
* Обучение с подкреплением

### Обучение с учителем (Supervised learning)

_Пусть:_
* Генеральная совокупность - $\Population$. Все объекты в мире (может быть бесконечным).
<br>
* Все возможные ответы - $\allY$.

_У нас есть:_
* $\sampleRealObjects$ - подвыбока реальных объектов. Пусть размер выборки (кол-во объектов в ней): $\nbObjects$.
<br>
* $\answers$ - ответы на нашей выборке. Для каждого элемента из $\sampleRealObjects$ есть соответствующий элемент $\answers$.

Мы хотим разработать алгоритм, вычисляющий ответ для заданного объекта. Предаствим это в виде некоторой функции:
$$f: \Population\rightarrow\allY $$

### Обучение без учителя (Supervised learning)

У нас нет ответов.<br>
Наша цель найти некие внутренние взаимосвязи между существующими объектами.

### Признаковое описание объекта
С объектами из реального мира сложно работать без математического описания. Для этого описания мы используем прзнаки.<br>
Мы можем измерить характеристику  $j$-ю характеристика любого объекта из генеральной совокупности:
$$ f_j(\Population_i) = x_{ij}, где\: \Population_j\in\Population$$

Измерив $\nbFeatures$ характеристик объектов из нашего набора данных $\sampleRealObjects$ мы получим матрицу $\sample$:

$$
\sample
=
\begin{bmatrix}
    f_1(\sample_1) & f_2(\sample_1) & f_3(\sample_1) & \dots  & f_\nbFeatures(\sample_1) \\
    f_1(\sample_2) & f_2(\sample_2) & f_3(\sample_2) & \dots  & f_\nbFeatures(\sample_2) \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    f_1(\sample_\nbObjects) & f_2(\sample_\nbObjects) & f_3(\sample_\nbObjects) & \dots  & f_\nbFeatures(\sample_\nbObjects) \\
\end{bmatrix}
=
\begin{bmatrix}
    x_{11}       & x_{12} & x_{13} & \dots & x_{1\nbFeatures} \\
    x_{21}       & x_{22} & x_{23} & \dots & x_{2\nbFeatures} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{\nbObjects 1}       & x_{\nbObjects 2} & x_{\nbObjects 3} & \dots & x_{\nbObjects\nbFeatures}
\end{bmatrix}
$$

$\sample$ называется _матрицей признаков_. Договоримся, что как только у нас есть выборка объектов, то у нас есть и матрица признаков и будем считать их синонимами:
$$ выборка\: объектов\: = \:матрица \: признаков $$
Об объектах мы будем думать как об их признаковом описании .

** Типы признаков**
$ f_j: \Population_i\rightarrow D_j$:
* $|D_i| = \{0,1\}$ - _бинарный признак_ (пол: мужской/женский)
* $|D_i| < \inf$ - _категориальный признак_ (погода: пасмурно, солнечно, ветренно)
* $|D_i| < \inf$ _категориальный признак и при этом есть отношение порядка над $D_i$ , то это _порядковый признак_ (воинские звания, уровень образования)
* $|D_i| = \realNumbers$ - _прочие числовые признаки_(рост, уровеь давления)

### Типы задач (ответов) в обучении с учителем
**Классификация**<br>
$|\answers| < \inf$
* $|\answers| = \{+1,−1\}$ − бинарная классификация
* $|\answers| = \{1,…,K\}$ − классификация на $K$, причем каждый объект относится к какому-то одному классу 
* $|\answers| = \{0,1\}^K$ − классификация на $K$, причем каждый объект относится к нескольким классам (multi-label классификация)

**Регрессия**<br>
$|\answers| = \realNumbers^m$ где $m \geq 1$ 

Если $𝑌$ - бесконечное упорядченное множество. Такой тип задач называется ранжированием и может относиться как к обучению с учитилем, так и к обучению без учителя.

### Основные типы задач в обучении без учителя

<u>Кластеризация</u> - объект делится на непересекающиеся множества, которые называются кластерами. Объекты из одного класса должны "быть похожи" друг на друга, и отличаться от другого кластера.

<u>Нахождение ассоциативных правил</u> - нахождение признаков, которые идут как правило, вместе (пример: составление потребительской корзины).

<u>Заполнение пропущенных данных</u> – значения для каких то признаков и даже объектов могут быть пропущены, нам надо их как нибудь заполнить.

<u>Сокращение размерности</u> - исходные данные представлены в виде признаковой матрицы и число признаков может быть большим. Задача: представить эти данные в пространстве меньшей размерности, возможно с потерей информации.

## <center>Строгие определения. Обощаюшая способность, качество обобщения.</center>

### Определения
<u>Модель</u> - множество функций
$$\model = \{g(x, \params)\:|\:\params\in\setParams\} \: where\: g:\Population*\setParams\rightarrow\allY$$
<u>Метод обучения</u> - множество:
$$\methodLearning:(\Population*\allY)^l\rightarrow\model$$

$(\Population*\allY)^l = (x_i, y_i)^l_{i = 1}$ - случайный объект

$\alg\in\model$ - алгоритм
<br>
<br>
В обучении с учителем две фазы:
1. Обучение(Train) - способ обучения $\methodLearning$ по объектам $(\Population*\allY)^l$ строит алгоритм $\alg = \methodLearning((\Population*\allY)^l)$
1. Тестирование(Test) - алгоритм $\alg$ для (новых) объектов $x\in\Population$ предсказывает ответ(ы) $\alg(x)$

<u>Функция потерь</u>:<br>
$L(\alg, x)$ - мера ошибки алгоритма  $\alg\in\model$ на объекте $x\in\Population$.

**Определение** функция $y$ по $x\in\sample$ возвращает ответ для $x$ из $\answers$.<br>

_например для классифицикации_:<br>
$\loss(\alg, x) = [\alg(x) \neq y(x)]$ где $[True] = 1$ и $[False] = 0$

_Для регрессии_:<br>
$\loss = |\alg(x) - y(x)|$ - абсолютная ошибка.<br>
$\loss = (\alg(x) - y(x))^2$ - квадратичная ошибка.<br>

<u>Эмпирический риск(empirical risk(ER))</u> - в той или иной степени характеризует качество работы алгоритма:
$$ \empericRisk(\alg, \Population^l) = \frac{1}{l} \sum_{i = 1}^l \loss(\alg, x_i) $$
$\empericRisk(\alg, \Population^l)\rightarrow min$ - чем меньше, тем лучше

<u>Минимизация эмпирического риска</u>

$$\methodLearning(\Population) = argmin_{\alg\in\model}\empericRisk(\alg, \Population^l)$$
<br>
У нас есть: $\sample$, $\answers$ - объекты и ответы на них.
<br>
Мы выбираем: $\model(\setParams)$
<br>
Найти: $\alg' = \methodLearning(\sample)$
<br>
$$
\methodLearning(\sample) = min_{\alg\in\model}\empericRisk(\alg, \sample) =
$$
$$
min_{\params\in\setParams}\empericRisk(\model(\params), \sample) = 
$$
$$
= min_{\params\in\setParams}\frac{1}{l} \sum_{i = 1}^l \loss(\model(\params), x_i) = 
$$
$$
=min_{\params\in\setParams}\frac{1}{l} \sum_{i = 1}^l \loss(g(x, \params), x_i)
$$

Например, для метода наименьших квандратов, МНК (ordinary least squares, OLS):
$$min_{\params\in\setParams}\frac{1}{l} \sum_{i = 1}^l (g(x, \params)- y_i)^2$$

В результате, для задач машобуча мы получаем минимизационную задачу

### Обощающая способность, качество обучения

Мы нашли закон природы или просто настроили  $g(x, \params)$ на какой-то частный случай? Будет ли полученный алгоритм аппроксиммировать желаемую функцию на всей генеральной совокупности? Хорошо ли алгоритм будет работать на новых данных? Не <u>переобучились (overfit)</u> ли мы?

Пусть $\Population^l$ - обучающая выборка, $\Population^k$ - тестовая выборка. Если это так, то
$$\empericRisk(\methodLearning(\Population^l), \Population^k)\gg \empericRisk(\methodLearning(\Population^l), \Population^l)$$
значит алгоритм переобучен.

**Как избежать переобучения?**

Проверяем на отложенной выборке (hold-out):
$$
HO(\methodLearning, \sample_{train}, \sample_{test}) = \empericRisk(\methodLearning(\sample_{train}), \sample_{test}) \rightarrow min
$$
Перекрестная проверка (cross-validation):
$$
CV(\methodLearning, \sample^{l+k}) = \frac{1}{|n|}\sum_{i\in n}\empericRisk(\methodLearning(\sample^l_i), \sample^k_i)
$$
Теоретическая оценка эмпирического риска:
$$
E\:[\:\empericRisk(\methodLearning(\sample^l_i), \sample^k_i)\:]\:\rightarrow min
$$
$E$ - мат ожидание.

**Почему** мы можем переобучиться?
* большая сложность пространства параметров $\setParams$
* Переобучение будет всегда, если мы оптимизируем параметры не для генеральной совокупности.

### Особенности некоторых задач
* Требуется интерпретируемость алгоритма
* Требуется предсказывать вероятность ошибки
* "Большой" размер объектов
* Пропуски в данных
* "Сырые данные", сложности в выборке и построении признаков
* Данные могут быть устаревшими
* Не размеченные и плохо размеченные данные
* Малое количество обучающих примеров
* Типы информации различны:текст + звук + видео
* Нужен высокопроизводительный алгоритм
* Разные функции потерь
* ...

### Метрика качества
Метрика(качества) - способ измерить, какой алгоритм дает дучший результат.<br>
Метрика может быть равна эмпирическому риску, но может быть более сложной, более общей.

_Примеры:_<br>
двоичная классификация 
$$\loss(\alg, x) = [\alg(x) \neq y(x)] \Rightarrow ER = \frac{1}{l} \sum_{i = 1}^l [\alg(x) \neq y(x)] $$
метрика - отношение кол-ва правильных предсказаний к общему числу примеров - "точность" (accuracy)<br>
$$ M = \frac{\sum_{i = 1}^l [\alg(x) = y(x)]}{l}$$


## <center> end of introduction </center>