## Формальная постановка задачи машинного обучения

### Задача обучения по прецендентам
X - множество объектов
Y - множество ответов
y: X $\to$ Y - неизвестная зависимость

Дано:
$\{x_1, ..., x_l\}\subset X$ - обучающая выборка, 
$y_i = y(x_i), i=1, ..., l$ - известные ответы.

Найти:
$a:X\to Y$ -алгоритм, решающую функцию, приближающую y на всем множестве X


### Как задаются объекты. Признаковое описание
$f_j: X\to D_j, j=1, ..., n$ - признаки объектов /фичи

Типы признаков: 
 > $D_j=\{0, 1\}$ - бинарный признак $f_j$;    
 > $|D_j|<\infty $ - номинальный признак $f_j$;    
 > $|D_j|<\infty, D_j упорядочено$ - порядковый признак $f_j$;   
 > $D_j=R$ - количественный признак $f_j$.    

Вектор $(f_1(x), ..., f_n(x))$ - признаковое описание объекта x.    
Матрица "объекты-признаки"
$F=||f_j(x_i)||_{l*n}=\begin{pmatrix}
f_1(x_1) & \cdots & f_n(x_n) \\
\cdots  & \cdots  & \cdots \\
f_1(x_l) & \cdots & f_n(x_l)
\end{pmatrix}$


### Как задаются ответы. Типы задач 

Задачи классификации: 
 > $Y=\{-1, +1\}$ - классификация на 2 класса;   
 > $Y=\{1, ..., M\}$ - на М непересекающихся классов;   
 > $Y=\{0, 1\}^M$ на М классов, которые могут пересекаться
 
Задачи восстановления регрессии
 > $Y=R$ или $Y=R^m$
 
Задачи ранжирования
 > Y - конечное упорядоченное множество
 
 
### Пресказательная модель
Модель - параметрическое семейство функций $A=\{a(x)=g(x, \theta) | \theta \in \Theta\}$,     $g: X * \Theta \to Y$ - фиксированная функция, $\Theta$ - множество допустимых значений параметра $\theta$

Пример
Линейная модель с вектором параметров $\theta=(\theta_1, ..., \theta_n), \Theta = R^n$

 > $g(x, \theta)=\sum_{\substack{1<j<n}}\theta_j f_j(x)$ - для регрессии и ранжирования, $Y=R$,  
 > $g(x, \theta)=sign\sum_{\substack{1<j<n}}\theta_j f_j(x)$ - для классификации, $Y=\{-1, +1\}$
 

###  Этапы обучения и применения модели
Этап обучения. Метод обучения $\mu: (X * Y)^l \to A$ по выборке $X^l=(x_i, y_i)^l _{i=1}$ строит алгоритм $a=\mu(X^l)$: $\begin{pmatrix}
f_1(x_1) & \cdots & f_n(x_n) \\
\cdots  & \cdots  & \cdots \\
f_1(x_l) & \cdots & f_n(x_l)
\end{pmatrix} \to^y \begin{pmatrix}y_1 \\ \cdots \\ y_l\end{pmatrix} \to^\mu a$

Этап применения: алгоритм а для новых объектов $x_1 ^{\prime}, ..., x_k ^{\prime}$ выдает ответы $a(x_i^{\prime})$
$\begin{pmatrix}
f_1(x_1) & \cdots & f_n(x_n) \\
\cdots  & \cdots  & \cdots \\
f_1(x_l) & \cdots & f_n(x_l)
\end{pmatrix} \to^y \begin{pmatrix}a(x_1^{\prime}) \\ \cdots \\a(x_k^{\prime})\end{pmatrix}$


### Функционалы качества

L(a, x) - функция потерь - величина ошибки алгоритма $a \in A$ на объекте $x \in X$

Функции потерь для задач классификации:
 > $L(a, x)=[a(x)\neq y(x)]$ - индикаторр ошибки
 
Функции потерь для задач регрессии
 > $L(a, x)=|a(x)-y(x)|$ - абсолютное значение ошибки;    
 > $L(a, x)=(a(x)-y(x))^2$ - квадратичная ошибка
 
Эмпирический риск - функционл качества алгоритма a на $X^l$:

$Q(a, X^l)=\frac{1}{l}\sum_{\substack{1<i<l}}L(a, x_i)$


### Сведение задачи обучения к задаче оптимизации

Минимизация эмпирического риска: $\mu(X^l)=arg min_{a \in A}Q(a, X^l)$

Метод наименьших квадратов: $\mu(X^l)=arg min_\theta \sum_{\substack{1\leq i \leq l}}(g(x_i, \theta)-y_i)^2$

## Проблема переобучения. Методология решения задач машинного обучения

### Эмпирические оценки обобщающей способности

> Эмпирический риск на тестовых данных (hold-out) $HO(\mu, X^l, X^k)=Q(\mu(X^l), X^k) \to min $

> Скользящий контроль (leave-one-out), L=l+1: $LOO(\mu, X^l)=\frac{1}{L}\sum_{\substack{1<i<L}}\mathcal{L}(\mu(X^l|{x_i}), x_i) \to min$

> Кросс-проверка по N разбиениям: $X^L=X^l _n \sqcup X^k _n, L=l+k$, $CV(\mu, X^L)=\frac{1}{N}\sum_{\substack{1<n<N}}Q(\mu(X^l _n), X^l _n) \to min$

CRISP-DM - межотраслевой стандарт решения задач интеллектуального анализа данных

### Этапы решения задач машинного обучения:
 - понимание задачи и данных
 - предобработка данных и изобретение признаков
 - построение модели
 - сведение обучения к оптимизации
 - решение проблем оптимизации и переобучение
 - оценивание качества решения
 - внедрение и эксплуатация

## Работа с векторами и матрицами в NumPy

In [1]:
import numpy as np

# Сгенерируйте матрицу, состоящую из 1000 строк и 50 столбцов, элементы которой являются случайными из нормального распределения N(1,100).

X = np.random.normal(loc=1, scale=10, size=(1000, 50))
print (X)

[[ 27.62959775  -0.03044889  -2.37893263 ...   0.7907481    0.84448831
   13.12526703]
 [ 14.27896603   9.89167151   4.86712915 ...  10.07484319   7.72718931
   -0.57056471]
 [-14.36143297   1.54551245  10.79341614 ...   8.19946187   1.27141173
    6.05333731]
 ...
 [  6.2984016    3.19884844 -17.50667425 ...   6.93424378  -5.44290163
    4.36831041]
 [ -2.11911511  14.2266969  -14.53945215 ...  -6.87622081  13.06748917
    6.42436751]
 [ -7.49068918  -5.16304102   4.60864366 ...   6.73378756   0.54972655
   16.50783537]]


In [2]:
import numpy as np

# Произведите нормировку матрицы из предыдущего задания: вычтите из каждого столбца его среднее значение, а затем поделите на его стандартное отклонение.

m = np.mean(X, axis=0)
std = np.std(X, axis=0)
X_norm = ((X - m)  / std)
print (X_norm)

[[ 2.61379095e+00 -8.15621664e-02 -3.24853376e-01 ... -6.03544090e-02
   1.67171782e-03  1.20620086e+00]
 [ 1.28084904e+00  9.30913104e-01  3.98854578e-01 ...  8.81140424e-01
   6.93647776e-01 -1.54516560e-01]
 [-1.57864024e+00  7.92524401e-02  9.90748653e-01 ...  6.90959065e-01
   4.45939348e-02  5.03585777e-01]
 ...
 [ 4.84060615e-01  2.47962527e-01 -1.83575230e+00 ...  5.62654014e-01
  -6.30452691e-01  3.36173860e-01]
 [-3.56353613e-01  1.37326875e+00 -1.53939791e+00 ... -8.37857391e-01
   1.23055322e+00  5.40448617e-01]
 [-8.92657540e-01 -6.05303302e-01  3.73038071e-01 ...  5.42325862e-01
  -2.79631705e-02  1.54226805e+00]]


In [3]:
import numpy as np

# Выведите для заданной матрицы номера строк, сумма элементов в которых превосходит 10.

Z = np.array([[4, 5, 0], 
             [1, 9, 3],              
             [5, 1, 1],
             [3, 3, 3], 
             [9, 9, 9], 
             [4, 7, 1]])

r = np.sum(Z, axis=1)
print (np.nonzero(r > 10))

(array([1, 4, 5]),)


In [4]:
import numpy as np

# Сгенерируйте две единичные матрицы (т.е. с единицами на диагонали) размера 3x3. Соедините две матрицы в одну размера 6x3.

A = np.eye(3)
B = np.eye(3)
AB = np.vstack((A, B))
print (AB)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## Решающие деревья

### Задача классификации (обучение с учителем)

Задача восстановления зависимсти $y: X \to Y, |Y|<\infty$ по точкам обучающей выборки $(x_i, y_i), i=1,...,l$

Дано: 
    векторы $x_i=(x_i ^1, ..., x_i ^n)$ - объекты обучающей выборки, $y_i=y(x_i)$ - классификации, ответы учителя, i=1, ..., l:

$\begin{pmatrix}
(x_1 ^1) & \cdots & x_1 ^n \\
\cdots  & \cdots  & \cdots \\
(x_1 ^l) & \cdots & x_l ^n 
\end{pmatrix} \to^y \begin{pmatrix}y_1 \\ \cdots \\ y_l\end{pmatrix}$

Найти: 
    функцию a(x), способную классифицировать объекты произвольной тестовой выборки $\tilde{x_i}=(\tilde{x_i ^1}, ..., \tilde{x_i ^n}), i=1, ..., k$:
$\begin{pmatrix}
\tilde{x_i ^1} & \cdots & \tilde{x_i ^n} \\
\cdots  & \cdots  & \cdots \\
\tilde{x_k ^1} & \cdots & \tilde{x_k ^n}
\end{pmatrix} \to^{a?} \begin{pmatrix}a(\tilde{x_1}) \\ \cdots \\ \tilde{x_k}\end{pmatrix}$

### Определение бинарного решающего дерева
Бинарное решающее дерево - алгоритм классификации a(x), задающийся бинарным деревом: 
 > 1) $\forall v \in V_{внутр} \to$ предикат $\beta_v: X\to \{0,1\}, \beta_v \in \mathcal{B}$, 
 
 > 2) $\forall v \in V_{внутр} \to$ имя класса $c_v \in Y$, где $\mathcal{B}$ - множество бинарных признаков или предикатов

## Алгоритм построения решающего дерева

### Жадный алгоритм построения дерева ID3

1) Процедура LearnID3 $(U \subseteq X^l)$   
2) если все объекты из U лежат в одном классе $c \in Y$, то    
3) вернуть новый лист v, $c_v:=c$  
4) найти предикат с максимальной онформативностью: $\beta:=arg max_{\beta \in \mathcal{B}} I (\beta, U)$  
5) разбить выборку на две части $U=U_0\sqcup U_1$ по предикату $\beta$:
$U_0:=\{x\in U: \beta(x)=0\}$, $U_1:=\{x\in U: \beta(x)=1\}$  
6) если $U_0=\oslash$ или $U_1=\oslash$ то  
7) вернуть новый лист v, $c_v$:=Мажоритарный класс(U)  
8) создать новую внутреннюю вершину $v:\beta_v:=\beta$ построить левое поддерево: $L_v:=LearnID3(U_0)$, построить правое поддерево   $R_v:=LearnID3(U_1)$   
9) вернуть v


### Варианты критериев ветвления
1) Критерий Джини $I(\beta, X^l)=\#\{(x_i, x_j):y_i=y_j, \beta(x_i)=\beta(x_j)\}$    
2) D-критерий Донского: $I(\beta, X^l)=\#\{(x_i, x_j):y_i\neq y_j, \beta(x_i)\neq \beta(x_j)\}$
3) Энтропийный критерий

## Обработка пропусков. Достоинства и недостатки решающих деревьев

### Обработка пропусков

На стадии обучения:
 > $\beta_v(x)$ - не определено, $x_i$ исключается из U для $I(\beta, U)$
 
 > $q_v=\frac{|U_0|}{|U|}$ - оценка вероятности левой ветви, $\forall v \in V_{внутр}$ 
 
 > функция условной вероятности $P(y|x, v)=\frac{1}{|U|}\#{x_i \in U, y_i=y}$ для всех $v \in V_{лист}$
 
На стадии классификации:
 > $\beta_v(x)$ не определено => пропорциональное распределение:
 $P(y|x, v)=q_vP(y|x, L_v)+(1-q_v)P(y|x, R_v)$
 
 > $\beta_v(x)$ определено => либо налево, либо направо:
 $P(y|x, v)=(1-\beta_v(x))P(y|x, L_v)+\beta_v(x)P(y|x, R_v)$
 
 > окончательное решение - наиболее вероятный класс: 
 $a(x)=argmax_{y \in Y}P(y|x, v_0)$

## Способы устранения недостатков решающих деревьев

### Усечение дерева (pruning). Алгоритм С4.5
Если проблема с рещающим деревом заключается в переобучении, переусложнении структуры дерева, значит, нужна контрольная выборка данных, для того чтобы оценивать обобщающую способность 

1) для всех $v \in V_внутр$     
2) $S_v:=$ подмножество объектов $X^k$, дошедших до v    
3) если $S_v=\oslash$ то    
4) вернуть новый лист v, $c_v:=$ мажоритрный класс(U)    
5) число ошибок при классификации $S_v$ четырмя способами    
   - r(v) - поддеревом, растущим из вершины v;
   - $r_L(v)$ - поддеревом левой дочерней вершины $L_v$;
   - $r_R(v)$ - поддеревом правлй дочерней вершины $R_v$;
   - $r_c(v)$ - к классу $c \in Y$
6) в зависимости от того, какое из них минимально:
   - сохранить поддерево v;
   - заменить поддерево v поддеревом $L_v$;
   - заменить поддерево v поддеревом $R_v$;
   - заменить поддерево v листом $c_v:=arg min_{c \in Y}r_c(v)$
   
   
### CART: деревья регрессии и классификации
Обобщение на случай регрессии: $Y=\mathbb{R}, c_v \in \mathbb{R}$
Пусть $U_v$ - множество объектов $x_i$, дошедших до вершины v. Значения в терминальных вершинах - МНК-решение: $c_v:=\hat{y}(U_v)=\frac{1}{|U_v|} \sum_{\substack{x_i \in U_v}}y_i$

Критерий информативности - среднеквадратичная ошибка $I(\beta, U_v)=\sum_{\substack{x_i \in U_v}}(\hat{y_i}(\beta)-y_i)^2$, где $\hat{y_i}(\beta)=\beta(x_i)\hat{y_i}(U_{v1}) + (1-\beta(x_i))\hat{y_i}(U_{v0})$ - прогноз ветвления $\beta$ и разбиения $U_v=U_{v0}\sqcup U_{v1}$

Итог: кусочно-постоянная функция


### CART: критерий Minimal Cost-Complexity Pruning
Среднекввадратичная ошибка со штрафом за сложность дерева 
$C_{\alpha}=\sum_{1\leq x_i \leq l}(\hat{y_i}-y_i)^2 + \alpha|V_{лист}|\to min$

При увеличении $\alpha$ дерево последовательно упрощается. Причем последовательность вложенных деревьев единственна. Из этой последовательности выбирается дерево с минимальной ошибкой на тестовой выборке. Для случая классификации используется аналогичная стратегия усчения, с критерием Джини.