In [1]:
import numpy as np
from nose.tools import assert_almost_equal, assert_almost_equals, assert_equal

Ответами на задачи являются функции. Они будут проверены автоматическими тестами на стороне сервера. 

Некоторые тесты выполняются локально для самопроверки.

### Вопросы для самоконтроля 
Эта часть задания не оценивается, ответы можно не записывать
1. Что такое решающее дерево? Как по построенному дереву найти прогноз для объекта?
2. Почему для любой выборки можно построить дерево, имеющее нулевую ошибку на ней? Приведите примеры.
3. Почему не рекомендуется строить небинарные деревья (имеющие более двух потомков у каждой вершины)?
4. Как устроен жадный алгоритм построения дерева?
5. Какие критерии информативности для решения задачи классификации вы знаете?
6. Какой смысл у критерия Джини и энтропийного критерия?
7. Какие критерии информативности для решения задачи регрессии вы знаете?
8. Что такое pruning (стрижка) дерева? Чем отличаются post-pruning и pre-pruning?
9. Какие методы обработки пропущенных значений вы знаете?
10. Как учитывать категориальные признаки в решающем дереве?

### Критерии информативности (45%)

Критерий информативности для набора объектов $L$ вычисляется на основе того, насколько хорошо их целевые переменные предсказываются константой (при оптимальном выборе этой константы):
$$
H(R) = \min_{c \in Y} \dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} L(y_i, c),
$$
$$c = [c_1,\ldots,c_k], 0 \leq c_i \leq 1 \forall i, \sum_{k=1}^K c_k = 1,$$
где $L(y_i, c)$- некоторая функция потерь. Соответственно, чтобы получить вид критерия при конкретной функции потерь, можно аналитически найти оптимальное значение константы и подставить его в формулу для $H(R)$. 


Выведите критерии информативности для следующих функций потерь:
1. $L(y,c) = (y-c)^2$
2. $L(y,c) = \sum_{k=1}^K (c_k-[y=k])^2$
3. $L(y,c) = -\sum_{k=1}^K [y=k]\log c_k$

1)
<br>
$$H(R) = \min_{c \in Y} \dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} (y_i - c)^2$$
<br>Продифференцируем выражение:

$$\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} -2(y_i - c)$$ 

Чтобы найти минимум, приравниваем его к нулю:

$$\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} -2(y_i - c) = 0$$ 

<br> Отсюда имеем:

$$\sum_{(x_i,y_i) \in R} y_i = \sum_{(x_i,y_i) \in R} c = c * n$$
<br> Значит:
$$ c = \overline y$$
<br> Таким образом, имеем:
$$\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} (y_i - \overline y)^2$$

<br>
2)
<br>
$$H(R) = \min_{c \in Y} \dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} \sum_{k=1}^K (c_k-[y=k])^2 $$

Можем поменять знаки суммирования местами, тогда получим:

$$\min_{c \in Y} \dfrac{1}{|R|} \sum_{k=1}^K \sum_{(x_i,y_i) \in R}  (c_k -[y=k])^2$$ <br>

<br> Продифференцируем по каждому $c_k$ и приравняем к нулю: 
$$\sum_{(x_i,y_i) \in R} 2(c_k -[y=k]) = 0$$

<br>Значит:

$$c_k = \dfrac{1}{|R|}{\sum_{(x_i,y_i) \in R} [y=k]} = p_k$$ 

<br> Поставляем найденное значение, а затем упрощаем результат:

$$H(R) = \dfrac{1}{|R|} \sum_{k=1}^K \sum_{(x_i,y_i) \in R}  (p_k -[y=k])^2 = \sum_{k=1}^K p_k (1 - p_k)$$

<br>
3)
<br>
$$H(R) = \min_{c \in Y} -\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R}\sum_{k=1}^K [y=k]\log c_k$$

<br> Из условия мы знаем, что:
$$\sum_{k=1}^K c_k = 1,$$

<br> Тогда можем записать:

$$L(c, \lambda) =  -\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R}\sum_{k=1}^K [y=k]\log c_k + \lambda \sum_{k=1}^K c_k$$

<br> Теперь дифференцируем и сразу приравниваем к нулю:

$$-\dfrac{1}{|R|} \sum_{(x_i,y_i) \in R} \frac{[y=k]}{c_k} + \lambda = p_k c_k - \lambda = 0$$

<br>Значит, имеем: 

$$c_k = \dfrac{p_k}{\lambda}$$

<br> Однако:

$$\sum_{k=1}^K c_k = \dfrac{1}{\lambda} = 1$$

Значит, $\lambda = 1$ и $c_k = p_k$.

<br> Подставляем и получаем:

$$H(R) = - \sum_{k=1}^K p_k \log p_k$$


In [2]:
def H_1(ys):
    """
    ys is a 1-dimentional numpy array containing y values for every object from R.
    """
    c = ys.mean()
    H = np.sum((ys-c) ** 2)
    H = H/ys.size
    return H
    
    raise NotImplementedError()

In [3]:
def H_2(ys):
    """
    ys is a numpy array with shape (num_items, num_classes).
    Where each row is a one-vector of class probabilities (e.g. [0, 0, 1] for object of class 2 from 0, 1, 2).
    """
    
    num_items = ys.shape[0]
    num_classes = ys.shape[1]
    probs = np.zeros(num_classes)
    probs = np.sum(ys, axis=0)   #OR 1??
    all_res = np.sum(ys)
    probs = probs/all_res
    H = np.sum(probs * (1-probs))
    return H
    raise NotImplementedError()

In [4]:
epsilon = 1e-5
def H_3(ys):
    """
    ys is a numpy array with shape (num_items, num_classes).
    Where each row is a one-vector of class probabilities (e.g. [0, 0, 1] for object of class 2 from 0, 1, 2).
    log2 should be used as logarithm. 
    Do not forget to add epsilon to the probabitlities vector in the logarithm.
    """
    num_items = ys.shape[0]
    num_classes = ys.shape[1]
    probs = np.zeros(num_classes)
    probs = np.sum(ys, axis=0)   #OR 1??
    all_res = np.sum(ys)
    probs = probs/all_res
    log_probs = np.log2(probs + epsilon)
    H = - np.sum(probs * log_probs)
    return H

    raise NotImplementedError()

In [5]:
a_r = np.arange(10)
b_r = np.ones(10)
c_r = np.arange(25)/10.

In [6]:
y = np.arange(10)
c = y.mean()
print (c)
H = np.sum(y-c)
print(H)
H = H/y.size

4.5
0.0


In [7]:
assert_equal(criteria_1(a_r), 8.25)
assert_equal(criteria_1(b_r), 0.0)
assert_equal(criteria_1(c_r), 0.52)

NameError: name 'criteria_1' is not defined

In [9]:
assert_equal(H_1(a_r), 8.25)
assert_equal(H_1(b_r), 0.0)
assert_equal(H_1(c_r), 0.52)

In [10]:
a = np.vstack((np.ones(10), np.zeros(10))).T
b = np.vstack((np.ones(10)/2., np.ones(10)/2.)).T
c = np.vstack((np.ones(10)-0.01, np.ones(10)-0.99)).T

In [11]:
a = np.vstack((np.ones(10), np.zeros(10))).T
b = np.hstack([np.vstack((np.ones(5), np.zeros(5))), np.vstack((np.zeros(5), np.ones(5)))]).T
c = np.hstack([np.vstack((np.ones(9), np.zeros(9))), np.vstack((np.zeros(1), np.ones(1)))]).T
print('a:\n{}\nb:\n{}\nc:\n{}'.format(a, b, c))

a:
[[1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]]
b:
[[1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [0. 1.]
 [0. 1.]
 [0. 1.]
 [0. 1.]
 [0. 1.]]
c:
[[1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [1. 0.]
 [0. 1.]]


In [12]:
assert_almost_equal(criteria_2(a), 0.0, places=4)
assert_almost_equal(criteria_2(b), 0.5, places=4)
assert_almost_equal(criteria_2(c), 0.0198, places=4)

NameError: name 'criteria_2' is not defined

In [13]:
assert_almost_equal(H_2(a), 0.0, places=4)
assert_almost_equal(H_2(b), 0.5, places=4)
assert_almost_equal(H_2(c), 0.18, places=4)

In [14]:
assert_almost_equal(criteria_3(a), 0.0, places=4)
assert_almost_equal(criteria_3(b), 1.0, places=4)
assert_almost_equal(criteria_3(c), 0.081, places=3)

NameError: name 'criteria_3' is not defined

In [15]:
assert_almost_equal(H_3(a), 0.0, places=4)
assert_almost_equal(H_3(b), 1.0, places=4)
assert_almost_equal(H_3(c), 0.469, places=3)

### Сложность дерева (15%)

Запишите оценку сложности построения одного решающего дерева в зависимости от размера обучающей выборки $l$, числа признаков $d$, максимальной глубины дерева $D$. В качестве предикатов используются пороговые функции $[x_j>t]$. При выборе предиката в каждой вершине перебираются все признаки, а в качестве порогов рассматриваются величины $t$, равные значениям этого признака на объектах, попавших в текущую вершину. Считайте сложность вычисления критерия информативности на подвыборке константной (т.е. $O(1)$).

Оценку сложности представьте в формате $O($ `get_tree_complexity(D, l, d)`$)$, где `get_tree_complexity` - некоторая функция от $D$, $l$ и $d$. Функцию реализуйте ниже. 

* Рассмотрим какую-нибудь одну вершину. В ней нам надо проверить каждый из $d$ признаков для объектов из $R$ с $O(|R|)$ различными значениями. Итого, у нас сложность в одной вершине $O(d \cdot |R|)$

* Рассмотрим какой-нибудь один уровень. Всего на нем мы рассматриваем $l$ объектов, так что сложность на этом уровне (глубине) с учетом сложности в одной вершине будет $O(d \cdot l)$

* Рассмотрим теперь все дерево. В нем глубина ограничена $D$, поэтому с учетом предыдущего пункта можем записать, что сложность дерева: $O(d \cdot l \cdot D)$

In [16]:
def get_tree_complexity(D, l, d):
    """
    Compute tree complexity in form O(some_expression) and return the expression
    """
    compl = D * l * d
    return compl
    raise NotImplementedError()

In [None]:
#This cell is executed on the server side.


### Bootstrap (40%)

В данной задаче необходимо вычислить вероятность попадания объекта в boostrap-выборку, а затем оценить ее численно.


Пусть выборка $\hat{X}^{n}$ размера $n$ сгененирована методом bootstrap на основе выборки $X^{n}={\boldsymbol{x}{1},\dots\boldsymbol{x}{n}}$. Найдите вероятность попадания объекта $x_{i}$ в выборку $\hat{X}^{n}$ и вычислите ее для случая $n\rightarrow\infty$. Реализуйте функцию `probability_to_get_into_X_b`, которая возвращает эту вероятность как число от `0` до `1`. В качесте экспоненты можете использовать `math.exp(1)`.

Вероятность того, что на каком-то фиксированном месте стоит **не** данный объект равна $1 - \frac{1}{n}$,  у нас $n$ мест, так что вероятность того, что на всех местах стоят объекты, несовпадающие с данным, равна $(1 - \frac{1}{n})^n$. Значит, нужная нам вероятность (что хотя бы на одной позиции стоит нужный объект) составляет $1 - (1 - \frac{1}{n})^n$. Исходя из знаний мат. анализа можем сказать, что это равно при страмлении $n\rightarrow\infty$: $1 - (1 - \frac{1}{n})^n \rightarrow 1 - e^{-1}$

In [3]:
def probability_to_get_into_X_b():
    import math
    prob = 1 - 1/math.exp(1)
    return prob
    raise NotImplementedError()

In [18]:
assert_almost_equal(probability_to_get_into_X_b(), 0.6, places=1)

Реализуйте свою функцию, генерирующую bootstrap-выборку из исходной.

In [19]:
def my_bootstrap(X):
    """
    Implement the function that returns the 
    bootstraped dataset of the same size the
    original dataset was.
    """
    from sklearn.utils import resample
    
    #Y = resample(X)
    Y = np.zeros(X.size)
    for i in range(Y.size):
        Y[i] = np.random.choice(X)
    
    return Y
    raise NotImplementedError()

Численно оцените вероятность попадания объекта исходной выборки в bootstrap-выборку для размера выборки `N`. Функция `get_sample_probas` должна возвращать число от `0` до `1`. 

Не забывайте, что мы живем в случайном мире ;)

In [20]:
def get_sample_proba(N):
    from scipy.stats import uniform
    X = uniform.rvs(size = N)
    Y = my_bootstrap(X)
    num_goods = 0
    for i in range(N):
        if X[i] in Y:
            num_goods += 1
    sample_proba = num_goods/N
    return sample_proba
    raise NotImplementedError()

In [21]:
get_sample_proba(100000)

0.63163

In [22]:
get_sample_proba(400000)

0.631375

In [None]:
#This cell is executed on the server side.


Поздравляем, задание завершено. Не забудьте остановить свой виртуальный инстанс перед уходом (Control Panel -> Stop My Server).