Давайте поприпарируем немного линейную регрессию:

Пусть задано множество ${y_i}$  $i=\overline{1..n}$

1) Решим задачу регрессии вида $y = \beta + \epsilon$

$$
\hat{y_i} = \beta 
$$
Решим с помощью МНК:
$$
min(\sum_{i=1}^{N}\left(\ y_i - \hat{y_i})\ \right) ^ 2) = min(\sum_{i=1}^{N}\left(\ y_i - \beta)\ \right) ^ 2 \\
-2\sum_{i=1}^{N}(y_i - \beta) = 0 \\
\beta = \frac{\sum_{i=1}^{N}(y_i)}{N} \\
$$

Теперь давайте посмотрим на геометрическую интерпретацию полученного решения. Пусть нам дан вектор $y=(y_1, y_2, ... y_n)$, обозначим за $\bar{1}$ вектор вида $(1, 1, ...)$, и за $\hat{y} = \bar{y} \bar{1}$ вектор наших оценок, полученных простой моделью регрессии на константу. Очевидно, из геометрической интерпретации, что $y=\hat{y} + \bar{\epsilon_i}$. 

$$
\sum_{i=1}^{N}\hat{y_i}=\sum_{i=1}^{N}\bar{y}=n*\bar{y}=\sum_{i=1}^{N}y_i \\
\sum_{i=1}^{N}\hat{y_i} = \sum_{i=1}^{N}y_i \\
\sum_{i=1}^{N}(\hat{y_i} - y_i) = 0 \\
\sum_{i=1}^{N}\epsilon_i = 0 \\
\sum_{i=1}^{N}\epsilon_i * 1 = 0 \\
(\bar{\epsilon}, \bar{1}) = 0 \\
\bar{\epsilon} \perp \bar{1}
$$

Что это значит? Это значит, что проекция вектора $y=(y_1, y_2, ... y_n)$ на вектор из единиц получим оценку вектора $\bar{\hat{y}}$ в модели с константным предиктором. Кажется просто? И какой из этого толк?

Это просто подготовка: усложним задачу.

2) Решим задачу регрессии вида $y = \beta_0 + \beta_1 * x + \beta_2 * z$

Какие выводы можем сделать из предыдущего шага?
$$
\bar{\epsilon} \perp \bar{1} \\
\bar{x} \perp \bar{\epsilon} \\
\bar{\epsilon} \perp \bar{z}
$$
Отсюда можно получить оценки на все коэффициенты, но важно не это. Линейная комбинация векторов перпендикулярных заданному - перпендикулярна ему. То есть $\hat{y} \perp \hat{\epsilon}$, значит у нас по-прежнему прямоугольный треугольник. Но заметим еще, что из условий 1 порядка $\sum\epsilon_i = 0$, откуда $\sum\hat{y_i}=\sum(y_i)$ и $\bar{y}=\bar{\hat{y}}$. То есть проекции векторов предсказаний и целевых переменных попадут в 1 точку на векторе $\bar{1}$. По теореме о 3-х перпендикулярах получаем прямоугольный треугольник. Давайте порисуем.

Три разные суммы квадратов:

- RSS - сумма квадратов остатков
- TSS - общая сумма квадратов
- ESS - объясненная сумма квадратов
$$
RSS = \sum(\epsilon_i^2) \\
TSS = \sum(y_i-\bar{y})^2 \\
ESS = \sum(\hat{y_i}-\bar{y})^2
$$

На основании рисунка выше мы доказали, что TSS = RSS + ESS. При этом 
$$
\frac{ESS}{TSS} = R^2 = sCorr(\hat{y}, y)
$$
Это доля объясненного разброса Y в общем разбросе y

Как узнать, есть ли пропущенные переменные в модели? тест Рамсея.

# Деревья

Краткая идея: разобьем пространство признаком на регионы. В каждом регионе будет предсказывать среднее. Строится дерево в прямом смысле.

<img src="trees_common_view.png"/>


Какие проблемы?
- как разбить?
- что, если приходят данные далекие от полученных разбиений?
- как посмотреть?

1) Как разбить?
CART - строим все возможные (в дискретном смысле) гиперплоскости, которые разбивали бы наше пространство на два. Выбираем разбиение минимизирующее метрику. На следующих итерациях мы берем один худший лист и проводим ту же операцию по разбиению его. Продолжаем так делать, пока не достигнем ограничения по количеству узлов, либо от одной итерации к другой перестанет улучшаться общая ошибка  - переобучаемся. Что делать? pruning, ограничение на число элементов в листе.

$$
SSE = \sum_{i \in S_1}(y_i−\bar{y_1})+\sum_{i \in S_2}(y_i−\bar{y_2}) + \gamma * treeSize
$$

2) Что, если приходят совсем новые данные?

Интерполяции не происходит. Предсказание последнего разбиения.

<img src="trees_predictions.png"/>

Попробуем сделать не дерево, но пень!

In [None]:
def compute_loss(threshold, x, y):
    #TODO реализовать функцию подсчета лосса

def decision_stump(x, y):
    #TODO реализовать решающий пень, подобрать лучший порог
    

В строенной библиотеке sklearn уже все сделано за нас и для нас. Давайте сгенерируем выборку и попробуем обучить дерево. Также посмотрим, что нам предсказывает решающий лес.

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor

n_train = 150        
n_test = 1000       
noise = 0.1


def f(x):
    x = x.ravel()

    return np.exp(-x ** 2) + 1.5 * np.exp(-(x - 2) ** 2)

def generate(n_samples, noise):
    X = np.random.rand(n_samples) * 10 - 5
    X = np.sort(X).ravel()
    y = np.exp(-X ** 2) + 1.5 * np.exp(-(X - 2) ** 2) + \
        np.random.normal(0.0, noise, n_samples)
    X = X.reshape((n_samples, 1))

    return X, y

X_train, y_train = generate(n_samples=n_train, noise=noise)
X_test, y_test = generate(n_samples=n_test, noise=noise)


tree = DecisionTreeRegressor()

tree.fit(X_train, y_train)
d_predict = tree.predict(X_test)

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(X_test, f(X_test), "b")
plt.scatter(X_train, y_train, c="b", s=20)
plt.plot(X_test, d_predict, "g", lw=2)
plt.xlim([-5, 5])
plt.title("Decision tree regressor, MSE = %.2f" % np.sum((y_test - d_predict) ** 2))
plt.show()

В питон встроены приспособления для визуализации деревьев. Код ниже может не заработать - требует установки graphiz. Давайте попробуем отрисовать полученное решающее дерево.

In [None]:
from sklearn.tree import export_graphviz
export_graphviz(tree, feature_names=['f1'], out_file='example.dot')
!dot -Tpng 'example.dot' -o 'example.png'

<img src="example.png"/>

In [None]:
def get_rules(tree, feature_names):
        left      = tree.tree_.children_left
        right     = tree.tree_.children_right
        threshold = tree.tree_.threshold
        features  = [feature_names[i] for i in tree.tree_.feature]
        value = tree.tree_.value

        def recurse(left, right, threshold, features, node):
                if (threshold[node] != -2):
                        print("if ( " + features[node] + " <= " + str(threshold[node]) + " ) {")
                        if left[node] != -1:
                                recurse (left, right, threshold, features,left[node])
                        print("} else {")
                        if right[node] != -1:
                                recurse (left, right, threshold, features,right[node])
                        print("}")
                else:
                        print("return " + str(value[node]))

        recurse(left, right, threshold, features, 0)

In [None]:
get_rules(tree, feature_names=['f1', 'f2'])

Давайте сравним предсказания деревьев и линейной регрессии на сгенерированной выборке.