# Методы восстановления регрессии

Задачу обучения по прецедентам при $Y=\mathbb{R}$ принято называть задачей восстановления регрессии. Задано пространство объектов X и множество возможных ответов Y. Существует неизвестная целевая зависимость $y^*:X\rightarrow Y$ , значения которой известны только на объектах обучающей выборки $X^\ell = (x_i, y_i)_{i-1}^\ell, y_i = y^* (x_i)$. Требуется построить алгоритм, который в данной задаче принято называть "функцией регрессии" $a: X^* \rightarrow Y$ , аппроксимирующий целевую зависимость $y^*$.

 ## Линейная регрессия
 
Для начала настроим окружение jupiter notebook:

In [1]:
import os
import sys
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

И установим внешние зависимости:

In [2]:
import numpy as np
import math
import matplotlib.pyplot as plot

plot.rcParams['figure.figsize'] = (15, 6)

Обучающую выборку возьмём из `sklearn` – `datasets.diabetes`. Выборка специально подготовлена для демонстрации возможностей линейной регрессии, содержит 442 объекта по 10 признаков.

**Задача** этого примера реализовать линейную регрессию и технику *svd (singular value decomposition)*, сравнить их между собой.

In [7]:
from sklearn import datasets
from sklearn.metrics import mean_squared_error

Подготовим обучающие и тестовые выборки диабетов:

In [4]:
diabetes = datasets.load_diabetes()  # 442 Объекта, 10 признаков

def prepare_dataset(size, features):
    diabetes_X = diabetes.data[:(size * 2), :features]
    diabetes_y = diabetes.target[:(size * 2)]

    diabetes_X_train = diabetes_X[:size]
    diabetes_X_test = diabetes_X[-size:]

    diabetes_y_train = diabetes_y[:size]
    diabetes_y_test = diabetes_y[-size:]

    return diabetes_X_train, diabetes_y_train, diabetes_X_test, diabetes_y_test

Линейную регрессию оформем в виде класса с методами `fit` для обучения алгоритма, методом `predict` для ответов по тестовой выборке и геттером `coeffs` для получения коэффициентов (весов) регрессии.

### Решение нормальной системы

*Линейной моделью регресси называется уравнение вида* – $\phi(x, \alpha)=\sum_{i=1}^n \alpha_j \cdot f_j(x)$. $F$ – матрица признаков. Задача – вычилить параметры алгоритма ($\alpha$).

$\alpha^* = (F^TF)^{-1}F^Ty = F^+y$

Матрица $F^+$ называется *псевдообратной*. Решив это уравнение, получим параметры алгоритма.

### Решение через SVD

Принцип *SVD* заключается в том, чтобы разложить $F$ на 3 матрицы:

$F = VDU^T$

$D$ – диагональная матрица собственных значений $F^TF$

$V$ – ортогональная матрица $l \times n$

$U$ – ортогональная матрица $n \times n$

Проделав сингулярное разбиение, можно вычислить параметры алгоритма:

$a^* = F^+y = UD^{-1}V^Ty$

Метод *сингулярного разложения* обладает положительной особенностью. Если матрица признаков слишком большая, то матрицу можно сократить до $r$ признаков. Это не только уменьшит скорость работы, но и количество потребляемой памяти. Для этого нужно после сингулярного разложения оставить $r$ колонок матрицы $V$, $r$ колонок и строк матриц $D$ и $V$.

### Нормализация данных

Линейная регрессия даёт очень плохие результаты, если данные перед использованием не нормировать.

Для хороших результатов, нужно центрировать каждый признак, а также ответы по среднему значению по оси координат. От этого центрирования меняются коэффициенты уравнения.

### Алгоритм

Код линейной регрессии и нормализации данных будет находится внутри класса `LinearRegression`:

In [5]:
class LinearRegression:
    def __init__(self, preprocess=True):
        self.__has_preprocess = preprocess
        self.__intercept = 0

    def fit(self, X, y):
        if self.has_preprocess:
            X, y, X_offset, y_offset = self.__preprocess(X, y)

        F = X
        F_transpose = np.transpose(F)

        pseudo_inverse = np.dot(np.linalg.inv(np.dot(F_transpose, F)), F_transpose)
        self.__w = np.dot(pseudo_inverse, y)

        if self.has_preprocess:
            self.__set_intercept(X_offset, y_offset)

    def predict(self, X):
        return np.dot(X, self.__w) + self.__intercept

    @property
    def coeffs(self):
        return self.__w

    @property
    def has_preprocess(self):
        return self.__has_preprocess

    def __pseudo_linear(self, F):
        F_transpose = np.transpose(F)

        return np.dot(np.linalg.inv(np.dot(F_transpose, F)), F_transpose)

    def __set_intercept(self, X_offset, y_offset):
        self.__intercept = y_offset - np.dot(X_offset, self.coeffs)

    def __preprocess(self, X, y):
        X_offset = np.average(X, axis=0)
        X = X - X_offset

        y_offset = np.average(y, axis=0)
        y = y - y_offset

        return X, y, X_offset, y_offset


Код **svd** будет находится в классе `SVD`. У него, кроме параметра нормализации, будет ещё один параметр `cut` – нужно ли обрезать количество признаков. Обрезка будет проиходить по 2м признакам.

In [6]:
class SVD:
    def __init__(self, preprocess=True, cut=True):
        self.__has_preprocess = preprocess
        self.__cut = cut
        self.__intercept = 0

    def fit(self, X, y):
        if self.has_preprocess:
            X, y, X_offset, y_offset = self.__preprocess(X, y)

        V, D, U = self.__svd(X)

        pseudo_inverse = np.dot(np.dot(U, np.linalg.inv(D)), np.transpose(V))
        self.__w = np.dot(pseudo_inverse, y)

        if self.has_preprocess:
            self.__set_intercept(X_offset, y_offset)

    def predict(self, X):
        if self.uses_cut:
            X = X[:, :2]

        return np.dot(X, self.__w) + self.__intercept

    @property
    def coeffs(self):
        return self.__w

    @property
    def has_preprocess(self):
        return self.__has_preprocess

    @property
    def uses_cut(self):
        return self.__cut

    def __set_intercept(self, X_offset, y_offset):
        self.__intercept = y_offset - np.dot(X_offset, self.coeffs)

    def __preprocess(self, X, y):
        if self.uses_cut:
            X = X[:, :2]

        X_offset = np.average(X, axis=0)
        X = X - X_offset

        y_offset = np.average(y, axis=0)
        y = y - y_offset

        return X, y, X_offset, y_offset

    def __svd(self, X):
        V, D, U = np.linalg.svd(X, full_matrices=False)
        U = np.transpose(U)
        D = np.diag(D)

        if self.uses_cut:
            V = V[:, :2]
            D = D[:2, :2]
            U = U[:2, :2]

        return V, D, U

Для сравнения алгоритмов сделаем вспомогательную функцию:

In [8]:
def test_algo(algo, size, features, preprocess, cut=False):
    print(algo, ': features =', features, '; preprocess =', preprocess)
    if cut:
        print('Using cut')

    diabetes_X_train, diabetes_y_train, diabetes_X_test, diabetes_y_test = prepare_dataset(size, features)

    y_est = predict(algo, diabetes_X_train, diabetes_y_train, diabetes_X_test, preprocess, cut)
    print("Средняя квадратичная ошика: %.2f"
          % mean_squared_error(diabetes_y_test, y_est))
    print('-----------------------------------------------------')
    

def predict(algo, X_train, y, X_test, preprocess, cut):
    regr = None
    if algo == 'linear':
        regr = LinearRegression(preprocess=preprocess)
    elif algo == 'svd':
        regr = SVD(preprocess=preprocess, cut=cut)

    regr.fit(X_train, y)

    print('Coeffs: ', np.round(regr.coeffs, 2))

    return regr.predict(X_test)

### Тесты

Запустим обучение на 50 объектах на 7х признаках без нормализации данных:

In [12]:
test_algo('linear', size=50, features=7, preprocess=False)
test_algo('svd', size=50, features=7, preprocess=False)

linear : features = 7 ; preprocess = False
Coeffs:  [ -694.68   721.62  1102.04   -27.68   549.71 -1784.24   116.97]
Средняя квадратичная ошика: 25019.27
-----------------------------------------------------
svd : features = 7 ; preprocess = False
Coeffs:  [ -694.68   721.62  1102.04   -27.68   549.71 -1784.24   116.97]
Средняя квадратичная ошика: 25019.27
-----------------------------------------------------


Алгоритмы имеют одинаковые веса и одинаковые ошибки, но при этом дают очень плохой результат.

Включим обрезку до 2х признаков в **svd**:

In [14]:
test_algo('linear', size=50, features=7, preprocess=False)
test_algo('svd', size=50, features=7, preprocess=False, cut=True)

linear : features = 7 ; preprocess = False
Coeffs:  [ -694.68   721.62  1102.04   -27.68   549.71 -1784.24   116.97]
Средняя квадратичная ошика: 25019.27
-----------------------------------------------------
svd : features = 7 ; preprocess = False
Using cut
Coeffs:  [-347.7    31.06]
Средняя квадратичная ошика: 19476.60
-----------------------------------------------------


Обрезка параметров не только ускорила время работы и сократила память, но и улучшила показатели по сравнению с 7ю параметрами

Однако показатели алгоритма плохие, так как данные не отцентрованы. Отцентрируем:

In [16]:
test_algo('linear', size=50, features=7, preprocess=True)
test_algo('svd', size=50, features=7, preprocess=True)

linear : features = 7 ; preprocess = True
Coeffs:  [  -14.14  -399.25   622.59   348.05  1593.21 -1673.51  -821.45]
Средняя квадратичная ошика: 2855.08
-----------------------------------------------------
svd : features = 7 ; preprocess = True
Coeffs:  [  -14.14  -399.25   622.59   348.05  1593.21 -1673.51  -821.45]
Средняя квадратичная ошика: 2855.08
-----------------------------------------------------


Нормализация улучшила ответ в несколько раз.

Однако, если включить с нормализацией данных обрезку параметров для **svd**

In [18]:
test_algo('linear', size=50, features=7, preprocess=True)
test_algo('svd', size=50, features=7, preprocess=True, cut=True)
test_algo('linear', size=50, features=2, preprocess=True)

linear : features = 7 ; preprocess = True
Coeffs:  [  -14.14  -399.25   622.59   348.05  1593.21 -1673.51  -821.45]
Средняя квадратичная ошика: 2855.08
-----------------------------------------------------
svd : features = 7 ; preprocess = True
Using cut
Coeffs:  [124.45  70.41]
Средняя квадратичная ошика: 4128.82
-----------------------------------------------------
linear : features = 2 ; preprocess = True
Coeffs:  [124.45  70.41]
Средняя квадратичная ошика: 4128.82
-----------------------------------------------------


ответ **svd** будет хуже и не будет отличаться от ответа линейной регрессии для 2х признаков.

В итоге, оба метода отличаются лишь способом разрешения матричного уравнения, но оба способа не отличаются друг от друга по результативности.