# Лабораторная работа 1. Линейная регрессия. Нормальное уравнение

Если для оценки качества в регресии используется среднеквадратичная ошибка (*mean squared error, MSE*), то ошибка на одном примере (*функция потерь*) будет определяться выражением:

$$L(y,a)=(a-y)^2$$

а суммарная ошибка (*функционал ошибки*):

$$MSE(a,X)=\frac1{l}\sum_{i=1}^lL(y_i,a(\overrightarrow{x_i}))=\frac1{l}\sum_{i=1}^l(a(\overrightarrow{x_i})-y_i)^2$$

В случае линейной регресии:

$$a(\overrightarrow{x_i})=\langle \overrightarrow{w},\overrightarrow{x_i}\rangle$$

Задача оптимизации:

$$\frac1{l}\sum_{i=1}^l (\langle \overrightarrow{w},\overrightarrow{x_i}\rangle-y_i)^2\to \min_{\overrightarrow{w}}$$

Тогда, продифференцировав функционал ошибки по $\overrightarrow{w}$, приравняв его нулю и решив полученное уравнение, получим следующее выражение для оптимального вектора весов, которое называется *нормальным уравнением*:

$$\overrightarrow{w}_{opt} = \left(X^TX\right)^{-1}X^T\overrightarrow{y}.$$

**Задание 1. Пример из лекций**

Напишите функцию ``get_weight``, которая находит вектор весов на основе нормального уравнения.

Полезные функции: ``numpy.ones(n)`` для создания массива из единиц длины $n$ и ``numpy.concatenate((А, В), axis=1)`` для слияния двух матриц по столбцам (пара ``А`` и ``В`` превращается в матрицу ``[A B]``).

Проверьте работу функции на простом примере из лекций:

$$x_1=2, x_2=3, x_3=5$$

$$y_1=1, y_2=3, y_3=4$$

Имейте в виду, что $X$ – это матрица (в данном примере состоящая из одного столбца).

Нарисуйте исходные данные и полученную линию регресии при помощи ``matplotlib``: для рисования точек используйте ``plt.scatter``, для рисования линии – ``plt.plot``.

In [1]:
import numpy as np
import scipy.linalg as sla
import matplotlib.pyplot as plt
%matplotlib inline

In [85]:
def get_weight(X0, y):

    X0 = X0.T
    print(X0)
    
    # Создаем матриицу из единиц
    one_matrix = np.ones((3, 1))
    print(one_matrix)
    
    # Производим слияние матрицы one_matrix с матрицей Х
    X = np.concatenate((one_matrix, X0),axis=1)
    print(X)
    
    # Умножаем транспонированную матрицу Х на матрицу Х
    X_mult = X.T * X
    print(X_mult)
    
    # Находим обратную матрицу полученного результата
    X_inv = np.linalg.inv(X_mult)
    print(X_inv)

    # Умножаем обратную матрицу на транспонированную
    X_mult_2 = X_inv * X.T
    print(X_mult_2)
    
    # Находим значение весов, умножая полученный результат на матрицу у
    w = X_mult_2 * y.T

    return w

X0 = np.matrix([2, 3, 5])
y = np.matrix([1, 3, 4])
print(X0)
print(y)

w = get_weight(X0, y)
print("Вектор весов:\n", w)




[[2 3 5]]
[[1 3 4]]
[[2]
 [3]
 [5]]
[[1.]
 [1.]
 [1.]]
[[1. 2.]
 [1. 3.]
 [1. 5.]]
[[ 3. 10.]
 [10. 38.]]
[[ 2.71428571 -0.71428571]
 [-0.71428571  0.21428571]]
[[ 1.28571429  0.57142857 -0.85714286]
 [-0.28571429 -0.07142857  0.35714286]]
Вектор весов:
 [[-0.42857143]
 [ 0.92857143]]


Найдите значения функционалов ошибки $MSE$, $RMSE$, $R^2$.

In [None]:
def MSE(y_test, y_predict):
        
    # Ваш код здесь
    
    return   # Возвращаем значение ошибки

def RMSE(y_test, y_predict):
        
    # Ваш код здесь
    
    return   # Возвращаем значение ошибки

def R2(y_test, y_predict):
        
    # Ваш код здесь
    
    return   # Возвращаем значение ошибки

Сравните полученные значения с библиотечными функциями $MSE$ и $R2$ из [scikit-learn](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics).

**Задание 2. Более сложный пример**.
Скачайте файлы ``ml_lab1_train.txt`` и ``ml_lab1_test.txt``. В первом из них находится обучающая выборка, а во втором – тестовая. Каждый из файлов содержит два столбца чисел, разделённых пробелами: в первом – $n$ точек (значения аргумента $x$), во втором – значения некоторой функции $y = f(x)$ в этих точках, искажённые случайным шумом. Ваша задача – по обучающей выборке подобрать функцию $y = a(x)$, приближающую неизвестную вам зависимость.

Загрузим обучающие и тестовые данные (не забудьте ввести правильный путь!).

In [None]:
data_train = np.loadtxt('.../ml_lab1_train.txt', delimiter=',')
data_test = np.loadtxt('.../ml_lab1_test.txt', delimiter=',')

In [None]:
X_train = data_train[:,0]
y_train = data_train[:,1]

# Сделайте то же для тестовой выборки

Найдите с помощью функции ``get_weight`` линейную функцию ($y = kx + b$), наилучшим образом приближающую неизвестную зависимость.  
Выведите значения весовых коэффициентов.

In [None]:
# Ваш код здесь

Нарисуйте на плоскости точки обучающей и тестовой выборок (раскрасив в два цвета) $(x_i, y_i)$ и полученную линейную функцию.

In [None]:
# Ваш код здесь

Найдите значения функционалов ошибки $MSE$, $RMSE$, $R^2$. Сравните их со значениями библиотечных функций `scikit-learn`.

In [None]:
# Ваш код здесь