### Линейная функция

Линейная функция имеет вид:

y = w1x1 + ... + wDxD + w0

где 
y - целевая переменная (таргет),
(x1, ... , xD) - вектор, соответствующий объекту выборки (вектор признаков) 
(w1, ... , wD) - параметры модели (вектор весов)


### Линейная регрессия и метод наименьших квадратов (МНК)

__МНК: точный аналитический метод__

Пусть у нас задан датасет (X, y) где 
y - вектор значений целевой переменной
X - матрица объекты-признаки

Мы хотим моделировать зависимость yi от xi как линейную функцию со свободным членом. Общий вид такой функции выглядит следующим образом:

fw(xi) = (wixi) + w0

Задача: научиться измерять качество модели и минимизировать ее ошибку, изменяя обучаемые параметры.

Обучаемые параметры - это веса w.

Функция, которая оценивает как часто ошибается модель, называется функцией потерь или лоссом (loss function).

В качестве лосса возьмем среднеквадратическое отклонение, MSE (Mean Squared Error):

MSE(f, X, y) = 1/NΣ|y-Xw|^2

__Основные принципы линейной регрессии:__

1) Матрица признаков (X): Представляет собой матрицу, где каждый столбец (x1, ..., xD) представляет собой признак, а каждая строка соответствует отдельному наблюдению.
    __                         __
    | (x1,1) (x1,2) ... (x1,D)  |
X = | (x2,1) (x2,2) ... (x2,D)  |
    |  ...     ...  ...   ...   |
    | (xN,1) (xN,2) ... (xN,D)  |
    --                         --
    
где
N - номер отдельного наблюдения (временной ряд)
D - номер признака (кол-во признаков)

2) Весовой вектор (w): Представляет собой вектор весов, где каждый вес w_i соответствует весу, присвоенному соответствующему признаку x_i.
    __    __
    | (w1) |
W = | (w2) |
    |  ... |
    | (wD) |
    --    --

3) Линейная комбинация (Xw): Это выражение представляет собой линейную комбинацию столбцов матрицы X с использованием весового вектора w.

Xw = w1x1 + w2x2 + ... + wDxD

4) Задача регрессии: Задача заключается в нахождении вектора весов w таким образом, чтобы линейная комбинация Xw наилучшим образом 
приближала столбец y (вектор ответов) в смысле евклидовой нормы (или среднеквадратичной ошибки).

minimize || Xw - y ||^2

где || Xw - y ||^2 представляет собой квадрат евклидовой нормы разности между предсказанным значением Xw и реальным значением y.

5) Общий случай линейной регрессии с D признаками означает работу в D+1 - мерном пространстве, где D - кол-во признаков, а +1 - целевая переменная.

То есть, если у нас имеется 3 признака (x1, x2, x3) и 1 целевая переменная (y), то каждое наблюдение можно представить в четырехмерном пространстве. 
Каждая точка будет иметь координаты (x1, x2, x3, y), и наша задача состоит в том, чтобы найти гиперплоскость, которая лучше всего аппроксимирует распределение 
точек в этом __четырехмерном пространстве__.

__Задачу регрессии можно сформулировать следующим образом__: найти линейную комбинациб столбцов x1, ... , xD, которая наилучшим способом приближает столбец y по
евклидовой норме - то есть проекцию вектора y на подпространство, образованное векторами x1, ... , xD. Выразим это в матричном виде:

Xt(y - Xw) = 0

где Xt - транспонированная матрица, 

из этого уравнения легко вычислить w: 

__w = (XT*X)^(-1)*XT*y__

Полезно знать! ->

Для вычисления w нам приходится обращать (квадратную) матрицу XtX, что возможно, только если она невырожденна.

Матрица XtX невырожденна тогда и только тогда, когда её ранг равен числу её столбцов, что равно числу столбцов матрицы X.
Иными словами, формула регрессии поломается, только если столбцы матрицы линейно зависимы. Столбцы матрицы X – это признаки.
А если наши признаки линейно зависимы, то, наверное, что-то идёт не так и мы должны выкинуть часть из них, чтобы остались только линейно независимые.


In [2]:
dataset = [1, 2, 3]
for i in dataset:
    print(i)

1
2
3
