# Практическое задание

В данном задании предлагается реализовать алгоритм градиентного спуска для полиномиальной регрессии функции вида $f(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + \ldots + \theta_i x^i \ldots + \ldots \theta_m x^m$. При этом, в качестве функции потери будем применяться средняя абсолютная ошибка.

Задание состоит из шести частей:

1. Создать полиномиальные признаки.

2. Реализовать полиномиальную функцию.

3. Нормализовать данные.

4. Реализовать среднюю абсолютную ошибку.

5. Рассчитать градиент для функции ошибки.

6. Реализовать градиентный спуск.

7. Насладиться красотой алгоритмов машинного обучения.

Задания следует делать одно за другим.  

Запустите следующие 2 ячейки перед началом работы.

In [None]:
from regression2_helper import * # Подгружаем функции для визуализации
import numpy as np              # Подгруджаем библиотеку NumPy

In [None]:
X, y = get_homework_data()

## 1. Создать полиномиальные признаки 

На вход функции передается вектор значений признаков $x$ размера $(N, 1)$ и $m$. Функция должна возвращать матрицу  размера $(N, m+1)$.

Другими словами, вектор $x$ выглядит таким образом:

\begin{equation*}
\mathbf{x} = \begin{pmatrix}
x_1\\
x_2\\
\cdots \\
x_i\\
\cdots \\
x_N
\end{pmatrix}
\end{equation*}

Тогда функция должна вернуть матрицу следующего вида:

\begin{equation*}
\mathbf{X} = \begin{pmatrix}
1 & x_1 & x_1^2 &\dots & x_1^m\\
1 & x_2 & x_2^2 &\dots & x_2^m \\
\cdots & \cdots & \cdots & \cdots & \cdots \\
1& x_N & x_N^2 &\dots & x_N^m
\end{pmatrix}
\end{equation*}

Входные параметры:

* Массив $x$ размера $(N, 1)$: тип numpy.ndarray

* Значение коэффициента $m$: тип int

Выходное значение:

* Массив $X$ с полиномиальными значениями размера $(N, m+1)$: тип numpy.ndarray 

    
Подсказка: использовать функцию hstack или column_stack из библиотеки numpy.

In [None]:
def creat_polinom_features(X, m):    
    pass # Замените на свой код

m=3
X_m = creat_polinom_features(X.reshape(-1,1), m)
print(f"Размерность матрицы X_m = {X_m.shape}")

## 2. Реализовать полиномиальную функцию

Необходимо реализовать линейную функцию вида $f(x_i) = \theta_0 x_{i, 0} + \theta_1 x_{i, 1}  + \theta_2 x_{i, 2} +... + \theta_m x_{i, m}$ в матричном виде.

На вход функции передается вектор значений коэффициента $\Theta$ размера $(m+1, 1)$, и матрица  $\mathbf{X}$ размера $(N, m+1)$ с полиномиальными признаками полученная предыдущей функцией. Ваша задача вернуть вектор-столбец предсказаний $\mathbf{y}$ размера $(N, 1)$.

Заметьте, что мы будем передавать в функцию матрицу с полиномиальными признаками, таким образом получая полином:

$f(x_i) = \theta_0 + \theta_1 x_i + \theta_2 x_i^2 +... + \theta_m x_i^m$

$x_i^j$ это элемент $x_{i, j}$ матрицы $X$, $x_i^0 = 1$

Входные параметры:

* Массив $X$ размера $(N, m+1)$: тип numpy.ndarray

* Массив $\Theta$ размера $(m+1, 1)$: тип numpy.ndarray

Выходное значение:

* Массив $y$ со значения  для $i = 0 \ldots N-1$. Размера $y$ равен $(N, 1)$: тип numpy.ndarray 

In [None]:
def polinom_function(X_m, theta):
    pass # Замените на свой код

theta = np.random.sample(size=(X_m.shape[1], 1))
poly_pred = polinom_function(X_m, theta)
print(f"Размерность вектора poly_pred = {poly_pred.shape}")

## 3. Нормализовать данные

Необходимо реализовать стандартизацию данных. 

На вход подается матрица $X$ размера $(N, m+1)$ с полиномильными признаками.
Для каждого столбца, кроме нулевого, нужно посчитать среднее значение и стандратное отклонение. Назовем их $E_j$ (среднее занчение для столбца $j$) и $S_j$ (стандартное отклонение для столбца $j$).

И для каждого элемента матрицы $x_{i, j}$ (кроме элементов из нулевого столбца, который содержит единицы) нужно посчиать новое значение $x_{i, j}' = \dfrac{x_{i, j} - E_j}{S_j}, i = 0 \ldots N-1, j = 1, \ldots m$

Также необходимо вернуть массив со средними значеними и массив со стандартными отклонениями.

Входные параметры:

* Массив $X$ размера $(N, m+1)$: тип numpy.ndarray

Выходные значение:

* Массив $X'$ размера $(N, m+1)$ со стандартизированными параметрами: тип numpy.ndarray

* Массив $E$ размера $(m+1, 1)$ с средними значениям для каждой колонки: тип numpy.ndarray

* Массив $S$ размера  $(m+1, 1)$ со стандартными отклонениями для каждой колонки: тип numpy.ndarray


*Подсказка: для создания копии массива X можно использовать метод copy().*

*Подсказка: для того что бы вернуть несколько матриц, нужно указать их через запятую после return:*
`return a, b`

In [None]:
def standartize_data(X):    
    pass # Замените на свой код
    
X_m_ss, means, stds = standartize_data(X_m)
print(X_m_ss)

## 4. Реализовать функцию потерь  MAE 

Необходимо реализовать MAE. На вход функции передается вектор значений коэффициента $\Theta$ размера $(m+1, 1)$, и матрица $\mathbf{X}$ размера $(N, m+1)$ с полиномиальными признаками. А также вектор-столбец $\mathbf{y}$ c реальными значениями, размера $(N, 1)$.

Формула для MAE:

$Loss(\Theta) = \frac{1}{N}\sum_{i=0}^{N}{|\hat{y_i} - y_i|}= \frac{1}{N} \sum_{i=0}^{N}{|X_i\Theta - y_i|}$

Функция должна возвращать действительное число равное $Loss(\Theta)$.  

Входные параметры:

* Массив $X$ размера $(N, m+1)$: тип numpy.ndarray

* Массив реальных выходных значений $y$ размера $(N, 1)$: тип numpy.ndarray

* Массив $\Theta$ размера $(m+1, 1)$: тип numpy.ndarray

Выходное значение:

* Значение функции ошибки MAE для параметра $\Theta$: тип float

*Подсказка: в библиотеки NumPy есть функция модуля abs, она тебе поможет.* 

In [None]:
def mae_loss_function(X_m, y, theta):
    pass # Замените на свой код

print(mae_loss_function(X_m_ss, y, theta))

## 5. Рассчитать градиент для функции ошибки.


На вход функции передается вектор значений коэффициента $\Theta$ размера $(m+1, 1)$, и матрица $\mathbf{X}$ размера $(N, m+1)$ с полиномиальными признаками. А также вектор-столбец $\mathbf{y}$ c реальными значениями, размера $(N, 1)$. 

Функция должна возвращать вектор градиент функции потерь MAE $Loss'(\Theta)$ в точке $\theta_0, \theta_1, ... \theta_m$. 

В общем случае производная от $f(x) = |x|$ не определена в точке 0, во всех остальных случаях ее можно определить, как $|x|/x$.

В нашем случае мы можем доопределить производную от $f(x) = |x|$ в нуле значением $0$. Тогда она совпадет с функцией знака (sign):
\begin{equation*}
 sign(x) = 
 \begin{cases}
   1 &\text{x > 0}\\
   0 &\text{x = 0}\\
   -1 &\text{x < 0}
 \end{cases}
\end{equation*}

Теперь мы можем посчитать градиент функции потерь:  
\begin{equation*}
\frac{\partial Loss(\Theta)}{\partial \theta_j} = \dfrac{1}{N} \sum_{i=1}^{N} sign(X_i\Theta - y_i) x_{ij}
\end{equation*}

\begin{equation*}
\nabla Loss(\Theta) = 
 \begin{bmatrix}
   \dfrac{1}{N} \sum_{i=1}^{N} sign(X_i\Theta - y_i)x_{i0}\\
   \dfrac{1}{N} \sum_{i=1}^{N} sign(X_i\Theta - y_i)x_{i1}\\
   \cdots\\
   \dfrac{1}{N} \sum_{i=1}^{N} sign(X_i\Theta - y_i)x_{im}\\
 \end{bmatrix}
\end{equation*}

В библиотеке numpy есть функция sign, которая считает функцию знака для всех элементов вектора. 

Входные параметры:

* Массив $X$ размера $(N, m+1)$: тип numpy.ndarray

* Массив реальных выходных значений $y$ размера $(N, 1)$: тип numpy.ndarray

* Массив $\Theta$ размера $(m+1, 1)$: тип numpy.ndarray

Выходное значение:

* Значение градиента для каждого параметра $\Theta$, размер $(m+1, 1)$:  тип numpy.ndarray

*Подсказка: в библиотеки NumPy есть функция модуля abs, она тебе поможет.* 

In [None]:
def gradient_function(X, y, theta):
    pass # Замените на свой код

g = gradient_function(X_m_ss, y, theta)
print(g)

## 6. Алгоритм градиентного спуска


На вход функции передается вектор значений коэффициента $\Theta$ размера $(m+1, 1)$, и матрица $\mathbf{X}$ размера $(N, m+1)$ с полиномиальными признаками, вектор-столбец $\mathbf{y}$ c реальными значениями, размера $(N, 1)$, значение коэффициента альфа $\alpha$ и число $iters$ равное количеству итераций в алгоритме. 

Сам алгоритм мы будем использовать в следующем виде:
* Повторить $iters$ раз:

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $\Theta = \Theta - \alpha \cdot \nabla Loss(\Theta)$

Где $\nabla Loss(\Theta)$ - это градиент, который мы научились рассчитывать в предыдущем задании. 

На входе:

* Массив $X$ размера $(N, m+1)$: тип numpy.ndarray

* Массив реальных выходных значений $y$ размера $(N, 1)$: тип numpy.ndarray

* Массив $\Theta_{init}$ размера $(m+1, 1)$. Начальное значение коэффициента: тип numpy.ndarray

* Коэффициент обучения $\alpha$: тип float

* Количество итераций алгоритма $iter$: тип int

Выходное значение:

* Массив $\Theta$ размера $(m+1, 1)$ полученный методом градиентного спуска: тип numpy.ndarray 

In [None]:
def gradient_descent(X, y, theta_init, alpha, iters):
    pass # Замените на свой код
 
theta_init = np.array([1.5, 0, 1, 1])  
theta_opt = gradient_descent(X_m_ss, y, theta_init, alpha=0.1, iters=1000)

## 7. Посмотреть что получилось

Если все прошло успешно, запустите ячейку ниже и насладитесь магией Data Science :) 

In [None]:
plot_poly_hw_results(X_m_ss, y, theta_init, theta_opt, means, stds)