# Задание №1

## Теория

Этот ноутбук содержит вспомогательный материал для выполнения первого задания, в котором надо предсказать целевую переменную по двум признакам с помощью линейной регрессии. Хочу сразу предупредить, что здесь собрана вводная информация, причем в некоторых аспектах я намеренно привел упрощенное или не до конца полное описание. В дальнейшем мы отдельно размерем все эти аспекты.

Для начала, вспомним, что такое линейная регрессия и как выглядит алгоритм подбора оптимальных параметров предсказания.

Назовем множество имеющихся примеров **обучающей выборкой** или **тренировочными данными**. Обучающая выборка — это множество пар $D = \{(\vec{x^{(i)}},y^{(i)})\}_{i=1,2,...,n}$, где $n$ - размер выборки. В каждой паре через $y \in R$ обозначена целевая переменная (или ответ), который соответствует вектору признаков $\vec{x} \in R^{m\times1}$. Необходимо научиться предсказывать значение $y$ по $\vec{x}$. Обозначим предсказанное значение через $\hat{y}$. В линейной регрессии предсказание делается с помощью следующей формулы:

\begin{equation}
\hat{y} = h(\vec{x},\vec{\theta}) = \vec{x}^T\vec{\theta} = \langle \vec{x}, \vec{\theta} \rangle = \sum_{j=1}^{m} x_j\theta_j,
\end{equation}

где через $h(\vec{x},\vec{\theta})$ обозначена функция предсказания, а $\vec{\theta} \in R^{m\times1}$ — вектор параметров линейной регрессии. **Обучение** модели на основе линейной регрессии заключается в подборе $\vec{\theta}$ так, чтобы предсказанные значения $\hat{y}^{(i)}$ были как можно ближе к целевым переменным $y^{(i)}$ из обучающей выборки. Термин "ближе" значит, что есть способ измерения похожести $\hat{y}^{(i)}$ и $y^{(i)}$. В рассматриваемой задаче в качестве критерия похожести можно воспользоваться квадратичным отклонением:

\begin{equation}
e^{(i)} = \left( y^{(i)} - \hat{y}^{(i)} \right)^2.
\end{equation}

Значение $e^{(i)}$, или ошибка предсказания, показывает насколько сильно предсказанное значение целевой переменной отличается от требуемого значения для $i$-го примера обучающей выборки. Средняя ошибка предсказания, или **эмпирический риск**, на обучающей выборке определяется как 

\begin{equation}
E(D, \vec{\theta}) = \frac{1}{n} \sum_{i=1}^{n} e^{(i)} = \frac{1}{n} \sum_{i=1}^{n} \left( y^{(i)} - h(\vec{x^{(i)}},\vec{\theta}) \right)^2 = \frac{1}{n}\sum_{i=1}^{n} \left(y^{(i)} - \sum_{j=1}^{m} x^{(i)}_j\theta_j \right)^2.
\end{equation}

Таким образом, задача обучения формулируется как "найти такой вектор параметров линейной регрессии, при котором минимальна средняя ошибка предсказания". Для поиска оптимального $\vec{\theta}$ можно воспользоваться методом градиентного спуска.

Рассмотрим идею этого метода. "Градиент" функции в точке показывает направление роста функции в этой точке. Фактически, градиент -- это обобщение понятия производной на многомерный случай. Для рассмотренной нами функции эмпирического риска:

\begin{equation}
\nabla E(D, \vec{\theta}) \big\vert_{\vec{\theta}=\vec{t}} = 
\left(
\begin{aligned} 
& \frac{\partial E(D, \vec{\theta})}{\partial \theta_0} \big\vert_{\vec{\theta}=\vec{t}} \\
& \frac{\partial E(D, \vec{\theta})}{\partial \theta_1} \big\vert_{\vec{\theta}=\vec{t}} \\
& ... \\
& \frac{\partial E(D, \vec{\theta})}{\partial \theta_m} \big\vert_{\vec{\theta}=\vec{t}} \\
\end{aligned}
\right).
\end{equation}

Нас интересует минимизация эмпирического риска. Это значит, что можно выбрать некоторое, например случайное, значение вектора $\vec{\theta}$, посчитать в нем значение градиента, а потом изменить $\vec{\theta}$ так, чтобы значение фунцкии средней ошибки уменьшилось, т.е. изменить $\vec{\theta}$ в направлении, обратном направлению градиента. Далее повторить эту процедуру для измененного $\vec{\theta}$. Если функция эмпирического риска является выпуклой и унимодальной (имеет один оптимум), то подобный итеративный пересчет через достаточное число итераций (спусков) приведет к значению параметров $\vec{\theta}$, в которых достигается минимум средней ошибки предсказания.

Опишем теперь алгоритм поиска оптимальных параметров линейной регрессии с помощью градиентного спуска.

**Инициализация:**
- задать $\alpha$ - скорость градиентного спуска;
- задать начальные значения переменных: $\vec{\theta}^{(0)}$ = random, k = 0.

**Повторять, пока не выполнятся условия остановки**

\begin{equation}
\vec{\theta}^{(k+1)} = \vec{\theta}^{(k)} - \alpha E(D, \vec{\theta}) \big\vert_{\vec{\theta}=\vec{\theta^{(k)}}} \\
k = k + 1
\end{equation}

Условия остановки:
- достигнуто максимальное число итераций градиентного спуска;
- значения параметров $\theta$ почти не меняются от итерации к итерации;
- значение градиента близко у нулю.

## Практика

Перейдем теперь к практической части, где нужно реализовать линейную регрессию. Далее приведен "скелет" программы, в которую Вам необходимо встроить недостающие фрагменты. Места для Вашег кода помечены "TODO".

Программа состоит из следующих блоков.

1. Подключение всех необходимых библиотек.
2. Чтение и вывод тренировочных данных.
3. Прототипы функций, которые Вам надо заполнить.
4. Цикл обучения.

### Подключение библиотек.

В python есть много готовых библиотек для работы с данными. Наши тренировочные данные хранятся в csv файлах и для их парсинга и отображения можно воспользоваться удобной библиотекой pandas.

Удобнее всего работать с данными, представленными в формате матриц и векторов. Для работы с ними в python есть библиотека numpy.

Отображение графиков можно сделать с помощью matplotlib.

Удобный вывод прогресса - tqdm.

In [1]:
# Step 1. Import all the necessary packages
import sys
import tqdm
import pandas as pd


import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm

import numpy as np

### Чтение и вывод тренировочных данных.

Для чтения данных воспользуемся методом read_csv из pandas. Эта функция возвращает специальную структуру данных DataFrame, которая содержит много методов для вывода данных и расчета различных статистик по ним. Так как данные разбиты на 2 файла, перед выводом на экран первых десяти сэмплов, сконкатенируем их в один DataFrame.

Затем преобразуем данные из DataFrame в матрицы numpy.

In [2]:
# Step 2. Parse and visualize data
# parse train data: read CSV files with train features (train_x) and train targets (train_y)
x_train = pd.read_csv("train_x.csv", header=None)
y_train = pd.read_csv("train_y.csv", header=None)

# show first 10 samples
pd.concat([x_train, y_train], axis=1).head(10)

Unnamed: 0,0,1,0.1
0,23.98,6.459,11.8
1,21.52,6.193,11.0
2,7.74,6.75,23.7
3,4.81,7.249,35.4
4,18.06,5.454,15.2
5,5.9,6.487,24.4
6,2.94,6.998,33.4
7,6.36,7.163,31.6
8,17.44,6.749,13.4
9,4.56,6.975,34.9


In [3]:
# convert pandas dataframe to numpy arrays and matrices and diplay the dimensions of train dataset
x_train = x_train.to_numpy()
y_train = y_train.to_numpy()

print("Shape of train features:", x_train.shape)
print("Shape of train targets:", y_train.shape)

Shape of train features: (354, 2)
Shape of train targets: (354, 1)


### Прототипы функций.

* predict_fn - предсказание с помощью линейной регрессии;
* loss_fn - расчет среднего значения ошибки предсказания;
* gradient_fn - расчет градиента в точке.

Вам необходимо реализовать predict_fn и gradient_fn.

In [4]:
# Step 3. Prototypes.

# In this demo we will use linear regression to predict targets from features.
# In linear regression model with parameters thetas 
# the prediction y is calculated from features x using linear combination of x and thetas.
# For example, for the case of 2 features: 
# y = theta_0 * x_o + theta_1 * x_1

# Let's define some helper functions

def predict_fn(x, thetas):
    '''
    Predict target from features x using parameters thetas and linear regression
    
    param x: input features, shape NxM, N - number of samples to predict, M - number of features
    param thetas: vector of linear regression parameters, shape Mx1
    return y_hat: predicted scalar value for each input samples, shape Nx1
    '''    
    # TODO: calculate y_hat using linear regression
    y_hat = np.zeros((x.shape[0], 1))
    return y_hat


def loss_fn(x_train, y_train, thetas):
    '''
    Calculate average loss value for train dataset (x_train, y_train).
    
    param x_train: input features, shape NxM, N - number of samples to predict, M - number of features
    param y_train: input tagrets, shape Nx1
    param thetas: vector of linear regression parameters, shape Mx1
    return loss: predicted scalar value for each input samples, shape Mx1
    '''
    y_predicted = predict_fn(x_train, thetas)    
    loss = np.mean(np.power(y_train - y_predicted, 2))    
    return loss


def gradient_fn(x_train, y_train, thetas):
    '''
    Calculate gradient value for linear regression.
    
    param x_train: input features, shape NxM, N - number of samples to predict, M - number of features
    param y_train: input tagrets, shape Nx1
    param thetas: vector of linear regression parameters, shape Mx1
    return g: predicted scalar value for each input samples, shape Mx1
    '''  
    # TODO: calculate vector gradient
    g = np.zeros_like(thetas)
    return g

### Цикл обучения

Ниже дана упрощенная реализация градиентного спуска для поиска оптимальных параметров линейной регрессии. Вам необходимо подобрать значения скорости (alpha), максимальное число итераций (MAX_ITER) и условия остановки.

In [5]:
# Step 4. Gradient descent.

# now let's find optimal parameters using gradient descent
MAX_ITER = 100000
thetas = np.random.randn(2, 1)
alpha = 1e-3

progress = tqdm.tqdm(range(MAX_ITER), "Training", file=sys.stdout)
loss_val = loss_fn(x_train, y_train, thetas)
progress.set_postfix(loss_val=loss_val)

for iter in progress:
    gradient = gradient_fn(x_train, y_train, thetas)
    thetas = thetas - alpha*gradient
    
    # TODO: add stop conditions
    # if stop_condition is True:
    #     progress.close()
    #     loss_val = loss_fn(x_train, y_train, thetas)
    #     print("Stop condition detected")
    #     print("Final loss:", loss_val)
    #     break
    
    if iter % 100 == 0:
        loss_val = loss_fn(x_train, y_train, thetas)
        progress.set_postfix(loss_val=f"{loss_val:8.4f}", thetas=f"{thetas[0][0]:5.4f} {thetas[1][0]:5.4f}")
    
progress.close()

Training: 100%|██████████| 100000/100000 [00:01<00:00, 68118.77it/s, loss_val=588.6201, thetas=-1.5970 1.5719]


Выведем несколько предсказаний для примера.

In [7]:
for i in range(10):
    y_hat = predict_fn(x_train[i], thetas)
    print("Target: ", y_train[i][0], ", predicted:", y_hat[0][0])

Target:  11.8 , predicted: 0.0
Target:  11.0 , predicted: 0.0
Target:  23.7 , predicted: 0.0
Target:  35.4 , predicted: 0.0
Target:  15.2 , predicted: 0.0
Target:  24.4 , predicted: 0.0
Target:  33.4 , predicted: 0.0
Target:  31.6 , predicted: 0.0
Target:  13.4 , predicted: 0.0
Target:  34.9 , predicted: 0.0


Скорее всего, в результате получится довольно большое значение ошибки и предсказания будут не очень точными. Как поднять точность, мы рассмотрим далее :)