# Stochastic Gradient and Coordinate Descent

## Loading and preparing data

**Load the already familiar *Advertising.csv* file as a DataFrame object.** 

In [3]:
import pandas as pd

df = pd.read_csv('../../data/Advertising.csv', index_col=0)
df

Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9
...,...,...,...,...
196,38.2,3.7,13.8,7.6
197,94.2,4.9,8.1,9.7
198,177.0,9.3,6.4,12.8
199,283.6,42.0,66.2,25.5


**Check if there are empty values in the data and if there are, remove them**

In [7]:
df.isnull().sum()

TV           0
radio        0
newspaper    0
sales        0
dtype: int64

> **Conclusion:**
> 
> There are no empty values in the dataset.

**Convert your features into NumPy arrays and split them into X (predictors) and y (target) variables**

In [13]:
import numpy as np

X = np.array(df.drop('sales', axis=1))
y = np.array(df['sales'])

## Coordinate descent

**Let's add a ones column so that we have a free coefficient in the regression equation:**

In [24]:
X = np.hstack([np.ones(X.shape[0]).reshape(-1, 1), X])
y = y.reshape(-1, 1)
print(X.shape, y.shape)

(200, 4) (200, 1)


**Normalize the data: this is necessary for the algorithm to work correctly**

In [30]:
X = X / np.sqrt(np.sum(np.square(X), axis=0))

**Implement the coordinate descent algorithm:**

**Given:**

* $X=(x_{ij})$ - observation matrix, with dimension $dim(X)=(m, n)$
* $N=1000$ - number of iterations

**Note:** *1000 iterations are specified here for this task, in reality there may be a different number, there is no deterministic value.*

**Algorithm (mathematical notation):**
* Create a zero vector of parameters $w_0=(0, 0,..., 0)^T$
* For all $t=1, 2, ..., N$ iterations:
    * For all $k = 1, 2,..., n$:
        * Fix the value of all features except the $k$-th and calculate the forecast of the linear regression model. To do this, exclude the $k$-th feature from the data and $w_j$ from the parameters when constructing the forecast.
        Mathematically, this can be written as follows:

        $$h_i = \sum_{j=1}^{k-1} x_{ij}w_{j} + \sum_{j=k+1}^{n} x_{ij}w_j $$

        **Note:**

        *Note that in this entry, the current feature number $k$ is not included in the sum. Compare this entry with the classic linear regression prediction entry in the case of normalized data (when all features are included):*

        $$h_i = \sum_{j=1}^{n} x_{ij}w_{j}$$

        * Calculate the new value of the $k$-th coefficient parameter:
        $$w_k = \sum_{i=1}^{m} x_{ik} (y_i - h_i) = x_k^T(y-h) $$

    * Calculate the value of the loss function and save it in history of the loss function change (All features are involved in the loss function evaluation):
        $$\hat{y_i} = \sum_{j=1}^{n}x_{ij}w_j$$
        $$Loss_t = \frac{1}{n} \sum_{i=1}^{m}(y_i-\hat{y_i})^2$$

        or in vector form:

        $$\hat{y} = Xw$$
        $$Loss_t = \frac{1}{n}(y-\hat{y})^T(y-\hat{y})$$

You need to implement coordinate descent and infer weights in a linear regression model.

In [41]:
num_iters = 1000
m = X.shape[0]
n = X.shape[1]
w = np.zeros(n).reshape(-1, 1)

for i in range(num_iters):
    for k in range(n):
        h = (X[:,0:k]@w[0:k]) + (X[:,k+1:]@w[k+1:])
        w[k] = (X[:,k].T@(y - h))
        cost = sum(((X@w) - y)**2)/n

print('Weights of the linear regression model: ')
print(w)

Weights of the linear regression model: 
[[ 41.56217205]
 [110.13144155]
 [ 73.52860638]
 [ -0.55006384]]


Compare the results with the linear regression implementation from the sklearn library:

In [31]:
from sklearn.linear_model import LinearRegression
 
model = LinearRegression(fit_intercept=False)
model.fit(X, y)
 
print(model.coef_)

[[ 41.56217205 110.13144155  73.52860638  -0.55006384]]


> **Conclusion:**
> 
> The results of the coordinate descent calculation are matching the results of the sklearn library.

## Стохастический градиентный спуск (6 баллов)

**Отмасштабируйте столбцы исходной матрицы *X* (которую мы не нормализовали еще!). Для того, чтобы это сделать, надо вычесть из каждого значения среднее и разделить на стандартное отклонение** (0.5 баллов)

In [None]:
#ваш код

**Добавим единичный столбец**

In [None]:
X = np.hstack([np.ones(X.shape[0]).reshape(-1, 1), X])

**Создайте функцию mse_error для вычисления среднеквадратичной ошибки, принимающую два аргумента: реальные значения и предсказывающие, и возвращающую значение mse** (0.5 балла)

In [None]:
#ваш код

**Сделайте наивный прогноз: предскажите продажи средним значением. После этого рассчитайте среднеквадратичную ошибку для этого прогноза** (0.5 балла)

In [None]:
#ваш код

**Создайте функцию *lin_pred*, которая может по матрице предикторов *X* и вектору весов линейной модели *w* получить вектор прогнозов** (0.5 балла)

In [None]:
#ваш код

**Создайте функцию *stoch_grad_step* для реализации шага стохастического градиентного спуска. (1.5 балла) 
Функция должна принимать на вход следующие аргументы:**
* матрицу *X*
* вектора *y* и *w*
* число *train_ind* - индекс объекта обучающей выборки (строки матрицы *X*), по которому считается изменение весов
* число *$\eta$* (eta) - шаг градиентного спуска

Результатом будет вектор обновленных весов

Шаг для стохастического градиентного спуска выглядит следующим образом:

$$\Large w_j \leftarrow w_j - \frac{2\eta}{\ell} \sum_{i=1}^\ell{{x_{ij}((w_0 + w_1x_{i1} + w_2x_{i2} +  w_3x_{i3}) - y_i)}}$$

Для того, чтобы написать функцию, нужно сделать следующее:
    
*  посчитать направление изменения: умножить объект обучающей выборки на 2 и на разницу между предсказанным значением и реальным, а потом поделить на количество элементов в выборке.
* вернуть разницу между вектором весов и направлением изменения, умноженным на шаг градиентного спуска

In [None]:
#ваш код

**Создайте функцию *stochastic_gradient_descent*, для реализации стохастического градиентного спуска (2.5 балла)**

**Функция принимает на вход следующие аргументы:**
- Матрицу признаков X
- Целевую переменнную
- Изначальную точку (веса модели)
- Параметр, определяющий темп обучения
- Максимальное число итераций
- Евклидово расстояние между векторами весов на соседних итерациях градиентного спуска,при котором алгоритм прекращает работу 

**На каждой итерации в вектор (список) должно записываться текущее значение среднеквадратичной ошибки. Функция должна возвращать вектор весов $w$, а также вектор (список) ошибок.**

Алгоритм сследующий:
    
* Инициализируйте расстояние между векторами весов на соседних итерациях большим числом (можно бесконечностью)
* Создайте пустой список для фиксации ошибок
* Создайте счетчик итераций
* Реализуйте оновной цикл обучения пока расстояние между векторами весов больше того, при котором надо прекратить работу (когда расстояния станут слишком маленькими - значит, мы застряли в одном месте) и количество итераций меньше максимально разрешенного: сгенерируйте случайный индекс, запишите текущую ошибку в вектор ошибок, запишите в переменную текущий шаг стохастического спуска с использованием функции, написанной ранее. Далее рассчитайте текущее расстояние между векторами весов и прибавьте к счетчику итераций 1.
* Верните вектор весов и вектор ошибок

In [None]:
# ваш код

 **Запустите $10^5$ итераций стохастического градиентного спуска. Укажите вектор начальных весов, состоящий из нулей. Можете поэкспериментировать с параметром, отвечающим за темп обучения.**

**Постройте график зависимости ошибки от номера итерации**

In [None]:
# ваш код

**Выведите вектор весов, к которому сошелся метод.**

In [None]:
# ваш код

**Выведите среднеквадратичную ошибку на последней итерации.**

In [None]:
# ваш код