# Алгоритм градиентного спуска (Gradient Descent Algorithm)
Алгоритм градиентного спуска один из наиболее важных алгоритмов в машинном обучении. Как было сказано ранее, подбор наиболее оптимальных параметров модели для конкретного набора данных и называется обучением. Градиентный спуск основной алгоритм, который используется для поиска таких параметров. 

Алгоритм градиентного спуска является методом оптимизации. С помощью этого алгоритма можно найти такие значения параметров функции, при которых она достигает минимума. В случае машинного обучения необходимо найти точку, при которой функция потерь (loss function) достигает минимума. Найденные параметры будут частью обученной модели, которую затем уже можно использовать для предсказания новых значений целевой переменной.

Алгоритм градиентного спуска ищет оптимальные параметры следуя в направлении анти-градиента функции. Градиент это направление наибольшего роста функции из заданной точки. Следовательно анти-градиент это направление, в котором функция уменьшается быстрее всего.

Алгоритм работает следующим образом. В начале параметры модели $\vec{\theta}$ инициализируются случайным образом. Затем вычисляются значения для каждого из частных производных функции потерь. После этого из каждого параметра вычитается соответствующее вычисленное значение частного производного. Затем процедура повторяется с новыми значениями параметров пока функция потерь не достигнет нуля или не перестанет уменьшатся. Ниже приведен псевдокод алгоритма:
```python
alpha = 0.05
theta = np.random.rand(10)
loss_value = calculate_loss(theta)
while not enough(loss_value):
    grad_values = calc_loss_gradient(theta)
    theta = theta - alpha * grad_values
```
Параметр `alpha` называется скоростью обучения (learning rate). Это так называемый гиперпараметр и используется для настройки алгоритма. Гиперпараметры это такие параметры модели, которые необходимо подобрать для эффективной работы самого алгоритма обучения.

На картинке ниже показан принцип алгоритма
![gradient_descent](img/gradient_descent.png)

Математически алгоритм можно выразить следующим образом. Сначала определим градиент как вектор, элементами которого являются частные производные функции:
$$
\Large \frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} = \left<\frac{\partial L}{\partial \theta_0}, \ldots, \frac{\partial L}{\partial \theta_n}\right>
$$
Затем в цикле будем повторять следующий шаг:
$$
\Large
\begin{array}{rcl}
temp_0 &:=& \theta_0 - \alpha \frac{\partial L}{\partial \theta_0} \\
\vdots \\
temp_n &:=& \theta_n - \alpha \frac{\partial L}{\partial \theta_n}\\
\\
\theta_0 &:=& temp_0 \\
\vdots \\
\theta_n &:=& temp_n
\end{array}
$$

В случае линейной регрессии производная для функции потерь будет иметь следующий вид:
$$
\Large
\begin{array}{rcl}
\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} &=& \frac{1}{2n} \frac{\partial(X \vec{\theta} - \vec{y})^2}{\partial \vec{\theta}} \\
&=& \frac{1}{n}X^T(X \vec{\theta} - \vec{y})
\end{array}
$$
Функцию `calc_loss_gradient` для вычисления градиента линейной регрессии в python с помощью NumPy можно реализовать следующим образом:
```python
def mse_gradient(theta):
    y_hat = X.dot(theta)
    return X.T.dot(y_hat - y)
```

## Normal equation
Как было сказано ранее, линейная регрессия может быть решена с помощью аналитической функции вместо итеративного алгоритма. Чтобы найти оптимальное значения параметров $\theta$ можно приравнять градиент нулю и решить линейное уравнения по отношению к $\theta$:
$$
\Large 
\begin{array}{rcl} 
\frac{\partial \mathcal{L}}{\partial \vec{\theta}} = 0 &\Leftrightarrow& \frac{1}{n}X^T(X \vec{\theta} - \vec{y}) = 0\\
&\Leftrightarrow& X^T X \vec{\theta} -X^T \vec{y} = 0 \\ &\Leftrightarrow& X^T X \vec{\theta} = X^T \vec{y} \\ &\Leftrightarrow& \vec{\theta} = \left(X^T X\right)^{-1} X^T \vec{y} \end{array}
$$
Таким образом, чтобы найти оптимальные значения параметров линейной регрессии можно использовать последнее уравнение. Выражение $\left(X^T X\right)^{-1}$ называется обратной матрицей. В python с помощью NumPy можно реализовать данное уравнение следующим образом:
```python
def normal_equation():
    inverted = np.linalg.inv(X.T.dot(X))
    return inverted.dot(X.T).dot(y)
```