<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Идея-градиентного-спуска" data-toc-modified-id="Идея-градиентного-спуска-1">Идея градиентного спуска</a></span></li><li><span><a href="#Код-с-предыдущих-обсуждений" data-toc-modified-id="Код-с-предыдущих-обсуждений-2">Код с предыдущих обсуждений</a></span></li><li><span><a href="#Использование-градиента" data-toc-modified-id="Использование-градиента-3">Использование градиента</a></span></li><li><span><a href="#Выбор-правильного-размера-шага" data-toc-modified-id="Выбор-правильного-размера-шага-4">Выбор правильного размера шага</a></span></li></ul></div>

## Идея градиентного спуска

- Пусть есть функция принимающая одно или несколько значений и на выходе возвращающая одно значение
- Требуется найти при каких аргрументах функция принимает минимальное или максимальное значение
- Например, мы оптимизируем функцию ошибок нашей модели (при каких параметрах, модель ошибается меньше всего)
- Градиент - это вектор состоящий из частных производных. Он задает направление, в котором функция возрастает быстрее всего. Следовательно, двигаясь в противоположном нарпавлении у нас есть шанс приблизится к минимуму функции.

## Код с предыдущих обсуждений

In [13]:
from typing import List
import math

Vector = List[float]

def dot(v: Vector, w: Vector) -> float:
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

def sum_of_squares(v: Vector) -> float:
    return dot(v, v)

def subtract(v: Vector, w: Vector) -> Vector:
    return [v_i - w_i for v_i, w_i in zip(v,w)]

def magnitude(v: Vector) -> float:
    return math.sqrt(sum_of_squares(v))

def add(v: Vector, w: Vector) -> Vector:
    return [v_i + w_i for v_i, w_i in zip(v,w)]

def scalar_multiply(c: float, v: Vector) -> Vector:
    return [c * v_i for v_i in v]

## Использование градиента

Возьмем функцию:

In [5]:
def sum_of_squares(v: Vector) -> float:
    return dot(v, v)

Интуитивно понятно, что ее минимум достигается, когда v состоит из нулей.   
Давайте в этом убедимся.

Но сначала введем функцию *distance*:

In [21]:
def distance(v: Vector, w: Vector) -> float:
    return magnitude(subtract(v, w))

In [20]:
import random

def gradient_step(v: Vector, gradient: Vector, step_size: float) -> Vector: 
    """Двигаемся с шагом `step_size` в направлении `gradient` от `v`"""
    assert len(v) == len(gradient)
    step = scalar_multiply(step_size, gradient)
    return add(v, step)

def sum_of_squares_gradient(v: Vector) -> Vector:
    """Производная x*x равна 2*x"""
    return [2 * v_i for v_i in v]

# Определяем случайную отправную точку
v = [random.uniform(-10, 10) for i in range(3)]

random.seed(42)

found_min = False
for epoch in range(1000):
    grad = sum_of_squares_gradient(v) # вычисляем градиент функции в точке v
    v = gradient_step(v, grad, -0.01) # сделаем отрицательный градиентный шаг
    dist = distance(v, [0, 0, 0])
    print(epoch, v, dist)
    if dist < 0.001: # v должен близко подобраться к 0
        found_min = True
        break
    
assert found_min

0 [2.732765249774521, -9.309789197635727, -4.409425359965263] 10.657542531929904
1 [2.6781099447790306, -9.123593413683013, -4.321236852765957] 10.444391681291306
2 [2.62454774588345, -8.941121545409352, -4.234812115710638] 10.235503847665479
3 [2.5720567909657808, -8.762299114501165, -4.150115873396426] 10.030793770712169
4 [2.5206156551464654, -8.58705313221114, -4.067113555928497] 9.830177895297926
5 [2.470203342043536, -8.415312069566918, -3.985771284809927] 9.633574337391966
6 [2.4207992752026652, -8.24700582817558, -3.9060558591137284] 9.440902850644127
7 [2.372383289698612, -8.082065711612067, -3.827934741931454] 9.252084793631242
8 [2.3249356239046395, -7.920424397379826, -3.751376047092825] 9.067043097758619
9 [2.278436911426547, -7.762015909432229, -3.676348526150968] 8.885702235803446
10 [2.232868173198016, -7.606775591243585, -3.6028215556279486] 8.707988191087377
11 [2.1882108097340556, -7.454640079418713, -3.5307651245153897] 8.53382842726563
12 [2.1444465935393744, -7.30

## Выбор правильного размера шага

- Подбирается экспериментально (слишком маленький - устанешь жадть, слишком большой - перепрыгнешь из минимум)
- В большинстве случае достаточно константного размера шага
- Иногда можно ухищрятся, и например, постепенно уменьшать размер шага