# Метод градиентного спуска

## Исследование алгоритма градиентного спуска с постоянным, убывающим в геометрической прогрессии и оптимальным параметром λ на двумерной функции Розенброка

Как известно, глобальный минимум функции Розенброка находится в точке (1, 1), где она принимает значение 0. Посмотрим, как с задачей нахождения минимума справятся вышеперечисленные алгоритмы. В каждом из них поиск производился на прямоугольнике {(x, y) : |x| <= 10, |y| <= 10}.

### Алгоритм с постоянным параметром λ

In [None]:
def gradient_descent_constant_lambda(func, grad, a, b, x0, l):
    xj = [i for i in x0]
    for j in range(100000):
        xj = vec_sub(xj, vec_mul(l, grad(xj)))
        for i in range(len(xj)):
            xj[i] = max(xj[i], a[i])
            xj[i] = min(xj[i], b[i])
    return xj, func(xj)

В серии из десяти экспериментов функции передавался параметр со значениями от 0.1 до 1.0 с шагом в 0.1. И в каждом эксперименте, по мнению алгоритма, минимум функции находился в точке (-10, 10), где она принимает значение 810121.

### Алгоритм с убывающим в геометрической прогрессии параметром λ

In [None]:
def gradient_descent_decreasing_lambda(func, grad, a, b, x0, l):
    xj = [i for i in x0]
    x_prev = vec_sub(x0, vec_mul(l, grad(x0)))
    while abs(func(xj) - func(x_prev)) >= eps:
        x_prev = [i for i in xj]
        l *= 0.95
        xj = vec_sub(xj, vec_mul(l, grad(xj)))
        for i in range(len(xj)):
            xj[i] = max(xj[i], a[i])
            xj[i] = min(xj[i], b[i])
    return xj, func(xj)

В каждом из десяти экспериментов результат менялся в зависимости от переданного начального значения λ. Но в целом результаты гораздо лучше:

1st iteration: ([-3.161318362884144, 9.99977665630819], 17.319984424183534)

2nd iteration: ([3.1122705746694583, 9.697177696768826], 4.473676281959079)

3rd iteration: ([3.142589063426612, 9.880719603388654], 4.593043620363771)

4th iteration: ([3.1618310549246984, 9.999928297236057], 4.674271233296059)

5th iteration: ([3.150445442813661, 9.929392897416658], 4.626085476591294)

6th iteration: ([3.1618269154414707, 9.999925651086018], 4.674266345344201)

7th iteration: ([-3.1613140233757786, 9.999771442432275], 17.319974326915517)

8th iteration: ([-3.097344812818337, 9.613331918249395], 16.82738716583132)

9th iteration: ([3.16022328578101, 9.9904056792463], 4.667716882508627)

10th iteration: ([3.161819535354502, 9.999920636252861], 4.6742577381237895)

### Алгоритм с оптимальным параметром λ

In [None]:
def gradient_descent_optimal_lambda(func, grad, a, b, x0, l):
    xj = [i for i in x0]
    x_prev = vec_sub(x0, vec_mul(l, grad(x0)))
    while abs(func(xj) - func(x_prev)) >= eps:
        area = 0
        for i in range(len(a)):
            area = max(area, abs(x_prev[i] - xj[i]))
        area *= 2
        min_f = inf
        for i in range(10000):
            f = func(vec_sub(xj, vec_mul(area * i / 10000, grad(xj))))
            if f < min_f:
                l = area * i / 10000
                min_f = f
        x_prev = [i for i in xj]
        xj = vec_sub(xj, vec_mul(l, grad(xj)))
        for i in range(len(xj)):
            xj[i] = max(xj[i], a[i])
            xj[i] = min(xj[i], b[i])
    return xj, func(xj)

Алгоритм возвращал только два значения: 

точка [0.7003062413764076, 0.48901247288818755], значение 0.09001695618936147

точка [0.7001353721896758, 0.48877066794723995], значение 0.09012011462926593

### Гибридный алгоритм

In [None]:
def hybrid_gradient_descent(func, grad, a, b, l):
    min_x = [inf for i in range(len(a))]
    min_f = inf
    for i in range(1000000):
        x0 = [random.uniform(a[i], b[i]) for i in range(len(a))]
        f = func(x0)
        if f < min_f:
            min_f = f
            min_x = x0
    return gradient_descent_optimal_lambda(func, grad, a, b, min_x, l)

Алгоритм показал наилучшие результаты во всех десяти экспериментах:

1st iteration: ([0.9608883079539142, 0.923215596562225], 0.0015305478984373444)

2nd iteration: ([1.0155970427853873, 1.0314972759285155], 0.0002436268156171596)

3rd iteration: ([0.9762054521718827, 0.9528807564110976], 0.0005671084231608184)

4th iteration: ([0.986195940292532, 0.9725292235861595], 0.00019083518484919426)

5th iteration: ([1.0187406035698106, 1.037910582048212], 0.0003518211939812672)

6th iteration: ([1.0165648413903765, 1.0334501472568096], 0.00027460621943850555)

7th iteration: ([0.974480673607166, 0.9495349495097716], 0.0006518387190558269)

8th iteration: ([0.9795286151235578, 0.9593930184284164], 0.0004197713114654868)

9th iteration: ([0.9935626913071663, 0.9871485005675708], 4.147250907417538e-05)

10th iteration: ([0.9889507384080547, 0.9779803727440209], 0.00012227272152970427)

## Исследование алгоритма градиентного спуска на многомерной функции Розенброка

Была исследована шестимерная функция Розенброка на гексеракте {(x1, x2, x3, x4, x5, x6) : |x_i| <= 10, i = [1..6]}. Её глобальный минимум, по аналогии с двумерным случаем, находится в точке (1, 1, 1, 1, 1, 1), где функция обращается в ноль. Результаты работы алгоритмов довольно сильно похожи на двумерный случай.

### Алгоритм с постоянным параметром λ

Как и в двумерном случае, алгоритм показал худший результат: минимум "оказался" в точке (-10, 10, -10, 10, -10, 10) со значением функции 4850525.

### Алгоритм с убывающим в геометрической прогрессии параметром λ

Уже лучше! Минимум был определён в точке (1.480310485298787, 1.430241121154172, 0.8419344843050052, -1.6424102605063833, 3.1533755080954102, 9.998642555756255), значение функции равно 788.7891360754999.

### Алгоритм с оптимальным параметром λ

Во всех экспериментах алгоритм выдавал один и тот же довольно близкий к истинному ответ: минимум в (0.9712746703728741, 0.9433153514116831, 0.8896895301980444, 0.7911958059724361, 0.6251595576508651, 0.3885862435724874), значение 0.20089640346616136.

### Гибридный алгоритм

Гибридный алгоритм неожиданно показал почти худший результат. Записи экспериментов:

1st iteration: ([-0.9535481182948664, 0.919608566851524, 0.8510910162572162, 0.7270914282217011, 0.5295230086538073, 0.27847218594248585], 4.155656302126283)

2nd iteration: ([0.747919839877591, 0.8394026144650368, 0.7861142736760449, 1.278743014659927, 1.7290424166332112, 3.154951980504908], 56.52666380718804)

3rd iteration: ([0.08624175543069157, 1.0587261304289015, 1.1766333972024139, 1.3103779252246675, 1.2027447742275115, 0.667680079701146], 199.51328414615995)

4th iteration: ([-0.8905659216614978, -0.3607825180460207, -0.8944314783442984, 1.3280292947439616, 1.0851442756583367, 0.47165648135961646], 371.0017146789551)

5th iteration: ([0.9227724009136455, 0.4840601125966266, -0.5787153596046473, 0.398112119341425, 1.4045633335402705, 1.4229432807609506], 268.79654122649)

6th iteration: ([0.05772582402110871, 1.1977068545966887, 0.1796950273597826, -0.5422883337081394, 1.0416544088041864, 1.291784553026222], 397.2627858075251)

7th iteration: ([1.2465665246183235, 1.1551034727203984, 1.1428703761866963, 0.5819652820981105, 0.7007416979679331, 1.9788622969919683], 306.8540206615775)

8th iteration: ([-1.1900053144673386, 1.4192454437167328, 0.8298607485667695, 1.259866522454523, 1.6085591842970075, 3.164739901984273], 211.71622019980794)

9th iteration: ([-0.2729137548174059, -0.30128186000055557, -0.777590574721696, 0.38662662739463904, -0.21393053148508656, -0.8174527252249817], 190.32303742859017)

10th iteration: ([-0.6279069817086267, -0.2237432178880141, 1.3087492620270886, 0.7843777517299895, 0.4455052076372841, 0.9517438625248431], 347.04425651595807)

Видно, как по мере увеличения начального значения λ падает точность.

# Исследование алгоритма градиентного спуска на некоторых других функциях

## Функция y = -5^(1 - (20 * x)^2)

Причина выбора функции — она мало отличается от нуля на почти всей числовой прямой и практически линейна, но в точках +- 0.1 начинает чрезвычайно быстро убывать до значения -5. Неудачный выбор начальной точки и параметра λ может заставить алгоритм выдать неверный ответ.

In [21]:
import pylab

data_x = [i / 100 for i in range(-1000, 1000)]
data_y = [-5 ** (1 - (20 * x) ** 2) for x in data_x]

pylab.xlabel("x")
pylab.ylabel("y")
pylab.axis([-10, 10, -6, 1])
pylab.plot(data_x, data_y)
pylab.show()

## Результаты экспериментов:

Как и ожидалось, неудачный выбор начальных параметров заставил все алгоритмы, кроме гибридного, выдавать ответ 0 в подавляющем большинстве случаев. Гибридный же алгоритм во всех десяти экспериментах выдал верный ответ.

### Постоянный параметр (ни одного попадания):

1st iteration: ([8.15656181474479], -0.0)

2nd iteration: ([8.730783918847507], -0.0)

3rd iteration: ([-1.8078976887253404], -0.0)

4th iteration: ([8.18118276653879], -0.0)

5th iteration: ([-0.5182388107057978], -4.070153646681956e-75)

6th iteration: ([7.108318955083604], -0.0)

7th iteration: ([5.134107203078788], -0.0)

8th iteration: ([-9.368040277854462], -0.0)

9th iteration: ([-3.3127577431208977], -0.0)

10th iteration: ([0.9770731098002869], -6.0837565257950535e-267)


### Уменьшающийся параметр (ни одного попадания):

1st iteration: ([8.863083601047517], -0.0)

2nd iteration: ([4.832648675912674], -0.0)

3rd iteration: ([1.9159213355667823], -0.0)

4th iteration: ([9.156326634035196], -0.0)

5th iteration: ([6.228859237406738], -0.0)

6th iteration: ([-4.495703602756896], -0.0)

7th iteration: ([-5.625165218827275], -0.0)

8th iteration: ([-2.1125718691116324], -0.0)

9th iteration: ([2.9789702346382487], -0.0)

10th iteration: ([0.7994612280876616], -1.0082828879611137e-178)


### Оптимальный параметр (одно попадание! Случайность?):

1st iteration: ([-3.6939629142270114], -0.0)

2nd iteration: ([-9.641317133466137], -0.0)

3rd iteration: ([-5.960107809768694], -0.0)

4th iteration: ([3.1725091433060015], -0.0)

5th iteration: ([-9.12243948788827], -0.0)

6th iteration: ([-5.269598552427071e-10], -4.999999999999999) # Да!!!

7th iteration: ([4.711540969818595], -0.0)

8th iteration: ([8.532046339853764], -0.0)

9th iteration: ([9.737835174467403], -0.0)

10th iteration: ([3.7180854842341624], -0.0)


### Гибридный алгоритм (10/10!):

1st iteration: ([6.06028085962093e-07], -4.999999998817803)

2nd iteration: ([-1.3248628427004491e-09], -4.999999999999995)

3rd iteration: ([4.298550875901134e-07], -4.99999999940523)

4th iteration: ([-5.958930499106251e-07], -4.999999998857015)

5th iteration: ([4.286347053018152e-10], -4.999999999999999)

6th iteration: ([1.5057294611808067e-06], -4.999999992702096)

7th iteration: ([-1.5455377883371303e-06], -4.999999992311113)

8th iteration: ([-4.270110120127035e-07], -4.999999999413076)

9th iteration: ([1.9703276847810123e-10], -5.0)

10th iteration: ([-2.1506865198220806e-08], -4.999999999998511)

## Функция y = 0.1 * (sin^2(10x) * x^2 + x^2)

Причина выбора функции — у неё довольно много локальных минимумов (по 10 локальных минимумов на отрезке длины π, если быть точнее) и только один глобальный в точке 0. Алгоритмам нужно будет постараться найти именно его, а не один из около 70 локальных минимумов на отрезке [-10, 10], на котором они будут запускаться.

In [22]:
import pylab
from math import sin

data_x = [i / 100 for i in range(-1000, 1000)]
data_y = [0.1 * (sin(10 * x) ** 2 * x ** 2 + x ** 2) for x in data_x]

pylab.xlabel("x")
pylab.ylabel("y")
pylab.axis([-10, 10, -1, 15])
pylab.plot(data_x, data_y)
pylab.show()

## Результаты экспериментов:

Снова все алгоритмы, кроме гибридного, часто промахивались и попадали в один из локальных минимумов.

### Постоянный параметр (3 чистых попадания, 2 близких):

1st iteration: ([1.299741164837641], 0.19842344678473892)

2nd iteration: ([0.6111418113817662], 0.03844059299638808)

3rd iteration: ([-3.5e-323], 0.0)

4th iteration: ([-10], 12.564061624964971)

5th iteration: ([3.5e-323], 0.0)

6th iteration: ([-10], 12.564061624964971)

7th iteration: ([1e-323], 0.0)

8th iteration: ([10], 12.564061624964971)

9th iteration: ([-10], 12.564061624964971)

10th iteration: ([10], 12.564061624964971)


### Уменьшающийся параметр (шесть попаданий в районе нуля):

1st iteration: ([-2.5092783508447183], 0.63065255715759)

2nd iteration: ([0.2641404254066473], 0.008581781835833892)

3rd iteration: ([-0.6111409381040737], 0.03844059299883448)

4th iteration: ([-10], 12.564061624964971)

5th iteration: ([10], 12.564061624964971)

6th iteration: ([10], 12.564061624964971)

7th iteration: ([-0.6111437463597156], 0.03844059300839922)

8th iteration: ([0.06978455295232601], 0.0006880630140502045)

9th iteration: ([0.0029173199456220137], 8.517996906692199e-07)

10th iteration: ([-10], 12.564061624964971)


### Оптимальный параметр (всего три промаха):

1st iteration: ([0.035522221019794346], 0.00014144638996709476)

2nd iteration: ([3.327899979411395e-06], 1.1074918285231745e-12)

3rd iteration: ([-5.024556693738789], 2.525618198116656)

4th iteration: ([-1.0008779098319948e-05], 1.0017566004248254e-11)

5th iteration: ([-4.4768662409685015e-08], 2.004233133952746e-16)

6th iteration: ([5.024556705208329], 2.525618198116626)

7th iteration: ([-9.651891476034562e-09], 9.31590090651495e-18)

8th iteration: ([1.650037401400038e-06], 2.7226234267602576e-13)

9th iteration: ([-8.768456184920389], 8.275910758491607)

10th iteration: ([-5.119327755532719e-09], 2.620751666856773e-18)


### Гибридный алгоритм (10/10!):

1st iteration: ([-1.708219344109807e-05], 2.9180134127389565e-11)

2nd iteration: ([-2.081805352105448e-06], 4.33391352593317e-13)

3rd iteration: ([2.187802214237422e-05], 4.786478757725931e-11)

4th iteration: ([-3.2480817928615124e-06], 1.0550035344248782e-12)

5th iteration: ([1.5119805656382823e-06], 2.2860852313904787e-13)

6th iteration: ([1.5094267141080309e-05], 2.2783690571726203e-11)

7th iteration: ([2.6682660237753453e-05], 7.119644080527127e-11)

8th iteration: ([-2.578601582925444e-06], 6.649186127886772e-13)

9th iteration: ([-4.1948077438291875e-06], 1.759641203865269e-12)

10th iteration: ([-1.2012376174652672e-05], 1.4429718344353083e-11)

## Функция y = ((x^2 - 49) ^ 2) / 20000

In [19]:
import pylab
from math import sin

data_x = [i / 100 for i in range(-1000, 1000)]
data_y = [((x ** 2 - 49) ** 2) / 20000 for x in data_x]

pylab.xlabel("x")
pylab.ylabel("y")
pylab.axis([-10, 10, -0.1, 1])
pylab.plot(data_x, data_y)
pylab.show()

Причина выбора функции — её значения меняются очень мало на отрезке [-10, 10], попасть в один из её двух минимумов будет трудной задачей для некоторых алгоритмов.

## Результаты экспериментов:

В этот раз алгоримт с постоянным параметром неожиданно вырвался вперёд, все 10 раз верно определив минимум, а алгоритм с оптимальным параметром показал худший результат.

### Постоянный параметр (10 попаданий):

1st iteration: ([6.9999999999997735], 5.021345786334169e-28)

2nd iteration: ([6.999999999999887], 1.244103067293195e-28)

3rd iteration: ([-6.999999999999925], 5.45487849629467e-29)

4th iteration: ([6.999999999999944], 3.0544694250157576e-29)

5th iteration: ([7.000000000000045], 1.999541513681803e-29)

6th iteration: ([6.999999999999963], 1.345228724455287e-29)

7th iteration: ([7.000000000000032], 1.0019164585031026e-29)

8th iteration: ([6.9999999999999725], 7.361018878798306e-30)

9th iteration: ([-7.000000000000025], 6.060976106994078e-30)

10th iteration: ([6.999999999999978], 4.887151080025212e-30)


### Уменьшающийся параметр (одно попадание, ещё одно близко к верному):

1st iteration: ([-4.8819357504870675], 0.031668147820270935)

2nd iteration: ([8.588044165174907], 0.030639269906574715)

3rd iteration: ([-5.511404970246397], 0.017343442177565824)

4th iteration: ([-0.377416777634846], 0.11935304172865528)

5th iteration: ([5.734819250430191], 0.012979582564432001)

6th iteration: ([-6.974673345397709], 6.263383298028853e-06)

7th iteration: ([-0.3270246763100973], 0.11952654068244983)

8th iteration: ([6.594609890587593], 0.0015186223981851214)

9th iteration: ([-1.526948520243455], 0.10889710961005351)

10th iteration: ([-4.8694643724998], 0.03197494813908227)


### Оптимальный параметр (ни одного попадания):

1st iteration: ([-9.089155138025978], 0.05649081829044044)

2nd iteration: ([2.1778006946969333], 0.09793491737432487)

3rd iteration: ([-1.4975614469830607], 0.1093123005775791)

4th iteration: ([-1.132547369733111], 0.11384720991946576)

5th iteration: ([4.592528088507446], 0.03894473703211179)

6th iteration: ([-9.913602857054151], 0.12142356249267186)

7th iteration: ([-8.368761288665182], 0.022126012961181506)

8th iteration: ([4.982444418023247], 0.029222129877580282)

9th iteration: ([9.155976074062517], 0.06066305545714402)

10th iteration: ([6.744993979867935], 0.0006142709523046177)


### Гибридный алгоритм (10/10):

1st iteration: ([6.999992514026452], 5.491894522549609e-13)

2nd iteration: ([6.999996793819786], 1.0073995116851501e-13)

3rd iteration: ([-6.999999890356225], 1.1781322019045326e-16)

4th iteration: ([7.000014066318801], 1.939044877797287e-12)

5th iteration: ([-6.999999752721537], 5.992370321127111e-16)

6th iteration: ([-7.00000036268559], 1.2891002730837718e-15)

7th iteration: ([7.000003321841671], 1.0813944577670456e-13)

8th iteration: ([6.999993446756594], 4.2086059751482024e-13)

9th iteration: ([-7.000001888047449], 3.4934296488311374e-14)

10th iteration: ([-6.999983822500928], 2.56476653961935e-12)

## Функция z = x ^ 2 * (sin(10x)^2 + 1) + y ^ 2 * (sin(10y) ^ 2 + 1)

По сути, это двумерный вариант второй рассмотренной функции. Её график -- поверхность с множеством "ям" и единственным глобальным минимумом в точке (0, 0). Только теперь количество локальных минимумов на квадрате {(x, y) : |x| <= 10, |y| <= 10} будет порядка 4500.

## Результаты экспериментов:


Только гибридный алгоритм показал приемлемые результаты (но всё равно не идеальные). Остальные алгоритмы и близко не подбирались к глобальному минимуму.


### Постоянный параметр (ни одного попадания):

1st iteration: ([-10, -10], 251.28123249929942)

2nd iteration: ([-10, -10], 251.28123249929942)

3rd iteration: ([10, 10], 251.28123249929942)

4th iteration: ([-10, 10], 251.28123249929942)

5th iteration: ([-10, -10], 251.28123249929942)

6th iteration: ([-10, 10], 251.28123249929942)

7th iteration: ([10, 10], 251.28123249929942)

8th iteration: ([-10, -10], 251.28123249929942)

9th iteration: ([10, 10], 251.28123249929942)

10th iteration: ([10, 10], 251.28123249929942)


### Уменьшающийся параметр (ни одного попадания):

1st iteration: ([-10, -10], 251.28123249929942)

2nd iteration: ([-6.34972732231013e-05, -10], 125.64061625368161)

3rd iteration: ([10, -3.7603578977895574e-05], 125.64061625106373)

4th iteration: ([-10, -10], 251.28123249929942)

5th iteration: ([-10, -10], 251.28123249929942)

6th iteration: ([10, 10], 251.28123249929942)

7th iteration: ([-10, -10], 251.28123249929942)

8th iteration: ([-10, 10], 251.28123249929942)

9th iteration: ([-10, -10], 251.28123249929942)

10th iteration: ([10, -10], 251.28123249929942)


### Оптимальный параметр (лучше, чем предыдущие, но ни одного попадания):

1st iteration: ([-4.661904555389082, 6.574797040283368], 72.20624260731034)

2nd iteration: ([-2.8235079311504236, -4.055673845957211], 25.72404796310942)

3rd iteration: ([9.095115934368955, -0.16741261435841892], 84.74909702076322)

4th iteration: ([6.2088471904453115, -7.168949271022413], 122.43323539049273)

5th iteration: ([9.037239678892174, -5.623229470932496], 152.98160841509468)

6th iteration: ([-1.078009999115876, 9.515615427912515], 149.1147098715459)

7th iteration: ([-1.56435979488481, 0.29788509949594566], 2.548411159763251)

8th iteration: ([-7.2875081159564115, 3.8076926659580614], 87.43073477499512)

9th iteration: ([8.368521185294814, -6.117153236613902], 202.27406414212356)

10th iteration: ([7.7443469717660705, 1.819349748495716], 111.9740859081057)


### Гибридный алгоритм (все ответы довольно близки и правильным, ошибка не более 0.0004)

1st iteration: ([-0.019122050195479138, -0.00037171506507342034], 0.0003789990057170576)

2nd iteration: ([0.001267564075597485, -0.003231033126583258], 1.2057446572259095e-05)

3rd iteration: ([0.0029000721413639133, -0.011223443411353628], 0.00013596325597501767)

4th iteration: ([0.00800236853542122, 0.007859490558578163], 0.00012659949261265523)

5th iteration: ([-0.012726306112042798, 0.00269427763218507], 0.00017183220448648806)

6th iteration: ([0.007500279328550823, -0.0011505258293129958], 5.7893935343128006e-05)

7th iteration: ([-0.00011894414543976795, -0.012017010672144553], 0.0001464980570969688)

8th iteration: ([0.006338268805488942, 0.009340603951891686], 0.00012834070052487564)

9th iteration: ([-0.007057426561787653, 0.015142758784065404], 0.0002845760047781165)

10th iteration: ([-0.010678895109562695, 0.00885133465802299], 0.00019429268499915244)

# Вывод

Как видно, гибридный алгоритм в подавляющем большинстве случаев показывает лучшие результаты. Ещё более его улучшить можно, задав большее количество исследуемых точек в методе Монте-Карло или усовершенствовать поиск оптимального параметра, напрмер, заменив метод Монте-Карло на дихотомию. Алгоритм с постоянным параметром в случайных запусках проявляет себя хорошо, но в целом выдаёт худший ответ. Если сделать параметр убывающим, ситуация улучшится, но не намного. Алгоритм с поиском оптимального параметра чаще всего даёт приемлемый ответ, улучшить его можно, опять-таки, заменив метод Монте-Карло на дихотомию.