In [1]:
# Загружаем библиотеки
import pandas as pd # Датафреймы pandas
import numpy as np # Математика

#### Исходные данные

In [174]:
# Линейная функция со случайным шумом
N = 100
theta0 = 10
theta1 = 2
X = np.random.uniform(low=0, high=100, size=N)
Y = theta1*X + theta0 + np.random.normal(scale = 5, size = N)

In [156]:
# Функция потерь
def cost_function(X, y, theta0, theta1):
    total_cost = 0
    for i in range(len(X)):
        total_cost += (theta0 + theta1*X[i] - y[i]) ** 2
    return total_cost / (2 * len(X))

In [157]:
# Производная по theta0
def der_theta0(X, y, theta0, theta1):
    total_cost = 0
    for i in range(len(X)):
        total_cost += (theta0 + theta1*X[i] - y[i])
    return total_cost / (len(X))    

In [158]:
# Производная по theta1
def der_theta1(X, y, theta0, theta1):
    total_cost = 0
    for i in range(len(X)):
        total_cost += (theta0 + theta1*X[i] - y[i]) * X[i]
    return total_cost / (len(X))  

#### Метод градиентного спуска

In [201]:
# Количество итераций
epochs = 20000
# Величина шага
learning_rate = 0.0005

# Начальные значения theta0 и theta1
theta0 = 1
theta1 = 1

# Оптимизация методом градиентного спуска
for i in range(epochs):
    dt0 = der_theta0(X, Y, theta0, theta1)
    dt1 = der_theta1(X, Y, theta0, theta1)
    
    theta0 -= learning_rate * dt0
    theta1 -= learning_rate * dt1
    
#     print(f'i = {i} theta0: {theta0}, theta1: {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')

print(f'Результат:\ntheta0 = {theta0}, theta1 = {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')
print('Метод самый медленный')

Результат:
theta0 = 9.509582723526954, theta1 = 2.0224064891472366, cost: 16.064418576267848
Метод самый медленный


#### Метод nesterov momentum

In [203]:
# Количество итераций
epochs = 2000
# Величина шага
learning_rate = 0.0005

# Начальные значения theta0 и theta1
theta0 = 1
theta1 = 1

# Начальные значения коэффициентов nesterov momentuт
gamma = 0.9
vt0 = 0
vt1 = 0

# Оптимизация методом nesterov momentuт
for i in range(epochs):
    dt0 = der_theta0(X, Y, theta0, theta1)
    dt1 = der_theta1(X, Y, theta0, theta1)
    
    vt0 = gamma * vt0 + learning_rate * dt0
    vt1 = gamma * vt1 + learning_rate * dt1
    
    theta0 -= vt0
    theta1 -= vt1
    
#     print(f'i = {i} theta0: {theta0}, theta1: {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')

print(f'Результат:\ntheta0 = {theta0}, theta1 = {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')
print('Метод быстрее по сравнению с градиентным спуском')

Результат:
theta0 = 9.522810113255904, theta1 = 2.022205960125536, cost: 16.06259926599937
Метод быстрее по сравнению с градиентным спуском


#### Метод rmsprop

In [205]:
# Количество итераций
epochs = 1000
# Величина шага
learning_rate = 0.1

# Начальные значения theta0 и theta1
theta0 = 1
theta1 = 1

# Начальные значения коэффициентов rmsprop
gamma = 0.9
eps = 0.001
EG0 = 0
EG1 = 0

# Оптимизация методом rmsprop
for i in range(epochs):
    dt0 = der_theta0(X, Y, theta0, theta1)
    dt1 = der_theta1(X, Y, theta0, theta1)
    
    EG0 = gamma * EG0 + (1 - gamma) * dt0 ** 2
    EG1 = gamma * EG1 + (1 - gamma) * dt1 ** 2
    
    theta0 -= dt0 * learning_rate / (EG0 + eps) ** 0.5
    theta1 -= dt1 * learning_rate / (EG1 + eps) ** 0.5
    
#     print(f'i = {i} theta0: {theta0}, theta1: {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')

print(f'Результат:\ntheta0 = {theta0}, theta1 = {theta1}, cost: {cost_function(X, Y, theta0, theta1)}')
print('Метод самый быстрый из рассмотренных')

Результат:
theta0 = 9.934016879817532, theta1 = 1.965214081076461, cost: 19.989875089560993
Метод самый быстрый из рассмотренных
