In [1]:
import numpy as np
import tensorflow as tf
import math

def rosenbrock(x, y, a, b):
    return (a - x)**2 + b*(y - x**2)**2

def rosenbrock2(x, p):
    with tf.name_scope("Rosenbrock"):
        x, y = tf.unstack(x, axis=1)
        a, b = tf.unstack(p)
        return (a - x)**2 + b*(y - x**2)**2

  from ._conv import register_converters as _register_converters


In [2]:
# (0.5, 0.5) - это реальные параметры, давайте забудем, что они нам известны
data_points = np.array([[x, y, rosenbrock(x, y, 2.5, 2.5)]
                       for x in np.arange(-2, 2.1, 2) 
                       for y in np.arange(-2, 2.1, 2)])
m = data_points.shape[0]

In [3]:
# тензоры данных экспериментов ('placeholder' означает, что данные надо 
# передавать каждый раз при запуске вычислений)
x = tf.placeholder(tf.float64, shape=[m, 2], name='x')
y = tf.placeholder(tf.float64, shape=[m], name='y')
# тензор параметров ('variable' означает, что он хранит состояние)
# инициализуем его нашей догадкой (5, 5)
p = tf.Variable([5., 5.], dtype=tf.float64, name='p')
# модель
y_hat = rosenbrock2(x, p)
# невязки
r = tf.subtract(y, y_hat)
# mse (mean squared error)
c1 = tf.constant(2., dtype=tf.float64, name='2')
r_squared = tf.pow(r, c1)
loss = tf.reduce_mean(r_squared)

In [4]:
# при запуске вычислений нам надо передать данные 
# для подстановки в тензоры типа placeholder (координаты и высота)
feed_dict = {x: data_points[:,0:2], y: data_points[:,2]}
# в сессии запускаются операции и вычисления TensorFlow
session = tf.Session()
# инициализируем глобальные переменные графа
session.run(tf.global_variables_initializer())
# запускаем вычисление (оценку) тензора loss (mse)
current_loss = session.run(loss, feed_dict)
print(current_loss)
tf.summary.FileWriter('./logs/loss', session.graph)

3868.2291666666665


<tensorflow.python.summary.writer.writer.FileWriter at 0x7fa773f86b70>

In [5]:
session.close()

In [18]:
# параметры: целевое значение mse, максимальное число шагов, тензор
# для вычисления mse, операция шага оптимизации и данные для тензоров placeholder
def train(target_loss, max_steps, loss_tensor, train_step_op, inputs):
    step = 0
    current_loss = session.run(loss_tensor, inputs)
    # оптимизируем пока не закончились шаги или не добились нужного результата
    while current_loss > target_loss and step < max_steps:
        step += 1
        # логируем прогресс на 1, 2, 4, 8, 16... шагах
        if math.log(step, 2).is_integer():
            print(f'step: {step}, current loss: {current_loss}')
        # делаем оптимизационный шаг
        session.run(train_step_op, inputs)
        current_loss = session.run(loss_tensor, inputs)
    print(f'ENDED ON STEP: {step}, FINAL LOSS: {current_loss}')

In [19]:
# вычисляем градиент функции потерь по вектору параметров
grad = tf.gradients(loss, p)[0]
# скорость обучения
learning_rate = 0.0005
# оптимизатор нам нужен, чтобы воспользоваться его методом apply_gradients -
# обновление вектора параметров на градиент со знаком минус
opt = tf.train.GradientDescentOptimizer(learning_rate=1)
# изменяем вектор параметров на значение градиента с учётом скорости обучения
sgd = opt.apply_gradients([(learning_rate*grad, p)])
# запускаем цикл оптимизации, сделаем не больше 40000 шагов
session.run(tf.global_variables_initializer())
train(1e-10, 40000, loss, sgd, feed_dict)
print('PARAMETERS:', session.run(p))

step: 1, current loss: 3868.2291666666665
step: 2, current loss: 1381.5379689135807
step: 4, current loss: 224.7373049641391
step: 8, current loss: 39.36606191164495
step: 16, current loss: 21.251396378934388
step: 32, current loss: 8.262024313710537
step: 64, current loss: 1.5494658076417605
step: 128, current loss: 0.07505392682364921
step: 256, current loss: 0.00022995372615102207
step: 512, current loss: 2.3476189944007084e-09
ENDED ON STEP: 582, FINAL LOSS: 9.698531012270816e-11
PARAMETERS: [2.50000205 2.49999959]


In [20]:
# не будем сами вычислять и применять градиенты, 
# а сразу сконструируем шаг оптимизации
adm = tf.train.AdamOptimizer(15).minimize(loss)
# запускаем цикл оптимизации, сделаем не больше 40000 шагов
session.run(tf.global_variables_initializer())
train(1e-10, 40000, loss, adm, feed_dict)
print('PARAMETERS:', session.run(p))

step: 1, current loss: 3868.2291666666665
step: 2, current loss: 34205.72916492336
step: 4, current loss: 30529.10972641627
step: 8, current loss: 6066.123962286116
step: 16, current loss: 30745.55587142064
step: 32, current loss: 489.35901192814686
step: 64, current loss: 114.83695692773343
step: 128, current loss: 0.18336513192707898
step: 256, current loss: 4.58012625391607e-07
ENDED ON STEP: 317, FINAL LOSS: 2.424142714263483e-12
PARAMETERS: [2.49999969 2.50000008]


In [21]:
# матрица Гессе для функции потерь по параметрам 
hess = tf.hessians(loss, p)[0]
# градиент превращаем в вектор-столбец
grad_col = tf.expand_dims(grad, -1)
# насколько надо изменить вектор параметров
dp = tf.matmul(tf.linalg.inv(hess), grad_col)
# вектор-столбец в вектор-строку
dp = tf.squeeze(dp)
# меняем p на dp со знаком минус
newton = opt.apply_gradients([(dp, p)])
# запускаем цикл оптимизации, сделаем не больше 40000 шагов
session.run(tf.global_variables_initializer())
train(1e-10, 40000, loss, newton, feed_dict)
print('PARAMETERS:', session.run(p))

step: 1, current loss: 3868.2291666666665
step: 2, current loss: 105.04357496954218
step: 4, current loss: 0.3307135454853347
ENDED ON STEP: 6, FINAL LOSS: 5.882202372519996e-20
PARAMETERS: [2.5 2.5]
