In [None]:
! pip install torchdiffeq

# <a href="https://mipt-stats.gitlab.io/courses/ad_mipt.html">Phystech@DataScience</a>
## Задание профильное по направлению физика

**Правила:**

* Выполненную работу нужно отправить телеграм-боту, адрес которого будет указан на странице курса. 
* Дедлайн **20 декабря в 22:00**. После дедлайна работы не принимаются кроме случаев наличия уважительной причины.
* Прислать нужно ноутбук в формате `ipynb` 
* Решения, размещенные на каких-либо интернет-ресурсах не принимаются. Публикация решения может быть приравнена к предоставлению возможности списать.
* Для выполнения задания используйте этот ноутбук в качествие основы, ничего не удаляя из него.

-----

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

from torchdiffeq import odeint
from torch.autograd.functional import hessian, jacobian
from functools import partial # reduces arguments to function by making some subset implicit

# visualization
import matplotlib.pyplot as plt
import seaborn as sns
from functools import partial

import time

from IPython.display import clear_output
from collections import defaultdict
sns.set(font_scale=1.3)

# Лагранжевы нейронные сети

В этом домашнем задании вы попробуете применить нейронные сети для решения задач механики.
 

## Постановка задачи

Мы будем рассматривать простую физическую систему в виде двойного маятника, которая уже тяжело изучается аналитически и не интегрируется до конца.

<img src="https://raw.githubusercontent.com/greydanus/greydanus.github.io/master/files/double_pend_schema.png">

Используя $\theta_1, \theta_2$ в качестве обобщенных координат, выпишите лагранжиан данной системы. Если у вас возникнут затруднения, вы можете обратиться, например, [сюда](https://diego.assencio.com/?index=1500c66ae7ab27bb0106467c68feebc6)

In [None]:
def lagrangian(q, q_t, params):
  """Реализация подсчета лагранжиана для двойного маятника

  Args:
      q (torch.tensor): тензор обобщенных координат 
      q_t (torch.tensor): тензор производных обобщенных координат
      params ([torch.tensor]): параметры системы m1, m2, l1, l2, g

  Returns:
      torch.tensor: лагранжиан системы
  """
  t1, t2 = q # theta 1 and theta 2, 
  w1, w2 = q_t  # omega 1 and omega 2
  m1, m2, l1, l2, g = params

  # подсчет кинетической энергии 
  T = ...

  # подсчет потенциальной энергии
  V = 

  return T - V

In [None]:
assert torch.allclose(lagrangian(torch.tensor([0, 0]), torch.tensor([0, 0]), torch.tensor(
    [1, 2, 1, 3, 10])), torch.tensor(90)), "Проверьте потенциальную энергию"
assert torch.allclose(lagrangian(torch.tensor([torch.pi / 2, torch.pi / 2]), torch.tensor(
    [2, 4]), torch.tensor([1, 2, 1, 3, 10])), torch.tensor(198)), "Проверьте кинетическую энергию"
assert torch.allclose(lagrangian(torch.tensor(
    [torch.pi / 3, torch.pi / 3]), torch.tensor([2, 4]), torch.tensor([1, 2, 1, 3, 10])), torch.tensor(243))

print('Отл 10 по теормеху!')


Данная система сводится к системе ОДУ. Подробности можно посмотреть [здесь](https://diego.assencio.com/?index=1500c66ae7ab27bb0106467c68feebc6). Определим следующие величины:

\begin{align}
& \alpha_1(\theta_1,\theta_2) ~:=~ \displaystyle\frac{l_2}{l_1}\left(\frac{m_2}{m_1 + m_2}\right)\cos(\theta_1 - \theta_2)\\
&\alpha_2(\theta_1,\theta_2) ~:=~ \frac{l_1}{l_2}\cos(\theta_1-\theta_2)\\
&\displaystyle f_1(\theta_1, \theta_2, \dot{\theta}_1, \dot{\theta}_2) ~:=~
-\frac{l_2}{l_1}\left(\frac{m_2}{m_1+m_2}\right) \dot{\theta}_2^2\sin(\theta_1 - \theta_2)
- \frac{g}{l_1} \sin\theta_1 \\
&\displaystyle f_2(\theta_1, \theta_2, \dot{\theta}_1, \dot{\theta}_2) ~:=~
\frac{l_1}{l_2}\dot{\theta}_1^2\sin(\theta_1-\theta_2) - \frac{g}{l_2} \sin\theta_2 \\
&g_1 := \displaystyle\frac{f_1 - \alpha_1 f_2}{1 - \alpha_1\alpha_2}
\quad\quad
g_2 := \displaystyle\frac{-\alpha_2 f_1 + f_2}{1 - \alpha_1\alpha_2}
\end{align}

Используя их, динамику системы можно записать в следующем виде:

$$
\displaystyle\frac{d}{dt}
\left( \begin{matrix} \theta_1 \\[1pt] \theta_2 \\[1pt] \omega_1 \\[1pt] \omega_1 \end{matrix} \right)
=
\left( \begin{matrix} \omega_1 \\ \omega_2 \\ g_1(\theta_1,\theta_2,\omega_1,\omega_2)
\\ g_2(\theta_1,\theta_2,\omega_1,\omega_2) \end{matrix} \right)
$$

In [None]:
def f_analytical(t, state, params):
    """Сила в правой части ОДУ

    Args:
        t ([NONE]): Момент времени. В данном случае не используется. 
        state ([torch.tensor]): Состояние системы, описываемое тензором [theta_1, theta_2, omega_1, omega_2]
        params ([torch.tensor]): параметры системы m1, m2, l1, l2, g

    Returns:
        [torch.tensor]: вектор силы в правой части ОДУ
    """
    t1, t2, w1, w2 = state  # theta 1 and theta 2, omega 1 and omega 2
    m1, m2, l1, l2, g = params
    a1 = (l2 / l1) * (m2 / (m1 + m2)) * torch.cos(t1 - t2)
    a2 = (l1 / l2) * torch.cos(t1 - t2)
    f1 = -(l2 / l1) * (m2 / (m1 + m2)) * (w2**2) * torch.sin(t1 - t2) - \
        (g / l1) * torch.sin(t1)
    f2 = (l1 / l2) * (w1**2) * torch.sin(t1 - t2) - (g / l2) * torch.sin(t2)
    g1 = (f1 - a1 * f2) / (1 - a1 * a2)
    g2 = (f2 - a2 * f1) / (1 - a1 * a2)
    return torch.stack([w1, w2, g1, g2])

## Часть 1. Baseline сеть.

В этой части вы попробуете наивный подход для решения ОДУ. 

Попытаемся научить сеть предсказывать  $\displaystyle\frac{d}{dt}
\left( \begin{matrix} \theta_1 \\[1pt] \theta_2 \\[1pt] \omega_1 \\[1pt] \omega_1 \end{matrix} \right)$ по $\displaystyle \left( \begin{matrix} \theta_1 \\[1pt] \theta_2 \\[1pt] \omega_1 \\[1pt] \omega_1 \end{matrix} \right)$.

Зададим параметры системы

In [None]:
m1 = 1 
m2 = 1 
l1 = 1 
l2 = 1
g = 9.81

params = torch.tensor([m1, m2, l1, l2, g], requires_grad=False).float()

Для обучения нам нужно откуда-то взять данные. Например, можно численно решить систему для 2N шагов и взять первые N для обучения, а вторые для теста.

In [None]:
N = 5000
time_step = 0.01
f = partial(f_analytical, params=params)

t = torch.linspace(0, 2 * N * time_step, 2 * N)
t_train = t[:N]
t_test = t[N:]

# решаем сразу для 2N шагов, получаем [theta_1, theta_2, omega_1, omega_2] для временной сетки
result_analytical = odeint(f, initial_state, t)

x_train = <получите[theta_1, theta_2, omega_1, omega_2] для первых N шагов >
y_train = <получите производные по времени для[theta_1, theta_2, omega_1, omega_2] для первых N шагов >

x_test = <получите[theta_1, theta_2, omega_1, omega_2] для следующих N шагов >
y_test = <получите производные по времени для[theta_1, theta_2, omega_1, omega_2] для следующих N шагов >


Для обучения нам потребуются вспомогательные функции для подсчета функции потерь и генерации батчей. 

In [None]:
def make_batches(x, y, batch_size=32):
    for i in range(len(y) - batch_size + 1):
        yield x[i:i + batch_size, :], y[i:i + batch_size, :]


def loss(targets, preds):
    return torch.mean((targets - preds) ** 2)


Напишем функцию для обучения сети

In [None]:
def plot_learning_curves(history, suptitle=''):
    '''
    Функция для вывода лосса и метрики во время обучения.

    :param history: (dict)
        accuracy и loss на обучении и валидации
    '''
    fig = plt.figure(figsize=(10, 7))
    fig.suptitle(suptitle)

    plt.title('Лосс', fontsize=15)
    plt.plot(history['loss']['train'], label='train')
    plt.plot(history['loss']['val'], label='val')
    plt.ylabel('лосс', fontsize=15)
    plt.xlabel('эпоха', fontsize=15)
    plt.legend()
    plt.show()

def train_net(
    model, 
    criterion,
    optimizer, 
    device,
    num_epochs=10,
    batch_size=32
):
    '''
    Функция для обучения модели и вывода лосса и метрики во время обучения.

    :param model: обучаемая модель
    :param criterion: функция потерь
    :param optimizer: метод оптимизации
    :param num_epochs: количество эпох

    :return: обученная модель
    :return: (dict) accuracy и loss на обучении и валидации ("история" обучения)
    '''
    history = defaultdict(lambda: defaultdict(list))
    model.to(device)
    
    for epoch in range(num_epochs):
        train_loss = 0
        val_loss = 0
        start_time = time.time()

        model.train(True) 
        batch_counter = 0
        for X_batch, y_batch in make_batches(x_train, y_train, batch_size):

            X_batch = X_batch.to(device)
            y_batch = y_batch.to(device)

            <Получаем предсказания, лосс и  делаем шаг оптимизатора>
            
            # Сохраяняем лоссы и точность на трейне
            train_loss += loss.detach().cpu().numpy()
            batch_counter += len(y_batch)

        # Подсчитываем лоссы и сохраням в "историю"
        train_loss /= batch_counter
        history['loss']['train'].append(train_loss)
    
        model.train(False) 
        batch_counter = 0
        # Полный проход по валидации    
        for X_batch, y_batch in make_batches(x_test, y_test, batch_size):
            X_batch = X_batch.to(device)
            y_batch = y_batch.to(device)
            
            <Получаем предсказания, лосс>

            val_loss += loss.detach().cpu().numpy()
            batch_counter += len(y_batch)
            

        # Подсчитываем лоссы и сохраням в "историю"
        val_loss /= batch_counter
  
        history['loss']['val'].append(val_loss)
        
        clear_output()

        # Печатаем результаты после каждой эпохи
        print("Epoch {} of {} took {:.3f}s".format(
            epoch + 1, num_epochs, time.time() - start_time))
        print("  training loss (in-iteration): \t{:.6f}".format(train_loss))
        print("  validation loss (in-iteration): \t{:.6f}".format(val_loss))
                
        plot_learning_curves(history)

    return model, history

Определите сеть и обучите ее. Совет: не берите слишком сложную сеть.

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

Переходим к тестированию. По начальному состоянию с помощью сети нам нужно получить всю траекторию. Для этого будем использовать следующую процедуру.

$$y = \displaystyle \left( \begin{matrix} \theta_1 \\[1pt] \theta_2 \\[1pt] \omega_1 \\[1pt] \omega_1 \end{matrix} \right) \\
\dot{y}_{n} = net(y_n) \\
y_{n+1} = numerical \ integration(y_n, \dot{y}_{n})
$$

Для численного интегрирования будем использовать метод Рунге-Кутты

In [None]:
def rk4_step(f, t, x, h):
  k1 = h * f(t, x)
  k2 = h * f(t + h/2, x + k1/2)
  k3 = h * f(t + h/2, x + k2/2)
  k4 = h * f(t + h, x + k3)
  return x + 1/6 * (k1 + 2 * k2 + 2 * k3 + k4)

Напишите функцию, выполняющую численного интегрирование с помощью сети, а также функцию, выполняющую интегрирование с использованием аналитического выражения для силы

In [None]:
def get_net_solution(net, initial_state, time_step, n_steps):
  """Процедура численного интегрирования

  Args:
      net (nn.Module): обученная сеть
      initial_state (torch.tensor): начальное состояние
      time_step: шаг интегрирования
      n_steps (int): количество шагов 
  """
  f = lambda t, x: net(x)
  pass


def get_analytical_solution(initial_state, time_step, n_steps, params):
  """Процедура численного интегрирования

  Args:
      initial_state (torch.tensor): начальное состояние
      time_step: шаг интегрирования
      n_steps (int): количество шагов 
      params (torch.tensor): параметры системы
  """
  pass


Сравним результаты

In [None]:
net_result = get_net_solution(net, initial_state, time_step, n_steps=N)
analytical_result = get_analytical_solution(
    initial_state, time_step, n_steps=N, params=params)


In [None]:
def plot_solution(result, title='Результат работы сети'):
  fig = plt.figure(figsize=(15, 7))
  fig.suptitle(title)
  
  plt.subplot(1, 2, 1)
  plt.plot(result[:, 0], result[:, 2])
  plt.xlabel(r'$\theta_1$')
  plt.ylabel('$\omega_1$')

  plt.subplot(1, 2, 2)
  plt.plot(result[:, 1], result[:, 3])
  plt.xlabel(r'$\theta_2$')
  plt.ylabel('$\omega_2$')
  plt.show()

In [None]:
plot_solution(net_result)

In [None]:
plot_solution(analytical_result, title='Теоретический результат')

In [None]:
def compare_results(results, labels, titles):
  fig = plt.figure(figsize=(30, 7))
  fig.suptitle('Сравнение результатов')
  for i in range(4):
    plt.subplot(2, 2, i + 1)
    for result, label in zip(results, labels):
      plt.plot(result[:, i], label=label)
    plt.title(titles[i])
    plt.legend()

In [None]:
compare_results([net_result, analytical_result], ['net', 'exact'], [r'$\theta_1$', r'$\theta_2$', '$\omega_1$', '$omega_2$'])

Похожи ли результаты? Чем выделяется численное решение сети? 


Посмотрим, выполняется ли закон сохранения. Реализуйте подсчет энергии системы вдоль траектории. Совет: используйте части реализации лагранжиана.

In [None]:
def energy(q, q_t, params):
  t1, t2 = q # theta 1 and theta 2, 
  w1, w2 = q_t  # omega 1 and omega 2
  m1, m2, l1, l2, g = params
  
  #кинетическая энергия
  T = ...
  
  # потенциальная энергия
  V = ...

  return T + V

def get_trajectory_energy(states, params):
  energies = []
  for state in states:
    q, q_t = state.split(2)
    energies.append(energy(q, q_t, params)) 
  return energies

In [None]:
net_energies = get_trajectory_energy(net_result, params)
analytical_energy = get_trajectory_energy(analytical_result, params)

Визуализируйте энергии. Что вы видите? Хорошо ли работает сеть? 

**Бонус:** как можно легко попытаться улучшить работу сети в данном случае? Избыточна ли использованная вами сеть? Реализуйте новый подход и сравните с наивным. ***Подсказка:*** внимательно посмотрите на исходную систему.

## Часть 2. Лагранжевы нейронные сети.


На лекции вы слышали, что учесть специфику системы и обеспечить ЗСЭ можно с помощью лагранжевых нейронных сетей.

Мы собираемся выучивать нейронной сетью лагранжиан, а затем с его помощью находить значение силы. Получим аналитическое выражение силы с использованием лагранжиана.

$$
\begin{align}
\frac{d}{dt} \frac{\partial \mathcal{L}}{\partial \dot q_j} &= \frac{\partial \mathcal{L}}{\partial q_j} & \text{уравнения Эйлера-Лагранжа} \quad (1)\\
\frac{d}{dt} \nabla_{\dot q} \mathcal{L} &= \nabla_{q} \mathcal{L} & \text{перепишем их в векторной нотации} \quad (2)\\
(\nabla_{\dot q}\nabla_{\dot q}^{\top}\mathcal{L})\ddot q + (\nabla_{q}\nabla_{\dot q}^{\top}\mathcal{L}) \dot q &= \nabla_q \mathcal{L} & \text{раскроем производную по времени}\frac{d}{dt} \quad (3)\\
\ddot q &= (\nabla_{\dot q}\nabla_{\dot q}^{\top}\mathcal{L})^{-1}[\nabla_q \mathcal{L} - (\nabla_{q}\nabla_{\dot q}^{\top}\mathcal{L})\dot q] & \text{используем обращение матрицы для поиска } \ddot q \quad (4)\\
\end{align}
$$

Мы видим, что для поиска вторых производных обобщенных координат требуется знание градиента и гессиана лагранжиана. Но ведь мы собираемся использовать нейронную сеть... Что же делать? К счастью, человечество придумало автоматическое дифференцирование.

Реализуйте подсчет производных с помощью автоматического дифференцирования

In [None]:
def equation_of_motion(lagrangian, t, state, params):
  q, q_t = state.split(2)
  hess = hessian(lagrangian, (q, q_t, params), create_graph=True)
  hess_qt = ... 
  hess_qqt = ...
  jac = jacobian(lagrangian, (q, q_t, params), create_graph=True)
  jac_q = ...
  q_tt = torch.linalg.inv(hess_qt + 1e-6 * torch.eye(2)) @ (jac_q -  hess_qqt @ q_t)
  return torch.cat([q_t, q_tt]), hess_qt, hess_qqt, jac_q

In [None]:
qtt, hess_qt, hess_qqt, jac_q = equation_of_motion(lagrangian, 1, torch.tensor([0, 0, 0, 0]).float(), torch.tensor([1.0000, 1.0000, 1.0000, 1.0000, 10]))
assert torch.allclose(hess_qt, torch.tensor([[2., 1.],[1., 1.]]))
assert torch.allclose(hess_qqt, torch.tensor([[-0., 0.], [-0., 0.]]))
assert torch.allclose(jac_q, torch.tensor([-0., 0.]))


qtt, hess_qt, hess_qqt, jac_q = equation_of_motion(lagrangian, 1, torch.tensor([1, 0, 1, 1]).float(), torch.tensor([1.0000, 1.0000, 1.0000, 1.0000, 10]))
assert torch.allclose(hess_qt, torch.tensor([[2.0000, 0.5403], [0.5403, 1.0000]]))
assert torch.allclose(jac_q, torch.tensor([-17.6709,   0.8415]), atol=1e-4)
assert torch.allclose(hess_qqt, torch.tensor([[-0.8415,  0.8415], [-0.8415,  0.8415]]), atol=1e-4)

Проинтегрируйте численно систему ,используя аналитическое выражение силы, а также получаемое с помощью лагранжиана системы (не сети). Сравните решения? Почему на концах промежутка решения не совпадают? 

Рассмотрим следующую нейронную сеть.

In [None]:
 net = nn.Sequential(nn.Linear(4, 64), nn.ReLU(), nn.Linear(64, 1))

Можно ли ее использовать для получения лагранжиана? Ответ обоснуйте.

Что стоит брать в качестве целевого значения при обучении такой сети? Почему не стоит брать учить сеть просто на значения лагранжиана в данном состоянии? Ответ обоснуйте. 

К сожалению, при простой реализации на pytorch, одна эпоха обучения происходит слишком долго, поэтому реализовать обучение до конца мы не будем. Вместо этого изучите [туториал](https://colab.research.google.com/drive/1CSy-xfrnTX28p1difoTA8ulYw0zytJkq), выпущенный к статье. Хорошо ли работает такой метод? Зачем авторы добавляют шум к данным? 

Сделайте общий вывод по лабораторной работе. Возникли ли у вас какие-нибудь идеи по ходу выполнения? Можно ли для таких задач использовать, например, сверточные сети?