## Policy Gradient Algorithms: REINFORCE

Теорема о градиенте стратегии связывает градиент целевой функции  и градиент самой стратегии:

$$J(\theta) = \mathbb{E}_\pi [\nabla_\theta \ln \pi_\theta(a \vert s) Q^\pi(s, a)]$$
Если использовать метод Монте-Карло в качестве несмещенной оценки $Q^\pi(s, a)$ отдачу $R_t$, то тогда происходит переход к алгоритму REINFORCE и обновление весов будет осуществляться по правилу:

$$J(\theta) = [R_t \nabla_\theta \ln \pi_\theta(A_t \vert S_t)]$$

<img src="reinforce.png">

In [1]:
# импортируем необходмые библиотеки

import gym
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.distributions import Categorical

### Задание 1. Заполните пропуски в реализации алгоритма REINFORCE

In [2]:
class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        # создаем сеть с двумя полносвязными слоями и размером 4 (state input size)-> 128 -> 2 (actions)
        self.fc1 = nn.Linear(4, 128)
        self.fc2 = nn.Linear(128, 2)
        # выбираем Adam optimizer, с lr=0.0002
        self.optimizer = optim.Adam(self.parameters(), lr=0.0002)

    def forward(self, x):
        # как данные будут идти по графу вычислений
        x = F.relu(self.fc1(x))
        x = F.softmax(self.fc2(x), dim=0)
        return x

    def train_net(self, rollout, gamma):
        """
        функция для обучения нашей сети
        :param self:
        :param rollout: [(r, log(pi(s)))]
        :gamma: дисконтирующий множитель
        :return:
        """
        R = 0
        # идем по списку в обратном порядке
        for r, log_prob in rollout[::-1]:
            # считаем суммарное дисконтированное вознаграждение
            #~~~~~~~~ Ваш код здесь ~~~~~~~~~~~            
            raise NotImplementedError            
            #~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            

            # считаем значение loss функции
            #~~~~~~~~ Ваш код здесь ~~~~~~~~~~~            
            raise NotImplementedError            
            #~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            

            # обнуляем значения градиента, которые могли накопиться
            self.optimizer.zero_grad()
            # считаем сумму градиентов тензора loss
            loss.backward()
            # выполняем шаг оптимизации
            self.optimizer.step()

Посмотрим на нашу модель и разберем ее методы:

In [3]:
# создаем модель
e_pi = Policy()

# создаем окружение
e_env = gym.make('CartPole-v1')

# получаем состояние
state = e_env.reset()

# получаем распределение стратегии для состояния
prob = e_pi(torch.from_numpy(state).float())
print("pi("+str(state)+ ") =", prob)

# сэмплируем дейстие, согласно полученному распределению
s_action = Categorical(prob).sample().item()
print("sampled action:", s_action)

pi([ 0.03096003  0.04700809 -0.0375979  -0.03399649]) = tensor([0.5011, 0.4989], grad_fn=<SoftmaxBackward>)
sampled action: 1


In [4]:
def run():
    env = gym.make('CartPole-v1')
    pi = Policy()
    score = 0.0
    print_interval = 20
    s = env.reset()
    
    for n_epi in range(10000):
        s = env.reset()
        rollout = []
        for t in range(501):  # CartPole-v1 будем рассматривать только первые 500 шагов в окружении
            # получаем распределение стратегии
            #~~~~~~~~ Ваш код здесь ~~~~~~~~~~~            
            raise NotImplementedError            
            #~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            
            
            # сэмплируем действие
            #~~~~~~~~ Ваш код здесь ~~~~~~~~~~~            
            raise NotImplementedError            
            #~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            
            
            # делаем шаг в окружении
            s_prime, r, done, info = env.step(a)
            
            # сохраняем информацию текущего шага
            rollout.append((r, torch.log(prob[a])))
            
            s = s_prime
            
            # считаем результат
            score += r
            
            if done:
                break
        
        # обновляем стратегию
        pi.train_net(rollout, 0.98)
        
        # печатаем результаты
        if n_epi % print_interval == 0 and n_epi != 0:
            print("# of episode :{}, avg score : {}".format(n_epi, score / print_interval))
            score = 0.0
    env.close()

In [5]:
run()

# of episode :20, avg score : 31.15
# of episode :40, avg score : 39.05
# of episode :60, avg score : 40.6
# of episode :80, avg score : 34.8
# of episode :100, avg score : 44.0
# of episode :120, avg score : 51.5
# of episode :140, avg score : 67.75
# of episode :160, avg score : 82.1
# of episode :180, avg score : 109.1
# of episode :200, avg score : 155.75


KeyboardInterrupt: 

### Задание 2. Дополните код, для постройки графика сходимости. 

Какие выводы можно сделать из этого графика?

### Дополнительные материалы
https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html