In [1]:
import gym

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import numpy as np
import random

import math

In [2]:
class CNet(nn.Module):
    def __init__(self, in_, out_, hidden=128):
        super(CNet, self).__init__()
        self.mu = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,out_),
            nn.Tanh()
        )
        self.var = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,out_),
            nn.Softplus()
        )
        self.value = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,1)
        )
    
    def forward(self, x):
        return self.mu(x), self.var(x), self.value(x)

In [6]:
env = gym.make("Pendulum-v0")

GAMMA = 0.999
LR = 0.001
EPOCH = 5000

ENT_SCALE = 0.01

BATCH = 4
VIDEO = 400

in_ = env.observation_space.shape[0]
out_ = env.action_space.shape[0]
high_ = env.action_space.high[0]
low_ = env.action_space.low[0]

In [4]:
net = CNet(in_,out_)
opt = optim.Adam(net.parameters(), lr=LR)

In [7]:
batch_cnt = 0
batch_obs = []
batch_act = []
batch_qval = []
for epoch in range(EPOCH):
    obs = env.reset()
    if epoch%VIDEO == 0:
        env.render()
    cur_rew = []
    count = 0
    while True:
        with torch.no_grad():
            mu, var, _ = net(torch.FloatTensor(obs))
            mu = mu.data.numpy()
            sig = torch.sqrt(var).data.numpy()
            act = np.random.normal(mu, sig)
            act = np.clip(act, low_, high_)
        
        next_obs, rew, done, _ = env.step(act)
        if epoch%VIDEO == 0:
            env.render()
        count+=1
        
        batch_obs.append(obs)
        batch_act.append(act)
        cur_rew.append(rew)
        
        obs = next_obs

        if done:
            qval = []
            r_sum = 0
            for r in reversed(cur_rew):
                r_sum*= GAMMA
                r_sum+= r
                qval.append(r_sum)
            batch_qval.extend(list(reversed(qval)))
            batch_cnt+=1
            break
    print("epoch : %d count : %d rew : %d"%(epoch, count, rew))
    
    if batch_cnt == BATCH:
        obss = torch.FloatTensor(batch_obs)
        acts = torch.FloatTensor(batch_act)
        qvals = torch.FloatTensor(batch_qval).unsqueeze(1)

        opt.zero_grad()

        # use network to get logit, value
        mu, var, value = net(obss)

        # value -> need to be similar to qvals.
        value_loss = F.mse_loss(value, qvals)

        # policy gradient. using advatange score to reduce variance.
        first = -((mu - acts)**2/2*var.clamp(low_, high_))
        two = - torch.log(torch.sqrt(2*math.pi*var))
        
        log_prob = first + two
        adv = qvals - value.detach()
        policy_value = adv * log_prob
        policy_loss = -policy_value.mean()

        # using entropy to make agent explore more.
        entropy_loss = ENT_SCALE * (-(torch.log(2*math.pi*var)+1)/2).mean()

        loss = value_loss + policy_loss + entropy_loss
        print(value_loss, policy_loss, entropy_loss)
        loss.backward()

        opt.step()

        batch_cnt = 0
        batch_obs = []
        batch_act = []
        batch_qval = []
env.close()

epoch : 0 count : 200 rew : -2
epoch : 1 count : 200 rew : -4
epoch : 2 count : 200 rew : -5
epoch : 3 count : 200 rew : -14
tensor(112081.9609, grad_fn=<MseLossBackward>) tensor(-185.1898, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4 count : 200 rew : -7
epoch : 5 count : 200 rew : -9
epoch : 6 count : 200 rew : -8
epoch : 7 count : 200 rew : -3
tensor(127242.3359, grad_fn=<MseLossBackward>) tensor(-335.8796, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 8 count : 200 rew : -2
epoch : 9 count : 200 rew : -8
epoch : 10 count : 200 rew : -9
epoch : 11 count : 200 rew : -3
tensor(151251.4844, grad_fn=<MseLossBackward>) tensor(-387.7077, grad_fn=<NegBackward>) tensor(-0.0368, grad_fn=<MulBackward0>)
epoch : 12 count : 200 rew : -1
epoch : 13 count : 200 rew : -14
epoch : 14 count : 200 rew : -7
epoch : 15 count : 200 rew : -3
tensor(104862., grad_fn=<MseLossBackward>) tensor(-19.8714, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulB

tensor(124575.7734, grad_fn=<MseLossBackward>) tensor(-246.7791, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 128 count : 200 rew : -4
epoch : 129 count : 200 rew : -3
epoch : 130 count : 200 rew : -8
epoch : 131 count : 200 rew : 0
tensor(117179.6562, grad_fn=<MseLossBackward>) tensor(-186.0582, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 132 count : 200 rew : -9
epoch : 133 count : 200 rew : -7
epoch : 134 count : 200 rew : -2
epoch : 135 count : 200 rew : -3
tensor(148874.3281, grad_fn=<MseLossBackward>) tensor(-429.5748, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 136 count : 200 rew : -6
epoch : 137 count : 200 rew : -10
epoch : 138 count : 200 rew : -13
epoch : 139 count : 200 rew : -15
tensor(132410.2188, grad_fn=<MseLossBackward>) tensor(-239.8391, grad_fn=<NegBackward>) tensor(-0.0368, grad_fn=<MulBackward0>)
epoch : 140 count : 200 rew : -5
epoch : 141 count : 200 rew : -9
epoch : 142 count : 200 

epoch : 252 count : 200 rew : -4
epoch : 253 count : 200 rew : -5
epoch : 254 count : 200 rew : 0
epoch : 255 count : 200 rew : -4
tensor(126430.5078, grad_fn=<MseLossBackward>) tensor(-149.6422, grad_fn=<NegBackward>) tensor(-0.0367, grad_fn=<MulBackward0>)
epoch : 256 count : 200 rew : -6
epoch : 257 count : 200 rew : -1
epoch : 258 count : 200 rew : -2
epoch : 259 count : 200 rew : -13
tensor(116541.7109, grad_fn=<MseLossBackward>) tensor(-142.7553, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 260 count : 200 rew : -10
epoch : 261 count : 200 rew : -10
epoch : 262 count : 200 rew : -15
epoch : 263 count : 200 rew : -5
tensor(142935.0781, grad_fn=<MseLossBackward>) tensor(-455.8052, grad_fn=<NegBackward>) tensor(-0.0366, grad_fn=<MulBackward0>)
epoch : 264 count : 200 rew : -10
epoch : 265 count : 200 rew : -4
epoch : 266 count : 200 rew : 0
epoch : 267 count : 200 rew : -9
tensor(138098.1875, grad_fn=<MseLossBackward>) tensor(-384.7168, grad_fn=<NegBackward

tensor(110048.2500, grad_fn=<MseLossBackward>) tensor(-209.6655, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 380 count : 200 rew : -11
epoch : 381 count : 200 rew : -2
epoch : 382 count : 200 rew : -2
epoch : 383 count : 200 rew : -2
tensor(116530.3750, grad_fn=<MseLossBackward>) tensor(-171.4978, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 384 count : 200 rew : -5
epoch : 385 count : 200 rew : -1
epoch : 386 count : 200 rew : -8
epoch : 387 count : 200 rew : -2
tensor(127842.9453, grad_fn=<MseLossBackward>) tensor(-358.5801, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 388 count : 200 rew : -9
epoch : 389 count : 200 rew : 0
epoch : 390 count : 200 rew : -8
epoch : 391 count : 200 rew : -4
tensor(138256.6094, grad_fn=<MseLossBackward>) tensor(-317.2203, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 392 count : 200 rew : -9
epoch : 393 count : 200 rew : -7
epoch : 394 count : 200 re

epoch : 504 count : 200 rew : -8
epoch : 505 count : 200 rew : -6
epoch : 506 count : 200 rew : -13
epoch : 507 count : 200 rew : -9
tensor(152376.4062, grad_fn=<MseLossBackward>) tensor(-277.7214, grad_fn=<NegBackward>) tensor(-0.0363, grad_fn=<MulBackward0>)
epoch : 508 count : 200 rew : -6
epoch : 509 count : 200 rew : -10
epoch : 510 count : 200 rew : -9
epoch : 511 count : 200 rew : 0
tensor(123069.1094, grad_fn=<MseLossBackward>) tensor(-171.9602, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 512 count : 200 rew : -6
epoch : 513 count : 200 rew : -4
epoch : 514 count : 200 rew : -10
epoch : 515 count : 200 rew : -5
tensor(123899.5312, grad_fn=<MseLossBackward>) tensor(-198.2323, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 516 count : 200 rew : -1
epoch : 517 count : 200 rew : -4
epoch : 518 count : 200 rew : -12
epoch : 519 count : 200 rew : -4
tensor(110076.2656, grad_fn=<MseLossBackward>) tensor(45.7847, grad_fn=<NegBackward>)

tensor(95468.9297, grad_fn=<MseLossBackward>) tensor(39.3794, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 632 count : 200 rew : -10
epoch : 633 count : 200 rew : -12
epoch : 634 count : 200 rew : -7
epoch : 635 count : 200 rew : -6
tensor(108975.9062, grad_fn=<MseLossBackward>) tensor(-55.2386, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 636 count : 200 rew : -6
epoch : 637 count : 200 rew : -5
epoch : 638 count : 200 rew : -3
epoch : 639 count : 200 rew : -8
tensor(126674.3750, grad_fn=<MseLossBackward>) tensor(-95.1676, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 640 count : 200 rew : 0
epoch : 641 count : 200 rew : -1
epoch : 642 count : 200 rew : 0
epoch : 643 count : 200 rew : -5
tensor(89577.0391, grad_fn=<MseLossBackward>) tensor(26.8777, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 644 count : 200 rew : -4
epoch : 645 count : 200 rew : -2
epoch : 646 count : 200 rew : -8
e

epoch : 756 count : 200 rew : -4
epoch : 757 count : 200 rew : -1
epoch : 758 count : 200 rew : -15
epoch : 759 count : 200 rew : -5
tensor(100166.0547, grad_fn=<MseLossBackward>) tensor(128.5193, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 760 count : 200 rew : -16
epoch : 761 count : 200 rew : -4
epoch : 762 count : 200 rew : -2
epoch : 763 count : 200 rew : -8
tensor(111358.5781, grad_fn=<MseLossBackward>) tensor(-176.7438, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 764 count : 200 rew : -5
epoch : 765 count : 200 rew : -5
epoch : 766 count : 200 rew : -1
epoch : 767 count : 200 rew : -6
tensor(100078.6953, grad_fn=<MseLossBackward>) tensor(60.4773, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 768 count : 200 rew : -7
epoch : 769 count : 200 rew : -7
epoch : 770 count : 200 rew : -4
epoch : 771 count : 200 rew : 0
tensor(143069.7969, grad_fn=<MseLossBackward>) tensor(-290.3059, grad_fn=<NegBackward>) te

tensor(114764.9141, grad_fn=<MseLossBackward>) tensor(-32.8682, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 884 count : 200 rew : -1
epoch : 885 count : 200 rew : -5
epoch : 886 count : 200 rew : -3
epoch : 887 count : 200 rew : -5
tensor(107878.1953, grad_fn=<MseLossBackward>) tensor(-76.6307, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 888 count : 200 rew : 0
epoch : 889 count : 200 rew : -10
epoch : 890 count : 200 rew : -4
epoch : 891 count : 200 rew : -10
tensor(102828.2422, grad_fn=<MseLossBackward>) tensor(-70.3339, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 892 count : 200 rew : -6
epoch : 893 count : 200 rew : -2
epoch : 894 count : 200 rew : -5
epoch : 895 count : 200 rew : -6
tensor(165839.5469, grad_fn=<MseLossBackward>) tensor(-520.5845, grad_fn=<NegBackward>) tensor(-0.0368, grad_fn=<MulBackward0>)
epoch : 896 count : 200 rew : -8
epoch : 897 count : 200 rew : 0
epoch : 898 count : 200 rew :

epoch : 1008 count : 200 rew : -13
epoch : 1009 count : 200 rew : 0
epoch : 1010 count : 200 rew : -6
epoch : 1011 count : 200 rew : -10
tensor(127819.9844, grad_fn=<MseLossBackward>) tensor(-190.7607, grad_fn=<NegBackward>) tensor(-0.0368, grad_fn=<MulBackward0>)
epoch : 1012 count : 200 rew : -5
epoch : 1013 count : 200 rew : -5
epoch : 1014 count : 200 rew : -4
epoch : 1015 count : 200 rew : -6
tensor(107724.8516, grad_fn=<MseLossBackward>) tensor(-0.4879, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 1016 count : 200 rew : -7
epoch : 1017 count : 200 rew : -10
epoch : 1018 count : 200 rew : 0
epoch : 1019 count : 200 rew : -14
tensor(126851.4453, grad_fn=<MseLossBackward>) tensor(-117.8005, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 1020 count : 200 rew : -5
epoch : 1021 count : 200 rew : -9
epoch : 1022 count : 200 rew : -5
epoch : 1023 count : 200 rew : -10
tensor(125057.6094, grad_fn=<MseLossBackward>) tensor(-134.2474, grad_f

epoch : 1132 count : 200 rew : -6
epoch : 1133 count : 200 rew : -5
epoch : 1134 count : 200 rew : -15
epoch : 1135 count : 200 rew : -8
tensor(93356.3203, grad_fn=<MseLossBackward>) tensor(76.5623, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 1136 count : 200 rew : -11
epoch : 1137 count : 200 rew : -11
epoch : 1138 count : 200 rew : -9
epoch : 1139 count : 200 rew : -4
tensor(111113.8750, grad_fn=<MseLossBackward>) tensor(-37.9674, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 1140 count : 200 rew : -14
epoch : 1141 count : 200 rew : -5
epoch : 1142 count : 200 rew : -8
epoch : 1143 count : 200 rew : -8
tensor(127720.3906, grad_fn=<MseLossBackward>) tensor(-263.1672, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 1144 count : 200 rew : -2
epoch : 1145 count : 200 rew : -4
epoch : 1146 count : 200 rew : -12
epoch : 1147 count : 200 rew : -5
tensor(97926.9531, grad_fn=<MseLossBackward>) tensor(-53.4107, grad_fn=

epoch : 1256 count : 200 rew : 0
epoch : 1257 count : 200 rew : -7
epoch : 1258 count : 200 rew : 0
epoch : 1259 count : 200 rew : -3
tensor(109982.7109, grad_fn=<MseLossBackward>) tensor(-288.1143, grad_fn=<NegBackward>) tensor(-0.0378, grad_fn=<MulBackward0>)
epoch : 1260 count : 200 rew : -13
epoch : 1261 count : 200 rew : -6
epoch : 1262 count : 200 rew : -10
epoch : 1263 count : 200 rew : -11
tensor(129557.7969, grad_fn=<MseLossBackward>) tensor(-255.8888, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 1264 count : 200 rew : -7
epoch : 1265 count : 200 rew : -1
epoch : 1266 count : 200 rew : -9
epoch : 1267 count : 200 rew : 0
tensor(119332.4141, grad_fn=<MseLossBackward>) tensor(-65.7381, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 1268 count : 200 rew : -7
epoch : 1269 count : 200 rew : -14
epoch : 1270 count : 200 rew : -1
epoch : 1271 count : 200 rew : -9
tensor(110445.3281, grad_fn=<MseLossBackward>) tensor(-231.7693, grad_fn

epoch : 1381 count : 200 rew : -10
epoch : 1382 count : 200 rew : -5
epoch : 1383 count : 200 rew : 0
tensor(108581.7891, grad_fn=<MseLossBackward>) tensor(-65.8841, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 1384 count : 200 rew : -4
epoch : 1385 count : 200 rew : -8
epoch : 1386 count : 200 rew : -10
epoch : 1387 count : 200 rew : -7
tensor(121384.1484, grad_fn=<MseLossBackward>) tensor(-128.0537, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 1388 count : 200 rew : -14
epoch : 1389 count : 200 rew : -6
epoch : 1390 count : 200 rew : -10
epoch : 1391 count : 200 rew : -6
tensor(128872.5078, grad_fn=<MseLossBackward>) tensor(-387.2571, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 1392 count : 200 rew : -2
epoch : 1393 count : 200 rew : -8
epoch : 1394 count : 200 rew : -7
epoch : 1395 count : 200 rew : -8
tensor(136160.0469, grad_fn=<MseLossBackward>) tensor(-353.2986, grad_fn=<NegBackward>) tensor(-0.0371, 

epoch : 1505 count : 200 rew : -1
epoch : 1506 count : 200 rew : -1
epoch : 1507 count : 200 rew : -5
tensor(113826.3047, grad_fn=<MseLossBackward>) tensor(-29.5016, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 1508 count : 200 rew : -7
epoch : 1509 count : 200 rew : -3
epoch : 1510 count : 200 rew : -6
epoch : 1511 count : 200 rew : -7
tensor(130691.0938, grad_fn=<MseLossBackward>) tensor(-169.7263, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 1512 count : 200 rew : -3
epoch : 1513 count : 200 rew : -8
epoch : 1514 count : 200 rew : -13
epoch : 1515 count : 200 rew : -4
tensor(113463.6328, grad_fn=<MseLossBackward>) tensor(-33.9831, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 1516 count : 200 rew : -4
epoch : 1517 count : 200 rew : -9
epoch : 1518 count : 200 rew : -4
epoch : 1519 count : 200 rew : 0
tensor(135539.9375, grad_fn=<MseLossBackward>) tensor(-189.7001, grad_fn=<NegBackward>) tensor(-0.0370, grad

epoch : 1629 count : 200 rew : -1
epoch : 1630 count : 200 rew : -5
epoch : 1631 count : 200 rew : -3
tensor(143631.5781, grad_fn=<MseLossBackward>) tensor(-233.1383, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 1632 count : 200 rew : -5
epoch : 1633 count : 200 rew : -1
epoch : 1634 count : 200 rew : -8
epoch : 1635 count : 200 rew : -4
tensor(141700.6875, grad_fn=<MseLossBackward>) tensor(-339.5724, grad_fn=<NegBackward>) tensor(-0.0368, grad_fn=<MulBackward0>)
epoch : 1636 count : 200 rew : -2
epoch : 1637 count : 200 rew : -7
epoch : 1638 count : 200 rew : -3
epoch : 1639 count : 200 rew : -8
tensor(128329.5781, grad_fn=<MseLossBackward>) tensor(-421.2341, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 1640 count : 200 rew : -8
epoch : 1641 count : 200 rew : -12
epoch : 1642 count : 200 rew : -1
epoch : 1643 count : 200 rew : -10
tensor(135986.7969, grad_fn=<MseLossBackward>) tensor(-315.3054, grad_fn=<NegBackward>) tensor(-0.0369, 

epoch : 1753 count : 200 rew : -10
epoch : 1754 count : 200 rew : -7
epoch : 1755 count : 200 rew : -8
tensor(142561.0156, grad_fn=<MseLossBackward>) tensor(-285.2337, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 1756 count : 200 rew : -1
epoch : 1757 count : 200 rew : 0
epoch : 1758 count : 200 rew : -5
epoch : 1759 count : 200 rew : 0
tensor(87171.1016, grad_fn=<MseLossBackward>) tensor(193.1516, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 1760 count : 200 rew : -5
epoch : 1761 count : 200 rew : -6
epoch : 1762 count : 200 rew : -1
epoch : 1763 count : 200 rew : -5
tensor(106326.4219, grad_fn=<MseLossBackward>) tensor(122.3011, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 1764 count : 200 rew : -7
epoch : 1765 count : 200 rew : -4
epoch : 1766 count : 200 rew : -10
epoch : 1767 count : 200 rew : 0
tensor(130839.6406, grad_fn=<MseLossBackward>) tensor(-231.9049, grad_fn=<NegBackward>) tensor(-0.0373, grad_f

epoch : 1877 count : 200 rew : -10
epoch : 1878 count : 200 rew : -8
epoch : 1879 count : 200 rew : -5
tensor(133089.7812, grad_fn=<MseLossBackward>) tensor(-172.9606, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 1880 count : 200 rew : -2
epoch : 1881 count : 200 rew : -5
epoch : 1882 count : 200 rew : -8
epoch : 1883 count : 200 rew : -10
tensor(135152.7969, grad_fn=<MseLossBackward>) tensor(-387.8581, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 1884 count : 200 rew : -11
epoch : 1885 count : 200 rew : -14
epoch : 1886 count : 200 rew : -1
epoch : 1887 count : 200 rew : -6
tensor(111420.7656, grad_fn=<MseLossBackward>) tensor(-12.2625, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 1888 count : 200 rew : -11
epoch : 1889 count : 200 rew : -6
epoch : 1890 count : 200 rew : -8
epoch : 1891 count : 200 rew : -5
tensor(169406.5312, grad_fn=<MseLossBackward>) tensor(-469.6902, grad_fn=<NegBackward>) tensor(-0.0366

epoch : 2001 count : 200 rew : -2
epoch : 2002 count : 200 rew : -8
epoch : 2003 count : 200 rew : -6
tensor(143526.6562, grad_fn=<MseLossBackward>) tensor(-235.4413, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 2004 count : 200 rew : -4
epoch : 2005 count : 200 rew : -5
epoch : 2006 count : 200 rew : -6
epoch : 2007 count : 200 rew : -10
tensor(150491.5781, grad_fn=<MseLossBackward>) tensor(-299.3235, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 2008 count : 200 rew : -11
epoch : 2009 count : 200 rew : -7
epoch : 2010 count : 200 rew : -6
epoch : 2011 count : 200 rew : -6
tensor(128217.6875, grad_fn=<MseLossBackward>) tensor(-202.2514, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 2012 count : 200 rew : -1
epoch : 2013 count : 200 rew : -5
epoch : 2014 count : 200 rew : -6
epoch : 2015 count : 200 rew : -1
tensor(119008.1406, grad_fn=<MseLossBackward>) tensor(-169.4940, grad_fn=<NegBackward>) tensor(-0.0373, 

epoch : 2125 count : 200 rew : -8
epoch : 2126 count : 200 rew : -2
epoch : 2127 count : 200 rew : -9
tensor(105911.3906, grad_fn=<MseLossBackward>) tensor(-94.2833, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 2128 count : 200 rew : -7
epoch : 2129 count : 200 rew : -7
epoch : 2130 count : 200 rew : -7
epoch : 2131 count : 200 rew : -5
tensor(172793.5781, grad_fn=<MseLossBackward>) tensor(-306.2082, grad_fn=<NegBackward>) tensor(-0.0365, grad_fn=<MulBackward0>)
epoch : 2132 count : 200 rew : -13
epoch : 2133 count : 200 rew : -12
epoch : 2134 count : 200 rew : -6
epoch : 2135 count : 200 rew : -11
tensor(111171.3047, grad_fn=<MseLossBackward>) tensor(15.2659, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 2136 count : 200 rew : -3
epoch : 2137 count : 200 rew : -10
epoch : 2138 count : 200 rew : -8
epoch : 2139 count : 200 rew : -3
tensor(102123.6094, grad_fn=<MseLossBackward>) tensor(116.0169, grad_fn=<NegBackward>) tensor(-0.0375, gr

epoch : 2250 count : 200 rew : -6
epoch : 2251 count : 200 rew : -7
tensor(113603.7266, grad_fn=<MseLossBackward>) tensor(30.5403, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 2252 count : 200 rew : -13
epoch : 2253 count : 200 rew : -6
epoch : 2254 count : 200 rew : -12
epoch : 2255 count : 200 rew : -10
tensor(120643.2656, grad_fn=<MseLossBackward>) tensor(-236.5511, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 2256 count : 200 rew : -4
epoch : 2257 count : 200 rew : -9
epoch : 2258 count : 200 rew : -1
epoch : 2259 count : 200 rew : -7
tensor(115552.1172, grad_fn=<MseLossBackward>) tensor(-22.7110, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 2260 count : 200 rew : -1
epoch : 2261 count : 200 rew : -10
epoch : 2262 count : 200 rew : -11
epoch : 2263 count : 200 rew : -6
tensor(99799.5469, grad_fn=<MseLossBackward>) tensor(46.9766, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 2264 

epoch : 2375 count : 200 rew : -5
tensor(101413.6797, grad_fn=<MseLossBackward>) tensor(136.3114, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 2376 count : 200 rew : -7
epoch : 2377 count : 200 rew : -5
epoch : 2378 count : 200 rew : -8
epoch : 2379 count : 200 rew : -6
tensor(139349.5938, grad_fn=<MseLossBackward>) tensor(-213.5877, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 2380 count : 200 rew : -7
epoch : 2381 count : 200 rew : -1
epoch : 2382 count : 200 rew : -2
epoch : 2383 count : 200 rew : -9
tensor(108388.2031, grad_fn=<MseLossBackward>) tensor(78.7600, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 2384 count : 200 rew : 0
epoch : 2385 count : 200 rew : -7
epoch : 2386 count : 200 rew : -9
epoch : 2387 count : 200 rew : -6
tensor(147049.6875, grad_fn=<MseLossBackward>) tensor(-430.2716, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 2388 count : 200 rew : -4
epoch : 2389 cou

tensor(141150.7344, grad_fn=<MseLossBackward>) tensor(-323.0035, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 2500 count : 200 rew : -4
epoch : 2501 count : 200 rew : -7
epoch : 2502 count : 200 rew : -2
epoch : 2503 count : 200 rew : -5
tensor(120251.4062, grad_fn=<MseLossBackward>) tensor(-179.5806, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 2504 count : 200 rew : -8
epoch : 2505 count : 200 rew : -10
epoch : 2506 count : 200 rew : -4
epoch : 2507 count : 200 rew : -7
tensor(102492.7109, grad_fn=<MseLossBackward>) tensor(250.5296, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 2508 count : 200 rew : 0
epoch : 2509 count : 200 rew : -6
epoch : 2510 count : 200 rew : -2
epoch : 2511 count : 200 rew : -4
tensor(107716.6016, grad_fn=<MseLossBackward>) tensor(-11.6620, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 2512 count : 200 rew : -8
epoch : 2513 count : 200 rew : -6
epoch : 2514 c

tensor(118159.5391, grad_fn=<MseLossBackward>) tensor(-102.0078, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 2624 count : 200 rew : -9
epoch : 2625 count : 200 rew : -13
epoch : 2626 count : 200 rew : -2
epoch : 2627 count : 200 rew : -9
tensor(112222.3281, grad_fn=<MseLossBackward>) tensor(-49.4411, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 2628 count : 200 rew : -14
epoch : 2629 count : 200 rew : -2
epoch : 2630 count : 200 rew : -1
epoch : 2631 count : 200 rew : 0
tensor(95274.1016, grad_fn=<MseLossBackward>) tensor(173.2656, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 2632 count : 200 rew : -5
epoch : 2633 count : 200 rew : -3
epoch : 2634 count : 200 rew : -2
epoch : 2635 count : 200 rew : -4
tensor(96675.8750, grad_fn=<MseLossBackward>) tensor(239.0778, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 2636 count : 200 rew : -15
epoch : 2637 count : 200 rew : -9
epoch : 2638 co

tensor(111103.9375, grad_fn=<MseLossBackward>) tensor(-134.8347, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 2748 count : 200 rew : -2
epoch : 2749 count : 200 rew : -5
epoch : 2750 count : 200 rew : -1
epoch : 2751 count : 200 rew : -5
tensor(113311.4062, grad_fn=<MseLossBackward>) tensor(-82.3780, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 2752 count : 200 rew : -9
epoch : 2753 count : 200 rew : 0
epoch : 2754 count : 200 rew : -5
epoch : 2755 count : 200 rew : -3
tensor(100614.7344, grad_fn=<MseLossBackward>) tensor(166.4289, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 2756 count : 200 rew : -5
epoch : 2757 count : 200 rew : -14
epoch : 2758 count : 200 rew : -4
epoch : 2759 count : 200 rew : -5
tensor(97234.6797, grad_fn=<MseLossBackward>) tensor(35.3841, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 2760 count : 200 rew : -9
epoch : 2761 count : 200 rew : -2
epoch : 2762 coun

tensor(113462.7266, grad_fn=<MseLossBackward>) tensor(7.3190, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 2872 count : 200 rew : -3
epoch : 2873 count : 200 rew : -1
epoch : 2874 count : 200 rew : -11
epoch : 2875 count : 200 rew : -8
tensor(140253.5469, grad_fn=<MseLossBackward>) tensor(-283.1175, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 2876 count : 200 rew : -5
epoch : 2877 count : 200 rew : 0
epoch : 2878 count : 200 rew : -7
epoch : 2879 count : 200 rew : -5
tensor(139740.6250, grad_fn=<MseLossBackward>) tensor(-148.8259, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 2880 count : 200 rew : -3
epoch : 2881 count : 200 rew : -5
epoch : 2882 count : 200 rew : -1
epoch : 2883 count : 200 rew : -8
tensor(127759.9766, grad_fn=<MseLossBackward>) tensor(-129.2289, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 2884 count : 200 rew : -6
epoch : 2885 count : 200 rew : -5
epoch : 2886 co

tensor(96202.5547, grad_fn=<MseLossBackward>) tensor(-53.9916, grad_fn=<NegBackward>) tensor(-0.0378, grad_fn=<MulBackward0>)
epoch : 2996 count : 200 rew : -5
epoch : 2997 count : 200 rew : -4
epoch : 2998 count : 200 rew : -14
epoch : 2999 count : 200 rew : -10
tensor(174351.8594, grad_fn=<MseLossBackward>) tensor(-555.5986, grad_fn=<NegBackward>) tensor(-0.0367, grad_fn=<MulBackward0>)
epoch : 3000 count : 200 rew : -9
epoch : 3001 count : 200 rew : 0
epoch : 3002 count : 200 rew : -1
epoch : 3003 count : 200 rew : -8
tensor(106069.8125, grad_fn=<MseLossBackward>) tensor(-134.1455, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3004 count : 200 rew : -3
epoch : 3005 count : 200 rew : -5
epoch : 3006 count : 200 rew : -2
epoch : 3007 count : 200 rew : -4
tensor(108310.4531, grad_fn=<MseLossBackward>) tensor(143.1201, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3008 count : 200 rew : -4
epoch : 3009 count : 200 rew : -8
epoch : 3010 c

tensor(150379.0469, grad_fn=<MseLossBackward>) tensor(-135.4505, grad_fn=<NegBackward>) tensor(-0.0369, grad_fn=<MulBackward0>)
epoch : 3120 count : 200 rew : -10
epoch : 3121 count : 200 rew : -10
epoch : 3122 count : 200 rew : -4
epoch : 3123 count : 200 rew : -8
tensor(133695.5000, grad_fn=<MseLossBackward>) tensor(-189.7552, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 3124 count : 200 rew : -6
epoch : 3125 count : 200 rew : -2
epoch : 3126 count : 200 rew : -11
epoch : 3127 count : 200 rew : -6
tensor(126784.5312, grad_fn=<MseLossBackward>) tensor(-139.9054, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 3128 count : 200 rew : -6
epoch : 3129 count : 200 rew : -11
epoch : 3130 count : 200 rew : -14
epoch : 3131 count : 200 rew : -8
tensor(99296.0938, grad_fn=<MseLossBackward>) tensor(-50.5559, grad_fn=<NegBackward>) tensor(-0.0379, grad_fn=<MulBackward0>)
epoch : 3132 count : 200 rew : 0
epoch : 3133 count : 200 rew : -10
epoch : 3

tensor(90228.1719, grad_fn=<MseLossBackward>) tensor(188.7037, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 3244 count : 200 rew : -9
epoch : 3245 count : 200 rew : -1
epoch : 3246 count : 200 rew : -11
epoch : 3247 count : 200 rew : -2
tensor(98651.6328, grad_fn=<MseLossBackward>) tensor(69.6260, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3248 count : 200 rew : -2
epoch : 3249 count : 200 rew : -11
epoch : 3250 count : 200 rew : -7
epoch : 3251 count : 200 rew : -7
tensor(93119.9766, grad_fn=<MseLossBackward>) tensor(92.9269, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3252 count : 200 rew : -6
epoch : 3253 count : 200 rew : -7
epoch : 3254 count : 200 rew : -10
epoch : 3255 count : 200 rew : -8
tensor(132130.6875, grad_fn=<MseLossBackward>) tensor(-7.9140, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 3256 count : 200 rew : -8
epoch : 3257 count : 200 rew : -8
epoch : 3258 count 

tensor(88661.0156, grad_fn=<MseLossBackward>) tensor(161.0767, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3368 count : 200 rew : -4
epoch : 3369 count : 200 rew : -2
epoch : 3370 count : 200 rew : -2
epoch : 3371 count : 200 rew : -3
tensor(117026.2891, grad_fn=<MseLossBackward>) tensor(-21.0514, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 3372 count : 200 rew : -8
epoch : 3373 count : 200 rew : -1
epoch : 3374 count : 200 rew : -9
epoch : 3375 count : 200 rew : -5
tensor(129506.4688, grad_fn=<MseLossBackward>) tensor(-130.7726, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 3376 count : 200 rew : -6
epoch : 3377 count : 200 rew : -1
epoch : 3378 count : 200 rew : -3
epoch : 3379 count : 200 rew : -3
tensor(121634.6406, grad_fn=<MseLossBackward>) tensor(-129.5919, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3380 count : 200 rew : -5
epoch : 3381 count : 200 rew : -4
epoch : 3382 co

tensor(103169.0781, grad_fn=<MseLossBackward>) tensor(172.9755, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 3492 count : 200 rew : -3
epoch : 3493 count : 200 rew : -7
epoch : 3494 count : 200 rew : -7
epoch : 3495 count : 200 rew : -7
tensor(97242.5391, grad_fn=<MseLossBackward>) tensor(14.5550, grad_fn=<NegBackward>) tensor(-0.0379, grad_fn=<MulBackward0>)
epoch : 3496 count : 200 rew : -6
epoch : 3497 count : 200 rew : 0
epoch : 3498 count : 200 rew : -6
epoch : 3499 count : 200 rew : -10
tensor(129138.3906, grad_fn=<MseLossBackward>) tensor(-58.6963, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3500 count : 200 rew : -6
epoch : 3501 count : 200 rew : -3
epoch : 3502 count : 200 rew : -3
epoch : 3503 count : 200 rew : -2
tensor(109274.4609, grad_fn=<MseLossBackward>) tensor(-5.6837, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3504 count : 200 rew : -8
epoch : 3505 count : 200 rew : -4
epoch : 3506 count 

tensor(130583.2422, grad_fn=<MseLossBackward>) tensor(-92.4850, grad_fn=<NegBackward>) tensor(-0.0370, grad_fn=<MulBackward0>)
epoch : 3616 count : 200 rew : -13
epoch : 3617 count : 200 rew : -7
epoch : 3618 count : 200 rew : -9
epoch : 3619 count : 200 rew : -4
tensor(129480.1641, grad_fn=<MseLossBackward>) tensor(-234.3746, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 3620 count : 200 rew : 0
epoch : 3621 count : 200 rew : -6
epoch : 3622 count : 200 rew : -6
epoch : 3623 count : 200 rew : -4
tensor(99914.4297, grad_fn=<MseLossBackward>) tensor(36.7476, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3624 count : 200 rew : -12
epoch : 3625 count : 200 rew : -9
epoch : 3626 count : 200 rew : -8
epoch : 3627 count : 200 rew : -3
tensor(113810.8516, grad_fn=<MseLossBackward>) tensor(-60.2254, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3628 count : 200 rew : -6
epoch : 3629 count : 200 rew : -6
epoch : 3630 cou

tensor(103740.6250, grad_fn=<MseLossBackward>) tensor(158.2407, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3740 count : 200 rew : -12
epoch : 3741 count : 200 rew : -6
epoch : 3742 count : 200 rew : -3
epoch : 3743 count : 200 rew : -8
tensor(82715.2734, grad_fn=<MseLossBackward>) tensor(541.0198, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 3744 count : 200 rew : 0
epoch : 3745 count : 200 rew : -1
epoch : 3746 count : 200 rew : -8
epoch : 3747 count : 200 rew : -5
tensor(124910.1484, grad_fn=<MseLossBackward>) tensor(-223.7077, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3748 count : 200 rew : -8
epoch : 3749 count : 200 rew : -14
epoch : 3750 count : 200 rew : -9
epoch : 3751 count : 200 rew : -7
tensor(123079.9219, grad_fn=<MseLossBackward>) tensor(-120.5388, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3752 count : 200 rew : -9
epoch : 3753 count : 200 rew : 0
epoch : 3754 co

tensor(108229.9844, grad_fn=<MseLossBackward>) tensor(84.3228, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3864 count : 200 rew : -8
epoch : 3865 count : 200 rew : -5
epoch : 3866 count : 200 rew : -6
epoch : 3867 count : 200 rew : -14
tensor(103327.6719, grad_fn=<MseLossBackward>) tensor(119.2007, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3868 count : 200 rew : 0
epoch : 3869 count : 200 rew : -4
epoch : 3870 count : 200 rew : -8
epoch : 3871 count : 200 rew : -3
tensor(130629.4375, grad_fn=<MseLossBackward>) tensor(-181.7476, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 3872 count : 200 rew : -10
epoch : 3873 count : 200 rew : -6
epoch : 3874 count : 200 rew : -1
epoch : 3875 count : 200 rew : -4
tensor(124144.5938, grad_fn=<MseLossBackward>) tensor(-199.1959, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 3876 count : 200 rew : -8
epoch : 3877 count : 200 rew : -1
epoch : 3878 c

tensor(116885.9375, grad_fn=<MseLossBackward>) tensor(-36.7150, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 3988 count : 200 rew : -2
epoch : 3989 count : 200 rew : -11
epoch : 3990 count : 200 rew : -12
epoch : 3991 count : 200 rew : -6
tensor(100250.2109, grad_fn=<MseLossBackward>) tensor(203.5223, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 3992 count : 200 rew : -2
epoch : 3993 count : 200 rew : -14
epoch : 3994 count : 200 rew : -11
epoch : 3995 count : 200 rew : -1
tensor(109759.1641, grad_fn=<MseLossBackward>) tensor(-26.9984, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 3996 count : 200 rew : -6
epoch : 3997 count : 200 rew : -7
epoch : 3998 count : 200 rew : -7
epoch : 3999 count : 200 rew : -11
tensor(109085.3359, grad_fn=<MseLossBackward>) tensor(9.9816, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4000 count : 200 rew : -9
epoch : 4001 count : 200 rew : -8
epoch : 4002 

tensor(99285.8672, grad_fn=<MseLossBackward>) tensor(-15.2059, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 4112 count : 200 rew : -10
epoch : 4113 count : 200 rew : -9
epoch : 4114 count : 200 rew : -8
epoch : 4115 count : 200 rew : -6
tensor(165046.4688, grad_fn=<MseLossBackward>) tensor(-532.6109, grad_fn=<NegBackward>) tensor(-0.0367, grad_fn=<MulBackward0>)
epoch : 4116 count : 200 rew : -10
epoch : 4117 count : 200 rew : -15
epoch : 4118 count : 200 rew : 0
epoch : 4119 count : 200 rew : -10
tensor(107702.0625, grad_fn=<MseLossBackward>) tensor(-1.1827, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 4120 count : 200 rew : 0
epoch : 4121 count : 200 rew : -8
epoch : 4122 count : 200 rew : -7
epoch : 4123 count : 200 rew : -5
tensor(123598.4688, grad_fn=<MseLossBackward>) tensor(-38.6840, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4124 count : 200 rew : -12
epoch : 4125 count : 200 rew : -4
epoch : 4126 c

tensor(93908.9375, grad_fn=<MseLossBackward>) tensor(265.9279, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4236 count : 200 rew : -5
epoch : 4237 count : 200 rew : -11
epoch : 4238 count : 200 rew : -6
epoch : 4239 count : 200 rew : -5
tensor(129693.3281, grad_fn=<MseLossBackward>) tensor(-136.1570, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4240 count : 200 rew : -6
epoch : 4241 count : 200 rew : -10
epoch : 4242 count : 200 rew : -10
epoch : 4243 count : 200 rew : -4
tensor(129835.7812, grad_fn=<MseLossBackward>) tensor(-86.1223, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4244 count : 200 rew : -2
epoch : 4245 count : 200 rew : -8
epoch : 4246 count : 200 rew : -11
epoch : 4247 count : 200 rew : -8
tensor(100696.6484, grad_fn=<MseLossBackward>) tensor(-19.7774, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 4248 count : 200 rew : -2
epoch : 4249 count : 200 rew : -4
epoch : 4250

tensor(125023.1250, grad_fn=<MseLossBackward>) tensor(-139.7811, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4360 count : 200 rew : -1
epoch : 4361 count : 200 rew : -7
epoch : 4362 count : 200 rew : -6
epoch : 4363 count : 200 rew : -6
tensor(119748.7578, grad_fn=<MseLossBackward>) tensor(17.7013, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4364 count : 200 rew : -9
epoch : 4365 count : 200 rew : -11
epoch : 4366 count : 200 rew : -7
epoch : 4367 count : 200 rew : -2
tensor(113613.4453, grad_fn=<MseLossBackward>) tensor(-20.1059, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4368 count : 200 rew : 0
epoch : 4369 count : 200 rew : -7
epoch : 4370 count : 200 rew : -11
epoch : 4371 count : 200 rew : -7
tensor(86916.1094, grad_fn=<MseLossBackward>) tensor(167.5303, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 4372 count : 200 rew : -12
epoch : 4373 count : 200 rew : -1
epoch : 4374 co

tensor(126552.4844, grad_fn=<MseLossBackward>) tensor(-304.6810, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4484 count : 200 rew : -8
epoch : 4485 count : 200 rew : -1
epoch : 4486 count : 200 rew : -1
epoch : 4487 count : 200 rew : -12
tensor(118896.9453, grad_fn=<MseLossBackward>) tensor(-145.1658, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4488 count : 200 rew : -2
epoch : 4489 count : 200 rew : -10
epoch : 4490 count : 200 rew : -2
epoch : 4491 count : 200 rew : -8
tensor(110518.1797, grad_fn=<MseLossBackward>) tensor(81.8681, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 4492 count : 200 rew : -9
epoch : 4493 count : 200 rew : -6
epoch : 4494 count : 200 rew : -1
epoch : 4495 count : 200 rew : -4
tensor(115547.0781, grad_fn=<MseLossBackward>) tensor(6.6827, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4496 count : 200 rew : -1
epoch : 4497 count : 200 rew : -7
epoch : 4498 co

tensor(105779.0938, grad_fn=<MseLossBackward>) tensor(-30.9969, grad_fn=<NegBackward>) tensor(-0.0375, grad_fn=<MulBackward0>)
epoch : 4608 count : 200 rew : -8
epoch : 4609 count : 200 rew : -3
epoch : 4610 count : 200 rew : -5
epoch : 4611 count : 200 rew : -9
tensor(125062.2734, grad_fn=<MseLossBackward>) tensor(-195.7357, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4612 count : 200 rew : -2
epoch : 4613 count : 200 rew : -7
epoch : 4614 count : 200 rew : -12
epoch : 4615 count : 200 rew : -12
tensor(98168.8906, grad_fn=<MseLossBackward>) tensor(-61.9440, grad_fn=<NegBackward>) tensor(-0.0377, grad_fn=<MulBackward0>)
epoch : 4616 count : 200 rew : -1
epoch : 4617 count : 200 rew : -8
epoch : 4618 count : 200 rew : -7
epoch : 4619 count : 200 rew : -3
tensor(125647.5312, grad_fn=<MseLossBackward>) tensor(-64.1437, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4620 count : 200 rew : -8
epoch : 4621 count : 200 rew : -1
epoch : 4622 c

tensor(120641.7266, grad_fn=<MseLossBackward>) tensor(53.6252, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4732 count : 200 rew : -1
epoch : 4733 count : 200 rew : -4
epoch : 4734 count : 200 rew : -2
epoch : 4735 count : 200 rew : -1
tensor(92873.2500, grad_fn=<MseLossBackward>) tensor(179.1321, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 4736 count : 200 rew : -3
epoch : 4737 count : 200 rew : -2
epoch : 4738 count : 200 rew : -4
epoch : 4739 count : 200 rew : -3
tensor(100276.8359, grad_fn=<MseLossBackward>) tensor(-71.5641, grad_fn=<NegBackward>) tensor(-0.0378, grad_fn=<MulBackward0>)
epoch : 4740 count : 200 rew : -5
epoch : 4741 count : 200 rew : -12
epoch : 4742 count : 200 rew : -13
epoch : 4743 count : 200 rew : -2
tensor(76834.2266, grad_fn=<MseLossBackward>) tensor(435.5743, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 4744 count : 200 rew : 0
epoch : 4745 count : 200 rew : -1
epoch : 4746 count

tensor(123467.8906, grad_fn=<MseLossBackward>) tensor(-50.3879, grad_fn=<NegBackward>) tensor(-0.0373, grad_fn=<MulBackward0>)
epoch : 4856 count : 200 rew : 0
epoch : 4857 count : 200 rew : -9
epoch : 4858 count : 200 rew : -10
epoch : 4859 count : 200 rew : -5
tensor(151121.3281, grad_fn=<MseLossBackward>) tensor(-397.2973, grad_fn=<NegBackward>) tensor(-0.0371, grad_fn=<MulBackward0>)
epoch : 4860 count : 200 rew : -9
epoch : 4861 count : 200 rew : -10
epoch : 4862 count : 200 rew : -4
epoch : 4863 count : 200 rew : -7
tensor(118563.5625, grad_fn=<MseLossBackward>) tensor(-104.6830, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4864 count : 200 rew : 0
epoch : 4865 count : 200 rew : -5
epoch : 4866 count : 200 rew : -5
epoch : 4867 count : 200 rew : -9
tensor(88087.6328, grad_fn=<MseLossBackward>) tensor(276.2357, grad_fn=<NegBackward>) tensor(-0.0376, grad_fn=<MulBackward0>)
epoch : 4868 count : 200 rew : -5
epoch : 4869 count : 200 rew : -7
epoch : 4870 co

tensor(160106.7344, grad_fn=<MseLossBackward>) tensor(-613.3486, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4980 count : 200 rew : -10
epoch : 4981 count : 200 rew : -15
epoch : 4982 count : 200 rew : -6
epoch : 4983 count : 200 rew : -14
tensor(109720.6641, grad_fn=<MseLossBackward>) tensor(159.2158, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4984 count : 200 rew : -3
epoch : 4985 count : 200 rew : -16
epoch : 4986 count : 200 rew : -8
epoch : 4987 count : 200 rew : -3
tensor(89332.8828, grad_fn=<MseLossBackward>) tensor(188.4363, grad_fn=<NegBackward>) tensor(-0.0374, grad_fn=<MulBackward0>)
epoch : 4988 count : 200 rew : -8
epoch : 4989 count : 200 rew : -6
epoch : 4990 count : 200 rew : -8
epoch : 4991 count : 200 rew : -9
tensor(133379.3281, grad_fn=<MseLossBackward>) tensor(-209.4252, grad_fn=<NegBackward>) tensor(-0.0372, grad_fn=<MulBackward0>)
epoch : 4992 count : 200 rew : -5
epoch : 4993 count : 200 rew : -9
epoch : 499