In [1]:
import gym

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import numpy as np
import random

import math

In [2]:
class CNet(nn.Module):
    def __init__(self, in_, out_, hidden=128):
        super(CNet, self).__init__()
        self.mu = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,out_),
            nn.Tanh()
        )
        self.var = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,out_),
            nn.Softplus()
        )
        self.value = nn.Sequential(
            nn.Linear(in_,hidden),
            nn.ReLU(),
            nn.Linear(hidden,1)
        )
    
    def forward(self, x):
        return self.mu(x), self.var(x), self.value(x)

In [7]:
env = gym.make("Pendulum-v0")

GAMMA = 0.999
LR = 0.001
EPOCH = 50000

ENT_SCALE = 0.01

BATCH = 10
VIDEO = 400000

in_ = env.observation_space.shape[0]
out_ = env.action_space.shape[0]
high_ = env.action_space.high[0]
low_ = env.action_space.low[0]

In [4]:
net = CNet(in_,out_)
opt = optim.Adam(net.parameters(), lr=LR)

In [8]:
batch_cnt = 0
batch_obs = []
batch_act = []
batch_qval = []
for epoch in range(EPOCH):
    obs = env.reset()
    if epoch%VIDEO == 0:
        env.render()
    cur_rew = []
    count = 0
    while True:
        with torch.no_grad():
            mu, var, _ = net(torch.FloatTensor(obs))
            mu = mu.data.numpy()
            sig = torch.sqrt(var).data.numpy()
            act = np.random.normal(mu, sig)
            act = np.clip(act, low_, high_)
        
        next_obs, rew, done, _ = env.step(act)
        if epoch%VIDEO == 0:
            env.render()
        count+=1
        
        batch_obs.append(obs)
        batch_act.append(act)
        cur_rew.append(rew)
        
        obs = next_obs

        if done:
            qval = []
            r_sum = 0
            for r in reversed(cur_rew):
                r_sum*= GAMMA
                r_sum+= r
                qval.append(r_sum)
            batch_qval.extend(list(reversed(qval)))
            batch_cnt+=1
            break
    print("epoch : %d count : %d rew : %d"%(epoch, count, rew))
    
    if batch_cnt == BATCH:
        obss = torch.FloatTensor(batch_obs)
        acts = torch.FloatTensor(batch_act)
        qvals = torch.FloatTensor(batch_qval).unsqueeze(1)

        opt.zero_grad()

        # use network to get logit, value
        mu, var, value = net(obss)

        # value -> need to be similar to qvals.
        value_loss = F.mse_loss(value, qvals)

        # policy gradient. using advatange score to reduce variance.
        first = -((mu - acts)**2/2*var.clamp(1e-3))
        two = - torch.log(torch.sqrt(2*math.pi*var))
        
        log_prob = first + two
        adv = qvals - value.detach()
        policy_value = adv * log_prob
        policy_loss = -policy_value.mean()

        # using entropy to make agent explore more.
        entropy_loss = ENT_SCALE * (-(torch.log(2*math.pi*var)+1)/2).mean()

        loss = value_loss + policy_loss + entropy_loss
        print(value_loss, policy_loss, entropy_loss)
        loss.backward()

        opt.step()

        batch_cnt = 0
        batch_obs = []
        batch_act = []
        batch_qval = []
env.close()

epoch : 0 count : 200 rew : -2
epoch : 1 count : 200 rew : -3
epoch : 2 count : 200 rew : -2
epoch : 3 count : 200 rew : -8
epoch : 4 count : 200 rew : -9
epoch : 5 count : 200 rew : -7
epoch : 6 count : 200 rew : -7
epoch : 7 count : 200 rew : -4
epoch : 8 count : 200 rew : -16
epoch : 9 count : 200 rew : -4
tensor(216038.0781, grad_fn=<MseLossBackward>) tensor(-117887.2422, grad_fn=<NegBackward>) tensor(-0.0443, grad_fn=<MulBackward0>)
epoch : 10 count : 200 rew : -6
epoch : 11 count : 200 rew : -10
epoch : 12 count : 200 rew : -15
epoch : 13 count : 200 rew : -9
epoch : 14 count : 200 rew : -10
epoch : 15 count : 200 rew : -8
epoch : 16 count : 200 rew : -11
epoch : 17 count : 200 rew : -5
epoch : 18 count : 200 rew : -9
epoch : 19 count : 200 rew : -7
tensor(220183.8281, grad_fn=<MseLossBackward>) tensor(-187336.3125, grad_fn=<NegBackward>) tensor(-0.0444, grad_fn=<MulBackward0>)
epoch : 20 count : 200 rew : -5
epoch : 21 count : 200 rew : -8
epoch : 22 count : 200 rew : -8
epoch :

epoch : 180 count : 200 rew : -1
epoch : 181 count : 200 rew : -2
epoch : 182 count : 200 rew : -8
epoch : 183 count : 200 rew : -5
epoch : 184 count : 200 rew : -3
epoch : 185 count : 200 rew : -3
epoch : 186 count : 200 rew : -4
epoch : 187 count : 200 rew : -7
epoch : 188 count : 200 rew : -4
epoch : 189 count : 200 rew : -8
tensor(213880.9688, grad_fn=<MseLossBackward>) tensor(-133770.4062, grad_fn=<NegBackward>) tensor(-0.0444, grad_fn=<MulBackward0>)
epoch : 190 count : 200 rew : -5
epoch : 191 count : 200 rew : -6
epoch : 192 count : 200 rew : -10
epoch : 193 count : 200 rew : -1
epoch : 194 count : 200 rew : -4
epoch : 195 count : 200 rew : -4
epoch : 196 count : 200 rew : -7
epoch : 197 count : 200 rew : -6
epoch : 198 count : 200 rew : -1
epoch : 199 count : 200 rew : -3
tensor(177789.8281, grad_fn=<MseLossBackward>) tensor(-18285.2070, grad_fn=<NegBackward>) tensor(-0.0441, grad_fn=<MulBackward0>)
epoch : 200 count : 200 rew : -3
epoch : 201 count : 200 rew : -8
epoch : 202 

tensor(171553.0781, grad_fn=<MseLossBackward>) tensor(-61936.8516, grad_fn=<NegBackward>) tensor(-0.0444, grad_fn=<MulBackward0>)
epoch : 360 count : 200 rew : 0
epoch : 361 count : 200 rew : -3
epoch : 362 count : 200 rew : -7
epoch : 363 count : 200 rew : -1
epoch : 364 count : 200 rew : -3
epoch : 365 count : 200 rew : -12
epoch : 366 count : 200 rew : -6
epoch : 367 count : 200 rew : -5
epoch : 368 count : 200 rew : -5
epoch : 369 count : 200 rew : -2
tensor(174295.3438, grad_fn=<MseLossBackward>) tensor(1857.2720, grad_fn=<NegBackward>) tensor(-0.0443, grad_fn=<MulBackward0>)
epoch : 370 count : 200 rew : -2
epoch : 371 count : 200 rew : -2
epoch : 372 count : 200 rew : -1
epoch : 373 count : 200 rew : 0
epoch : 374 count : 200 rew : -5
epoch : 375 count : 200 rew : -6
epoch : 376 count : 200 rew : -2
epoch : 377 count : 200 rew : -14
epoch : 378 count : 200 rew : -7
epoch : 379 count : 200 rew : -5
tensor(171511.9688, grad_fn=<MseLossBackward>) tensor(15388.8604, grad_fn=<NegBack

epoch : 536 count : 200 rew : -11
epoch : 537 count : 200 rew : -6
epoch : 538 count : 200 rew : -4
epoch : 539 count : 200 rew : -3
tensor(182178.6562, grad_fn=<MseLossBackward>) tensor(-127345.2109, grad_fn=<NegBackward>) tensor(-0.0446, grad_fn=<MulBackward0>)
epoch : 540 count : 200 rew : -7
epoch : 541 count : 200 rew : -7
epoch : 542 count : 200 rew : 0
epoch : 543 count : 200 rew : -5
epoch : 544 count : 200 rew : -14
epoch : 545 count : 200 rew : -5
epoch : 546 count : 200 rew : -2
epoch : 547 count : 200 rew : -9
epoch : 548 count : 200 rew : -4
epoch : 549 count : 200 rew : -4
tensor(151322.3750, grad_fn=<MseLossBackward>) tensor(40103.5625, grad_fn=<NegBackward>) tensor(-0.0445, grad_fn=<MulBackward0>)
epoch : 550 count : 200 rew : -9
epoch : 551 count : 200 rew : -10
epoch : 552 count : 200 rew : -3
epoch : 553 count : 200 rew : 0
epoch : 554 count : 200 rew : -8
epoch : 555 count : 200 rew : -12
epoch : 556 count : 200 rew : -9
epoch : 557 count : 200 rew : 0
epoch : 558 c

epoch : 712 count : 200 rew : -9
epoch : 713 count : 200 rew : -9
epoch : 714 count : 200 rew : -8
epoch : 715 count : 200 rew : -8
epoch : 716 count : 200 rew : -6
epoch : 717 count : 200 rew : -5
epoch : 718 count : 200 rew : -11
epoch : 719 count : 200 rew : -2
tensor(238685.0938, grad_fn=<MseLossBackward>) tensor(-171789.4531, grad_fn=<NegBackward>) tensor(-0.0443, grad_fn=<MulBackward0>)
epoch : 720 count : 200 rew : -6
epoch : 721 count : 200 rew : -3
epoch : 722 count : 200 rew : -6
epoch : 723 count : 200 rew : -6
epoch : 724 count : 200 rew : -9
epoch : 725 count : 200 rew : -5
epoch : 726 count : 200 rew : -3
epoch : 727 count : 200 rew : -6
epoch : 728 count : 200 rew : -1
epoch : 729 count : 200 rew : -10
tensor(188334.9062, grad_fn=<MseLossBackward>) tensor(-42857.9297, grad_fn=<NegBackward>) tensor(-0.0445, grad_fn=<MulBackward0>)
epoch : 730 count : 200 rew : -11
epoch : 731 count : 200 rew : -8
epoch : 732 count : 200 rew : -11
epoch : 733 count : 200 rew : -4
epoch : 7

tensor(205346.3906, grad_fn=<MseLossBackward>) tensor(-58606.0625, grad_fn=<NegBackward>) tensor(-0.0442, grad_fn=<MulBackward0>)
epoch : 890 count : 200 rew : -5
epoch : 891 count : 200 rew : -8
epoch : 892 count : 200 rew : -7
epoch : 893 count : 200 rew : -6
epoch : 894 count : 200 rew : -2
epoch : 895 count : 200 rew : -4
epoch : 896 count : 200 rew : 0
epoch : 897 count : 200 rew : -4
epoch : 898 count : 200 rew : -2
epoch : 899 count : 200 rew : -8
tensor(211604.2656, grad_fn=<MseLossBackward>) tensor(-118065.0391, grad_fn=<NegBackward>) tensor(-0.0445, grad_fn=<MulBackward0>)
epoch : 900 count : 200 rew : -4
epoch : 901 count : 200 rew : -4
epoch : 902 count : 200 rew : -7
epoch : 903 count : 200 rew : -4
epoch : 904 count : 200 rew : -9
epoch : 905 count : 200 rew : 0
epoch : 906 count : 200 rew : -6
epoch : 907 count : 200 rew : -4
epoch : 908 count : 200 rew : -1
epoch : 909 count : 200 rew : -1
tensor(171870.8906, grad_fn=<MseLossBackward>) tensor(33632.5078, grad_fn=<NegBac

epoch : 1065 count : 200 rew : 0
epoch : 1066 count : 200 rew : -6
epoch : 1067 count : 200 rew : -11
epoch : 1068 count : 200 rew : -9
epoch : 1069 count : 200 rew : -9
tensor(231814.0625, grad_fn=<MseLossBackward>) tensor(-110331.1328, grad_fn=<NegBackward>) tensor(-0.0445, grad_fn=<MulBackward0>)
epoch : 1070 count : 200 rew : -4
epoch : 1071 count : 200 rew : -4
epoch : 1072 count : 200 rew : -1
epoch : 1073 count : 200 rew : -9
epoch : 1074 count : 200 rew : -3
epoch : 1075 count : 200 rew : -6
epoch : 1076 count : 200 rew : 0
epoch : 1077 count : 200 rew : -13
epoch : 1078 count : 200 rew : -10
epoch : 1079 count : 200 rew : -8
tensor(183042.6250, grad_fn=<MseLossBackward>) tensor(-41225.9805, grad_fn=<NegBackward>) tensor(-0.0444, grad_fn=<MulBackward0>)
epoch : 1080 count : 200 rew : -2
epoch : 1081 count : 200 rew : -9
epoch : 1082 count : 200 rew : -2
epoch : 1083 count : 200 rew : -4
epoch : 1084 count : 200 rew : -8
epoch : 1085 count : 200 rew : -8
epoch : 1086 count : 200

tensor(222472.6562, grad_fn=<MseLossBackward>) tensor(-93339.3906, grad_fn=<NegBackward>) tensor(-0.0444, grad_fn=<MulBackward0>)
epoch : 1240 count : 200 rew : -5
epoch : 1241 count : 200 rew : -8
epoch : 1242 count : 200 rew : -8
epoch : 1243 count : 200 rew : -3
epoch : 1244 count : 200 rew : -7
epoch : 1245 count : 200 rew : -12
epoch : 1246 count : 200 rew : -1
epoch : 1247 count : 200 rew : -9
epoch : 1248 count : 200 rew : -13
epoch : 1249 count : 200 rew : -7
tensor(206293.4219, grad_fn=<MseLossBackward>) tensor(-104683.2266, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 1250 count : 200 rew : -8
epoch : 1251 count : 200 rew : -4
epoch : 1252 count : 200 rew : -1
epoch : 1253 count : 200 rew : -4
epoch : 1254 count : 200 rew : -5
epoch : 1255 count : 200 rew : -2
epoch : 1256 count : 200 rew : -12
epoch : 1257 count : 200 rew : -7
epoch : 1258 count : 200 rew : -9
epoch : 1259 count : 200 rew : -8
tensor(201353.9531, grad_fn=<MseLossBackward>) tensor(-1

epoch : 1411 count : 200 rew : -8
epoch : 1412 count : 200 rew : -3
epoch : 1413 count : 200 rew : -2
epoch : 1414 count : 200 rew : -7
epoch : 1415 count : 200 rew : -10
epoch : 1416 count : 200 rew : -7
epoch : 1417 count : 200 rew : -7
epoch : 1418 count : 200 rew : -2
epoch : 1419 count : 200 rew : -4
tensor(208296.9844, grad_fn=<MseLossBackward>) tensor(-94711.0312, grad_fn=<NegBackward>) tensor(-0.0445, grad_fn=<MulBackward0>)
epoch : 1420 count : 200 rew : -10
epoch : 1421 count : 200 rew : -2
epoch : 1422 count : 200 rew : -7
epoch : 1423 count : 200 rew : -11
epoch : 1424 count : 200 rew : -7
epoch : 1425 count : 200 rew : -6
epoch : 1426 count : 200 rew : -3
epoch : 1427 count : 200 rew : -5
epoch : 1428 count : 200 rew : 0
epoch : 1429 count : 200 rew : -13
tensor(174185.5938, grad_fn=<MseLossBackward>) tensor(-21092.6641, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 1430 count : 200 rew : -2
epoch : 1431 count : 200 rew : -5
epoch : 1432 count : 20

epoch : 1586 count : 200 rew : -1
epoch : 1587 count : 200 rew : -9
epoch : 1588 count : 200 rew : -4
epoch : 1589 count : 200 rew : -10
tensor(175447.9062, grad_fn=<MseLossBackward>) tensor(-80499.4062, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 1590 count : 200 rew : -8
epoch : 1591 count : 200 rew : -6
epoch : 1592 count : 200 rew : -6
epoch : 1593 count : 200 rew : 0
epoch : 1594 count : 200 rew : -8
epoch : 1595 count : 200 rew : -2
epoch : 1596 count : 200 rew : -7
epoch : 1597 count : 200 rew : -7
epoch : 1598 count : 200 rew : -2
epoch : 1599 count : 200 rew : -2
tensor(179964.5312, grad_fn=<MseLossBackward>) tensor(-22705.9434, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 1600 count : 200 rew : -10
epoch : 1601 count : 200 rew : -9
epoch : 1602 count : 200 rew : -6
epoch : 1603 count : 200 rew : -6
epoch : 1604 count : 200 rew : -8
epoch : 1605 count : 200 rew : -1
epoch : 1606 count : 200 rew : 0
epoch : 1607 count : 200 r

tensor(213000.7188, grad_fn=<MseLossBackward>) tensor(-161000.1562, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 1760 count : 200 rew : -6
epoch : 1761 count : 200 rew : -9
epoch : 1762 count : 200 rew : -4
epoch : 1763 count : 200 rew : -2
epoch : 1764 count : 200 rew : -7
epoch : 1765 count : 200 rew : -6
epoch : 1766 count : 200 rew : -8
epoch : 1767 count : 200 rew : -9
epoch : 1768 count : 200 rew : -4
epoch : 1769 count : 200 rew : 0
tensor(232515.3906, grad_fn=<MseLossBackward>) tensor(-169214.4531, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 1770 count : 200 rew : -7
epoch : 1771 count : 200 rew : -8
epoch : 1772 count : 200 rew : -4
epoch : 1773 count : 200 rew : -7
epoch : 1774 count : 200 rew : -10
epoch : 1775 count : 200 rew : -1
epoch : 1776 count : 200 rew : 0
epoch : 1777 count : 200 rew : -11
epoch : 1778 count : 200 rew : -5
epoch : 1779 count : 200 rew : -8
tensor(161137.7656, grad_fn=<MseLossBackward>) tensor(-362

epoch : 1932 count : 200 rew : -2
epoch : 1933 count : 200 rew : -10
epoch : 1934 count : 200 rew : -3
epoch : 1935 count : 200 rew : 0
epoch : 1936 count : 200 rew : -9
epoch : 1937 count : 200 rew : -2
epoch : 1938 count : 200 rew : -6
epoch : 1939 count : 200 rew : -8
tensor(181328.0938, grad_fn=<MseLossBackward>) tensor(-45706.5586, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 1940 count : 200 rew : -3
epoch : 1941 count : 200 rew : -6
epoch : 1942 count : 200 rew : -5
epoch : 1943 count : 200 rew : -7
epoch : 1944 count : 200 rew : -6
epoch : 1945 count : 200 rew : -5
epoch : 1946 count : 200 rew : -2
epoch : 1947 count : 200 rew : -4
epoch : 1948 count : 200 rew : -8
epoch : 1949 count : 200 rew : -11
tensor(162348.6250, grad_fn=<MseLossBackward>) tensor(-70800.9453, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 1950 count : 200 rew : -10
epoch : 1951 count : 200 rew : -7
epoch : 1952 count : 200 rew : -4
epoch : 1953 count : 200

epoch : 2107 count : 200 rew : -5
epoch : 2108 count : 200 rew : -8
epoch : 2109 count : 200 rew : -6
tensor(179483.6719, grad_fn=<MseLossBackward>) tensor(-15856.0967, grad_fn=<NegBackward>) tensor(-0.0446, grad_fn=<MulBackward0>)
epoch : 2110 count : 200 rew : -4
epoch : 2111 count : 200 rew : -6
epoch : 2112 count : 200 rew : -7
epoch : 2113 count : 200 rew : -10
epoch : 2114 count : 200 rew : -7
epoch : 2115 count : 200 rew : -7
epoch : 2116 count : 200 rew : 0
epoch : 2117 count : 200 rew : -11
epoch : 2118 count : 200 rew : -1
epoch : 2119 count : 200 rew : -7
tensor(184027.2344, grad_fn=<MseLossBackward>) tensor(-41625.0938, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 2120 count : 200 rew : 0
epoch : 2121 count : 200 rew : -1
epoch : 2122 count : 200 rew : -6
epoch : 2123 count : 200 rew : -9
epoch : 2124 count : 200 rew : -12
epoch : 2125 count : 200 rew : -12
epoch : 2126 count : 200 rew : -8
epoch : 2127 count : 200 rew : -2
epoch : 2128 count : 200

tensor(186394.7969, grad_fn=<MseLossBackward>) tensor(-81961.2344, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 2280 count : 200 rew : -3
epoch : 2281 count : 200 rew : -9
epoch : 2282 count : 200 rew : -9
epoch : 2283 count : 200 rew : -7
epoch : 2284 count : 200 rew : -4
epoch : 2285 count : 200 rew : -5
epoch : 2286 count : 200 rew : -2
epoch : 2287 count : 200 rew : -10
epoch : 2288 count : 200 rew : -5
epoch : 2289 count : 200 rew : -7
tensor(212961.1406, grad_fn=<MseLossBackward>) tensor(-120741.3047, grad_fn=<NegBackward>) tensor(-0.0446, grad_fn=<MulBackward0>)
epoch : 2290 count : 200 rew : -6
epoch : 2291 count : 200 rew : -9
epoch : 2292 count : 200 rew : -8
epoch : 2293 count : 200 rew : 0
epoch : 2294 count : 200 rew : -8
epoch : 2295 count : 200 rew : -1
epoch : 2296 count : 200 rew : 0
epoch : 2297 count : 200 rew : -8
epoch : 2298 count : 200 rew : 0
epoch : 2299 count : 200 rew : -6
tensor(209761.6875, grad_fn=<MseLossBackward>) tensor(-71877.

epoch : 2452 count : 200 rew : -6
epoch : 2453 count : 200 rew : -9
epoch : 2454 count : 200 rew : -9
epoch : 2455 count : 200 rew : -2
epoch : 2456 count : 200 rew : 0
epoch : 2457 count : 200 rew : -1
epoch : 2458 count : 200 rew : -6
epoch : 2459 count : 200 rew : -4
tensor(192434.2812, grad_fn=<MseLossBackward>) tensor(-93109.6719, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 2460 count : 200 rew : -6
epoch : 2461 count : 200 rew : 0
epoch : 2462 count : 200 rew : -3
epoch : 2463 count : 200 rew : 0
epoch : 2464 count : 200 rew : -9
epoch : 2465 count : 200 rew : -2
epoch : 2466 count : 200 rew : -8
epoch : 2467 count : 200 rew : -9
epoch : 2468 count : 200 rew : -5
epoch : 2469 count : 200 rew : -7
tensor(179866.4062, grad_fn=<MseLossBackward>) tensor(-44338.4961, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 2470 count : 200 rew : -6
epoch : 2471 count : 200 rew : -9
epoch : 2472 count : 200 rew : -2
epoch : 2473 count : 200 rew 

epoch : 2627 count : 200 rew : -5
epoch : 2628 count : 200 rew : -8
epoch : 2629 count : 200 rew : -8
tensor(180179.5781, grad_fn=<MseLossBackward>) tensor(-51312.2812, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 2630 count : 200 rew : -10
epoch : 2631 count : 200 rew : -6
epoch : 2632 count : 200 rew : -2
epoch : 2633 count : 200 rew : -7
epoch : 2634 count : 200 rew : -1
epoch : 2635 count : 200 rew : -6
epoch : 2636 count : 200 rew : -8
epoch : 2637 count : 200 rew : -7
epoch : 2638 count : 200 rew : -2
epoch : 2639 count : 200 rew : -2
tensor(176359.7344, grad_fn=<MseLossBackward>) tensor(-56041.6797, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 2640 count : 200 rew : -9
epoch : 2641 count : 200 rew : -12
epoch : 2642 count : 200 rew : -5
epoch : 2643 count : 200 rew : -5
epoch : 2644 count : 200 rew : -6
epoch : 2645 count : 200 rew : -11
epoch : 2646 count : 200 rew : -6
epoch : 2647 count : 200 rew : -15
epoch : 2648 count : 2

tensor(192038.5781, grad_fn=<MseLossBackward>) tensor(-119703.3516, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 2800 count : 200 rew : -9
epoch : 2801 count : 200 rew : -9
epoch : 2802 count : 200 rew : -9
epoch : 2803 count : 200 rew : -1
epoch : 2804 count : 200 rew : -6
epoch : 2805 count : 200 rew : -11
epoch : 2806 count : 200 rew : -2
epoch : 2807 count : 200 rew : -6
epoch : 2808 count : 200 rew : -5
epoch : 2809 count : 200 rew : -5
tensor(149144., grad_fn=<MseLossBackward>) tensor(-35139.7773, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 2810 count : 200 rew : 0
epoch : 2811 count : 200 rew : -5
epoch : 2812 count : 200 rew : -9
epoch : 2813 count : 200 rew : -6
epoch : 2814 count : 200 rew : 0
epoch : 2815 count : 200 rew : -5
epoch : 2816 count : 200 rew : -7
epoch : 2817 count : 200 rew : -10
epoch : 2818 count : 200 rew : -7
epoch : 2819 count : 200 rew : -3
tensor(152296.4062, grad_fn=<MseLossBackward>) tensor(13199.149

epoch : 2971 count : 200 rew : -9
epoch : 2972 count : 200 rew : -12
epoch : 2973 count : 200 rew : -6
epoch : 2974 count : 200 rew : -9
epoch : 2975 count : 200 rew : -5
epoch : 2976 count : 200 rew : -3
epoch : 2977 count : 200 rew : -15
epoch : 2978 count : 200 rew : -8
epoch : 2979 count : 200 rew : -10
tensor(171665.7500, grad_fn=<MseLossBackward>) tensor(-34299.0977, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 2980 count : 200 rew : -9
epoch : 2981 count : 200 rew : 0
epoch : 2982 count : 200 rew : -8
epoch : 2983 count : 200 rew : -5
epoch : 2984 count : 200 rew : -8
epoch : 2985 count : 200 rew : -7
epoch : 2986 count : 200 rew : -3
epoch : 2987 count : 200 rew : -9
epoch : 2988 count : 200 rew : -10
epoch : 2989 count : 200 rew : -6
tensor(179559., grad_fn=<MseLossBackward>) tensor(-106486.8125, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 2990 count : 200 rew : -6
epoch : 2991 count : 200 rew : 0
epoch : 2992 count : 200 re

epoch : 3146 count : 200 rew : -8
epoch : 3147 count : 200 rew : -5
epoch : 3148 count : 200 rew : -7
epoch : 3149 count : 200 rew : -7
tensor(160141.6719, grad_fn=<MseLossBackward>) tensor(-118278.0781, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 3150 count : 200 rew : -6
epoch : 3151 count : 200 rew : -6
epoch : 3152 count : 200 rew : -14
epoch : 3153 count : 200 rew : -7
epoch : 3154 count : 200 rew : -5
epoch : 3155 count : 200 rew : -5
epoch : 3156 count : 200 rew : -6
epoch : 3157 count : 200 rew : -7
epoch : 3158 count : 200 rew : -8
epoch : 3159 count : 200 rew : -5
tensor(229895.6094, grad_fn=<MseLossBackward>) tensor(-225241.6562, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 3160 count : 200 rew : -3
epoch : 3161 count : 200 rew : -10
epoch : 3162 count : 200 rew : -8
epoch : 3163 count : 200 rew : -5
epoch : 3164 count : 200 rew : -9
epoch : 3165 count : 200 rew : -1
epoch : 3166 count : 200 rew : -3
epoch : 3167 count : 2

tensor(148581.1719, grad_fn=<MseLossBackward>) tensor(43693.8242, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 3320 count : 200 rew : -8
epoch : 3321 count : 200 rew : -8
epoch : 3322 count : 200 rew : -9
epoch : 3323 count : 200 rew : -4
epoch : 3324 count : 200 rew : -7
epoch : 3325 count : 200 rew : -10
epoch : 3326 count : 200 rew : -4
epoch : 3327 count : 200 rew : -8
epoch : 3328 count : 200 rew : -5
epoch : 3329 count : 200 rew : -9
tensor(187461.7031, grad_fn=<MseLossBackward>) tensor(-108111.8125, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 3330 count : 200 rew : -6
epoch : 3331 count : 200 rew : -9
epoch : 3332 count : 200 rew : -4
epoch : 3333 count : 200 rew : -4
epoch : 3334 count : 200 rew : -11
epoch : 3335 count : 200 rew : -10
epoch : 3336 count : 200 rew : -8
epoch : 3337 count : 200 rew : -7
epoch : 3338 count : 200 rew : -14
epoch : 3339 count : 200 rew : -2
tensor(177093.8125, grad_fn=<MseLossBackward>) tensor(-1

epoch : 3491 count : 200 rew : -10
epoch : 3492 count : 200 rew : -9
epoch : 3493 count : 200 rew : -3
epoch : 3494 count : 200 rew : -9
epoch : 3495 count : 200 rew : -2
epoch : 3496 count : 200 rew : -3
epoch : 3497 count : 200 rew : -8
epoch : 3498 count : 200 rew : -6
epoch : 3499 count : 200 rew : -9
tensor(142195.0781, grad_fn=<MseLossBackward>) tensor(90857.3047, grad_fn=<NegBackward>) tensor(-0.0447, grad_fn=<MulBackward0>)
epoch : 3500 count : 200 rew : -5
epoch : 3501 count : 200 rew : -12
epoch : 3502 count : 200 rew : -10
epoch : 3503 count : 200 rew : -8
epoch : 3504 count : 200 rew : -6
epoch : 3505 count : 200 rew : -1
epoch : 3506 count : 200 rew : -4
epoch : 3507 count : 200 rew : -5
epoch : 3508 count : 200 rew : -7
epoch : 3509 count : 200 rew : 0
tensor(169482.8906, grad_fn=<MseLossBackward>) tensor(-55105.3633, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 3510 count : 200 rew : 0
epoch : 3511 count : 200 rew : -6
epoch : 3512 count : 200 r

epoch : 3666 count : 200 rew : -9
epoch : 3667 count : 200 rew : -7
epoch : 3668 count : 200 rew : -7
epoch : 3669 count : 200 rew : -2
tensor(193906.3594, grad_fn=<MseLossBackward>) tensor(-147764.8906, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 3670 count : 200 rew : 0
epoch : 3671 count : 200 rew : -7
epoch : 3672 count : 200 rew : -7
epoch : 3673 count : 200 rew : 0
epoch : 3674 count : 200 rew : -3
epoch : 3675 count : 200 rew : -8
epoch : 3676 count : 200 rew : -3
epoch : 3677 count : 200 rew : -12
epoch : 3678 count : 200 rew : -1
epoch : 3679 count : 200 rew : -2
tensor(177679.4375, grad_fn=<MseLossBackward>) tensor(-64145.1914, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 3680 count : 200 rew : -4
epoch : 3681 count : 200 rew : -3
epoch : 3682 count : 200 rew : -5
epoch : 3683 count : 200 rew : -8
epoch : 3684 count : 200 rew : -6
epoch : 3685 count : 200 rew : -8
epoch : 3686 count : 200 rew : -9
epoch : 3687 count : 200 r

tensor(184048.2188, grad_fn=<MseLossBackward>) tensor(-116479.0859, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 3840 count : 200 rew : -8
epoch : 3841 count : 200 rew : -2
epoch : 3842 count : 200 rew : -5
epoch : 3843 count : 200 rew : -7
epoch : 3844 count : 200 rew : -4
epoch : 3845 count : 200 rew : -9
epoch : 3846 count : 200 rew : -12
epoch : 3847 count : 200 rew : -8
epoch : 3848 count : 200 rew : -4
epoch : 3849 count : 200 rew : 0
tensor(174979.3750, grad_fn=<MseLossBackward>) tensor(-81104.0312, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 3850 count : 200 rew : -1
epoch : 3851 count : 200 rew : -5
epoch : 3852 count : 200 rew : -6
epoch : 3853 count : 200 rew : -1
epoch : 3854 count : 200 rew : -11
epoch : 3855 count : 200 rew : -7
epoch : 3856 count : 200 rew : -8
epoch : 3857 count : 200 rew : -14
epoch : 3858 count : 200 rew : 0
epoch : 3859 count : 200 rew : -3
tensor(152496.7188, grad_fn=<MseLossBackward>) tensor(7952

epoch : 4012 count : 200 rew : -4
epoch : 4013 count : 200 rew : -5
epoch : 4014 count : 200 rew : 0
epoch : 4015 count : 200 rew : -8
epoch : 4016 count : 200 rew : -5
epoch : 4017 count : 200 rew : 0
epoch : 4018 count : 200 rew : -1
epoch : 4019 count : 200 rew : -1
tensor(153588.0312, grad_fn=<MseLossBackward>) tensor(43255.9570, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 4020 count : 200 rew : -5
epoch : 4021 count : 200 rew : -7
epoch : 4022 count : 200 rew : -6
epoch : 4023 count : 200 rew : -5
epoch : 4024 count : 200 rew : 0
epoch : 4025 count : 200 rew : -2
epoch : 4026 count : 200 rew : -6
epoch : 4027 count : 200 rew : -2
epoch : 4028 count : 200 rew : 0
epoch : 4029 count : 200 rew : -1
tensor(146670.1719, grad_fn=<MseLossBackward>) tensor(68460.7734, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 4030 count : 200 rew : -11
epoch : 4031 count : 200 rew : -2
epoch : 4032 count : 200 rew : 0
epoch : 4033 count : 200 rew : -

epoch : 4187 count : 200 rew : -2
epoch : 4188 count : 200 rew : -9
epoch : 4189 count : 200 rew : -10
tensor(199706.2812, grad_fn=<MseLossBackward>) tensor(-179974.9844, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 4190 count : 200 rew : -4
epoch : 4191 count : 200 rew : -8
epoch : 4192 count : 200 rew : -9
epoch : 4193 count : 200 rew : -5
epoch : 4194 count : 200 rew : 0
epoch : 4195 count : 200 rew : -1
epoch : 4196 count : 200 rew : -8
epoch : 4197 count : 200 rew : -8
epoch : 4198 count : 200 rew : 0
epoch : 4199 count : 200 rew : -10
tensor(178022.7344, grad_fn=<MseLossBackward>) tensor(-109280.2969, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 4200 count : 200 rew : -4
epoch : 4201 count : 200 rew : -6
epoch : 4202 count : 200 rew : -15
epoch : 4203 count : 200 rew : -6
epoch : 4204 count : 200 rew : -8
epoch : 4205 count : 200 rew : -4
epoch : 4206 count : 200 rew : 0
epoch : 4207 count : 200 rew : -7
epoch : 4208 count : 200

tensor(191896.8438, grad_fn=<MseLossBackward>) tensor(-106788.6406, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 4360 count : 200 rew : -8
epoch : 4361 count : 200 rew : 0
epoch : 4362 count : 200 rew : -5
epoch : 4363 count : 200 rew : -7
epoch : 4364 count : 200 rew : -9
epoch : 4365 count : 200 rew : -10
epoch : 4366 count : 200 rew : -2
epoch : 4367 count : 200 rew : -8
epoch : 4368 count : 200 rew : 0
epoch : 4369 count : 200 rew : -5
tensor(204219.3125, grad_fn=<MseLossBackward>) tensor(-173907.0312, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 4370 count : 200 rew : -6
epoch : 4371 count : 200 rew : -4
epoch : 4372 count : 200 rew : -9
epoch : 4373 count : 200 rew : -6
epoch : 4374 count : 200 rew : -6
epoch : 4375 count : 200 rew : -8
epoch : 4376 count : 200 rew : -8
epoch : 4377 count : 200 rew : -10
epoch : 4378 count : 200 rew : -3
epoch : 4379 count : 200 rew : -3
tensor(170700.1250, grad_fn=<MseLossBackward>) tensor(-553

epoch : 4532 count : 200 rew : -5
epoch : 4533 count : 200 rew : -6
epoch : 4534 count : 200 rew : -10
epoch : 4535 count : 200 rew : -5
epoch : 4536 count : 200 rew : -10
epoch : 4537 count : 200 rew : -8
epoch : 4538 count : 200 rew : -11
epoch : 4539 count : 200 rew : -1
tensor(173796.3438, grad_fn=<MseLossBackward>) tensor(-106669.4141, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 4540 count : 200 rew : -9
epoch : 4541 count : 200 rew : -8
epoch : 4542 count : 200 rew : -6
epoch : 4543 count : 200 rew : -4
epoch : 4544 count : 200 rew : -9
epoch : 4545 count : 200 rew : -9
epoch : 4546 count : 200 rew : 0
epoch : 4547 count : 200 rew : -3
epoch : 4548 count : 200 rew : -9
epoch : 4549 count : 200 rew : -9
tensor(183134.3438, grad_fn=<MseLossBackward>) tensor(207.0475, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 4550 count : 200 rew : -11
epoch : 4551 count : 200 rew : -4
epoch : 4552 count : 200 rew : -9
epoch : 4553 count : 200 

epoch : 4707 count : 200 rew : 0
epoch : 4708 count : 200 rew : -4
epoch : 4709 count : 200 rew : -10
tensor(151658.6250, grad_fn=<MseLossBackward>) tensor(18284.9082, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 4710 count : 200 rew : -7
epoch : 4711 count : 200 rew : -10
epoch : 4712 count : 200 rew : -8
epoch : 4713 count : 200 rew : -8
epoch : 4714 count : 200 rew : -3
epoch : 4715 count : 200 rew : -2
epoch : 4716 count : 200 rew : -9
epoch : 4717 count : 200 rew : -8
epoch : 4718 count : 200 rew : -8
epoch : 4719 count : 200 rew : -8
tensor(203017.7812, grad_fn=<MseLossBackward>) tensor(-185762.5156, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 4720 count : 200 rew : -5
epoch : 4721 count : 200 rew : -7
epoch : 4722 count : 200 rew : -4
epoch : 4723 count : 200 rew : -4
epoch : 4724 count : 200 rew : -6
epoch : 4725 count : 200 rew : -4
epoch : 4726 count : 200 rew : -2
epoch : 4727 count : 200 rew : -2
epoch : 4728 count : 200 

tensor(142264.1562, grad_fn=<MseLossBackward>) tensor(59565.9375, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 4880 count : 200 rew : -9
epoch : 4881 count : 200 rew : -3
epoch : 4882 count : 200 rew : -3
epoch : 4883 count : 200 rew : -6
epoch : 4884 count : 200 rew : -7
epoch : 4885 count : 200 rew : -8
epoch : 4886 count : 200 rew : -1
epoch : 4887 count : 200 rew : -1
epoch : 4888 count : 200 rew : -4
epoch : 4889 count : 200 rew : -6
tensor(158137.2969, grad_fn=<MseLossBackward>) tensor(-78161.8047, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 4890 count : 200 rew : -5
epoch : 4891 count : 200 rew : -2
epoch : 4892 count : 200 rew : -6
epoch : 4893 count : 200 rew : 0
epoch : 4894 count : 200 rew : -7
epoch : 4895 count : 200 rew : -12
epoch : 4896 count : 200 rew : -4
epoch : 4897 count : 200 rew : -12
epoch : 4898 count : 200 rew : -8
epoch : 4899 count : 200 rew : -2
tensor(141316.7656, grad_fn=<MseLossBackward>) tensor(18137.

epoch : 5051 count : 200 rew : -7
epoch : 5052 count : 200 rew : -6
epoch : 5053 count : 200 rew : -10
epoch : 5054 count : 200 rew : -10
epoch : 5055 count : 200 rew : -1
epoch : 5056 count : 200 rew : -1
epoch : 5057 count : 200 rew : -12
epoch : 5058 count : 200 rew : -1
epoch : 5059 count : 200 rew : -6
tensor(140178.4062, grad_fn=<MseLossBackward>) tensor(21424.2344, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 5060 count : 200 rew : -6
epoch : 5061 count : 200 rew : -2
epoch : 5062 count : 200 rew : -7
epoch : 5063 count : 200 rew : -3
epoch : 5064 count : 200 rew : -4
epoch : 5065 count : 200 rew : -7
epoch : 5066 count : 200 rew : -9
epoch : 5067 count : 200 rew : -6
epoch : 5068 count : 200 rew : 0
epoch : 5069 count : 200 rew : -5
tensor(148249.0625, grad_fn=<MseLossBackward>) tensor(-26363.5625, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 5070 count : 200 rew : 0
epoch : 5071 count : 200 rew : -6
epoch : 5072 count : 200 r

epoch : 5226 count : 200 rew : -1
epoch : 5227 count : 200 rew : -10
epoch : 5228 count : 200 rew : -7
epoch : 5229 count : 200 rew : -9
tensor(146724.7812, grad_fn=<MseLossBackward>) tensor(-44158.6172, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 5230 count : 200 rew : -2
epoch : 5231 count : 200 rew : -6
epoch : 5232 count : 200 rew : -4
epoch : 5233 count : 200 rew : -3
epoch : 5234 count : 200 rew : -7
epoch : 5235 count : 200 rew : -13
epoch : 5236 count : 200 rew : -3
epoch : 5237 count : 200 rew : -9
epoch : 5238 count : 200 rew : -5
epoch : 5239 count : 200 rew : -1
tensor(164091.2344, grad_fn=<MseLossBackward>) tensor(-84914.1328, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 5240 count : 200 rew : -10
epoch : 5241 count : 200 rew : 0
epoch : 5242 count : 200 rew : -1
epoch : 5243 count : 200 rew : -5
epoch : 5244 count : 200 rew : -2
epoch : 5245 count : 200 rew : 0
epoch : 5246 count : 200 rew : -5
epoch : 5247 count : 200 

tensor(203571.8750, grad_fn=<MseLossBackward>) tensor(-178053.4844, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 5400 count : 200 rew : -9
epoch : 5401 count : 200 rew : -7
epoch : 5402 count : 200 rew : -4
epoch : 5403 count : 200 rew : -2
epoch : 5404 count : 200 rew : -8
epoch : 5405 count : 200 rew : -3
epoch : 5406 count : 200 rew : -2
epoch : 5407 count : 200 rew : -5
epoch : 5408 count : 200 rew : -6
epoch : 5409 count : 200 rew : -1
tensor(173877.6406, grad_fn=<MseLossBackward>) tensor(-108442.7031, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 5410 count : 200 rew : -3
epoch : 5411 count : 200 rew : -5
epoch : 5412 count : 200 rew : -4
epoch : 5413 count : 200 rew : -3
epoch : 5414 count : 200 rew : 0
epoch : 5415 count : 200 rew : 0
epoch : 5416 count : 200 rew : -5
epoch : 5417 count : 200 rew : -5
epoch : 5418 count : 200 rew : -6
epoch : 5419 count : 200 rew : -8
tensor(149892.7812, grad_fn=<MseLossBackward>) tensor(36977.

epoch : 5572 count : 200 rew : -6
epoch : 5573 count : 200 rew : -10
epoch : 5574 count : 200 rew : -7
epoch : 5575 count : 200 rew : -2
epoch : 5576 count : 200 rew : -2
epoch : 5577 count : 200 rew : -10
epoch : 5578 count : 200 rew : -3
epoch : 5579 count : 200 rew : -6
tensor(166584.0469, grad_fn=<MseLossBackward>) tensor(-89680.4375, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 5580 count : 200 rew : -1
epoch : 5581 count : 200 rew : -7
epoch : 5582 count : 200 rew : -10
epoch : 5583 count : 200 rew : -1
epoch : 5584 count : 200 rew : -12
epoch : 5585 count : 200 rew : 0
epoch : 5586 count : 200 rew : -4
epoch : 5587 count : 200 rew : -5
epoch : 5588 count : 200 rew : -3
epoch : 5589 count : 200 rew : -6
tensor(157848.2656, grad_fn=<MseLossBackward>) tensor(-13547.1621, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 5590 count : 200 rew : -12
epoch : 5591 count : 200 rew : -7
epoch : 5592 count : 200 rew : -7
epoch : 5593 count : 2

epoch : 5747 count : 200 rew : -7
epoch : 5748 count : 200 rew : -4
epoch : 5749 count : 200 rew : -9
tensor(149603.8594, grad_fn=<MseLossBackward>) tensor(-32350.8047, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 5750 count : 200 rew : -5
epoch : 5751 count : 200 rew : -5
epoch : 5752 count : 200 rew : -6
epoch : 5753 count : 200 rew : -3
epoch : 5754 count : 200 rew : -9
epoch : 5755 count : 200 rew : -1
epoch : 5756 count : 200 rew : -9
epoch : 5757 count : 200 rew : -9
epoch : 5758 count : 200 rew : -2
epoch : 5759 count : 200 rew : 0
tensor(142374.6406, grad_fn=<MseLossBackward>) tensor(29470.7715, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 5760 count : 200 rew : -2
epoch : 5761 count : 200 rew : -10
epoch : 5762 count : 200 rew : -11
epoch : 5763 count : 200 rew : -5
epoch : 5764 count : 200 rew : -3
epoch : 5765 count : 200 rew : -10
epoch : 5766 count : 200 rew : -3
epoch : 5767 count : 200 rew : -8
epoch : 5768 count : 200 

tensor(136761.4688, grad_fn=<MseLossBackward>) tensor(20683.8984, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 5920 count : 200 rew : -10
epoch : 5921 count : 200 rew : -5
epoch : 5922 count : 200 rew : -7
epoch : 5923 count : 200 rew : -3
epoch : 5924 count : 200 rew : -4
epoch : 5925 count : 200 rew : -9
epoch : 5926 count : 200 rew : -2
epoch : 5927 count : 200 rew : -9
epoch : 5928 count : 200 rew : -5
epoch : 5929 count : 200 rew : -3
tensor(172694.8594, grad_fn=<MseLossBackward>) tensor(-100437.8906, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 5930 count : 200 rew : -8
epoch : 5931 count : 200 rew : -1
epoch : 5932 count : 200 rew : -4
epoch : 5933 count : 200 rew : -6
epoch : 5934 count : 200 rew : -6
epoch : 5935 count : 200 rew : -3
epoch : 5936 count : 200 rew : -1
epoch : 5937 count : 200 rew : -4
epoch : 5938 count : 200 rew : -1
epoch : 5939 count : 200 rew : -4
tensor(162072.0625, grad_fn=<MseLossBackward>) tensor(-7382

epoch : 6091 count : 200 rew : -3
epoch : 6092 count : 200 rew : -11
epoch : 6093 count : 200 rew : -1
epoch : 6094 count : 200 rew : -2
epoch : 6095 count : 200 rew : -5
epoch : 6096 count : 200 rew : -4
epoch : 6097 count : 200 rew : -6
epoch : 6098 count : 200 rew : -10
epoch : 6099 count : 200 rew : -9
tensor(151357.3750, grad_fn=<MseLossBackward>) tensor(-47672.0039, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 6100 count : 200 rew : -7
epoch : 6101 count : 200 rew : -4
epoch : 6102 count : 200 rew : -7
epoch : 6103 count : 200 rew : -11
epoch : 6104 count : 200 rew : -1
epoch : 6105 count : 200 rew : -7
epoch : 6106 count : 200 rew : -7
epoch : 6107 count : 200 rew : -7
epoch : 6108 count : 200 rew : -1
epoch : 6109 count : 200 rew : -6
tensor(174167.3750, grad_fn=<MseLossBackward>) tensor(-82238.2422, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 6110 count : 200 rew : -4
epoch : 6111 count : 200 rew : -4
epoch : 6112 count : 20

epoch : 6266 count : 200 rew : -8
epoch : 6267 count : 200 rew : 0
epoch : 6268 count : 200 rew : -14
epoch : 6269 count : 200 rew : -5
tensor(177001.8594, grad_fn=<MseLossBackward>) tensor(-107889.9609, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 6270 count : 200 rew : -11
epoch : 6271 count : 200 rew : -5
epoch : 6272 count : 200 rew : -5
epoch : 6273 count : 200 rew : -10
epoch : 6274 count : 200 rew : -4
epoch : 6275 count : 200 rew : -8
epoch : 6276 count : 200 rew : -12
epoch : 6277 count : 200 rew : -2
epoch : 6278 count : 200 rew : 0
epoch : 6279 count : 200 rew : -4
tensor(148376.3438, grad_fn=<MseLossBackward>) tensor(-48169.8242, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 6280 count : 200 rew : -13
epoch : 6281 count : 200 rew : -4
epoch : 6282 count : 200 rew : 0
epoch : 6283 count : 200 rew : -2
epoch : 6284 count : 200 rew : -12
epoch : 6285 count : 200 rew : -3
epoch : 6286 count : 200 rew : -14
epoch : 6287 count : 

tensor(144875.6094, grad_fn=<MseLossBackward>) tensor(-12619.3818, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 6440 count : 200 rew : -6
epoch : 6441 count : 200 rew : 0
epoch : 6442 count : 200 rew : 0
epoch : 6443 count : 200 rew : -2
epoch : 6444 count : 200 rew : -5
epoch : 6445 count : 200 rew : 0
epoch : 6446 count : 200 rew : -4
epoch : 6447 count : 200 rew : -7
epoch : 6448 count : 200 rew : -3
epoch : 6449 count : 200 rew : -2
tensor(135672.9219, grad_fn=<MseLossBackward>) tensor(9432.7334, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 6450 count : 200 rew : -10
epoch : 6451 count : 200 rew : 0
epoch : 6452 count : 200 rew : -1
epoch : 6453 count : 200 rew : -7
epoch : 6454 count : 200 rew : -10
epoch : 6455 count : 200 rew : -9
epoch : 6456 count : 200 rew : -7
epoch : 6457 count : 200 rew : -5
epoch : 6458 count : 200 rew : -8
epoch : 6459 count : 200 rew : -5
tensor(139502.0312, grad_fn=<MseLossBackward>) tensor(-9329.3584

epoch : 6612 count : 200 rew : -4
epoch : 6613 count : 200 rew : -8
epoch : 6614 count : 200 rew : -1
epoch : 6615 count : 200 rew : -6
epoch : 6616 count : 200 rew : -5
epoch : 6617 count : 200 rew : 0
epoch : 6618 count : 200 rew : -3
epoch : 6619 count : 200 rew : -1
tensor(133728.1406, grad_fn=<MseLossBackward>) tensor(-34088.7930, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 6620 count : 200 rew : -3
epoch : 6621 count : 200 rew : -2
epoch : 6622 count : 200 rew : -9
epoch : 6623 count : 200 rew : -6
epoch : 6624 count : 200 rew : -5
epoch : 6625 count : 200 rew : -9
epoch : 6626 count : 200 rew : -4
epoch : 6627 count : 200 rew : -13
epoch : 6628 count : 200 rew : -9
epoch : 6629 count : 200 rew : -12
tensor(153612.5781, grad_fn=<MseLossBackward>) tensor(-51391.8008, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 6630 count : 200 rew : -2
epoch : 6631 count : 200 rew : -9
epoch : 6632 count : 200 rew : -2
epoch : 6633 count : 200 

epoch : 6787 count : 200 rew : -4
epoch : 6788 count : 200 rew : -2
epoch : 6789 count : 200 rew : -10
tensor(139314.0781, grad_fn=<MseLossBackward>) tensor(-107529.9844, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 6790 count : 200 rew : 0
epoch : 6791 count : 200 rew : -1
epoch : 6792 count : 200 rew : -8
epoch : 6793 count : 200 rew : -4
epoch : 6794 count : 200 rew : -9
epoch : 6795 count : 200 rew : -10
epoch : 6796 count : 200 rew : -4
epoch : 6797 count : 200 rew : -10
epoch : 6798 count : 200 rew : -6
epoch : 6799 count : 200 rew : -7
tensor(144386.8594, grad_fn=<MseLossBackward>) tensor(-34509.6797, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 6800 count : 200 rew : -5
epoch : 6801 count : 200 rew : -2
epoch : 6802 count : 200 rew : 0
epoch : 6803 count : 200 rew : -8
epoch : 6804 count : 200 rew : -1
epoch : 6805 count : 200 rew : -9
epoch : 6806 count : 200 rew : -10
epoch : 6807 count : 200 rew : -11
epoch : 6808 count : 2

tensor(134015.6406, grad_fn=<MseLossBackward>) tensor(1946.3473, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 6960 count : 200 rew : -5
epoch : 6961 count : 200 rew : -13
epoch : 6962 count : 200 rew : -6
epoch : 6963 count : 200 rew : -8
epoch : 6964 count : 200 rew : -5
epoch : 6965 count : 200 rew : -3
epoch : 6966 count : 200 rew : 0
epoch : 6967 count : 200 rew : -10
epoch : 6968 count : 200 rew : 0
epoch : 6969 count : 200 rew : -9
tensor(155468.3438, grad_fn=<MseLossBackward>) tensor(-76057.3984, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 6970 count : 200 rew : -1
epoch : 6971 count : 200 rew : -3
epoch : 6972 count : 200 rew : -5
epoch : 6973 count : 200 rew : -5
epoch : 6974 count : 200 rew : -3
epoch : 6975 count : 200 rew : -6
epoch : 6976 count : 200 rew : -6
epoch : 6977 count : 200 rew : -8
epoch : 6978 count : 200 rew : -3
epoch : 6979 count : 200 rew : -3
tensor(165261.7969, grad_fn=<MseLossBackward>) tensor(-161219.

epoch : 7131 count : 200 rew : -8
epoch : 7132 count : 200 rew : -4
epoch : 7133 count : 200 rew : -2
epoch : 7134 count : 200 rew : -8
epoch : 7135 count : 200 rew : 0
epoch : 7136 count : 200 rew : -5
epoch : 7137 count : 200 rew : -10
epoch : 7138 count : 200 rew : -9
epoch : 7139 count : 200 rew : -8
tensor(147798.5312, grad_fn=<MseLossBackward>) tensor(5156.9678, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 7140 count : 200 rew : -2
epoch : 7141 count : 200 rew : -8
epoch : 7142 count : 200 rew : -8
epoch : 7143 count : 200 rew : -7
epoch : 7144 count : 200 rew : -15
epoch : 7145 count : 200 rew : -12
epoch : 7146 count : 200 rew : 0
epoch : 7147 count : 200 rew : -8
epoch : 7148 count : 200 rew : 0
epoch : 7149 count : 200 rew : -4
tensor(145215.8438, grad_fn=<MseLossBackward>) tensor(-57722.5898, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 7150 count : 200 rew : -7
epoch : 7151 count : 200 rew : -8
epoch : 7152 count : 200 rew

epoch : 7307 count : 200 rew : -7
epoch : 7308 count : 200 rew : -1
epoch : 7309 count : 200 rew : -8
tensor(136858.7500, grad_fn=<MseLossBackward>) tensor(28448.7539, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 7310 count : 200 rew : -11
epoch : 7311 count : 200 rew : -8
epoch : 7312 count : 200 rew : -11
epoch : 7313 count : 200 rew : -6
epoch : 7314 count : 200 rew : -4
epoch : 7315 count : 200 rew : -7
epoch : 7316 count : 200 rew : -8
epoch : 7317 count : 200 rew : -1
epoch : 7318 count : 200 rew : -4
epoch : 7319 count : 200 rew : -3
tensor(153557.7656, grad_fn=<MseLossBackward>) tensor(-70589.2734, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 7320 count : 200 rew : -1
epoch : 7321 count : 200 rew : -7
epoch : 7322 count : 200 rew : -10
epoch : 7323 count : 200 rew : -7
epoch : 7324 count : 200 rew : -8
epoch : 7325 count : 200 rew : -2
epoch : 7326 count : 200 rew : -8
epoch : 7327 count : 200 rew : -1
epoch : 7328 count : 200

tensor(137199.9062, grad_fn=<MseLossBackward>) tensor(-32785.9297, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 7480 count : 200 rew : -6
epoch : 7481 count : 200 rew : -13
epoch : 7482 count : 200 rew : -5
epoch : 7483 count : 200 rew : -10
epoch : 7484 count : 200 rew : -9
epoch : 7485 count : 200 rew : -5
epoch : 7486 count : 200 rew : -8
epoch : 7487 count : 200 rew : -3
epoch : 7488 count : 200 rew : -6
epoch : 7489 count : 200 rew : -6
tensor(166868.8125, grad_fn=<MseLossBackward>) tensor(-122105.0547, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 7490 count : 200 rew : -2
epoch : 7491 count : 200 rew : -2
epoch : 7492 count : 200 rew : -6
epoch : 7493 count : 200 rew : -9
epoch : 7494 count : 200 rew : -2
epoch : 7495 count : 200 rew : -2
epoch : 7496 count : 200 rew : -2
epoch : 7497 count : 200 rew : -6
epoch : 7498 count : 200 rew : -5
epoch : 7499 count : 200 rew : -2
tensor(141878.5000, grad_fn=<MseLossBackward>) tensor(-27

epoch : 7652 count : 200 rew : 0
epoch : 7653 count : 200 rew : -4
epoch : 7654 count : 200 rew : -9
epoch : 7655 count : 200 rew : -3
epoch : 7656 count : 200 rew : 0
epoch : 7657 count : 200 rew : -6
epoch : 7658 count : 200 rew : -9
epoch : 7659 count : 200 rew : -10
tensor(144203.6875, grad_fn=<MseLossBackward>) tensor(-18571.0547, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 7660 count : 200 rew : -9
epoch : 7661 count : 200 rew : -7
epoch : 7662 count : 200 rew : -3
epoch : 7663 count : 200 rew : -2
epoch : 7664 count : 200 rew : -5
epoch : 7665 count : 200 rew : -6
epoch : 7666 count : 200 rew : -8
epoch : 7667 count : 200 rew : -5
epoch : 7668 count : 200 rew : -5
epoch : 7669 count : 200 rew : -2
tensor(148103.5938, grad_fn=<MseLossBackward>) tensor(-88712.7578, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 7670 count : 200 rew : -5
epoch : 7671 count : 200 rew : -2
epoch : 7672 count : 200 rew : -9
epoch : 7673 count : 200 re

epoch : 7827 count : 200 rew : -1
epoch : 7828 count : 200 rew : -2
epoch : 7829 count : 200 rew : -11
tensor(132539.2188, grad_fn=<MseLossBackward>) tensor(11744.2100, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 7830 count : 200 rew : -4
epoch : 7831 count : 200 rew : -2
epoch : 7832 count : 200 rew : -5
epoch : 7833 count : 200 rew : 0
epoch : 7834 count : 200 rew : -3
epoch : 7835 count : 200 rew : 0
epoch : 7836 count : 200 rew : -4
epoch : 7837 count : 200 rew : -1
epoch : 7838 count : 200 rew : -4
epoch : 7839 count : 200 rew : -8
tensor(134149.5781, grad_fn=<MseLossBackward>) tensor(3162.8235, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 7840 count : 200 rew : -8
epoch : 7841 count : 200 rew : -3
epoch : 7842 count : 200 rew : -3
epoch : 7843 count : 200 rew : 0
epoch : 7844 count : 200 rew : 0
epoch : 7845 count : 200 rew : 0
epoch : 7846 count : 200 rew : -6
epoch : 7847 count : 200 rew : -8
epoch : 7848 count : 200 rew : -1

tensor(140236.9219, grad_fn=<MseLossBackward>) tensor(-46738.6797, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 8000 count : 200 rew : -9
epoch : 8001 count : 200 rew : -9
epoch : 8002 count : 200 rew : -2
epoch : 8003 count : 200 rew : -7
epoch : 8004 count : 200 rew : -6
epoch : 8005 count : 200 rew : -2
epoch : 8006 count : 200 rew : -4
epoch : 8007 count : 200 rew : -11
epoch : 8008 count : 200 rew : -8
epoch : 8009 count : 200 rew : -6
tensor(137372.8750, grad_fn=<MseLossBackward>) tensor(-17435.9004, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 8010 count : 200 rew : -11
epoch : 8011 count : 200 rew : -2
epoch : 8012 count : 200 rew : 0
epoch : 8013 count : 200 rew : -7
epoch : 8014 count : 200 rew : -11
epoch : 8015 count : 200 rew : -2
epoch : 8016 count : 200 rew : -12
epoch : 8017 count : 200 rew : -10
epoch : 8018 count : 200 rew : -3
epoch : 8019 count : 200 rew : -6
tensor(122724.3828, grad_fn=<MseLossBackward>) tensor(-7

epoch : 8171 count : 200 rew : -8
epoch : 8172 count : 200 rew : -5
epoch : 8173 count : 200 rew : -9
epoch : 8174 count : 200 rew : -6
epoch : 8175 count : 200 rew : -4
epoch : 8176 count : 200 rew : -6
epoch : 8177 count : 200 rew : -3
epoch : 8178 count : 200 rew : -10
epoch : 8179 count : 200 rew : -13
tensor(144606.0938, grad_fn=<MseLossBackward>) tensor(-77585.9375, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 8180 count : 200 rew : -4
epoch : 8181 count : 200 rew : -1
epoch : 8182 count : 200 rew : -1
epoch : 8183 count : 200 rew : -3
epoch : 8184 count : 200 rew : -3
epoch : 8185 count : 200 rew : -1
epoch : 8186 count : 200 rew : -5
epoch : 8187 count : 200 rew : -11
epoch : 8188 count : 200 rew : -14
epoch : 8189 count : 200 rew : -5
tensor(120235.8672, grad_fn=<MseLossBackward>) tensor(18754.7051, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 8190 count : 200 rew : -13
epoch : 8191 count : 200 rew : -4
epoch : 8192 count : 2

epoch : 8346 count : 200 rew : -4
epoch : 8347 count : 200 rew : -1
epoch : 8348 count : 200 rew : -11
epoch : 8349 count : 200 rew : -10
tensor(131282.7344, grad_fn=<MseLossBackward>) tensor(-45964.4023, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 8350 count : 200 rew : -3
epoch : 8351 count : 200 rew : -5
epoch : 8352 count : 200 rew : 0
epoch : 8353 count : 200 rew : -2
epoch : 8354 count : 200 rew : -4
epoch : 8355 count : 200 rew : -5
epoch : 8356 count : 200 rew : -1
epoch : 8357 count : 200 rew : -7
epoch : 8358 count : 200 rew : -9
epoch : 8359 count : 200 rew : 0
tensor(127030.1172, grad_fn=<MseLossBackward>) tensor(15494.6309, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 8360 count : 200 rew : -11
epoch : 8361 count : 200 rew : -1
epoch : 8362 count : 200 rew : -12
epoch : 8363 count : 200 rew : -4
epoch : 8364 count : 200 rew : -1
epoch : 8365 count : 200 rew : -3
epoch : 8366 count : 200 rew : -12
epoch : 8367 count : 200

tensor(145190.7031, grad_fn=<MseLossBackward>) tensor(-90603.3516, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 8520 count : 200 rew : -11
epoch : 8521 count : 200 rew : -2
epoch : 8522 count : 200 rew : -7
epoch : 8523 count : 200 rew : -2
epoch : 8524 count : 200 rew : -12
epoch : 8525 count : 200 rew : -1
epoch : 8526 count : 200 rew : -8
epoch : 8527 count : 200 rew : -3
epoch : 8528 count : 200 rew : -13
epoch : 8529 count : 200 rew : -7
tensor(110566.7500, grad_fn=<MseLossBackward>) tensor(41231.6367, grad_fn=<NegBackward>) tensor(-0.0448, grad_fn=<MulBackward0>)
epoch : 8530 count : 200 rew : -4
epoch : 8531 count : 200 rew : -4
epoch : 8532 count : 200 rew : -5
epoch : 8533 count : 200 rew : -2
epoch : 8534 count : 200 rew : 0
epoch : 8535 count : 200 rew : -1
epoch : 8536 count : 200 rew : -14
epoch : 8537 count : 200 rew : -8
epoch : 8538 count : 200 rew : -6
epoch : 8539 count : 200 rew : 0
tensor(138364.5156, grad_fn=<MseLossBackward>) tensor(-2453

epoch : 8691 count : 200 rew : 0
epoch : 8692 count : 200 rew : -8
epoch : 8693 count : 200 rew : -5
epoch : 8694 count : 200 rew : -8
epoch : 8695 count : 200 rew : -1
epoch : 8696 count : 200 rew : -11
epoch : 8697 count : 200 rew : -2
epoch : 8698 count : 200 rew : -6
epoch : 8699 count : 200 rew : -4
tensor(138121.7188, grad_fn=<MseLossBackward>) tensor(11309.8037, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 8700 count : 200 rew : -8
epoch : 8701 count : 200 rew : -2
epoch : 8702 count : 200 rew : 0
epoch : 8703 count : 200 rew : -2
epoch : 8704 count : 200 rew : -4
epoch : 8705 count : 200 rew : -7
epoch : 8706 count : 200 rew : -1
epoch : 8707 count : 200 rew : -2
epoch : 8708 count : 200 rew : -2
epoch : 8709 count : 200 rew : -6
tensor(139063.2344, grad_fn=<MseLossBackward>) tensor(-19791.7246, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 8710 count : 200 rew : -9
epoch : 8711 count : 200 rew : -8
epoch : 8712 count : 200 rew

epoch : 8866 count : 200 rew : -10
epoch : 8867 count : 200 rew : -4
epoch : 8868 count : 200 rew : -9
epoch : 8869 count : 200 rew : 0
tensor(129462.0938, grad_fn=<MseLossBackward>) tensor(-51221.1250, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 8870 count : 200 rew : -8
epoch : 8871 count : 200 rew : -3
epoch : 8872 count : 200 rew : 0
epoch : 8873 count : 200 rew : -4
epoch : 8874 count : 200 rew : -11
epoch : 8875 count : 200 rew : 0
epoch : 8876 count : 200 rew : 0
epoch : 8877 count : 200 rew : -4
epoch : 8878 count : 200 rew : -9
epoch : 8879 count : 200 rew : -5
tensor(135928.8281, grad_fn=<MseLossBackward>) tensor(-56253.6406, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 8880 count : 200 rew : -2
epoch : 8881 count : 200 rew : -8
epoch : 8882 count : 200 rew : -7
epoch : 8883 count : 200 rew : -2
epoch : 8884 count : 200 rew : -7
epoch : 8885 count : 200 rew : -9
epoch : 8886 count : 200 rew : -6
epoch : 8887 count : 200 rew

tensor(161447.4219, grad_fn=<MseLossBackward>) tensor(-85870.1797, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 9040 count : 200 rew : -3
epoch : 9041 count : 200 rew : -10
epoch : 9042 count : 200 rew : -7
epoch : 9043 count : 200 rew : -6
epoch : 9044 count : 200 rew : 0
epoch : 9045 count : 200 rew : 0
epoch : 9046 count : 200 rew : -11
epoch : 9047 count : 200 rew : -11
epoch : 9048 count : 200 rew : -4
epoch : 9049 count : 200 rew : 0
tensor(125781.7031, grad_fn=<MseLossBackward>) tensor(4191.4102, grad_fn=<NegBackward>) tensor(-0.0450, grad_fn=<MulBackward0>)
epoch : 9050 count : 200 rew : -4
epoch : 9051 count : 200 rew : -5
epoch : 9052 count : 200 rew : -11
epoch : 9053 count : 200 rew : -9
epoch : 9054 count : 200 rew : -3
epoch : 9055 count : 200 rew : -10
epoch : 9056 count : 200 rew : -8
epoch : 9057 count : 200 rew : 0
epoch : 9058 count : 200 rew : -12
epoch : 9059 count : 200 rew : -10
tensor(156398.8594, grad_fn=<MseLossBackward>) tensor(-8168

epoch : 9212 count : 200 rew : -4
epoch : 9213 count : 200 rew : 0
epoch : 9214 count : 200 rew : -1
epoch : 9215 count : 200 rew : -8
epoch : 9216 count : 200 rew : 0
epoch : 9217 count : 200 rew : -8
epoch : 9218 count : 200 rew : -7
epoch : 9219 count : 200 rew : -8
tensor(139899., grad_fn=<MseLossBackward>) tensor(-39111.1172, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 9220 count : 200 rew : -8
epoch : 9221 count : 200 rew : -12
epoch : 9222 count : 200 rew : -5
epoch : 9223 count : 200 rew : -10
epoch : 9224 count : 200 rew : -1
epoch : 9225 count : 200 rew : -9
epoch : 9226 count : 200 rew : -5
epoch : 9227 count : 200 rew : -12
epoch : 9228 count : 200 rew : -3
epoch : 9229 count : 200 rew : -7
tensor(130298.5547, grad_fn=<MseLossBackward>) tensor(47628.2422, grad_fn=<NegBackward>) tensor(-0.0446, grad_fn=<MulBackward0>)
epoch : 9230 count : 200 rew : -9
epoch : 9231 count : 200 rew : -10
epoch : 9232 count : 200 rew : -8
epoch : 9233 count : 200 rew 

epoch : 9387 count : 200 rew : -4
epoch : 9388 count : 200 rew : -1
epoch : 9389 count : 200 rew : -5
tensor(131634.2812, grad_fn=<MseLossBackward>) tensor(-31000.6191, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 9390 count : 200 rew : -1
epoch : 9391 count : 200 rew : 0
epoch : 9392 count : 200 rew : 0
epoch : 9393 count : 200 rew : -9
epoch : 9394 count : 200 rew : -2
epoch : 9395 count : 200 rew : -1
epoch : 9396 count : 200 rew : -11
epoch : 9397 count : 200 rew : -6
epoch : 9398 count : 200 rew : -3
epoch : 9399 count : 200 rew : -8
tensor(135507.5469, grad_fn=<MseLossBackward>) tensor(-13050.2627, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 9400 count : 200 rew : -2
epoch : 9401 count : 200 rew : -5
epoch : 9402 count : 200 rew : -5
epoch : 9403 count : 200 rew : -7
epoch : 9404 count : 200 rew : -10
epoch : 9405 count : 200 rew : -8
epoch : 9406 count : 200 rew : -6
epoch : 9407 count : 200 rew : -6
epoch : 9408 count : 200 r

tensor(123702.3125, grad_fn=<MseLossBackward>) tensor(-38329.8047, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 9560 count : 200 rew : -1
epoch : 9561 count : 200 rew : -10
epoch : 9562 count : 200 rew : -14
epoch : 9563 count : 200 rew : -11
epoch : 9564 count : 200 rew : -11
epoch : 9565 count : 200 rew : 0
epoch : 9566 count : 200 rew : -3
epoch : 9567 count : 200 rew : 0
epoch : 9568 count : 200 rew : -15
epoch : 9569 count : 200 rew : -7
tensor(130470.7031, grad_fn=<MseLossBackward>) tensor(-3423.6106, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 9570 count : 200 rew : -6
epoch : 9571 count : 200 rew : -3
epoch : 9572 count : 200 rew : -10
epoch : 9573 count : 200 rew : -9
epoch : 9574 count : 200 rew : -6
epoch : 9575 count : 200 rew : -1
epoch : 9576 count : 200 rew : -6
epoch : 9577 count : 200 rew : -4
epoch : 9578 count : 200 rew : 0
epoch : 9579 count : 200 rew : -1
tensor(136904.2656, grad_fn=<MseLossBackward>) tensor(-469

epoch : 9732 count : 200 rew : -6
epoch : 9733 count : 200 rew : -7
epoch : 9734 count : 200 rew : -2
epoch : 9735 count : 200 rew : -10
epoch : 9736 count : 200 rew : 0
epoch : 9737 count : 200 rew : 0
epoch : 9738 count : 200 rew : 0
epoch : 9739 count : 200 rew : -8
tensor(140760.5156, grad_fn=<MseLossBackward>) tensor(-42893.4922, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 9740 count : 200 rew : -5
epoch : 9741 count : 200 rew : -13
epoch : 9742 count : 200 rew : -3
epoch : 9743 count : 200 rew : -7
epoch : 9744 count : 200 rew : -10
epoch : 9745 count : 200 rew : -5
epoch : 9746 count : 200 rew : -8
epoch : 9747 count : 200 rew : -6
epoch : 9748 count : 200 rew : -7
epoch : 9749 count : 200 rew : -3
tensor(132039.6406, grad_fn=<MseLossBackward>) tensor(-8870.7412, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 9750 count : 200 rew : -3
epoch : 9751 count : 200 rew : -3
epoch : 9752 count : 200 rew : 0
epoch : 9753 count : 200 rew

epoch : 9908 count : 200 rew : -7
epoch : 9909 count : 200 rew : -9
tensor(111474.6406, grad_fn=<MseLossBackward>) tensor(-981.2569, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 9910 count : 200 rew : -11
epoch : 9911 count : 200 rew : -6
epoch : 9912 count : 200 rew : -1
epoch : 9913 count : 200 rew : -5
epoch : 9914 count : 200 rew : -13
epoch : 9915 count : 200 rew : -9
epoch : 9916 count : 200 rew : -7
epoch : 9917 count : 200 rew : -1
epoch : 9918 count : 200 rew : 0
epoch : 9919 count : 200 rew : -11
tensor(146316.1406, grad_fn=<MseLossBackward>) tensor(-73389.7031, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 9920 count : 200 rew : -5
epoch : 9921 count : 200 rew : -3
epoch : 9922 count : 200 rew : -5
epoch : 9923 count : 200 rew : -4
epoch : 9924 count : 200 rew : -3
epoch : 9925 count : 200 rew : -2
epoch : 9926 count : 200 rew : -3
epoch : 9927 count : 200 rew : -15
epoch : 9928 count : 200 rew : -4
epoch : 9929 count : 200 

tensor(141411.9219, grad_fn=<MseLossBackward>) tensor(-51857.3164, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 10080 count : 200 rew : -10
epoch : 10081 count : 200 rew : -9
epoch : 10082 count : 200 rew : -6
epoch : 10083 count : 200 rew : -4
epoch : 10084 count : 200 rew : -4
epoch : 10085 count : 200 rew : -5
epoch : 10086 count : 200 rew : -5
epoch : 10087 count : 200 rew : -12
epoch : 10088 count : 200 rew : 0
epoch : 10089 count : 200 rew : -6
tensor(139338.7188, grad_fn=<MseLossBackward>) tensor(-20301.5449, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 10090 count : 200 rew : -3
epoch : 10091 count : 200 rew : -10
epoch : 10092 count : 200 rew : -15
epoch : 10093 count : 200 rew : -1
epoch : 10094 count : 200 rew : -1
epoch : 10095 count : 200 rew : -3
epoch : 10096 count : 200 rew : 0
epoch : 10097 count : 200 rew : -3
epoch : 10098 count : 200 rew : -3
epoch : 10099 count : 200 rew : -9
tensor(124674.6250, grad_fn=<MseLossBa

tensor(144712.4844, grad_fn=<MseLossBackward>) tensor(-38806.9609, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 10250 count : 200 rew : -3
epoch : 10251 count : 200 rew : -11
epoch : 10252 count : 200 rew : -1
epoch : 10253 count : 200 rew : -5
epoch : 10254 count : 200 rew : -3
epoch : 10255 count : 200 rew : -4
epoch : 10256 count : 200 rew : -4
epoch : 10257 count : 200 rew : -2
epoch : 10258 count : 200 rew : -10
epoch : 10259 count : 200 rew : -7
tensor(137362.2500, grad_fn=<MseLossBackward>) tensor(-39352.1406, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 10260 count : 200 rew : -9
epoch : 10261 count : 200 rew : -6
epoch : 10262 count : 200 rew : -1
epoch : 10263 count : 200 rew : -2
epoch : 10264 count : 200 rew : -7
epoch : 10265 count : 200 rew : -3
epoch : 10266 count : 200 rew : -1
epoch : 10267 count : 200 rew : -6
epoch : 10268 count : 200 rew : -3
epoch : 10269 count : 200 rew : -10
tensor(159540.3906, grad_fn=<MseLossB

tensor(115151.8125, grad_fn=<MseLossBackward>) tensor(10110.4053, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 10420 count : 200 rew : -11
epoch : 10421 count : 200 rew : -4
epoch : 10422 count : 200 rew : -3
epoch : 10423 count : 200 rew : -2
epoch : 10424 count : 200 rew : -5
epoch : 10425 count : 200 rew : 0
epoch : 10426 count : 200 rew : -9
epoch : 10427 count : 200 rew : -9
epoch : 10428 count : 200 rew : -4
epoch : 10429 count : 200 rew : -11
tensor(126590.2188, grad_fn=<MseLossBackward>) tensor(-8967.5664, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 10430 count : 200 rew : -9
epoch : 10431 count : 200 rew : -8
epoch : 10432 count : 200 rew : -5
epoch : 10433 count : 200 rew : -3
epoch : 10434 count : 200 rew : -2
epoch : 10435 count : 200 rew : -7
epoch : 10436 count : 200 rew : -4
epoch : 10437 count : 200 rew : -11
epoch : 10438 count : 200 rew : -5
epoch : 10439 count : 200 rew : -1
tensor(120790.7109, grad_fn=<MseLossBack

tensor(127591.0312, grad_fn=<MseLossBackward>) tensor(-49968.6289, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 10590 count : 200 rew : -10
epoch : 10591 count : 200 rew : -9
epoch : 10592 count : 200 rew : -2
epoch : 10593 count : 200 rew : -10
epoch : 10594 count : 200 rew : -4
epoch : 10595 count : 200 rew : -10
epoch : 10596 count : 200 rew : -7
epoch : 10597 count : 200 rew : -1
epoch : 10598 count : 200 rew : 0
epoch : 10599 count : 200 rew : -7
tensor(145126.7500, grad_fn=<MseLossBackward>) tensor(-59995.2148, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 10600 count : 200 rew : 0
epoch : 10601 count : 200 rew : -11
epoch : 10602 count : 200 rew : 0
epoch : 10603 count : 200 rew : -3
epoch : 10604 count : 200 rew : -10
epoch : 10605 count : 200 rew : -9
epoch : 10606 count : 200 rew : -9
epoch : 10607 count : 200 rew : -4
epoch : 10608 count : 200 rew : -2
epoch : 10609 count : 200 rew : -1
tensor(124199.9531, grad_fn=<MseLossBa

tensor(137820.3750, grad_fn=<MseLossBackward>) tensor(-40394.6484, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 10760 count : 200 rew : -10
epoch : 10761 count : 200 rew : -5
epoch : 10762 count : 200 rew : -3
epoch : 10763 count : 200 rew : -4
epoch : 10764 count : 200 rew : -9
epoch : 10765 count : 200 rew : 0
epoch : 10766 count : 200 rew : -8
epoch : 10767 count : 200 rew : -4
epoch : 10768 count : 200 rew : -3
epoch : 10769 count : 200 rew : -4
tensor(130951.4688, grad_fn=<MseLossBackward>) tensor(-21837.7520, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 10770 count : 200 rew : -2
epoch : 10771 count : 200 rew : -7
epoch : 10772 count : 200 rew : -12
epoch : 10773 count : 200 rew : -3
epoch : 10774 count : 200 rew : 0
epoch : 10775 count : 200 rew : -1
epoch : 10776 count : 200 rew : 0
epoch : 10777 count : 200 rew : -12
epoch : 10778 count : 200 rew : -6
epoch : 10779 count : 200 rew : -8
tensor(136237.1562, grad_fn=<MseLossBack

tensor(148236.7031, grad_fn=<MseLossBackward>) tensor(-11638.4717, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 10930 count : 200 rew : -2
epoch : 10931 count : 200 rew : -6
epoch : 10932 count : 200 rew : -7
epoch : 10933 count : 200 rew : -5
epoch : 10934 count : 200 rew : -9
epoch : 10935 count : 200 rew : -8
epoch : 10936 count : 200 rew : -6
epoch : 10937 count : 200 rew : -6
epoch : 10938 count : 200 rew : -10
epoch : 10939 count : 200 rew : 0
tensor(153952.1719, grad_fn=<MseLossBackward>) tensor(-81465.9297, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 10940 count : 200 rew : 0
epoch : 10941 count : 200 rew : -5
epoch : 10942 count : 200 rew : -2
epoch : 10943 count : 200 rew : -10
epoch : 10944 count : 200 rew : 0
epoch : 10945 count : 200 rew : -1
epoch : 10946 count : 200 rew : -1
epoch : 10947 count : 200 rew : -3
epoch : 10948 count : 200 rew : -9
epoch : 10949 count : 200 rew : 0
tensor(110011.4219, grad_fn=<MseLossBackwa

tensor(122080.5156, grad_fn=<MseLossBackward>) tensor(-22516.4180, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 11100 count : 200 rew : -4
epoch : 11101 count : 200 rew : -9
epoch : 11102 count : 200 rew : -9
epoch : 11103 count : 200 rew : -9
epoch : 11104 count : 200 rew : -13
epoch : 11105 count : 200 rew : -1
epoch : 11106 count : 200 rew : -11
epoch : 11107 count : 200 rew : -9
epoch : 11108 count : 200 rew : -5
epoch : 11109 count : 200 rew : -2
tensor(152161.5469, grad_fn=<MseLossBackward>) tensor(-50613.1680, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 11110 count : 200 rew : -5
epoch : 11111 count : 200 rew : -1
epoch : 11112 count : 200 rew : -1
epoch : 11113 count : 200 rew : -7
epoch : 11114 count : 200 rew : -6
epoch : 11115 count : 200 rew : -2
epoch : 11116 count : 200 rew : -11
epoch : 11117 count : 200 rew : -5
epoch : 11118 count : 200 rew : 0
epoch : 11119 count : 200 rew : -4
tensor(118431.6016, grad_fn=<MseLossBa

tensor(153460.2812, grad_fn=<MseLossBackward>) tensor(-64329.3906, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 11270 count : 200 rew : -9
epoch : 11271 count : 200 rew : -10
epoch : 11272 count : 200 rew : -1
epoch : 11273 count : 200 rew : -2
epoch : 11274 count : 200 rew : -4
epoch : 11275 count : 200 rew : -14
epoch : 11276 count : 200 rew : -2
epoch : 11277 count : 200 rew : -7
epoch : 11278 count : 200 rew : -7
epoch : 11279 count : 200 rew : -8
tensor(119732.5234, grad_fn=<MseLossBackward>) tensor(-52328.1016, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 11280 count : 200 rew : -12
epoch : 11281 count : 200 rew : -10
epoch : 11282 count : 200 rew : 0
epoch : 11283 count : 200 rew : -4
epoch : 11284 count : 200 rew : -9
epoch : 11285 count : 200 rew : -9
epoch : 11286 count : 200 rew : -8
epoch : 11287 count : 200 rew : -7
epoch : 11288 count : 200 rew : -7
epoch : 11289 count : 200 rew : -10
tensor(132183.6875, grad_fn=<MseLoss

tensor(123107.3906, grad_fn=<MseLossBackward>) tensor(-5844.2881, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 11440 count : 200 rew : 0
epoch : 11441 count : 200 rew : -10
epoch : 11442 count : 200 rew : -10
epoch : 11443 count : 200 rew : -9
epoch : 11444 count : 200 rew : -4
epoch : 11445 count : 200 rew : -10
epoch : 11446 count : 200 rew : -8
epoch : 11447 count : 200 rew : -1
epoch : 11448 count : 200 rew : -6
epoch : 11449 count : 200 rew : -5
tensor(132292.0312, grad_fn=<MseLossBackward>) tensor(-49663.0156, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 11450 count : 200 rew : -3
epoch : 11451 count : 200 rew : -9
epoch : 11452 count : 200 rew : -12
epoch : 11453 count : 200 rew : -9
epoch : 11454 count : 200 rew : 0
epoch : 11455 count : 200 rew : -2
epoch : 11456 count : 200 rew : -9
epoch : 11457 count : 200 rew : -5
epoch : 11458 count : 200 rew : -5
epoch : 11459 count : 200 rew : -2
tensor(144447.1094, grad_fn=<MseLossBac

tensor(140257.7656, grad_fn=<MseLossBackward>) tensor(-69305.8438, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 11610 count : 200 rew : -6
epoch : 11611 count : 200 rew : -4
epoch : 11612 count : 200 rew : -8
epoch : 11613 count : 200 rew : -5
epoch : 11614 count : 200 rew : -6
epoch : 11615 count : 200 rew : -4
epoch : 11616 count : 200 rew : 0
epoch : 11617 count : 200 rew : -1
epoch : 11618 count : 200 rew : -9
epoch : 11619 count : 200 rew : -9
tensor(131537.4062, grad_fn=<MseLossBackward>) tensor(-17870.9121, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 11620 count : 200 rew : -2
epoch : 11621 count : 200 rew : -8
epoch : 11622 count : 200 rew : -5
epoch : 11623 count : 200 rew : -12
epoch : 11624 count : 200 rew : -5
epoch : 11625 count : 200 rew : -1
epoch : 11626 count : 200 rew : -3
epoch : 11627 count : 200 rew : 0
epoch : 11628 count : 200 rew : -9
epoch : 11629 count : 200 rew : -9
tensor(132807.6719, grad_fn=<MseLossBackw

tensor(117790.7500, grad_fn=<MseLossBackward>) tensor(-14017.0400, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 11780 count : 200 rew : -8
epoch : 11781 count : 200 rew : -7
epoch : 11782 count : 200 rew : -8
epoch : 11783 count : 200 rew : -6
epoch : 11784 count : 200 rew : -4
epoch : 11785 count : 200 rew : -4
epoch : 11786 count : 200 rew : -5
epoch : 11787 count : 200 rew : -13
epoch : 11788 count : 200 rew : -6
epoch : 11789 count : 200 rew : -4
tensor(133895.9375, grad_fn=<MseLossBackward>) tensor(-52579.7266, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 11790 count : 200 rew : -5
epoch : 11791 count : 200 rew : -8
epoch : 11792 count : 200 rew : -1
epoch : 11793 count : 200 rew : -9
epoch : 11794 count : 200 rew : -6
epoch : 11795 count : 200 rew : -12
epoch : 11796 count : 200 rew : -13
epoch : 11797 count : 200 rew : -6
epoch : 11798 count : 200 rew : -13
epoch : 11799 count : 200 rew : -2
tensor(143155.4219, grad_fn=<MseLoss

tensor(131416.4688, grad_fn=<MseLossBackward>) tensor(-37590.5391, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 11950 count : 200 rew : 0
epoch : 11951 count : 200 rew : -10
epoch : 11952 count : 200 rew : -2
epoch : 11953 count : 200 rew : -2
epoch : 11954 count : 200 rew : -3
epoch : 11955 count : 200 rew : -8
epoch : 11956 count : 200 rew : -1
epoch : 11957 count : 200 rew : -6
epoch : 11958 count : 200 rew : -9
epoch : 11959 count : 200 rew : -1
tensor(117091.6094, grad_fn=<MseLossBackward>) tensor(-24715.9785, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 11960 count : 200 rew : -5
epoch : 11961 count : 200 rew : -5
epoch : 11962 count : 200 rew : -6
epoch : 11963 count : 200 rew : -1
epoch : 11964 count : 200 rew : -6
epoch : 11965 count : 200 rew : 0
epoch : 11966 count : 200 rew : -9
epoch : 11967 count : 200 rew : -1
epoch : 11968 count : 200 rew : -13
epoch : 11969 count : 200 rew : -1
tensor(121605.6484, grad_fn=<MseLossBack

tensor(119316.4922, grad_fn=<MseLossBackward>) tensor(-8929.2539, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 12120 count : 200 rew : -3
epoch : 12121 count : 200 rew : -3
epoch : 12122 count : 200 rew : -1
epoch : 12123 count : 200 rew : -7
epoch : 12124 count : 200 rew : -7
epoch : 12125 count : 200 rew : -2
epoch : 12126 count : 200 rew : -3
epoch : 12127 count : 200 rew : -1
epoch : 12128 count : 200 rew : -10
epoch : 12129 count : 200 rew : -8
tensor(134400.1250, grad_fn=<MseLossBackward>) tensor(-18758.8926, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 12130 count : 200 rew : -5
epoch : 12131 count : 200 rew : 0
epoch : 12132 count : 200 rew : -3
epoch : 12133 count : 200 rew : -6
epoch : 12134 count : 200 rew : -9
epoch : 12135 count : 200 rew : -1
epoch : 12136 count : 200 rew : -7
epoch : 12137 count : 200 rew : 0
epoch : 12138 count : 200 rew : 0
epoch : 12139 count : 200 rew : -2
tensor(124997.6797, grad_fn=<MseLossBackwar

tensor(114776.1562, grad_fn=<MseLossBackward>) tensor(8335.1367, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 12290 count : 200 rew : -2
epoch : 12291 count : 200 rew : -7
epoch : 12292 count : 200 rew : -6
epoch : 12293 count : 200 rew : -10
epoch : 12294 count : 200 rew : -3
epoch : 12295 count : 200 rew : -10
epoch : 12296 count : 200 rew : -3
epoch : 12297 count : 200 rew : -3
epoch : 12298 count : 200 rew : -3
epoch : 12299 count : 200 rew : -1
tensor(132505.4844, grad_fn=<MseLossBackward>) tensor(-65234.8203, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 12300 count : 200 rew : -4
epoch : 12301 count : 200 rew : -12
epoch : 12302 count : 200 rew : -5
epoch : 12303 count : 200 rew : -9
epoch : 12304 count : 200 rew : -6
epoch : 12305 count : 200 rew : -2
epoch : 12306 count : 200 rew : -6
epoch : 12307 count : 200 rew : -1
epoch : 12308 count : 200 rew : 0
epoch : 12309 count : 200 rew : 0
tensor(114937.6484, grad_fn=<MseLossBackw

tensor(119284.0078, grad_fn=<MseLossBackward>) tensor(4662.0088, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 12460 count : 200 rew : -7
epoch : 12461 count : 200 rew : -11
epoch : 12462 count : 200 rew : -10
epoch : 12463 count : 200 rew : -2
epoch : 12464 count : 200 rew : -11
epoch : 12465 count : 200 rew : -7
epoch : 12466 count : 200 rew : -5
epoch : 12467 count : 200 rew : -4
epoch : 12468 count : 200 rew : -8
epoch : 12469 count : 200 rew : 0
tensor(151048.3750, grad_fn=<MseLossBackward>) tensor(-86193.5859, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 12470 count : 200 rew : 0
epoch : 12471 count : 200 rew : -4
epoch : 12472 count : 200 rew : -12
epoch : 12473 count : 200 rew : -8
epoch : 12474 count : 200 rew : -6
epoch : 12475 count : 200 rew : -5
epoch : 12476 count : 200 rew : 0
epoch : 12477 count : 200 rew : -6
epoch : 12478 count : 200 rew : -1
epoch : 12479 count : 200 rew : -8
tensor(137778.3281, grad_fn=<MseLossBackw

tensor(115028.9922, grad_fn=<MseLossBackward>) tensor(-8804.6006, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 12630 count : 200 rew : -8
epoch : 12631 count : 200 rew : -2
epoch : 12632 count : 200 rew : -3
epoch : 12633 count : 200 rew : -1
epoch : 12634 count : 200 rew : -8
epoch : 12635 count : 200 rew : -5
epoch : 12636 count : 200 rew : -9
epoch : 12637 count : 200 rew : 0
epoch : 12638 count : 200 rew : -6
epoch : 12639 count : 200 rew : 0
tensor(131695.3906, grad_fn=<MseLossBackward>) tensor(-26033.9766, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 12640 count : 200 rew : -13
epoch : 12641 count : 200 rew : 0
epoch : 12642 count : 200 rew : -1
epoch : 12643 count : 200 rew : -2
epoch : 12644 count : 200 rew : -7
epoch : 12645 count : 200 rew : -1
epoch : 12646 count : 200 rew : -3
epoch : 12647 count : 200 rew : -7
epoch : 12648 count : 200 rew : -3
epoch : 12649 count : 200 rew : 0
tensor(109838.9453, grad_fn=<MseLossBackward

tensor(131776.3125, grad_fn=<MseLossBackward>) tensor(-40016.0742, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 12800 count : 200 rew : -9
epoch : 12801 count : 200 rew : -10
epoch : 12802 count : 200 rew : -10
epoch : 12803 count : 200 rew : -9
epoch : 12804 count : 200 rew : 0
epoch : 12805 count : 200 rew : -3
epoch : 12806 count : 200 rew : 0
epoch : 12807 count : 200 rew : -6
epoch : 12808 count : 200 rew : -1
epoch : 12809 count : 200 rew : 0
tensor(126489.4766, grad_fn=<MseLossBackward>) tensor(-37363.3320, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 12810 count : 200 rew : -6
epoch : 12811 count : 200 rew : -9
epoch : 12812 count : 200 rew : -10
epoch : 12813 count : 200 rew : -8
epoch : 12814 count : 200 rew : -5
epoch : 12815 count : 200 rew : -1
epoch : 12816 count : 200 rew : 0
epoch : 12817 count : 200 rew : 0
epoch : 12818 count : 200 rew : -4
epoch : 12819 count : 200 rew : -2
tensor(133324.7500, grad_fn=<MseLossBackwa

tensor(110096.5312, grad_fn=<MseLossBackward>) tensor(4793.2231, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 12970 count : 200 rew : -6
epoch : 12971 count : 200 rew : -13
epoch : 12972 count : 200 rew : 0
epoch : 12973 count : 200 rew : -13
epoch : 12974 count : 200 rew : -11
epoch : 12975 count : 200 rew : -4
epoch : 12976 count : 200 rew : -12
epoch : 12977 count : 200 rew : -2
epoch : 12978 count : 200 rew : -1
epoch : 12979 count : 200 rew : -12
tensor(106260.5156, grad_fn=<MseLossBackward>) tensor(16440.0586, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 12980 count : 200 rew : -9
epoch : 12981 count : 200 rew : -4
epoch : 12982 count : 200 rew : -9
epoch : 12983 count : 200 rew : -2
epoch : 12984 count : 200 rew : -4
epoch : 12985 count : 200 rew : -2
epoch : 12986 count : 200 rew : -2
epoch : 12987 count : 200 rew : 0
epoch : 12988 count : 200 rew : -13
epoch : 12989 count : 200 rew : -5
tensor(135563.1250, grad_fn=<MseLossBac

tensor(161070.2969, grad_fn=<MseLossBackward>) tensor(-103643.7188, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 13140 count : 200 rew : -4
epoch : 13141 count : 200 rew : -6
epoch : 13142 count : 200 rew : -2
epoch : 13143 count : 200 rew : 0
epoch : 13144 count : 200 rew : -1
epoch : 13145 count : 200 rew : -3
epoch : 13146 count : 200 rew : -6
epoch : 13147 count : 200 rew : -9
epoch : 13148 count : 200 rew : -9
epoch : 13149 count : 200 rew : -3
tensor(131033.1094, grad_fn=<MseLossBackward>) tensor(-57612.8203, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 13150 count : 200 rew : -4
epoch : 13151 count : 200 rew : -8
epoch : 13152 count : 200 rew : -4
epoch : 13153 count : 200 rew : -7
epoch : 13154 count : 200 rew : -14
epoch : 13155 count : 200 rew : -8
epoch : 13156 count : 200 rew : -11
epoch : 13157 count : 200 rew : -7
epoch : 13158 count : 200 rew : -4
epoch : 13159 count : 200 rew : -10
tensor(144441.2969, grad_fn=<MseLossB

tensor(126738.7344, grad_fn=<MseLossBackward>) tensor(-33213.5859, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 13310 count : 200 rew : -3
epoch : 13311 count : 200 rew : -1
epoch : 13312 count : 200 rew : -7
epoch : 13313 count : 200 rew : -6
epoch : 13314 count : 200 rew : -7
epoch : 13315 count : 200 rew : -3
epoch : 13316 count : 200 rew : -9
epoch : 13317 count : 200 rew : -11
epoch : 13318 count : 200 rew : 0
epoch : 13319 count : 200 rew : -7
tensor(111598.6641, grad_fn=<MseLossBackward>) tensor(-27011.1152, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 13320 count : 200 rew : -1
epoch : 13321 count : 200 rew : -5
epoch : 13322 count : 200 rew : -8
epoch : 13323 count : 200 rew : -1
epoch : 13324 count : 200 rew : -1
epoch : 13325 count : 200 rew : 0
epoch : 13326 count : 200 rew : -8
epoch : 13327 count : 200 rew : -9
epoch : 13328 count : 200 rew : -1
epoch : 13329 count : 200 rew : -3
tensor(100660.1562, grad_fn=<MseLossBackw

tensor(134538.2500, grad_fn=<MseLossBackward>) tensor(-93023.0078, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 13480 count : 200 rew : 0
epoch : 13481 count : 200 rew : -10
epoch : 13482 count : 200 rew : -3
epoch : 13483 count : 200 rew : -8
epoch : 13484 count : 200 rew : -4
epoch : 13485 count : 200 rew : -5
epoch : 13486 count : 200 rew : -13
epoch : 13487 count : 200 rew : -9
epoch : 13488 count : 200 rew : -5
epoch : 13489 count : 200 rew : -1
tensor(128215.5938, grad_fn=<MseLossBackward>) tensor(-56471.7695, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 13490 count : 200 rew : -7
epoch : 13491 count : 200 rew : -2
epoch : 13492 count : 200 rew : -9
epoch : 13493 count : 200 rew : -2
epoch : 13494 count : 200 rew : -6
epoch : 13495 count : 200 rew : -6
epoch : 13496 count : 200 rew : -5
epoch : 13497 count : 200 rew : -10
epoch : 13498 count : 200 rew : -10
epoch : 13499 count : 200 rew : -7
tensor(129218.3125, grad_fn=<MseLossB

tensor(134934.4062, grad_fn=<MseLossBackward>) tensor(-71030.8828, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 13650 count : 200 rew : -8
epoch : 13651 count : 200 rew : -3
epoch : 13652 count : 200 rew : -11
epoch : 13653 count : 200 rew : -2
epoch : 13654 count : 200 rew : 0
epoch : 13655 count : 200 rew : -10
epoch : 13656 count : 200 rew : -2
epoch : 13657 count : 200 rew : -5
epoch : 13658 count : 200 rew : -8
epoch : 13659 count : 200 rew : -15
tensor(120722., grad_fn=<MseLossBackward>) tensor(-8796.2207, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 13660 count : 200 rew : -2
epoch : 13661 count : 200 rew : -3
epoch : 13662 count : 200 rew : -8
epoch : 13663 count : 200 rew : -2
epoch : 13664 count : 200 rew : -7
epoch : 13665 count : 200 rew : -2
epoch : 13666 count : 200 rew : -3
epoch : 13667 count : 200 rew : -2
epoch : 13668 count : 200 rew : -9
epoch : 13669 count : 200 rew : -10
tensor(106224.4141, grad_fn=<MseLossBackwa

tensor(123831.3438, grad_fn=<MseLossBackward>) tensor(-9711.9395, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 13820 count : 200 rew : -12
epoch : 13821 count : 200 rew : -5
epoch : 13822 count : 200 rew : -10
epoch : 13823 count : 200 rew : -3
epoch : 13824 count : 200 rew : -5
epoch : 13825 count : 200 rew : -3
epoch : 13826 count : 200 rew : 0
epoch : 13827 count : 200 rew : 0
epoch : 13828 count : 200 rew : -7
epoch : 13829 count : 200 rew : 0
tensor(91690.1797, grad_fn=<MseLossBackward>) tensor(62015.0742, grad_fn=<NegBackward>) tensor(-0.0446, grad_fn=<MulBackward0>)
epoch : 13830 count : 200 rew : -6
epoch : 13831 count : 200 rew : -1
epoch : 13832 count : 200 rew : -5
epoch : 13833 count : 200 rew : -4
epoch : 13834 count : 200 rew : -12
epoch : 13835 count : 200 rew : -10
epoch : 13836 count : 200 rew : -9
epoch : 13837 count : 200 rew : -3
epoch : 13838 count : 200 rew : -5
epoch : 13839 count : 200 rew : -4
tensor(100696.3047, grad_fn=<MseLossBackwa

tensor(142605.8125, grad_fn=<MseLossBackward>) tensor(-25670.9492, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 13990 count : 200 rew : -9
epoch : 13991 count : 200 rew : -8
epoch : 13992 count : 200 rew : -1
epoch : 13993 count : 200 rew : -11
epoch : 13994 count : 200 rew : -13
epoch : 13995 count : 200 rew : -4
epoch : 13996 count : 200 rew : -4
epoch : 13997 count : 200 rew : -6
epoch : 13998 count : 200 rew : -6
epoch : 13999 count : 200 rew : -8
tensor(147696.3281, grad_fn=<MseLossBackward>) tensor(-43098.8906, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 14000 count : 200 rew : -4
epoch : 14001 count : 200 rew : -6
epoch : 14002 count : 200 rew : -4
epoch : 14003 count : 200 rew : -5
epoch : 14004 count : 200 rew : -9
epoch : 14005 count : 200 rew : -3
epoch : 14006 count : 200 rew : -6
epoch : 14007 count : 200 rew : -10
epoch : 14008 count : 200 rew : -8
epoch : 14009 count : 200 rew : -3
tensor(140225.2656, grad_fn=<MseLossB

tensor(133904.3594, grad_fn=<MseLossBackward>) tensor(-19511.2012, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 14160 count : 200 rew : -12
epoch : 14161 count : 200 rew : -2
epoch : 14162 count : 200 rew : -4
epoch : 14163 count : 200 rew : -6
epoch : 14164 count : 200 rew : -8
epoch : 14165 count : 200 rew : -4
epoch : 14166 count : 200 rew : -7
epoch : 14167 count : 200 rew : -5
epoch : 14168 count : 200 rew : -6
epoch : 14169 count : 200 rew : -8
tensor(116464.7109, grad_fn=<MseLossBackward>) tensor(-35465.2539, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 14170 count : 200 rew : -6
epoch : 14171 count : 200 rew : -3
epoch : 14172 count : 200 rew : -1
epoch : 14173 count : 200 rew : -7
epoch : 14174 count : 200 rew : -14
epoch : 14175 count : 200 rew : -3
epoch : 14176 count : 200 rew : 0
epoch : 14177 count : 200 rew : -2
epoch : 14178 count : 200 rew : -2
epoch : 14179 count : 200 rew : -7
tensor(119984.0312, grad_fn=<MseLossBac

tensor(153428.2031, grad_fn=<MseLossBackward>) tensor(-79330.6094, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 14330 count : 200 rew : -7
epoch : 14331 count : 200 rew : -1
epoch : 14332 count : 200 rew : -10
epoch : 14333 count : 200 rew : -2
epoch : 14334 count : 200 rew : 0
epoch : 14335 count : 200 rew : -14
epoch : 14336 count : 200 rew : -2
epoch : 14337 count : 200 rew : -3
epoch : 14338 count : 200 rew : -2
epoch : 14339 count : 200 rew : -1
tensor(97057.1875, grad_fn=<MseLossBackward>) tensor(34899.6250, grad_fn=<NegBackward>) tensor(-0.0451, grad_fn=<MulBackward0>)
epoch : 14340 count : 200 rew : -8
epoch : 14341 count : 200 rew : -7
epoch : 14342 count : 200 rew : -1
epoch : 14343 count : 200 rew : -6
epoch : 14344 count : 200 rew : -6
epoch : 14345 count : 200 rew : -5
epoch : 14346 count : 200 rew : -5
epoch : 14347 count : 200 rew : -9
epoch : 14348 count : 200 rew : -9
epoch : 14349 count : 200 rew : -10
tensor(150423.9688, grad_fn=<MseLossBack

tensor(130322.0469, grad_fn=<MseLossBackward>) tensor(-80463.1562, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 14500 count : 200 rew : -2
epoch : 14501 count : 200 rew : -14
epoch : 14502 count : 200 rew : -6
epoch : 14503 count : 200 rew : -4
epoch : 14504 count : 200 rew : -3
epoch : 14505 count : 200 rew : -12
epoch : 14506 count : 200 rew : -9
epoch : 14507 count : 200 rew : -6
epoch : 14508 count : 200 rew : -11
epoch : 14509 count : 200 rew : -4
tensor(106853.6484, grad_fn=<MseLossBackward>) tensor(52698.3867, grad_fn=<NegBackward>) tensor(-0.0449, grad_fn=<MulBackward0>)
epoch : 14510 count : 200 rew : -1
epoch : 14511 count : 200 rew : -8
epoch : 14512 count : 200 rew : -2
epoch : 14513 count : 200 rew : -4
epoch : 14514 count : 200 rew : -6
epoch : 14515 count : 200 rew : -4
epoch : 14516 count : 200 rew : -2
epoch : 14517 count : 200 rew : -3
epoch : 14518 count : 200 rew : -8
epoch : 14519 count : 200 rew : -10
tensor(146817.5156, grad_fn=<MseLossB

tensor(117140.4844, grad_fn=<MseLossBackward>) tensor(22367.9316, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 14670 count : 200 rew : -6
epoch : 14671 count : 200 rew : -8
epoch : 14672 count : 200 rew : 0
epoch : 14673 count : 200 rew : -3
epoch : 14674 count : 200 rew : -9
epoch : 14675 count : 200 rew : -3
epoch : 14676 count : 200 rew : -6
epoch : 14677 count : 200 rew : -2
epoch : 14678 count : 200 rew : -2
epoch : 14679 count : 200 rew : -6
tensor(121684.4688, grad_fn=<MseLossBackward>) tensor(-20277.4434, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 14680 count : 200 rew : 0
epoch : 14681 count : 200 rew : -7
epoch : 14682 count : 200 rew : -2
epoch : 14683 count : 200 rew : -10
epoch : 14684 count : 200 rew : -9
epoch : 14685 count : 200 rew : -7
epoch : 14686 count : 200 rew : -9
epoch : 14687 count : 200 rew : -10
epoch : 14688 count : 200 rew : -9
epoch : 14689 count : 200 rew : -5
tensor(120909.2266, grad_fn=<MseLossBackw

tensor(124857.4453, grad_fn=<MseLossBackward>) tensor(-27714.6758, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 14840 count : 200 rew : -10
epoch : 14841 count : 200 rew : -7
epoch : 14842 count : 200 rew : -10
epoch : 14843 count : 200 rew : -8
epoch : 14844 count : 200 rew : -9
epoch : 14845 count : 200 rew : -9
epoch : 14846 count : 200 rew : -8
epoch : 14847 count : 200 rew : -9
epoch : 14848 count : 200 rew : -1
epoch : 14849 count : 200 rew : -9
tensor(146206.6406, grad_fn=<MseLossBackward>) tensor(-52420.0703, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 14850 count : 200 rew : -3
epoch : 14851 count : 200 rew : -1
epoch : 14852 count : 200 rew : -5
epoch : 14853 count : 200 rew : -13
epoch : 14854 count : 200 rew : -9
epoch : 14855 count : 200 rew : -8
epoch : 14856 count : 200 rew : -8
epoch : 14857 count : 200 rew : -8
epoch : 14858 count : 200 rew : -8
epoch : 14859 count : 200 rew : -8
tensor(135147.7656, grad_fn=<MseLossB

tensor(110852.6250, grad_fn=<MseLossBackward>) tensor(15173.4072, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 15010 count : 200 rew : -10
epoch : 15011 count : 200 rew : -4
epoch : 15012 count : 200 rew : -12
epoch : 15013 count : 200 rew : 0
epoch : 15014 count : 200 rew : -3
epoch : 15015 count : 200 rew : -15
epoch : 15016 count : 200 rew : -10
epoch : 15017 count : 200 rew : -3
epoch : 15018 count : 200 rew : -8
epoch : 15019 count : 200 rew : -2
tensor(115542.1562, grad_fn=<MseLossBackward>) tensor(20241.6562, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 15020 count : 200 rew : -8
epoch : 15021 count : 200 rew : -3
epoch : 15022 count : 200 rew : -8
epoch : 15023 count : 200 rew : -4
epoch : 15024 count : 200 rew : -8
epoch : 15025 count : 200 rew : -7
epoch : 15026 count : 200 rew : -3
epoch : 15027 count : 200 rew : -12
epoch : 15028 count : 200 rew : -8
epoch : 15029 count : 200 rew : -6
tensor(124788.9844, grad_fn=<MseLossBa

tensor(102976.3906, grad_fn=<MseLossBackward>) tensor(16048.8516, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 15180 count : 200 rew : -4
epoch : 15181 count : 200 rew : -8
epoch : 15182 count : 200 rew : -8
epoch : 15183 count : 200 rew : -5
epoch : 15184 count : 200 rew : 0
epoch : 15185 count : 200 rew : -6
epoch : 15186 count : 200 rew : -6
epoch : 15187 count : 200 rew : -5
epoch : 15188 count : 200 rew : -1
epoch : 15189 count : 200 rew : -1
tensor(124229.1016, grad_fn=<MseLossBackward>) tensor(-4796.7744, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 15190 count : 200 rew : 0
epoch : 15191 count : 200 rew : -3
epoch : 15192 count : 200 rew : -5
epoch : 15193 count : 200 rew : -9
epoch : 15194 count : 200 rew : -13
epoch : 15195 count : 200 rew : -2
epoch : 15196 count : 200 rew : -9
epoch : 15197 count : 200 rew : -4
epoch : 15198 count : 200 rew : -3
epoch : 15199 count : 200 rew : -6
tensor(129734.5547, grad_fn=<MseLossBackwar

tensor(129235.3047, grad_fn=<MseLossBackward>) tensor(-24044.4121, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 15350 count : 200 rew : -9
epoch : 15351 count : 200 rew : -6
epoch : 15352 count : 200 rew : -11
epoch : 15353 count : 200 rew : -7
epoch : 15354 count : 200 rew : -7
epoch : 15355 count : 200 rew : -6
epoch : 15356 count : 200 rew : -8
epoch : 15357 count : 200 rew : -7
epoch : 15358 count : 200 rew : -4
epoch : 15359 count : 200 rew : 0
tensor(137626.1250, grad_fn=<MseLossBackward>) tensor(-62240.2148, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 15360 count : 200 rew : -4
epoch : 15361 count : 200 rew : -9
epoch : 15362 count : 200 rew : -9
epoch : 15363 count : 200 rew : -1
epoch : 15364 count : 200 rew : -1
epoch : 15365 count : 200 rew : -10
epoch : 15366 count : 200 rew : -8
epoch : 15367 count : 200 rew : 0
epoch : 15368 count : 200 rew : -6
epoch : 15369 count : 200 rew : -8
tensor(102995.6562, grad_fn=<MseLossBack

tensor(122348.5938, grad_fn=<MseLossBackward>) tensor(-13931.7148, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 15520 count : 200 rew : -2
epoch : 15521 count : 200 rew : -9
epoch : 15522 count : 200 rew : 0
epoch : 15523 count : 200 rew : -3
epoch : 15524 count : 200 rew : -3
epoch : 15525 count : 200 rew : -1
epoch : 15526 count : 200 rew : -2
epoch : 15527 count : 200 rew : -13
epoch : 15528 count : 200 rew : -6
epoch : 15529 count : 200 rew : -9
tensor(116533.4375, grad_fn=<MseLossBackward>) tensor(-18728.7852, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 15530 count : 200 rew : -6
epoch : 15531 count : 200 rew : -3
epoch : 15532 count : 200 rew : -2
epoch : 15533 count : 200 rew : -8
epoch : 15534 count : 200 rew : -9
epoch : 15535 count : 200 rew : -12
epoch : 15536 count : 200 rew : -7
epoch : 15537 count : 200 rew : -9
epoch : 15538 count : 200 rew : -8
epoch : 15539 count : 200 rew : -6
tensor(147699.3281, grad_fn=<MseLossBac

tensor(125916.4453, grad_fn=<MseLossBackward>) tensor(-28235.4336, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 15690 count : 200 rew : -9
epoch : 15691 count : 200 rew : -9
epoch : 15692 count : 200 rew : -6
epoch : 15693 count : 200 rew : -3
epoch : 15694 count : 200 rew : -9
epoch : 15695 count : 200 rew : -5
epoch : 15696 count : 200 rew : -9
epoch : 15697 count : 200 rew : -5
epoch : 15698 count : 200 rew : -9
epoch : 15699 count : 200 rew : -3
tensor(146965.2656, grad_fn=<MseLossBackward>) tensor(-51568.7734, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 15700 count : 200 rew : -10
epoch : 15701 count : 200 rew : -1
epoch : 15702 count : 200 rew : -7
epoch : 15703 count : 200 rew : 0
epoch : 15704 count : 200 rew : -5
epoch : 15705 count : 200 rew : -8
epoch : 15706 count : 200 rew : -5
epoch : 15707 count : 200 rew : -16
epoch : 15708 count : 200 rew : 0
epoch : 15709 count : 200 rew : -8
tensor(100394.9062, grad_fn=<MseLossBack

tensor(110725.6250, grad_fn=<MseLossBackward>) tensor(14773.8008, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 15860 count : 200 rew : -3
epoch : 15861 count : 200 rew : -3
epoch : 15862 count : 200 rew : -11
epoch : 15863 count : 200 rew : 0
epoch : 15864 count : 200 rew : -6
epoch : 15865 count : 200 rew : -7
epoch : 15866 count : 200 rew : -5
epoch : 15867 count : 200 rew : -8
epoch : 15868 count : 200 rew : -9
epoch : 15869 count : 200 rew : -3
tensor(110653.9688, grad_fn=<MseLossBackward>) tensor(-575.2687, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 15870 count : 200 rew : -5
epoch : 15871 count : 200 rew : -5
epoch : 15872 count : 200 rew : 0
epoch : 15873 count : 200 rew : -7
epoch : 15874 count : 200 rew : -8
epoch : 15875 count : 200 rew : -11
epoch : 15876 count : 200 rew : -6
epoch : 15877 count : 200 rew : -6
epoch : 15878 count : 200 rew : -4
epoch : 15879 count : 200 rew : -13
tensor(136861.0469, grad_fn=<MseLossBackwa

tensor(136055.6406, grad_fn=<MseLossBackward>) tensor(-61039.5664, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 16030 count : 200 rew : -3
epoch : 16031 count : 200 rew : -5
epoch : 16032 count : 200 rew : -9
epoch : 16033 count : 200 rew : -4
epoch : 16034 count : 200 rew : -9
epoch : 16035 count : 200 rew : -4
epoch : 16036 count : 200 rew : -1
epoch : 16037 count : 200 rew : -7
epoch : 16038 count : 200 rew : -1
epoch : 16039 count : 200 rew : -6
tensor(108496.1484, grad_fn=<MseLossBackward>) tensor(15601.5645, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 16040 count : 200 rew : -7
epoch : 16041 count : 200 rew : 0
epoch : 16042 count : 200 rew : -11
epoch : 16043 count : 200 rew : -3
epoch : 16044 count : 200 rew : -4
epoch : 16045 count : 200 rew : -7
epoch : 16046 count : 200 rew : -2
epoch : 16047 count : 200 rew : -5
epoch : 16048 count : 200 rew : 0
epoch : 16049 count : 200 rew : -5
tensor(105145.0078, grad_fn=<MseLossBackwa

tensor(114686.2188, grad_fn=<MseLossBackward>) tensor(-900.2068, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 16200 count : 200 rew : -4
epoch : 16201 count : 200 rew : -10
epoch : 16202 count : 200 rew : -7
epoch : 16203 count : 200 rew : -3
epoch : 16204 count : 200 rew : -5
epoch : 16205 count : 200 rew : -1
epoch : 16206 count : 200 rew : -8
epoch : 16207 count : 200 rew : 0
epoch : 16208 count : 200 rew : -2
epoch : 16209 count : 200 rew : -6
tensor(118350.6406, grad_fn=<MseLossBackward>) tensor(3989.1553, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 16210 count : 200 rew : -10
epoch : 16211 count : 200 rew : -9
epoch : 16212 count : 200 rew : -7
epoch : 16213 count : 200 rew : -7
epoch : 16214 count : 200 rew : -3
epoch : 16215 count : 200 rew : -11
epoch : 16216 count : 200 rew : -1
epoch : 16217 count : 200 rew : -5
epoch : 16218 count : 200 rew : -2
epoch : 16219 count : 200 rew : -9
tensor(130145.4766, grad_fn=<MseLossBackwa

tensor(150627.8750, grad_fn=<MseLossBackward>) tensor(-97352.6016, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 16370 count : 200 rew : -6
epoch : 16371 count : 200 rew : -4
epoch : 16372 count : 200 rew : -2
epoch : 16373 count : 200 rew : -1
epoch : 16374 count : 200 rew : -8
epoch : 16375 count : 200 rew : -8
epoch : 16376 count : 200 rew : -6
epoch : 16377 count : 200 rew : -3
epoch : 16378 count : 200 rew : -5
epoch : 16379 count : 200 rew : -10
tensor(124929.2578, grad_fn=<MseLossBackward>) tensor(-15858.1230, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 16380 count : 200 rew : -9
epoch : 16381 count : 200 rew : 0
epoch : 16382 count : 200 rew : -7
epoch : 16383 count : 200 rew : -2
epoch : 16384 count : 200 rew : -6
epoch : 16385 count : 200 rew : -6
epoch : 16386 count : 200 rew : -2
epoch : 16387 count : 200 rew : -14
epoch : 16388 count : 200 rew : -3
epoch : 16389 count : 200 rew : -8
tensor(127005.2344, grad_fn=<MseLossBac

tensor(112833.9375, grad_fn=<MseLossBackward>) tensor(47254.5742, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 16540 count : 200 rew : -1
epoch : 16541 count : 200 rew : -3
epoch : 16542 count : 200 rew : -8
epoch : 16543 count : 200 rew : 0
epoch : 16544 count : 200 rew : -6
epoch : 16545 count : 200 rew : -7
epoch : 16546 count : 200 rew : -9
epoch : 16547 count : 200 rew : -11
epoch : 16548 count : 200 rew : -6
epoch : 16549 count : 200 rew : -12
tensor(119772.5859, grad_fn=<MseLossBackward>) tensor(17862.0254, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 16550 count : 200 rew : -5
epoch : 16551 count : 200 rew : -6
epoch : 16552 count : 200 rew : -5
epoch : 16553 count : 200 rew : -5
epoch : 16554 count : 200 rew : -9
epoch : 16555 count : 200 rew : -11
epoch : 16556 count : 200 rew : -4
epoch : 16557 count : 200 rew : -6
epoch : 16558 count : 200 rew : -3
epoch : 16559 count : 200 rew : -4
tensor(144830.9375, grad_fn=<MseLossBack

tensor(114523.6797, grad_fn=<MseLossBackward>) tensor(21241.8105, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 16710 count : 200 rew : -9
epoch : 16711 count : 200 rew : 0
epoch : 16712 count : 200 rew : -1
epoch : 16713 count : 200 rew : -4
epoch : 16714 count : 200 rew : -10
epoch : 16715 count : 200 rew : -5
epoch : 16716 count : 200 rew : -6
epoch : 16717 count : 200 rew : -1
epoch : 16718 count : 200 rew : -1
epoch : 16719 count : 200 rew : -10
tensor(135927.0938, grad_fn=<MseLossBackward>) tensor(-54974.9570, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 16720 count : 200 rew : 0
epoch : 16721 count : 200 rew : -12
epoch : 16722 count : 200 rew : -9
epoch : 16723 count : 200 rew : -5
epoch : 16724 count : 200 rew : -3
epoch : 16725 count : 200 rew : -1
epoch : 16726 count : 200 rew : -15
epoch : 16727 count : 200 rew : -8
epoch : 16728 count : 200 rew : -2
epoch : 16729 count : 200 rew : -4
tensor(132074.5469, grad_fn=<MseLossBac

tensor(114423.7891, grad_fn=<MseLossBackward>) tensor(67.3276, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 16880 count : 200 rew : 0
epoch : 16881 count : 200 rew : -10
epoch : 16882 count : 200 rew : -1
epoch : 16883 count : 200 rew : -9
epoch : 16884 count : 200 rew : 0
epoch : 16885 count : 200 rew : -4
epoch : 16886 count : 200 rew : -2
epoch : 16887 count : 200 rew : -3
epoch : 16888 count : 200 rew : -6
epoch : 16889 count : 200 rew : -2
tensor(108354.3594, grad_fn=<MseLossBackward>) tensor(-11680.9775, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 16890 count : 200 rew : -1
epoch : 16891 count : 200 rew : -12
epoch : 16892 count : 200 rew : -5
epoch : 16893 count : 200 rew : -9
epoch : 16894 count : 200 rew : -3
epoch : 16895 count : 200 rew : -11
epoch : 16896 count : 200 rew : -6
epoch : 16897 count : 200 rew : -9
epoch : 16898 count : 200 rew : -9
epoch : 16899 count : 200 rew : -1
tensor(137658.0781, grad_fn=<MseLossBackwar

tensor(122939.2734, grad_fn=<MseLossBackward>) tensor(-11968.4248, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 17050 count : 200 rew : -8
epoch : 17051 count : 200 rew : 0
epoch : 17052 count : 200 rew : 0
epoch : 17053 count : 200 rew : 0
epoch : 17054 count : 200 rew : -9
epoch : 17055 count : 200 rew : -12
epoch : 17056 count : 200 rew : -7
epoch : 17057 count : 200 rew : -8
epoch : 17058 count : 200 rew : -8
epoch : 17059 count : 200 rew : -9
tensor(103322.6719, grad_fn=<MseLossBackward>) tensor(32908.2031, grad_fn=<NegBackward>) tensor(-0.0454, grad_fn=<MulBackward0>)
epoch : 17060 count : 200 rew : -3
epoch : 17061 count : 200 rew : -12
epoch : 17062 count : 200 rew : -6
epoch : 17063 count : 200 rew : -11
epoch : 17064 count : 200 rew : -9
epoch : 17065 count : 200 rew : -1
epoch : 17066 count : 200 rew : -4
epoch : 17067 count : 200 rew : -11
epoch : 17068 count : 200 rew : -2
epoch : 17069 count : 200 rew : -1
tensor(113959.4141, grad_fn=<MseLossBack

tensor(105157.8438, grad_fn=<MseLossBackward>) tensor(11516.1934, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 17220 count : 200 rew : -9
epoch : 17221 count : 200 rew : -4
epoch : 17222 count : 200 rew : -4
epoch : 17223 count : 200 rew : -12
epoch : 17224 count : 200 rew : -2
epoch : 17225 count : 200 rew : -12
epoch : 17226 count : 200 rew : -8
epoch : 17227 count : 200 rew : -14
epoch : 17228 count : 200 rew : -8
epoch : 17229 count : 200 rew : -11
tensor(115635.2422, grad_fn=<MseLossBackward>) tensor(2742.0952, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 17230 count : 200 rew : -13
epoch : 17231 count : 200 rew : -10
epoch : 17232 count : 200 rew : -3
epoch : 17233 count : 200 rew : -4
epoch : 17234 count : 200 rew : -8
epoch : 17235 count : 200 rew : -7
epoch : 17236 count : 200 rew : -9
epoch : 17237 count : 200 rew : -3
epoch : 17238 count : 200 rew : -5
epoch : 17239 count : 200 rew : -5
tensor(121306.8672, grad_fn=<MseLossB

tensor(121936.7969, grad_fn=<MseLossBackward>) tensor(-3883.8049, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 17390 count : 200 rew : -6
epoch : 17391 count : 200 rew : -9
epoch : 17392 count : 200 rew : -10
epoch : 17393 count : 200 rew : -5
epoch : 17394 count : 200 rew : -11
epoch : 17395 count : 200 rew : -8
epoch : 17396 count : 200 rew : 0
epoch : 17397 count : 200 rew : 0
epoch : 17398 count : 200 rew : -1
epoch : 17399 count : 200 rew : -6
tensor(134707.7344, grad_fn=<MseLossBackward>) tensor(-35711.9023, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 17400 count : 200 rew : -1
epoch : 17401 count : 200 rew : -5
epoch : 17402 count : 200 rew : -4
epoch : 17403 count : 200 rew : -10
epoch : 17404 count : 200 rew : -7
epoch : 17405 count : 200 rew : -3
epoch : 17406 count : 200 rew : -6
epoch : 17407 count : 200 rew : -8
epoch : 17408 count : 200 rew : -11
epoch : 17409 count : 200 rew : 0
tensor(124002.8516, grad_fn=<MseLossBack

tensor(153426.8594, grad_fn=<MseLossBackward>) tensor(-68937.4922, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 17560 count : 200 rew : -7
epoch : 17561 count : 200 rew : -13
epoch : 17562 count : 200 rew : 0
epoch : 17563 count : 200 rew : -6
epoch : 17564 count : 200 rew : -2
epoch : 17565 count : 200 rew : -1
epoch : 17566 count : 200 rew : 0
epoch : 17567 count : 200 rew : -3
epoch : 17568 count : 200 rew : -4
epoch : 17569 count : 200 rew : -3
tensor(105842.2422, grad_fn=<MseLossBackward>) tensor(39365.2383, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 17570 count : 200 rew : -7
epoch : 17571 count : 200 rew : -1
epoch : 17572 count : 200 rew : -8
epoch : 17573 count : 200 rew : -11
epoch : 17574 count : 200 rew : -4
epoch : 17575 count : 200 rew : -10
epoch : 17576 count : 200 rew : -3
epoch : 17577 count : 200 rew : -13
epoch : 17578 count : 200 rew : -12
epoch : 17579 count : 200 rew : -9
tensor(126260.1875, grad_fn=<MseLossBa

tensor(108033.3125, grad_fn=<MseLossBackward>) tensor(29868.5430, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 17730 count : 200 rew : -1
epoch : 17731 count : 200 rew : -10
epoch : 17732 count : 200 rew : 0
epoch : 17733 count : 200 rew : -7
epoch : 17734 count : 200 rew : -7
epoch : 17735 count : 200 rew : -9
epoch : 17736 count : 200 rew : -10
epoch : 17737 count : 200 rew : -10
epoch : 17738 count : 200 rew : -5
epoch : 17739 count : 200 rew : -4
tensor(124195.4062, grad_fn=<MseLossBackward>) tensor(-17616.2559, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 17740 count : 200 rew : -4
epoch : 17741 count : 200 rew : -3
epoch : 17742 count : 200 rew : -3
epoch : 17743 count : 200 rew : -4
epoch : 17744 count : 200 rew : -10
epoch : 17745 count : 200 rew : -8
epoch : 17746 count : 200 rew : -9
epoch : 17747 count : 200 rew : 0
epoch : 17748 count : 200 rew : -4
epoch : 17749 count : 200 rew : -2
tensor(123473., grad_fn=<MseLossBackwar

tensor(126228.6016, grad_fn=<MseLossBackward>) tensor(-18594.3105, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 17900 count : 200 rew : -4
epoch : 17901 count : 200 rew : -6
epoch : 17902 count : 200 rew : -11
epoch : 17903 count : 200 rew : -1
epoch : 17904 count : 200 rew : -4
epoch : 17905 count : 200 rew : -8
epoch : 17906 count : 200 rew : -5
epoch : 17907 count : 200 rew : -8
epoch : 17908 count : 200 rew : 0
epoch : 17909 count : 200 rew : -7
tensor(127816.0703, grad_fn=<MseLossBackward>) tensor(-37662.8555, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 17910 count : 200 rew : -4
epoch : 17911 count : 200 rew : -8
epoch : 17912 count : 200 rew : -6
epoch : 17913 count : 200 rew : -11
epoch : 17914 count : 200 rew : -6
epoch : 17915 count : 200 rew : -6
epoch : 17916 count : 200 rew : -10
epoch : 17917 count : 200 rew : -1
epoch : 17918 count : 200 rew : -4
epoch : 17919 count : 200 rew : -7
tensor(125788.0938, grad_fn=<MseLossBa

tensor(118960.7109, grad_fn=<MseLossBackward>) tensor(12137.1738, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 18070 count : 200 rew : -5
epoch : 18071 count : 200 rew : -10
epoch : 18072 count : 200 rew : -9
epoch : 18073 count : 200 rew : -8
epoch : 18074 count : 200 rew : -2
epoch : 18075 count : 200 rew : 0
epoch : 18076 count : 200 rew : -4
epoch : 18077 count : 200 rew : 0
epoch : 18078 count : 200 rew : -7
epoch : 18079 count : 200 rew : -9
tensor(134286., grad_fn=<MseLossBackward>) tensor(-64819.4297, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 18080 count : 200 rew : -4
epoch : 18081 count : 200 rew : -8
epoch : 18082 count : 200 rew : -7
epoch : 18083 count : 200 rew : -11
epoch : 18084 count : 200 rew : -1
epoch : 18085 count : 200 rew : 0
epoch : 18086 count : 200 rew : -6
epoch : 18087 count : 200 rew : -11
epoch : 18088 count : 200 rew : -5
epoch : 18089 count : 200 rew : -7
tensor(122533.5859, grad_fn=<MseLossBackward>

tensor(114861.7266, grad_fn=<MseLossBackward>) tensor(30688.0508, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 18240 count : 200 rew : 0
epoch : 18241 count : 200 rew : 0
epoch : 18242 count : 200 rew : -1
epoch : 18243 count : 200 rew : -9
epoch : 18244 count : 200 rew : -9
epoch : 18245 count : 200 rew : -14
epoch : 18246 count : 200 rew : -3
epoch : 18247 count : 200 rew : -6
epoch : 18248 count : 200 rew : -8
epoch : 18249 count : 200 rew : -6
tensor(119044.2656, grad_fn=<MseLossBackward>) tensor(-16010.5264, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 18250 count : 200 rew : -4
epoch : 18251 count : 200 rew : -4
epoch : 18252 count : 200 rew : -1
epoch : 18253 count : 200 rew : -6
epoch : 18254 count : 200 rew : -2
epoch : 18255 count : 200 rew : -9
epoch : 18256 count : 200 rew : -2
epoch : 18257 count : 200 rew : -1
epoch : 18258 count : 200 rew : -3
epoch : 18259 count : 200 rew : -11
tensor(100051.6016, grad_fn=<MseLossBackw

tensor(129592.1797, grad_fn=<MseLossBackward>) tensor(-62680.0898, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 18410 count : 200 rew : -1
epoch : 18411 count : 200 rew : -1
epoch : 18412 count : 200 rew : -8
epoch : 18413 count : 200 rew : -4
epoch : 18414 count : 200 rew : -9
epoch : 18415 count : 200 rew : -3
epoch : 18416 count : 200 rew : 0
epoch : 18417 count : 200 rew : -8
epoch : 18418 count : 200 rew : -5
epoch : 18419 count : 200 rew : -1
tensor(132633.8281, grad_fn=<MseLossBackward>) tensor(-46926.5078, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 18420 count : 200 rew : -1
epoch : 18421 count : 200 rew : -1
epoch : 18422 count : 200 rew : -8
epoch : 18423 count : 200 rew : -8
epoch : 18424 count : 200 rew : -11
epoch : 18425 count : 200 rew : -8
epoch : 18426 count : 200 rew : -5
epoch : 18427 count : 200 rew : -8
epoch : 18428 count : 200 rew : -1
epoch : 18429 count : 200 rew : 0
tensor(122089.1016, grad_fn=<MseLossBackw

tensor(148283.2188, grad_fn=<MseLossBackward>) tensor(-54693.2578, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 18580 count : 200 rew : -9
epoch : 18581 count : 200 rew : -8
epoch : 18582 count : 200 rew : -11
epoch : 18583 count : 200 rew : -2
epoch : 18584 count : 200 rew : -2
epoch : 18585 count : 200 rew : -5
epoch : 18586 count : 200 rew : -8
epoch : 18587 count : 200 rew : -6
epoch : 18588 count : 200 rew : 0
epoch : 18589 count : 200 rew : -3
tensor(118400.1016, grad_fn=<MseLossBackward>) tensor(-22487.2578, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 18590 count : 200 rew : -7
epoch : 18591 count : 200 rew : -9
epoch : 18592 count : 200 rew : -2
epoch : 18593 count : 200 rew : -1
epoch : 18594 count : 200 rew : -11
epoch : 18595 count : 200 rew : -10
epoch : 18596 count : 200 rew : -6
epoch : 18597 count : 200 rew : -1
epoch : 18598 count : 200 rew : -8
epoch : 18599 count : 200 rew : -9
tensor(137804.4688, grad_fn=<MseLossBa

tensor(131237.9844, grad_fn=<MseLossBackward>) tensor(-40948.1016, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 18750 count : 200 rew : -7
epoch : 18751 count : 200 rew : 0
epoch : 18752 count : 200 rew : 0
epoch : 18753 count : 200 rew : -3
epoch : 18754 count : 200 rew : -8
epoch : 18755 count : 200 rew : -10
epoch : 18756 count : 200 rew : -3
epoch : 18757 count : 200 rew : -10
epoch : 18758 count : 200 rew : -7
epoch : 18759 count : 200 rew : -2
tensor(123114.2812, grad_fn=<MseLossBackward>) tensor(-19253.1348, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 18760 count : 200 rew : -8
epoch : 18761 count : 200 rew : -3
epoch : 18762 count : 200 rew : -5
epoch : 18763 count : 200 rew : -5
epoch : 18764 count : 200 rew : -9
epoch : 18765 count : 200 rew : -8
epoch : 18766 count : 200 rew : -8
epoch : 18767 count : 200 rew : -7
epoch : 18768 count : 200 rew : -1
epoch : 18769 count : 200 rew : 0
tensor(141360.6562, grad_fn=<MseLossBackw

tensor(120440.1562, grad_fn=<MseLossBackward>) tensor(-6281.0210, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 18920 count : 200 rew : -4
epoch : 18921 count : 200 rew : -3
epoch : 18922 count : 200 rew : -4
epoch : 18923 count : 200 rew : -8
epoch : 18924 count : 200 rew : -16
epoch : 18925 count : 200 rew : -6
epoch : 18926 count : 200 rew : 0
epoch : 18927 count : 200 rew : -2
epoch : 18928 count : 200 rew : -15
epoch : 18929 count : 200 rew : -9
tensor(101063.0234, grad_fn=<MseLossBackward>) tensor(37034.0273, grad_fn=<NegBackward>) tensor(-0.0455, grad_fn=<MulBackward0>)
epoch : 18930 count : 200 rew : -4
epoch : 18931 count : 200 rew : -6
epoch : 18932 count : 200 rew : -7
epoch : 18933 count : 200 rew : -2
epoch : 18934 count : 200 rew : -5
epoch : 18935 count : 200 rew : -5
epoch : 18936 count : 200 rew : -2
epoch : 18937 count : 200 rew : -4
epoch : 18938 count : 200 rew : -10
epoch : 18939 count : 200 rew : -9
tensor(118259.7734, grad_fn=<MseLossBack

tensor(122495.5078, grad_fn=<MseLossBackward>) tensor(-38714.1055, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 19090 count : 200 rew : 0
epoch : 19091 count : 200 rew : -11
epoch : 19092 count : 200 rew : -6
epoch : 19093 count : 200 rew : -11
epoch : 19094 count : 200 rew : -9
epoch : 19095 count : 200 rew : -4
epoch : 19096 count : 200 rew : -6
epoch : 19097 count : 200 rew : -1
epoch : 19098 count : 200 rew : 0
epoch : 19099 count : 200 rew : -9
tensor(105530.7578, grad_fn=<MseLossBackward>) tensor(25470.8359, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 19100 count : 200 rew : -2
epoch : 19101 count : 200 rew : -4
epoch : 19102 count : 200 rew : -1
epoch : 19103 count : 200 rew : -15
epoch : 19104 count : 200 rew : -8
epoch : 19105 count : 200 rew : -3
epoch : 19106 count : 200 rew : -1
epoch : 19107 count : 200 rew : -7
epoch : 19108 count : 200 rew : -2
epoch : 19109 count : 200 rew : -6
tensor(109532.7266, grad_fn=<MseLossBack

tensor(107942.8047, grad_fn=<MseLossBackward>) tensor(14088.7568, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 19260 count : 200 rew : 0
epoch : 19261 count : 200 rew : -5
epoch : 19262 count : 200 rew : -5
epoch : 19263 count : 200 rew : 0
epoch : 19264 count : 200 rew : -3
epoch : 19265 count : 200 rew : -3
epoch : 19266 count : 200 rew : -9
epoch : 19267 count : 200 rew : -13
epoch : 19268 count : 200 rew : -7
epoch : 19269 count : 200 rew : -2
tensor(107725.6016, grad_fn=<MseLossBackward>) tensor(15350.6338, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 19270 count : 200 rew : -6
epoch : 19271 count : 200 rew : -6
epoch : 19272 count : 200 rew : -6
epoch : 19273 count : 200 rew : -9
epoch : 19274 count : 200 rew : -10
epoch : 19275 count : 200 rew : -6
epoch : 19276 count : 200 rew : -6
epoch : 19277 count : 200 rew : -1
epoch : 19278 count : 200 rew : -4
epoch : 19279 count : 200 rew : -16
tensor(117750.2500, grad_fn=<MseLossBackw

tensor(121829.3281, grad_fn=<MseLossBackward>) tensor(-4428.7100, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 19430 count : 200 rew : -1
epoch : 19431 count : 200 rew : -8
epoch : 19432 count : 200 rew : -2
epoch : 19433 count : 200 rew : -6
epoch : 19434 count : 200 rew : -9
epoch : 19435 count : 200 rew : -7
epoch : 19436 count : 200 rew : -4
epoch : 19437 count : 200 rew : -4
epoch : 19438 count : 200 rew : -1
epoch : 19439 count : 200 rew : -15
tensor(96525.8750, grad_fn=<MseLossBackward>) tensor(44868.4961, grad_fn=<NegBackward>) tensor(-0.0452, grad_fn=<MulBackward0>)
epoch : 19440 count : 200 rew : 0
epoch : 19441 count : 200 rew : -8
epoch : 19442 count : 200 rew : -5
epoch : 19443 count : 200 rew : -8
epoch : 19444 count : 200 rew : -12
epoch : 19445 count : 200 rew : -12
epoch : 19446 count : 200 rew : -11
epoch : 19447 count : 200 rew : -4
epoch : 19448 count : 200 rew : -8
epoch : 19449 count : 200 rew : -7
tensor(133948.6719, grad_fn=<MseLossBack

tensor(102800.0391, grad_fn=<MseLossBackward>) tensor(41815.5117, grad_fn=<NegBackward>) tensor(-0.0453, grad_fn=<MulBackward0>)
epoch : 19600 count : 200 rew : -5
epoch : 19601 count : 200 rew : -6
epoch : 19602 count : 200 rew : -9
epoch : 19603 count : 200 rew : -7
epoch : 19604 count : 200 rew : -13
epoch : 19605 count : 200 rew : -1
epoch : 19606 count : 200 rew : -2
epoch : 19607 count : 200 rew : -8
epoch : 19608 count : 200 rew : -12
epoch : 19609 count : 200 rew : -11
tensor(131500.8125, grad_fn=<MseLossBackward>) tensor(-48771.0938, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 19610 count : 200 rew : -1
epoch : 19611 count : 200 rew : -6
epoch : 19612 count : 200 rew : -10
epoch : 19613 count : 200 rew : -6
epoch : 19614 count : 200 rew : -11
epoch : 19615 count : 200 rew : -12
epoch : 19616 count : 200 rew : -7
epoch : 19617 count : 200 rew : 0
epoch : 19618 count : 200 rew : -8
epoch : 19619 count : 200 rew : -9
tensor(121093.7031, grad_fn=<MseLoss

tensor(119334.0391, grad_fn=<MseLossBackward>) tensor(-13848.3584, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 19770 count : 200 rew : 0
epoch : 19771 count : 200 rew : 0
epoch : 19772 count : 200 rew : -1
epoch : 19773 count : 200 rew : -2
epoch : 19774 count : 200 rew : -3
epoch : 19775 count : 200 rew : -5
epoch : 19776 count : 200 rew : -3
epoch : 19777 count : 200 rew : -3
epoch : 19778 count : 200 rew : -3
epoch : 19779 count : 200 rew : -3
tensor(96119.7656, grad_fn=<MseLossBackward>) tensor(27950.0762, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 19780 count : 200 rew : -10
epoch : 19781 count : 200 rew : 0
epoch : 19782 count : 200 rew : -9
epoch : 19783 count : 200 rew : -5
epoch : 19784 count : 200 rew : -8
epoch : 19785 count : 200 rew : -6
epoch : 19786 count : 200 rew : -1
epoch : 19787 count : 200 rew : 0
epoch : 19788 count : 200 rew : -2
epoch : 19789 count : 200 rew : -8
tensor(118270.4766, grad_fn=<MseLossBackward>

tensor(101281.3750, grad_fn=<MseLossBackward>) tensor(19108.4297, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 19940 count : 200 rew : -1
epoch : 19941 count : 200 rew : -3
epoch : 19942 count : 200 rew : -4
epoch : 19943 count : 200 rew : -8
epoch : 19944 count : 200 rew : -5
epoch : 19945 count : 200 rew : 0
epoch : 19946 count : 200 rew : -9
epoch : 19947 count : 200 rew : -3
epoch : 19948 count : 200 rew : -5
epoch : 19949 count : 200 rew : -3
tensor(110388.1328, grad_fn=<MseLossBackward>) tensor(-20714.7109, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 19950 count : 200 rew : -3
epoch : 19951 count : 200 rew : -5
epoch : 19952 count : 200 rew : 0
epoch : 19953 count : 200 rew : -4
epoch : 19954 count : 200 rew : -13
epoch : 19955 count : 200 rew : -2
epoch : 19956 count : 200 rew : 0
epoch : 19957 count : 200 rew : -10
epoch : 19958 count : 200 rew : -2
epoch : 19959 count : 200 rew : -3
tensor(118052., grad_fn=<MseLossBackward>)

tensor(96185.2344, grad_fn=<MseLossBackward>) tensor(44816.8438, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 20110 count : 200 rew : -3
epoch : 20111 count : 200 rew : -1
epoch : 20112 count : 200 rew : -10
epoch : 20113 count : 200 rew : -5
epoch : 20114 count : 200 rew : -5
epoch : 20115 count : 200 rew : -6
epoch : 20116 count : 200 rew : -13
epoch : 20117 count : 200 rew : -9
epoch : 20118 count : 200 rew : -8
epoch : 20119 count : 200 rew : -8
tensor(129233.6250, grad_fn=<MseLossBackward>) tensor(-40233.8242, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 20120 count : 200 rew : -1
epoch : 20121 count : 200 rew : -6
epoch : 20122 count : 200 rew : -7
epoch : 20123 count : 200 rew : -9
epoch : 20124 count : 200 rew : -4
epoch : 20125 count : 200 rew : -3
epoch : 20126 count : 200 rew : -9
epoch : 20127 count : 200 rew : -11
epoch : 20128 count : 200 rew : -6
epoch : 20129 count : 200 rew : -3
tensor(129924.2812, grad_fn=<MseLossBac

tensor(133217.1094, grad_fn=<MseLossBackward>) tensor(-73383.9297, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 20280 count : 200 rew : -4
epoch : 20281 count : 200 rew : -9
epoch : 20282 count : 200 rew : -3
epoch : 20283 count : 200 rew : -10
epoch : 20284 count : 200 rew : -6
epoch : 20285 count : 200 rew : -9
epoch : 20286 count : 200 rew : -1
epoch : 20287 count : 200 rew : -1
epoch : 20288 count : 200 rew : -7
epoch : 20289 count : 200 rew : -12
tensor(118055.5547, grad_fn=<MseLossBackward>) tensor(-35359.7305, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 20290 count : 200 rew : -8
epoch : 20291 count : 200 rew : -7
epoch : 20292 count : 200 rew : -4
epoch : 20293 count : 200 rew : -8
epoch : 20294 count : 200 rew : -6
epoch : 20295 count : 200 rew : -7
epoch : 20296 count : 200 rew : -7
epoch : 20297 count : 200 rew : -2
epoch : 20298 count : 200 rew : 0
epoch : 20299 count : 200 rew : -2
tensor(128740.8906, grad_fn=<MseLossBac

tensor(101337.2891, grad_fn=<MseLossBackward>) tensor(27970.9980, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 20450 count : 200 rew : -7
epoch : 20451 count : 200 rew : -6
epoch : 20452 count : 200 rew : -10
epoch : 20453 count : 200 rew : -9
epoch : 20454 count : 200 rew : 0
epoch : 20455 count : 200 rew : -12
epoch : 20456 count : 200 rew : -3
epoch : 20457 count : 200 rew : -12
epoch : 20458 count : 200 rew : -12
epoch : 20459 count : 200 rew : 0
tensor(103793.1172, grad_fn=<MseLossBackward>) tensor(26447.9902, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 20460 count : 200 rew : -4
epoch : 20461 count : 200 rew : -9
epoch : 20462 count : 200 rew : 0
epoch : 20463 count : 200 rew : 0
epoch : 20464 count : 200 rew : 0
epoch : 20465 count : 200 rew : -5
epoch : 20466 count : 200 rew : -9
epoch : 20467 count : 200 rew : -9
epoch : 20468 count : 200 rew : -13
epoch : 20469 count : 200 rew : 0
tensor(117815.6562, grad_fn=<MseLossBackwar

tensor(106236.5703, grad_fn=<MseLossBackward>) tensor(10931.1895, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 20620 count : 200 rew : -3
epoch : 20621 count : 200 rew : -2
epoch : 20622 count : 200 rew : -2
epoch : 20623 count : 200 rew : -8
epoch : 20624 count : 200 rew : -6
epoch : 20625 count : 200 rew : -9
epoch : 20626 count : 200 rew : -7
epoch : 20627 count : 200 rew : -10
epoch : 20628 count : 200 rew : -4
epoch : 20629 count : 200 rew : -5
tensor(120184.5234, grad_fn=<MseLossBackward>) tensor(2994.0312, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 20630 count : 200 rew : -7
epoch : 20631 count : 200 rew : -10
epoch : 20632 count : 200 rew : -2
epoch : 20633 count : 200 rew : -9
epoch : 20634 count : 200 rew : -7
epoch : 20635 count : 200 rew : -1
epoch : 20636 count : 200 rew : -11
epoch : 20637 count : 200 rew : -10
epoch : 20638 count : 200 rew : -10
epoch : 20639 count : 200 rew : -8
tensor(138679.8281, grad_fn=<MseLossBa

tensor(102331.3047, grad_fn=<MseLossBackward>) tensor(33674.6133, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 20790 count : 200 rew : -1
epoch : 20791 count : 200 rew : -5
epoch : 20792 count : 200 rew : -10
epoch : 20793 count : 200 rew : 0
epoch : 20794 count : 200 rew : -6
epoch : 20795 count : 200 rew : -11
epoch : 20796 count : 200 rew : -13
epoch : 20797 count : 200 rew : -2
epoch : 20798 count : 200 rew : -7
epoch : 20799 count : 200 rew : -6
tensor(100298.8203, grad_fn=<MseLossBackward>) tensor(37413.5469, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 20800 count : 200 rew : -2
epoch : 20801 count : 200 rew : -9
epoch : 20802 count : 200 rew : -5
epoch : 20803 count : 200 rew : -9
epoch : 20804 count : 200 rew : -1
epoch : 20805 count : 200 rew : -4
epoch : 20806 count : 200 rew : -8
epoch : 20807 count : 200 rew : -2
epoch : 20808 count : 200 rew : -2
epoch : 20809 count : 200 rew : -3
tensor(113412.9141, grad_fn=<MseLossBack

tensor(118257.3750, grad_fn=<MseLossBackward>) tensor(-18016.4121, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 20960 count : 200 rew : 0
epoch : 20961 count : 200 rew : -7
epoch : 20962 count : 200 rew : -5
epoch : 20963 count : 200 rew : 0
epoch : 20964 count : 200 rew : -2
epoch : 20965 count : 200 rew : -12
epoch : 20966 count : 200 rew : -7
epoch : 20967 count : 200 rew : -2
epoch : 20968 count : 200 rew : -4
epoch : 20969 count : 200 rew : -14
tensor(116389.8594, grad_fn=<MseLossBackward>) tensor(-11999.6484, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 20970 count : 200 rew : -9
epoch : 20971 count : 200 rew : -9
epoch : 20972 count : 200 rew : -6
epoch : 20973 count : 200 rew : -12
epoch : 20974 count : 200 rew : -9
epoch : 20975 count : 200 rew : -3
epoch : 20976 count : 200 rew : -15
epoch : 20977 count : 200 rew : -1
epoch : 20978 count : 200 rew : 0
epoch : 20979 count : 200 rew : -7
tensor(118958.4609, grad_fn=<MseLossBac

tensor(105660.8750, grad_fn=<MseLossBackward>) tensor(44170.2070, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 21130 count : 200 rew : 0
epoch : 21131 count : 200 rew : 0
epoch : 21132 count : 200 rew : -1
epoch : 21133 count : 200 rew : -1
epoch : 21134 count : 200 rew : 0
epoch : 21135 count : 200 rew : -6
epoch : 21136 count : 200 rew : -8
epoch : 21137 count : 200 rew : -10
epoch : 21138 count : 200 rew : -8
epoch : 21139 count : 200 rew : -8
tensor(103650.6094, grad_fn=<MseLossBackward>) tensor(4500.8291, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 21140 count : 200 rew : -5
epoch : 21141 count : 200 rew : -1
epoch : 21142 count : 200 rew : -2
epoch : 21143 count : 200 rew : 0
epoch : 21144 count : 200 rew : -4
epoch : 21145 count : 200 rew : -11
epoch : 21146 count : 200 rew : -8
epoch : 21147 count : 200 rew : -5
epoch : 21148 count : 200 rew : -9
epoch : 21149 count : 200 rew : -8
tensor(100481.5000, grad_fn=<MseLossBackward>

tensor(124579.0234, grad_fn=<MseLossBackward>) tensor(-15930.9834, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 21300 count : 200 rew : -4
epoch : 21301 count : 200 rew : -5
epoch : 21302 count : 200 rew : -9
epoch : 21303 count : 200 rew : -9
epoch : 21304 count : 200 rew : -9
epoch : 21305 count : 200 rew : -10
epoch : 21306 count : 200 rew : -6
epoch : 21307 count : 200 rew : -5
epoch : 21308 count : 200 rew : -8
epoch : 21309 count : 200 rew : -2
tensor(133536.0781, grad_fn=<MseLossBackward>) tensor(-10134.8008, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 21310 count : 200 rew : -7
epoch : 21311 count : 200 rew : -9
epoch : 21312 count : 200 rew : -9
epoch : 21313 count : 200 rew : -7
epoch : 21314 count : 200 rew : -13
epoch : 21315 count : 200 rew : -2
epoch : 21316 count : 200 rew : -11
epoch : 21317 count : 200 rew : -10
epoch : 21318 count : 200 rew : -10
epoch : 21319 count : 200 rew : -5
tensor(133353.7812, grad_fn=<MseLos

tensor(132581.2344, grad_fn=<MseLossBackward>) tensor(-42595.9023, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 21470 count : 200 rew : -13
epoch : 21471 count : 200 rew : -8
epoch : 21472 count : 200 rew : -3
epoch : 21473 count : 200 rew : -1
epoch : 21474 count : 200 rew : -3
epoch : 21475 count : 200 rew : -6
epoch : 21476 count : 200 rew : -9
epoch : 21477 count : 200 rew : -9
epoch : 21478 count : 200 rew : -13
epoch : 21479 count : 200 rew : -2
tensor(100034.3281, grad_fn=<MseLossBackward>) tensor(17693.3438, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 21480 count : 200 rew : -5
epoch : 21481 count : 200 rew : -5
epoch : 21482 count : 200 rew : -7
epoch : 21483 count : 200 rew : -6
epoch : 21484 count : 200 rew : -13
epoch : 21485 count : 200 rew : -12
epoch : 21486 count : 200 rew : -10
epoch : 21487 count : 200 rew : -5
epoch : 21488 count : 200 rew : -6
epoch : 21489 count : 200 rew : -10
tensor(131736.8281, grad_fn=<MseLos

tensor(123378.1641, grad_fn=<MseLossBackward>) tensor(-10931.7695, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 21640 count : 200 rew : -13
epoch : 21641 count : 200 rew : -14
epoch : 21642 count : 200 rew : -2
epoch : 21643 count : 200 rew : 0
epoch : 21644 count : 200 rew : -6
epoch : 21645 count : 200 rew : -7
epoch : 21646 count : 200 rew : -8
epoch : 21647 count : 200 rew : -10
epoch : 21648 count : 200 rew : 0
epoch : 21649 count : 200 rew : -2
tensor(97782.1797, grad_fn=<MseLossBackward>) tensor(23808.5137, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 21650 count : 200 rew : -4
epoch : 21651 count : 200 rew : -6
epoch : 21652 count : 200 rew : -4
epoch : 21653 count : 200 rew : -11
epoch : 21654 count : 200 rew : -8
epoch : 21655 count : 200 rew : -7
epoch : 21656 count : 200 rew : -16
epoch : 21657 count : 200 rew : -5
epoch : 21658 count : 200 rew : -8
epoch : 21659 count : 200 rew : -4
tensor(101355.2266, grad_fn=<MseLossBac

tensor(119472.9141, grad_fn=<MseLossBackward>) tensor(-10423.1494, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 21810 count : 200 rew : -4
epoch : 21811 count : 200 rew : -1
epoch : 21812 count : 200 rew : -8
epoch : 21813 count : 200 rew : -9
epoch : 21814 count : 200 rew : -4
epoch : 21815 count : 200 rew : -5
epoch : 21816 count : 200 rew : -2
epoch : 21817 count : 200 rew : 0
epoch : 21818 count : 200 rew : -6
epoch : 21819 count : 200 rew : -9
tensor(102880.6172, grad_fn=<MseLossBackward>) tensor(17023.4062, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 21820 count : 200 rew : 0
epoch : 21821 count : 200 rew : -3
epoch : 21822 count : 200 rew : -9
epoch : 21823 count : 200 rew : -8
epoch : 21824 count : 200 rew : -15
epoch : 21825 count : 200 rew : -15
epoch : 21826 count : 200 rew : 0
epoch : 21827 count : 200 rew : -2
epoch : 21828 count : 200 rew : -4
epoch : 21829 count : 200 rew : -9
tensor(105199.5000, grad_fn=<MseLossBackwa

tensor(143799.2188, grad_fn=<MseLossBackward>) tensor(-61474.2891, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 21980 count : 200 rew : -15
epoch : 21981 count : 200 rew : -11
epoch : 21982 count : 200 rew : -8
epoch : 21983 count : 200 rew : -6
epoch : 21984 count : 200 rew : -8
epoch : 21985 count : 200 rew : -14
epoch : 21986 count : 200 rew : -1
epoch : 21987 count : 200 rew : -8
epoch : 21988 count : 200 rew : -11
epoch : 21989 count : 200 rew : -4
tensor(114385.6016, grad_fn=<MseLossBackward>) tensor(-17038.2500, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 21990 count : 200 rew : -2
epoch : 21991 count : 200 rew : -5
epoch : 21992 count : 200 rew : -10
epoch : 21993 count : 200 rew : -7
epoch : 21994 count : 200 rew : -1
epoch : 21995 count : 200 rew : -7
epoch : 21996 count : 200 rew : -5
epoch : 21997 count : 200 rew : -8
epoch : 21998 count : 200 rew : -7
epoch : 21999 count : 200 rew : -6
tensor(135412.8125, grad_fn=<MseLos

tensor(107366.2500, grad_fn=<MseLossBackward>) tensor(7581.7534, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 22150 count : 200 rew : -5
epoch : 22151 count : 200 rew : -13
epoch : 22152 count : 200 rew : -8
epoch : 22153 count : 200 rew : -5
epoch : 22154 count : 200 rew : 0
epoch : 22155 count : 200 rew : -1
epoch : 22156 count : 200 rew : -6
epoch : 22157 count : 200 rew : -5
epoch : 22158 count : 200 rew : -8
epoch : 22159 count : 200 rew : -8
tensor(136046.2969, grad_fn=<MseLossBackward>) tensor(-64292.4570, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 22160 count : 200 rew : -10
epoch : 22161 count : 200 rew : -7
epoch : 22162 count : 200 rew : -10
epoch : 22163 count : 200 rew : -5
epoch : 22164 count : 200 rew : -2
epoch : 22165 count : 200 rew : -3
epoch : 22166 count : 200 rew : -8
epoch : 22167 count : 200 rew : -10
epoch : 22168 count : 200 rew : -7
epoch : 22169 count : 200 rew : -14
tensor(117772.6016, grad_fn=<MseLossBa

tensor(104071.5703, grad_fn=<MseLossBackward>) tensor(27308.3242, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 22320 count : 200 rew : -14
epoch : 22321 count : 200 rew : -6
epoch : 22322 count : 200 rew : -7
epoch : 22323 count : 200 rew : 0
epoch : 22324 count : 200 rew : -5
epoch : 22325 count : 200 rew : -2
epoch : 22326 count : 200 rew : -11
epoch : 22327 count : 200 rew : -2
epoch : 22328 count : 200 rew : -7
epoch : 22329 count : 200 rew : -7
tensor(116476.6484, grad_fn=<MseLossBackward>) tensor(9088.4219, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 22330 count : 200 rew : -10
epoch : 22331 count : 200 rew : -4
epoch : 22332 count : 200 rew : -3
epoch : 22333 count : 200 rew : -2
epoch : 22334 count : 200 rew : 0
epoch : 22335 count : 200 rew : -2
epoch : 22336 count : 200 rew : 0
epoch : 22337 count : 200 rew : -1
epoch : 22338 count : 200 rew : -1
epoch : 22339 count : 200 rew : -7
tensor(110142.2500, grad_fn=<MseLossBackwar

tensor(118567.7891, grad_fn=<MseLossBackward>) tensor(-20542.8105, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 22490 count : 200 rew : -5
epoch : 22491 count : 200 rew : -12
epoch : 22492 count : 200 rew : -2
epoch : 22493 count : 200 rew : -1
epoch : 22494 count : 200 rew : -7
epoch : 22495 count : 200 rew : -6
epoch : 22496 count : 200 rew : -1
epoch : 22497 count : 200 rew : -4
epoch : 22498 count : 200 rew : -2
epoch : 22499 count : 200 rew : -1
tensor(99385.1328, grad_fn=<MseLossBackward>) tensor(25325.5879, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 22500 count : 200 rew : -5
epoch : 22501 count : 200 rew : 0
epoch : 22502 count : 200 rew : -1
epoch : 22503 count : 200 rew : -1
epoch : 22504 count : 200 rew : -11
epoch : 22505 count : 200 rew : -1
epoch : 22506 count : 200 rew : -10
epoch : 22507 count : 200 rew : -8
epoch : 22508 count : 200 rew : -5
epoch : 22509 count : 200 rew : -3
tensor(98105.1328, grad_fn=<MseLossBackw

tensor(92706.9531, grad_fn=<MseLossBackward>) tensor(35714.1680, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 22660 count : 200 rew : -2
epoch : 22661 count : 200 rew : -7
epoch : 22662 count : 200 rew : -3
epoch : 22663 count : 200 rew : -9
epoch : 22664 count : 200 rew : 0
epoch : 22665 count : 200 rew : -8
epoch : 22666 count : 200 rew : -1
epoch : 22667 count : 200 rew : -1
epoch : 22668 count : 200 rew : -4
epoch : 22669 count : 200 rew : -11
tensor(128495.3125, grad_fn=<MseLossBackward>) tensor(-3155.2029, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 22670 count : 200 rew : -1
epoch : 22671 count : 200 rew : -3
epoch : 22672 count : 200 rew : -10
epoch : 22673 count : 200 rew : -10
epoch : 22674 count : 200 rew : -8
epoch : 22675 count : 200 rew : 0
epoch : 22676 count : 200 rew : -9
epoch : 22677 count : 200 rew : -12
epoch : 22678 count : 200 rew : -10
epoch : 22679 count : 200 rew : -7
tensor(121638.2422, grad_fn=<MseLossBack

tensor(104361.2188, grad_fn=<MseLossBackward>) tensor(20782.4570, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 22830 count : 200 rew : -7
epoch : 22831 count : 200 rew : -10
epoch : 22832 count : 200 rew : -4
epoch : 22833 count : 200 rew : -2
epoch : 22834 count : 200 rew : -1
epoch : 22835 count : 200 rew : -2
epoch : 22836 count : 200 rew : -9
epoch : 22837 count : 200 rew : -3
epoch : 22838 count : 200 rew : -10
epoch : 22839 count : 200 rew : -1
tensor(120578.8438, grad_fn=<MseLossBackward>) tensor(-46442.1016, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 22840 count : 200 rew : -6
epoch : 22841 count : 200 rew : -9
epoch : 22842 count : 200 rew : -2
epoch : 22843 count : 200 rew : -2
epoch : 22844 count : 200 rew : -9
epoch : 22845 count : 200 rew : -6
epoch : 22846 count : 200 rew : 0
epoch : 22847 count : 200 rew : -8
epoch : 22848 count : 200 rew : -7
epoch : 22849 count : 200 rew : -9
tensor(136991.9219, grad_fn=<MseLossBack

tensor(128896.2266, grad_fn=<MseLossBackward>) tensor(-33324.3633, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 23000 count : 200 rew : -1
epoch : 23001 count : 200 rew : -2
epoch : 23002 count : 200 rew : -8
epoch : 23003 count : 200 rew : -8
epoch : 23004 count : 200 rew : -2
epoch : 23005 count : 200 rew : -1
epoch : 23006 count : 200 rew : -13
epoch : 23007 count : 200 rew : -9
epoch : 23008 count : 200 rew : -3
epoch : 23009 count : 200 rew : 0
tensor(95149.8047, grad_fn=<MseLossBackward>) tensor(42659.2266, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 23010 count : 200 rew : -8
epoch : 23011 count : 200 rew : -1
epoch : 23012 count : 200 rew : -9
epoch : 23013 count : 200 rew : -5
epoch : 23014 count : 200 rew : 0
epoch : 23015 count : 200 rew : 0
epoch : 23016 count : 200 rew : -10
epoch : 23017 count : 200 rew : -3
epoch : 23018 count : 200 rew : -3
epoch : 23019 count : 200 rew : -1
tensor(95399.6094, grad_fn=<MseLossBackward

tensor(126441.6875, grad_fn=<MseLossBackward>) tensor(-63586.4258, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 23170 count : 200 rew : -10
epoch : 23171 count : 200 rew : -1
epoch : 23172 count : 200 rew : 0
epoch : 23173 count : 200 rew : -3
epoch : 23174 count : 200 rew : -9
epoch : 23175 count : 200 rew : 0
epoch : 23176 count : 200 rew : -6
epoch : 23177 count : 200 rew : -7
epoch : 23178 count : 200 rew : -11
epoch : 23179 count : 200 rew : -12
tensor(101796.5625, grad_fn=<MseLossBackward>) tensor(43046.8672, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 23180 count : 200 rew : -4
epoch : 23181 count : 200 rew : -2
epoch : 23182 count : 200 rew : -10
epoch : 23183 count : 200 rew : -5
epoch : 23184 count : 200 rew : -8
epoch : 23185 count : 200 rew : -7
epoch : 23186 count : 200 rew : -1
epoch : 23187 count : 200 rew : -5
epoch : 23188 count : 200 rew : -6
epoch : 23189 count : 200 rew : -1
tensor(125644.4219, grad_fn=<MseLossBac

tensor(118480.7734, grad_fn=<MseLossBackward>) tensor(-25350.9746, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 23340 count : 200 rew : -6
epoch : 23341 count : 200 rew : -4
epoch : 23342 count : 200 rew : -2
epoch : 23343 count : 200 rew : -13
epoch : 23344 count : 200 rew : -1
epoch : 23345 count : 200 rew : 0
epoch : 23346 count : 200 rew : -11
epoch : 23347 count : 200 rew : -4
epoch : 23348 count : 200 rew : 0
epoch : 23349 count : 200 rew : -6
tensor(111680.4531, grad_fn=<MseLossBackward>) tensor(1259.6219, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 23350 count : 200 rew : -5
epoch : 23351 count : 200 rew : -8
epoch : 23352 count : 200 rew : -4
epoch : 23353 count : 200 rew : -4
epoch : 23354 count : 200 rew : -6
epoch : 23355 count : 200 rew : -5
epoch : 23356 count : 200 rew : -4
epoch : 23357 count : 200 rew : -3
epoch : 23358 count : 200 rew : 0
epoch : 23359 count : 200 rew : -9
tensor(113826.2812, grad_fn=<MseLossBackwar

tensor(117448.6406, grad_fn=<MseLossBackward>) tensor(-25934.0703, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 23510 count : 200 rew : -4
epoch : 23511 count : 200 rew : -8
epoch : 23512 count : 200 rew : -6
epoch : 23513 count : 200 rew : -8
epoch : 23514 count : 200 rew : -3
epoch : 23515 count : 200 rew : -10
epoch : 23516 count : 200 rew : -9
epoch : 23517 count : 200 rew : 0
epoch : 23518 count : 200 rew : -1
epoch : 23519 count : 200 rew : -3
tensor(115079.1016, grad_fn=<MseLossBackward>) tensor(5364.2134, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 23520 count : 200 rew : -10
epoch : 23521 count : 200 rew : -5
epoch : 23522 count : 200 rew : -2
epoch : 23523 count : 200 rew : -3
epoch : 23524 count : 200 rew : -2
epoch : 23525 count : 200 rew : -10
epoch : 23526 count : 200 rew : -9
epoch : 23527 count : 200 rew : -5
epoch : 23528 count : 200 rew : -1
epoch : 23529 count : 200 rew : -8
tensor(110547.3438, grad_fn=<MseLossBack

tensor(108557.9609, grad_fn=<MseLossBackward>) tensor(16959.9160, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 23680 count : 200 rew : -8
epoch : 23681 count : 200 rew : -7
epoch : 23682 count : 200 rew : -3
epoch : 23683 count : 200 rew : -8
epoch : 23684 count : 200 rew : -5
epoch : 23685 count : 200 rew : -4
epoch : 23686 count : 200 rew : -6
epoch : 23687 count : 200 rew : -1
epoch : 23688 count : 200 rew : 0
epoch : 23689 count : 200 rew : 0
tensor(107075.5000, grad_fn=<MseLossBackward>) tensor(23922.2559, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 23690 count : 200 rew : -5
epoch : 23691 count : 200 rew : -1
epoch : 23692 count : 200 rew : -3
epoch : 23693 count : 200 rew : -15
epoch : 23694 count : 200 rew : -6
epoch : 23695 count : 200 rew : -8
epoch : 23696 count : 200 rew : -9
epoch : 23697 count : 200 rew : -8
epoch : 23698 count : 200 rew : -9
epoch : 23699 count : 200 rew : -6
tensor(132729.3906, grad_fn=<MseLossBackwar

tensor(115849.4062, grad_fn=<MseLossBackward>) tensor(27637.5254, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 23850 count : 200 rew : 0
epoch : 23851 count : 200 rew : -8
epoch : 23852 count : 200 rew : -4
epoch : 23853 count : 200 rew : -8
epoch : 23854 count : 200 rew : -3
epoch : 23855 count : 200 rew : -7
epoch : 23856 count : 200 rew : -5
epoch : 23857 count : 200 rew : -7
epoch : 23858 count : 200 rew : -4
epoch : 23859 count : 200 rew : -9
tensor(142695.2500, grad_fn=<MseLossBackward>) tensor(-72288.5391, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 23860 count : 200 rew : -9
epoch : 23861 count : 200 rew : -4
epoch : 23862 count : 200 rew : -8
epoch : 23863 count : 200 rew : -1
epoch : 23864 count : 200 rew : -6
epoch : 23865 count : 200 rew : -2
epoch : 23866 count : 200 rew : -9
epoch : 23867 count : 200 rew : -5
epoch : 23868 count : 200 rew : -5
epoch : 23869 count : 200 rew : 0
tensor(122280.1953, grad_fn=<MseLossBackwar

tensor(130457.5312, grad_fn=<MseLossBackward>) tensor(-31678.2852, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24020 count : 200 rew : -5
epoch : 24021 count : 200 rew : -15
epoch : 24022 count : 200 rew : -6
epoch : 24023 count : 200 rew : -2
epoch : 24024 count : 200 rew : -9
epoch : 24025 count : 200 rew : -6
epoch : 24026 count : 200 rew : -12
epoch : 24027 count : 200 rew : -9
epoch : 24028 count : 200 rew : -11
epoch : 24029 count : 200 rew : -1
tensor(118625.3281, grad_fn=<MseLossBackward>) tensor(-39699.3984, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24030 count : 200 rew : -10
epoch : 24031 count : 200 rew : -10
epoch : 24032 count : 200 rew : -3
epoch : 24033 count : 200 rew : -1
epoch : 24034 count : 200 rew : -10
epoch : 24035 count : 200 rew : -8
epoch : 24036 count : 200 rew : -9
epoch : 24037 count : 200 rew : -5
epoch : 24038 count : 200 rew : -10
epoch : 24039 count : 200 rew : -8
tensor(133333.7031, grad_fn=<MseL

tensor(107569.5391, grad_fn=<MseLossBackward>) tensor(14041.1338, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24190 count : 200 rew : -1
epoch : 24191 count : 200 rew : -10
epoch : 24192 count : 200 rew : -4
epoch : 24193 count : 200 rew : -7
epoch : 24194 count : 200 rew : -8
epoch : 24195 count : 200 rew : -9
epoch : 24196 count : 200 rew : -9
epoch : 24197 count : 200 rew : -2
epoch : 24198 count : 200 rew : -5
epoch : 24199 count : 200 rew : -2
tensor(124141.1094, grad_fn=<MseLossBackward>) tensor(-22226.0234, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 24200 count : 200 rew : -9
epoch : 24201 count : 200 rew : -10
epoch : 24202 count : 200 rew : -7
epoch : 24203 count : 200 rew : -2
epoch : 24204 count : 200 rew : -4
epoch : 24205 count : 200 rew : -2
epoch : 24206 count : 200 rew : -2
epoch : 24207 count : 200 rew : -5
epoch : 24208 count : 200 rew : -2
epoch : 24209 count : 200 rew : -1
tensor(112402.5391, grad_fn=<MseLossBac

tensor(102429.4141, grad_fn=<MseLossBackward>) tensor(30375.0918, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 24360 count : 200 rew : -8
epoch : 24361 count : 200 rew : -10
epoch : 24362 count : 200 rew : -2
epoch : 24363 count : 200 rew : -8
epoch : 24364 count : 200 rew : -6
epoch : 24365 count : 200 rew : 0
epoch : 24366 count : 200 rew : -4
epoch : 24367 count : 200 rew : -5
epoch : 24368 count : 200 rew : -4
epoch : 24369 count : 200 rew : -9
tensor(111071.8672, grad_fn=<MseLossBackward>) tensor(3855.7610, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 24370 count : 200 rew : -9
epoch : 24371 count : 200 rew : -10
epoch : 24372 count : 200 rew : -7
epoch : 24373 count : 200 rew : -7
epoch : 24374 count : 200 rew : -2
epoch : 24375 count : 200 rew : -7
epoch : 24376 count : 200 rew : -3
epoch : 24377 count : 200 rew : -6
epoch : 24378 count : 200 rew : -15
epoch : 24379 count : 200 rew : -7
tensor(132993.1562, grad_fn=<MseLossBackw

tensor(127964.9062, grad_fn=<MseLossBackward>) tensor(-27279.7754, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 24530 count : 200 rew : -5
epoch : 24531 count : 200 rew : -7
epoch : 24532 count : 200 rew : 0
epoch : 24533 count : 200 rew : -5
epoch : 24534 count : 200 rew : -2
epoch : 24535 count : 200 rew : -13
epoch : 24536 count : 200 rew : -6
epoch : 24537 count : 200 rew : -8
epoch : 24538 count : 200 rew : -5
epoch : 24539 count : 200 rew : -5
tensor(121052.7734, grad_fn=<MseLossBackward>) tensor(-17559.7266, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24540 count : 200 rew : -8
epoch : 24541 count : 200 rew : -10
epoch : 24542 count : 200 rew : 0
epoch : 24543 count : 200 rew : -5
epoch : 24544 count : 200 rew : -9
epoch : 24545 count : 200 rew : -1
epoch : 24546 count : 200 rew : -6
epoch : 24547 count : 200 rew : -3
epoch : 24548 count : 200 rew : -4
epoch : 24549 count : 200 rew : -9
tensor(108823.7734, grad_fn=<MseLossBack

tensor(117772.7812, grad_fn=<MseLossBackward>) tensor(-4661.9009, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24700 count : 200 rew : -6
epoch : 24701 count : 200 rew : -7
epoch : 24702 count : 200 rew : -7
epoch : 24703 count : 200 rew : -10
epoch : 24704 count : 200 rew : -10
epoch : 24705 count : 200 rew : -10
epoch : 24706 count : 200 rew : -5
epoch : 24707 count : 200 rew : 0
epoch : 24708 count : 200 rew : -7
epoch : 24709 count : 200 rew : -6
tensor(130541.3359, grad_fn=<MseLossBackward>) tensor(-51352.0898, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 24710 count : 200 rew : -1
epoch : 24711 count : 200 rew : -5
epoch : 24712 count : 200 rew : -9
epoch : 24713 count : 200 rew : -10
epoch : 24714 count : 200 rew : -5
epoch : 24715 count : 200 rew : -4
epoch : 24716 count : 200 rew : -5
epoch : 24717 count : 200 rew : -5
epoch : 24718 count : 200 rew : -8
epoch : 24719 count : 200 rew : -4
tensor(127330.7500, grad_fn=<MseLossBa

tensor(115914.1328, grad_fn=<MseLossBackward>) tensor(-33618.9062, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24870 count : 200 rew : -2
epoch : 24871 count : 200 rew : -5
epoch : 24872 count : 200 rew : -9
epoch : 24873 count : 200 rew : -7
epoch : 24874 count : 200 rew : -8
epoch : 24875 count : 200 rew : -1
epoch : 24876 count : 200 rew : -9
epoch : 24877 count : 200 rew : -7
epoch : 24878 count : 200 rew : -4
epoch : 24879 count : 200 rew : 0
tensor(120102.3047, grad_fn=<MseLossBackward>) tensor(-12868.0840, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 24880 count : 200 rew : -1
epoch : 24881 count : 200 rew : -5
epoch : 24882 count : 200 rew : -9
epoch : 24883 count : 200 rew : -1
epoch : 24884 count : 200 rew : -6
epoch : 24885 count : 200 rew : -1
epoch : 24886 count : 200 rew : -13
epoch : 24887 count : 200 rew : -1
epoch : 24888 count : 200 rew : -8
epoch : 24889 count : 200 rew : -7
tensor(93952.8203, grad_fn=<MseLossBackw

tensor(130451.2422, grad_fn=<MseLossBackward>) tensor(-38236.4531, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 25040 count : 200 rew : -7
epoch : 25041 count : 200 rew : -11
epoch : 25042 count : 200 rew : -4
epoch : 25043 count : 200 rew : -1
epoch : 25044 count : 200 rew : -2
epoch : 25045 count : 200 rew : -5
epoch : 25046 count : 200 rew : -5
epoch : 25047 count : 200 rew : -6
epoch : 25048 count : 200 rew : -3
epoch : 25049 count : 200 rew : -13
tensor(128165.3203, grad_fn=<MseLossBackward>) tensor(-41328.0039, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 25050 count : 200 rew : -8
epoch : 25051 count : 200 rew : -12
epoch : 25052 count : 200 rew : -9
epoch : 25053 count : 200 rew : -2
epoch : 25054 count : 200 rew : -13
epoch : 25055 count : 200 rew : -2
epoch : 25056 count : 200 rew : -2
epoch : 25057 count : 200 rew : -12
epoch : 25058 count : 200 rew : -6
epoch : 25059 count : 200 rew : -4
tensor(112790.5156, grad_fn=<MseLos

tensor(149682.8594, grad_fn=<MseLossBackward>) tensor(-89133.0703, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 25210 count : 200 rew : -4
epoch : 25211 count : 200 rew : -6
epoch : 25212 count : 200 rew : -6
epoch : 25213 count : 200 rew : -7
epoch : 25214 count : 200 rew : -7
epoch : 25215 count : 200 rew : -3
epoch : 25216 count : 200 rew : -1
epoch : 25217 count : 200 rew : -1
epoch : 25218 count : 200 rew : -8
epoch : 25219 count : 200 rew : -7
tensor(131198.2344, grad_fn=<MseLossBackward>) tensor(-53141.9727, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 25220 count : 200 rew : 0
epoch : 25221 count : 200 rew : -3
epoch : 25222 count : 200 rew : 0
epoch : 25223 count : 200 rew : -4
epoch : 25224 count : 200 rew : -5
epoch : 25225 count : 200 rew : -9
epoch : 25226 count : 200 rew : -9
epoch : 25227 count : 200 rew : -8
epoch : 25228 count : 200 rew : -3
epoch : 25229 count : 200 rew : -2
tensor(125074.2578, grad_fn=<MseLossBackwa

tensor(115430.4922, grad_fn=<MseLossBackward>) tensor(1620.7693, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 25380 count : 200 rew : -8
epoch : 25381 count : 200 rew : -9
epoch : 25382 count : 200 rew : -3
epoch : 25383 count : 200 rew : -2
epoch : 25384 count : 200 rew : -10
epoch : 25385 count : 200 rew : -10
epoch : 25386 count : 200 rew : -2
epoch : 25387 count : 200 rew : -1
epoch : 25388 count : 200 rew : -11
epoch : 25389 count : 200 rew : 0
tensor(124771.5156, grad_fn=<MseLossBackward>) tensor(-27226.0625, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 25390 count : 200 rew : -9
epoch : 25391 count : 200 rew : -3
epoch : 25392 count : 200 rew : -3
epoch : 25393 count : 200 rew : -13
epoch : 25394 count : 200 rew : 0
epoch : 25395 count : 200 rew : -3
epoch : 25396 count : 200 rew : -8
epoch : 25397 count : 200 rew : -13
epoch : 25398 count : 200 rew : -6
epoch : 25399 count : 200 rew : -8
tensor(122011.0234, grad_fn=<MseLossBac

tensor(103925.9453, grad_fn=<MseLossBackward>) tensor(22142.8281, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 25550 count : 200 rew : -3
epoch : 25551 count : 200 rew : -10
epoch : 25552 count : 200 rew : -8
epoch : 25553 count : 200 rew : -10
epoch : 25554 count : 200 rew : -7
epoch : 25555 count : 200 rew : -1
epoch : 25556 count : 200 rew : -11
epoch : 25557 count : 200 rew : -7
epoch : 25558 count : 200 rew : -7
epoch : 25559 count : 200 rew : -7
tensor(130745.4219, grad_fn=<MseLossBackward>) tensor(-41753.8242, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 25560 count : 200 rew : -9
epoch : 25561 count : 200 rew : -1
epoch : 25562 count : 200 rew : -2
epoch : 25563 count : 200 rew : -2
epoch : 25564 count : 200 rew : -10
epoch : 25565 count : 200 rew : -1
epoch : 25566 count : 200 rew : -2
epoch : 25567 count : 200 rew : -2
epoch : 25568 count : 200 rew : -10
epoch : 25569 count : 200 rew : -1
tensor(94854.7031, grad_fn=<MseLossB

tensor(106218.5000, grad_fn=<MseLossBackward>) tensor(27267.5762, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 25720 count : 200 rew : -7
epoch : 25721 count : 200 rew : -4
epoch : 25722 count : 200 rew : -1
epoch : 25723 count : 200 rew : -2
epoch : 25724 count : 200 rew : -9
epoch : 25725 count : 200 rew : -6
epoch : 25726 count : 200 rew : -10
epoch : 25727 count : 200 rew : -7
epoch : 25728 count : 200 rew : -5
epoch : 25729 count : 200 rew : -6
tensor(137170.0781, grad_fn=<MseLossBackward>) tensor(-15923.9717, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 25730 count : 200 rew : -11
epoch : 25731 count : 200 rew : -3
epoch : 25732 count : 200 rew : -6
epoch : 25733 count : 200 rew : -11
epoch : 25734 count : 200 rew : -7
epoch : 25735 count : 200 rew : -1
epoch : 25736 count : 200 rew : -10
epoch : 25737 count : 200 rew : -9
epoch : 25738 count : 200 rew : -2
epoch : 25739 count : 200 rew : -15
tensor(105784.5938, grad_fn=<MseLoss

tensor(101420.1484, grad_fn=<MseLossBackward>) tensor(68004.6094, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 25890 count : 200 rew : -10
epoch : 25891 count : 200 rew : -6
epoch : 25892 count : 200 rew : -6
epoch : 25893 count : 200 rew : -6
epoch : 25894 count : 200 rew : -4
epoch : 25895 count : 200 rew : -14
epoch : 25896 count : 200 rew : -6
epoch : 25897 count : 200 rew : -1
epoch : 25898 count : 200 rew : -1
epoch : 25899 count : 200 rew : -4
tensor(106175.4844, grad_fn=<MseLossBackward>) tensor(13158.7910, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 25900 count : 200 rew : 0
epoch : 25901 count : 200 rew : -9
epoch : 25902 count : 200 rew : -10
epoch : 25903 count : 200 rew : -7
epoch : 25904 count : 200 rew : -4
epoch : 25905 count : 200 rew : -5
epoch : 25906 count : 200 rew : -1
epoch : 25907 count : 200 rew : -9
epoch : 25908 count : 200 rew : -8
epoch : 25909 count : 200 rew : -8
tensor(125832.9531, grad_fn=<MseLossBack

tensor(115658.0391, grad_fn=<MseLossBackward>) tensor(-16060.7178, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 26060 count : 200 rew : 0
epoch : 26061 count : 200 rew : -9
epoch : 26062 count : 200 rew : -2
epoch : 26063 count : 200 rew : -3
epoch : 26064 count : 200 rew : -5
epoch : 26065 count : 200 rew : -7
epoch : 26066 count : 200 rew : -12
epoch : 26067 count : 200 rew : -11
epoch : 26068 count : 200 rew : -6
epoch : 26069 count : 200 rew : -5
tensor(113108.1406, grad_fn=<MseLossBackward>) tensor(-3704.3757, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 26070 count : 200 rew : -2
epoch : 26071 count : 200 rew : 0
epoch : 26072 count : 200 rew : -8
epoch : 26073 count : 200 rew : -5
epoch : 26074 count : 200 rew : -6
epoch : 26075 count : 200 rew : -5
epoch : 26076 count : 200 rew : -6
epoch : 26077 count : 200 rew : -11
epoch : 26078 count : 200 rew : -3
epoch : 26079 count : 200 rew : -8
tensor(123705.6172, grad_fn=<MseLossBack

tensor(123086.6797, grad_fn=<MseLossBackward>) tensor(-21623.6387, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 26230 count : 200 rew : -2
epoch : 26231 count : 200 rew : -4
epoch : 26232 count : 200 rew : -8
epoch : 26233 count : 200 rew : -9
epoch : 26234 count : 200 rew : 0
epoch : 26235 count : 200 rew : 0
epoch : 26236 count : 200 rew : 0
epoch : 26237 count : 200 rew : 0
epoch : 26238 count : 200 rew : -5
epoch : 26239 count : 200 rew : -8
tensor(116289.4062, grad_fn=<MseLossBackward>) tensor(-26587.7656, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 26240 count : 200 rew : -8
epoch : 26241 count : 200 rew : -6
epoch : 26242 count : 200 rew : -2
epoch : 26243 count : 200 rew : -7
epoch : 26244 count : 200 rew : -9
epoch : 26245 count : 200 rew : -9
epoch : 26246 count : 200 rew : -4
epoch : 26247 count : 200 rew : -7
epoch : 26248 count : 200 rew : 0
epoch : 26249 count : 200 rew : -8
tensor(121744.7656, grad_fn=<MseLossBackward>

tensor(140709.9844, grad_fn=<MseLossBackward>) tensor(-63353.8633, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 26400 count : 200 rew : -6
epoch : 26401 count : 200 rew : 0
epoch : 26402 count : 200 rew : -8
epoch : 26403 count : 200 rew : -5
epoch : 26404 count : 200 rew : -8
epoch : 26405 count : 200 rew : -9
epoch : 26406 count : 200 rew : -4
epoch : 26407 count : 200 rew : -2
epoch : 26408 count : 200 rew : -10
epoch : 26409 count : 200 rew : -13
tensor(111905.4922, grad_fn=<MseLossBackward>) tensor(-1264.1874, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 26410 count : 200 rew : -10
epoch : 26411 count : 200 rew : -9
epoch : 26412 count : 200 rew : -2
epoch : 26413 count : 200 rew : -9
epoch : 26414 count : 200 rew : -1
epoch : 26415 count : 200 rew : -6
epoch : 26416 count : 200 rew : -8
epoch : 26417 count : 200 rew : -10
epoch : 26418 count : 200 rew : -8
epoch : 26419 count : 200 rew : -3
tensor(126806.7500, grad_fn=<MseLossBa

tensor(83924.0469, grad_fn=<MseLossBackward>) tensor(69700.2891, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 26570 count : 200 rew : -9
epoch : 26571 count : 200 rew : -3
epoch : 26572 count : 200 rew : 0
epoch : 26573 count : 200 rew : -7
epoch : 26574 count : 200 rew : -8
epoch : 26575 count : 200 rew : 0
epoch : 26576 count : 200 rew : -3
epoch : 26577 count : 200 rew : -5
epoch : 26578 count : 200 rew : -1
epoch : 26579 count : 200 rew : -2
tensor(88891.1719, grad_fn=<MseLossBackward>) tensor(31744.5957, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 26580 count : 200 rew : -11
epoch : 26581 count : 200 rew : -1
epoch : 26582 count : 200 rew : -3
epoch : 26583 count : 200 rew : -3
epoch : 26584 count : 200 rew : -7
epoch : 26585 count : 200 rew : -2
epoch : 26586 count : 200 rew : -8
epoch : 26587 count : 200 rew : 0
epoch : 26588 count : 200 rew : -7
epoch : 26589 count : 200 rew : -6
tensor(123617.4531, grad_fn=<MseLossBackward>)

tensor(98029.2344, grad_fn=<MseLossBackward>) tensor(11270.3262, grad_fn=<NegBackward>) tensor(-0.0456, grad_fn=<MulBackward0>)
epoch : 26740 count : 200 rew : -8
epoch : 26741 count : 200 rew : -10
epoch : 26742 count : 200 rew : -11
epoch : 26743 count : 200 rew : -4
epoch : 26744 count : 200 rew : -1
epoch : 26745 count : 200 rew : -15
epoch : 26746 count : 200 rew : -2
epoch : 26747 count : 200 rew : -2
epoch : 26748 count : 200 rew : 0
epoch : 26749 count : 200 rew : -7
tensor(130330.1484, grad_fn=<MseLossBackward>) tensor(-37917.9414, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 26750 count : 200 rew : -11
epoch : 26751 count : 200 rew : -5
epoch : 26752 count : 200 rew : -5
epoch : 26753 count : 200 rew : 0
epoch : 26754 count : 200 rew : -9
epoch : 26755 count : 200 rew : -3
epoch : 26756 count : 200 rew : -6
epoch : 26757 count : 200 rew : 0
epoch : 26758 count : 200 rew : -8
epoch : 26759 count : 200 rew : -1
tensor(88757.9453, grad_fn=<MseLossBackwa

tensor(94001.6094, grad_fn=<MseLossBackward>) tensor(34746.5742, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 26910 count : 200 rew : -7
epoch : 26911 count : 200 rew : -7
epoch : 26912 count : 200 rew : -11
epoch : 26913 count : 200 rew : -1
epoch : 26914 count : 200 rew : -7
epoch : 26915 count : 200 rew : 0
epoch : 26916 count : 200 rew : 0
epoch : 26917 count : 200 rew : -10
epoch : 26918 count : 200 rew : -11
epoch : 26919 count : 200 rew : -5
tensor(108515.5625, grad_fn=<MseLossBackward>) tensor(39545.3984, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 26920 count : 200 rew : -10
epoch : 26921 count : 200 rew : -4
epoch : 26922 count : 200 rew : -1
epoch : 26923 count : 200 rew : -2
epoch : 26924 count : 200 rew : -8
epoch : 26925 count : 200 rew : -4
epoch : 26926 count : 200 rew : -5
epoch : 26927 count : 200 rew : -5
epoch : 26928 count : 200 rew : 0
epoch : 26929 count : 200 rew : 0
tensor(98948.1094, grad_fn=<MseLossBackward

tensor(116292.1406, grad_fn=<MseLossBackward>) tensor(-27969.4141, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 27080 count : 200 rew : -5
epoch : 27081 count : 200 rew : -9
epoch : 27082 count : 200 rew : -12
epoch : 27083 count : 200 rew : -7
epoch : 27084 count : 200 rew : -8
epoch : 27085 count : 200 rew : -4
epoch : 27086 count : 200 rew : -10
epoch : 27087 count : 200 rew : -7
epoch : 27088 count : 200 rew : -2
epoch : 27089 count : 200 rew : -1
tensor(115509.1719, grad_fn=<MseLossBackward>) tensor(-11189.4258, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 27090 count : 200 rew : -3
epoch : 27091 count : 200 rew : 0
epoch : 27092 count : 200 rew : -8
epoch : 27093 count : 200 rew : -4
epoch : 27094 count : 200 rew : -3
epoch : 27095 count : 200 rew : -10
epoch : 27096 count : 200 rew : -3
epoch : 27097 count : 200 rew : -6
epoch : 27098 count : 200 rew : -3
epoch : 27099 count : 200 rew : -1
tensor(119702.8281, grad_fn=<MseLossBa

tensor(123040.0469, grad_fn=<MseLossBackward>) tensor(-14365.8398, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 27250 count : 200 rew : -6
epoch : 27251 count : 200 rew : -5
epoch : 27252 count : 200 rew : -4
epoch : 27253 count : 200 rew : -3
epoch : 27254 count : 200 rew : -1
epoch : 27255 count : 200 rew : -1
epoch : 27256 count : 200 rew : -9
epoch : 27257 count : 200 rew : -11
epoch : 27258 count : 200 rew : -7
epoch : 27259 count : 200 rew : -10
tensor(109292.8047, grad_fn=<MseLossBackward>) tensor(9998.0566, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 27260 count : 200 rew : -2
epoch : 27261 count : 200 rew : -7
epoch : 27262 count : 200 rew : -10
epoch : 27263 count : 200 rew : 0
epoch : 27264 count : 200 rew : -2
epoch : 27265 count : 200 rew : -3
epoch : 27266 count : 200 rew : -4
epoch : 27267 count : 200 rew : -10
epoch : 27268 count : 200 rew : -16
epoch : 27269 count : 200 rew : -2
tensor(110291.0156, grad_fn=<MseLossBa

tensor(139319.5469, grad_fn=<MseLossBackward>) tensor(-43713.3711, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 27420 count : 200 rew : -14
epoch : 27421 count : 200 rew : 0
epoch : 27422 count : 200 rew : -1
epoch : 27423 count : 200 rew : -4
epoch : 27424 count : 200 rew : -8
epoch : 27425 count : 200 rew : -13
epoch : 27426 count : 200 rew : -14
epoch : 27427 count : 200 rew : -6
epoch : 27428 count : 200 rew : -8
epoch : 27429 count : 200 rew : -1
tensor(114629.5078, grad_fn=<MseLossBackward>) tensor(-12333.5400, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 27430 count : 200 rew : -8
epoch : 27431 count : 200 rew : -6
epoch : 27432 count : 200 rew : -10
epoch : 27433 count : 200 rew : -8
epoch : 27434 count : 200 rew : -13
epoch : 27435 count : 200 rew : -3
epoch : 27436 count : 200 rew : -8
epoch : 27437 count : 200 rew : -3
epoch : 27438 count : 200 rew : -9
epoch : 27439 count : 200 rew : -8
tensor(111144.5938, grad_fn=<MseLoss

tensor(112291.1562, grad_fn=<MseLossBackward>) tensor(-1287.8488, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 27590 count : 200 rew : 0
epoch : 27591 count : 200 rew : -3
epoch : 27592 count : 200 rew : -8
epoch : 27593 count : 200 rew : -10
epoch : 27594 count : 200 rew : 0
epoch : 27595 count : 200 rew : -4
epoch : 27596 count : 200 rew : -11
epoch : 27597 count : 200 rew : -1
epoch : 27598 count : 200 rew : -11
epoch : 27599 count : 200 rew : -6
tensor(92282.7500, grad_fn=<MseLossBackward>) tensor(47315.1055, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 27600 count : 200 rew : -2
epoch : 27601 count : 200 rew : -2
epoch : 27602 count : 200 rew : 0
epoch : 27603 count : 200 rew : 0
epoch : 27604 count : 200 rew : -5
epoch : 27605 count : 200 rew : -13
epoch : 27606 count : 200 rew : -2
epoch : 27607 count : 200 rew : -4
epoch : 27608 count : 200 rew : -5
epoch : 27609 count : 200 rew : -4
tensor(92428.3750, grad_fn=<MseLossBackward

tensor(103485.5234, grad_fn=<MseLossBackward>) tensor(-9596.5059, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 27760 count : 200 rew : -6
epoch : 27761 count : 200 rew : 0
epoch : 27762 count : 200 rew : -7
epoch : 27763 count : 200 rew : -6
epoch : 27764 count : 200 rew : 0
epoch : 27765 count : 200 rew : 0
epoch : 27766 count : 200 rew : -2
epoch : 27767 count : 200 rew : -2
epoch : 27768 count : 200 rew : -1
epoch : 27769 count : 200 rew : -5
tensor(90880.3984, grad_fn=<MseLossBackward>) tensor(75750.2422, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 27770 count : 200 rew : -6
epoch : 27771 count : 200 rew : -7
epoch : 27772 count : 200 rew : -5
epoch : 27773 count : 200 rew : 0
epoch : 27774 count : 200 rew : -8
epoch : 27775 count : 200 rew : 0
epoch : 27776 count : 200 rew : -1
epoch : 27777 count : 200 rew : -6
epoch : 27778 count : 200 rew : -15
epoch : 27779 count : 200 rew : -6
tensor(117668.5547, grad_fn=<MseLossBackward>) 

tensor(90088.9297, grad_fn=<MseLossBackward>) tensor(41465.4023, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 27930 count : 200 rew : -11
epoch : 27931 count : 200 rew : -12
epoch : 27932 count : 200 rew : -7
epoch : 27933 count : 200 rew : -10
epoch : 27934 count : 200 rew : -8
epoch : 27935 count : 200 rew : -6
epoch : 27936 count : 200 rew : -5
epoch : 27937 count : 200 rew : -6
epoch : 27938 count : 200 rew : -13
epoch : 27939 count : 200 rew : -8
tensor(128621.5938, grad_fn=<MseLossBackward>) tensor(-36876.4414, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 27940 count : 200 rew : -9
epoch : 27941 count : 200 rew : -4
epoch : 27942 count : 200 rew : -1
epoch : 27943 count : 200 rew : -6
epoch : 27944 count : 200 rew : -1
epoch : 27945 count : 200 rew : -3
epoch : 27946 count : 200 rew : -2
epoch : 27947 count : 200 rew : -9
epoch : 27948 count : 200 rew : -1
epoch : 27949 count : 200 rew : -7
tensor(113607.2500, grad_fn=<MseLossBa

tensor(115583.5000, grad_fn=<MseLossBackward>) tensor(-18334.2852, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 28100 count : 200 rew : -9
epoch : 28101 count : 200 rew : -3
epoch : 28102 count : 200 rew : -7
epoch : 28103 count : 200 rew : -2
epoch : 28104 count : 200 rew : -5
epoch : 28105 count : 200 rew : -10
epoch : 28106 count : 200 rew : 0
epoch : 28107 count : 200 rew : -11
epoch : 28108 count : 200 rew : -6
epoch : 28109 count : 200 rew : 0
tensor(102730.2266, grad_fn=<MseLossBackward>) tensor(29993.9395, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 28110 count : 200 rew : -9
epoch : 28111 count : 200 rew : -8
epoch : 28112 count : 200 rew : -6
epoch : 28113 count : 200 rew : 0
epoch : 28114 count : 200 rew : -6
epoch : 28115 count : 200 rew : 0
epoch : 28116 count : 200 rew : 0
epoch : 28117 count : 200 rew : -2
epoch : 28118 count : 200 rew : -11
epoch : 28119 count : 200 rew : -1
tensor(113315.7656, grad_fn=<MseLossBackwar

tensor(111014.2734, grad_fn=<MseLossBackward>) tensor(-11687.8838, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 28270 count : 200 rew : -7
epoch : 28271 count : 200 rew : -7
epoch : 28272 count : 200 rew : -5
epoch : 28273 count : 200 rew : -14
epoch : 28274 count : 200 rew : -3
epoch : 28275 count : 200 rew : -8
epoch : 28276 count : 200 rew : -4
epoch : 28277 count : 200 rew : -3
epoch : 28278 count : 200 rew : -9
epoch : 28279 count : 200 rew : -2
tensor(122873.2188, grad_fn=<MseLossBackward>) tensor(-49748.8789, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 28280 count : 200 rew : 0
epoch : 28281 count : 200 rew : -4
epoch : 28282 count : 200 rew : 0
epoch : 28283 count : 200 rew : -1
epoch : 28284 count : 200 rew : -10
epoch : 28285 count : 200 rew : -3
epoch : 28286 count : 200 rew : -1
epoch : 28287 count : 200 rew : -7
epoch : 28288 count : 200 rew : -8
epoch : 28289 count : 200 rew : 0
tensor(96702.0781, grad_fn=<MseLossBackwa

tensor(133775.6094, grad_fn=<MseLossBackward>) tensor(-67031.0156, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 28440 count : 200 rew : -1
epoch : 28441 count : 200 rew : -4
epoch : 28442 count : 200 rew : -6
epoch : 28443 count : 200 rew : -5
epoch : 28444 count : 200 rew : -9
epoch : 28445 count : 200 rew : -3
epoch : 28446 count : 200 rew : 0
epoch : 28447 count : 200 rew : -3
epoch : 28448 count : 200 rew : -8
epoch : 28449 count : 200 rew : -4
tensor(105992.5859, grad_fn=<MseLossBackward>) tensor(13253.0977, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 28450 count : 200 rew : -2
epoch : 28451 count : 200 rew : -6
epoch : 28452 count : 200 rew : -5
epoch : 28453 count : 200 rew : -3
epoch : 28454 count : 200 rew : -9
epoch : 28455 count : 200 rew : -5
epoch : 28456 count : 200 rew : -3
epoch : 28457 count : 200 rew : -1
epoch : 28458 count : 200 rew : -4
epoch : 28459 count : 200 rew : -15
tensor(103878.7891, grad_fn=<MseLossBackw

tensor(106841.8984, grad_fn=<MseLossBackward>) tensor(29661.8262, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 28610 count : 200 rew : -10
epoch : 28611 count : 200 rew : -12
epoch : 28612 count : 200 rew : -4
epoch : 28613 count : 200 rew : -3
epoch : 28614 count : 200 rew : -7
epoch : 28615 count : 200 rew : -11
epoch : 28616 count : 200 rew : -7
epoch : 28617 count : 200 rew : 0
epoch : 28618 count : 200 rew : -5
epoch : 28619 count : 200 rew : -9
tensor(96359.8516, grad_fn=<MseLossBackward>) tensor(55432.2578, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 28620 count : 200 rew : -9
epoch : 28621 count : 200 rew : -9
epoch : 28622 count : 200 rew : -9
epoch : 28623 count : 200 rew : -2
epoch : 28624 count : 200 rew : -2
epoch : 28625 count : 200 rew : -1
epoch : 28626 count : 200 rew : -7
epoch : 28627 count : 200 rew : -4
epoch : 28628 count : 200 rew : -13
epoch : 28629 count : 200 rew : -7
tensor(112704.8750, grad_fn=<MseLossBack

tensor(115934.3984, grad_fn=<MseLossBackward>) tensor(-11574.3730, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 28780 count : 200 rew : -4
epoch : 28781 count : 200 rew : -1
epoch : 28782 count : 200 rew : -7
epoch : 28783 count : 200 rew : -10
epoch : 28784 count : 200 rew : -1
epoch : 28785 count : 200 rew : -9
epoch : 28786 count : 200 rew : -9
epoch : 28787 count : 200 rew : -3
epoch : 28788 count : 200 rew : -1
epoch : 28789 count : 200 rew : 0
tensor(116681.5000, grad_fn=<MseLossBackward>) tensor(-16833.5332, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 28790 count : 200 rew : -2
epoch : 28791 count : 200 rew : -8
epoch : 28792 count : 200 rew : -12
epoch : 28793 count : 200 rew : -1
epoch : 28794 count : 200 rew : -4
epoch : 28795 count : 200 rew : -10
epoch : 28796 count : 200 rew : -6
epoch : 28797 count : 200 rew : -7
epoch : 28798 count : 200 rew : -5
epoch : 28799 count : 200 rew : -1
tensor(118651.7500, grad_fn=<MseLossBa

tensor(133390.6875, grad_fn=<MseLossBackward>) tensor(-8564.6445, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 28950 count : 200 rew : -4
epoch : 28951 count : 200 rew : -6
epoch : 28952 count : 200 rew : -2
epoch : 28953 count : 200 rew : 0
epoch : 28954 count : 200 rew : -4
epoch : 28955 count : 200 rew : -3
epoch : 28956 count : 200 rew : -8
epoch : 28957 count : 200 rew : -3
epoch : 28958 count : 200 rew : -7
epoch : 28959 count : 200 rew : -10
tensor(116318.6797, grad_fn=<MseLossBackward>) tensor(-1498.9734, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 28960 count : 200 rew : -5
epoch : 28961 count : 200 rew : -2
epoch : 28962 count : 200 rew : -8
epoch : 28963 count : 200 rew : -7
epoch : 28964 count : 200 rew : 0
epoch : 28965 count : 200 rew : -9
epoch : 28966 count : 200 rew : 0
epoch : 28967 count : 200 rew : -9
epoch : 28968 count : 200 rew : -9
epoch : 28969 count : 200 rew : -8
tensor(139321.8438, grad_fn=<MseLossBackward

tensor(126433.1094, grad_fn=<MseLossBackward>) tensor(-31723.1445, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 29120 count : 200 rew : -8
epoch : 29121 count : 200 rew : -12
epoch : 29122 count : 200 rew : -5
epoch : 29123 count : 200 rew : -5
epoch : 29124 count : 200 rew : -2
epoch : 29125 count : 200 rew : -8
epoch : 29126 count : 200 rew : -8
epoch : 29127 count : 200 rew : -4
epoch : 29128 count : 200 rew : -1
epoch : 29129 count : 200 rew : -7
tensor(98070.7344, grad_fn=<MseLossBackward>) tensor(45717.0547, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 29130 count : 200 rew : -3
epoch : 29131 count : 200 rew : -6
epoch : 29132 count : 200 rew : -12
epoch : 29133 count : 200 rew : -9
epoch : 29134 count : 200 rew : -1
epoch : 29135 count : 200 rew : -7
epoch : 29136 count : 200 rew : -12
epoch : 29137 count : 200 rew : -4
epoch : 29138 count : 200 rew : -13
epoch : 29139 count : 200 rew : -7
tensor(113515.8906, grad_fn=<MseLossBa

tensor(120714.8984, grad_fn=<MseLossBackward>) tensor(-21443.1113, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 29290 count : 200 rew : -2
epoch : 29291 count : 200 rew : -4
epoch : 29292 count : 200 rew : -9
epoch : 29293 count : 200 rew : -12
epoch : 29294 count : 200 rew : -4
epoch : 29295 count : 200 rew : -11
epoch : 29296 count : 200 rew : -1
epoch : 29297 count : 200 rew : -4
epoch : 29298 count : 200 rew : -5
epoch : 29299 count : 200 rew : -9
tensor(106918.0078, grad_fn=<MseLossBackward>) tensor(10052.0771, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 29300 count : 200 rew : -7
epoch : 29301 count : 200 rew : -11
epoch : 29302 count : 200 rew : -2
epoch : 29303 count : 200 rew : -12
epoch : 29304 count : 200 rew : -2
epoch : 29305 count : 200 rew : -9
epoch : 29306 count : 200 rew : -7
epoch : 29307 count : 200 rew : -8
epoch : 29308 count : 200 rew : -8
epoch : 29309 count : 200 rew : -7
tensor(146782.8125, grad_fn=<MseLossB

tensor(116036.5156, grad_fn=<MseLossBackward>) tensor(-24793.2383, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 29460 count : 200 rew : -3
epoch : 29461 count : 200 rew : 0
epoch : 29462 count : 200 rew : -2
epoch : 29463 count : 200 rew : -7
epoch : 29464 count : 200 rew : -6
epoch : 29465 count : 200 rew : -13
epoch : 29466 count : 200 rew : -10
epoch : 29467 count : 200 rew : -6
epoch : 29468 count : 200 rew : -1
epoch : 29469 count : 200 rew : -2
tensor(91776.9141, grad_fn=<MseLossBackward>) tensor(74063.0234, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 29470 count : 200 rew : -10
epoch : 29471 count : 200 rew : -13
epoch : 29472 count : 200 rew : -7
epoch : 29473 count : 200 rew : -9
epoch : 29474 count : 200 rew : -6
epoch : 29475 count : 200 rew : -5
epoch : 29476 count : 200 rew : -10
epoch : 29477 count : 200 rew : -9
epoch : 29478 count : 200 rew : -9
epoch : 29479 count : 200 rew : -6
tensor(136633.4531, grad_fn=<MseLossBa

tensor(112410.2656, grad_fn=<MseLossBackward>) tensor(17785.6738, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 29630 count : 200 rew : -8
epoch : 29631 count : 200 rew : -9
epoch : 29632 count : 200 rew : -1
epoch : 29633 count : 200 rew : -7
epoch : 29634 count : 200 rew : -7
epoch : 29635 count : 200 rew : -7
epoch : 29636 count : 200 rew : -10
epoch : 29637 count : 200 rew : -10
epoch : 29638 count : 200 rew : -4
epoch : 29639 count : 200 rew : -3
tensor(135710.7500, grad_fn=<MseLossBackward>) tensor(-45927.6758, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 29640 count : 200 rew : -1
epoch : 29641 count : 200 rew : -6
epoch : 29642 count : 200 rew : 0
epoch : 29643 count : 200 rew : -4
epoch : 29644 count : 200 rew : -1
epoch : 29645 count : 200 rew : -7
epoch : 29646 count : 200 rew : -1
epoch : 29647 count : 200 rew : -3
epoch : 29648 count : 200 rew : -2
epoch : 29649 count : 200 rew : -3
tensor(98876.8984, grad_fn=<MseLossBackw

tensor(102827.2500, grad_fn=<MseLossBackward>) tensor(11542.4443, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 29800 count : 200 rew : -9
epoch : 29801 count : 200 rew : -14
epoch : 29802 count : 200 rew : -10
epoch : 29803 count : 200 rew : -1
epoch : 29804 count : 200 rew : -1
epoch : 29805 count : 200 rew : -2
epoch : 29806 count : 200 rew : -2
epoch : 29807 count : 200 rew : -11
epoch : 29808 count : 200 rew : -9
epoch : 29809 count : 200 rew : -2
tensor(125553.8047, grad_fn=<MseLossBackward>) tensor(-45568.2969, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 29810 count : 200 rew : -5
epoch : 29811 count : 200 rew : -9
epoch : 29812 count : 200 rew : -3
epoch : 29813 count : 200 rew : -10
epoch : 29814 count : 200 rew : -6
epoch : 29815 count : 200 rew : -7
epoch : 29816 count : 200 rew : -7
epoch : 29817 count : 200 rew : -11
epoch : 29818 count : 200 rew : -6
epoch : 29819 count : 200 rew : -8
tensor(107349.9141, grad_fn=<MseLoss

tensor(116640.8047, grad_fn=<MseLossBackward>) tensor(-35419.2578, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 29970 count : 200 rew : -2
epoch : 29971 count : 200 rew : -4
epoch : 29972 count : 200 rew : -1
epoch : 29973 count : 200 rew : -4
epoch : 29974 count : 200 rew : -7
epoch : 29975 count : 200 rew : -4
epoch : 29976 count : 200 rew : 0
epoch : 29977 count : 200 rew : -3
epoch : 29978 count : 200 rew : -10
epoch : 29979 count : 200 rew : -3
tensor(93648.9766, grad_fn=<MseLossBackward>) tensor(66893.2109, grad_fn=<NegBackward>) tensor(-0.0457, grad_fn=<MulBackward0>)
epoch : 29980 count : 200 rew : -6
epoch : 29981 count : 200 rew : -3
epoch : 29982 count : 200 rew : -6
epoch : 29983 count : 200 rew : -8
epoch : 29984 count : 200 rew : -7
epoch : 29985 count : 200 rew : -5
epoch : 29986 count : 200 rew : -2
epoch : 29987 count : 200 rew : -1
epoch : 29988 count : 200 rew : -16
epoch : 29989 count : 200 rew : -6
tensor(102279.4531, grad_fn=<MseLossBackw

tensor(108439.4219, grad_fn=<MseLossBackward>) tensor(8711.3320, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 30140 count : 200 rew : -13
epoch : 30141 count : 200 rew : -6
epoch : 30142 count : 200 rew : -10
epoch : 30143 count : 200 rew : -8
epoch : 30144 count : 200 rew : 0
epoch : 30145 count : 200 rew : -6
epoch : 30146 count : 200 rew : -6
epoch : 30147 count : 200 rew : -4
epoch : 30148 count : 200 rew : -6
epoch : 30149 count : 200 rew : -5
tensor(106554.2812, grad_fn=<MseLossBackward>) tensor(35141.6602, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 30150 count : 200 rew : -7
epoch : 30151 count : 200 rew : -9
epoch : 30152 count : 200 rew : 0
epoch : 30153 count : 200 rew : -7
epoch : 30154 count : 200 rew : -3
epoch : 30155 count : 200 rew : -8
epoch : 30156 count : 200 rew : -11
epoch : 30157 count : 200 rew : -5
epoch : 30158 count : 200 rew : -3
epoch : 30159 count : 200 rew : -11
tensor(131040.7266, grad_fn=<MseLossBackw

tensor(105310.2812, grad_fn=<MseLossBackward>) tensor(27857.3457, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 30310 count : 200 rew : 0
epoch : 30311 count : 200 rew : -5
epoch : 30312 count : 200 rew : 0
epoch : 30313 count : 200 rew : -1
epoch : 30314 count : 200 rew : -7
epoch : 30315 count : 200 rew : -6
epoch : 30316 count : 200 rew : -9
epoch : 30317 count : 200 rew : -7
epoch : 30318 count : 200 rew : 0
epoch : 30319 count : 200 rew : -6
tensor(112711.8359, grad_fn=<MseLossBackward>) tensor(-3861.0486, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 30320 count : 200 rew : -2
epoch : 30321 count : 200 rew : -8
epoch : 30322 count : 200 rew : 0
epoch : 30323 count : 200 rew : -9
epoch : 30324 count : 200 rew : -7
epoch : 30325 count : 200 rew : -5
epoch : 30326 count : 200 rew : -5
epoch : 30327 count : 200 rew : -10
epoch : 30328 count : 200 rew : -7
epoch : 30329 count : 200 rew : -5
tensor(116714.3594, grad_fn=<MseLossBackward>

tensor(118085.0312, grad_fn=<MseLossBackward>) tensor(-9947.9502, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 30480 count : 200 rew : -3
epoch : 30481 count : 200 rew : -8
epoch : 30482 count : 200 rew : 0
epoch : 30483 count : 200 rew : -4
epoch : 30484 count : 200 rew : -8
epoch : 30485 count : 200 rew : -10
epoch : 30486 count : 200 rew : -2
epoch : 30487 count : 200 rew : -5
epoch : 30488 count : 200 rew : -7
epoch : 30489 count : 200 rew : -8
tensor(112294.5469, grad_fn=<MseLossBackward>) tensor(-19538.0293, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 30490 count : 200 rew : -6
epoch : 30491 count : 200 rew : 0
epoch : 30492 count : 200 rew : -2
epoch : 30493 count : 200 rew : -4
epoch : 30494 count : 200 rew : -7
epoch : 30495 count : 200 rew : -2
epoch : 30496 count : 200 rew : -8
epoch : 30497 count : 200 rew : -6
epoch : 30498 count : 200 rew : -8
epoch : 30499 count : 200 rew : -5
tensor(94520.8906, grad_fn=<MseLossBackwar

tensor(109785.1016, grad_fn=<MseLossBackward>) tensor(-7480.6226, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 30650 count : 200 rew : -11
epoch : 30651 count : 200 rew : -2
epoch : 30652 count : 200 rew : -10
epoch : 30653 count : 200 rew : -9
epoch : 30654 count : 200 rew : -2
epoch : 30655 count : 200 rew : -1
epoch : 30656 count : 200 rew : -10
epoch : 30657 count : 200 rew : -5
epoch : 30658 count : 200 rew : -11
epoch : 30659 count : 200 rew : -2
tensor(95536.7734, grad_fn=<MseLossBackward>) tensor(35940.1641, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 30660 count : 200 rew : -2
epoch : 30661 count : 200 rew : -1
epoch : 30662 count : 200 rew : -1
epoch : 30663 count : 200 rew : -1
epoch : 30664 count : 200 rew : 0
epoch : 30665 count : 200 rew : -10
epoch : 30666 count : 200 rew : -1
epoch : 30667 count : 200 rew : -7
epoch : 30668 count : 200 rew : -4
epoch : 30669 count : 200 rew : -11
tensor(105512.6719, grad_fn=<MseLossBa

tensor(97111.7500, grad_fn=<MseLossBackward>) tensor(32995.8398, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 30820 count : 200 rew : -3
epoch : 30821 count : 200 rew : -7
epoch : 30822 count : 200 rew : -4
epoch : 30823 count : 200 rew : -8
epoch : 30824 count : 200 rew : -4
epoch : 30825 count : 200 rew : -5
epoch : 30826 count : 200 rew : -6
epoch : 30827 count : 200 rew : -7
epoch : 30828 count : 200 rew : -2
epoch : 30829 count : 200 rew : -3
tensor(113830.2891, grad_fn=<MseLossBackward>) tensor(15085.6572, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 30830 count : 200 rew : -2
epoch : 30831 count : 200 rew : -1
epoch : 30832 count : 200 rew : 0
epoch : 30833 count : 200 rew : -6
epoch : 30834 count : 200 rew : -10
epoch : 30835 count : 200 rew : -4
epoch : 30836 count : 200 rew : -3
epoch : 30837 count : 200 rew : -2
epoch : 30838 count : 200 rew : -2
epoch : 30839 count : 200 rew : -8
tensor(126552.6641, grad_fn=<MseLossBackwar

tensor(132820.2031, grad_fn=<MseLossBackward>) tensor(-17941.9395, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 30990 count : 200 rew : -3
epoch : 30991 count : 200 rew : -2
epoch : 30992 count : 200 rew : -5
epoch : 30993 count : 200 rew : -9
epoch : 30994 count : 200 rew : -9
epoch : 30995 count : 200 rew : -9
epoch : 30996 count : 200 rew : -10
epoch : 30997 count : 200 rew : -4
epoch : 30998 count : 200 rew : -5
epoch : 30999 count : 200 rew : -5
tensor(125650.3828, grad_fn=<MseLossBackward>) tensor(-43897.7344, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 31000 count : 200 rew : -5
epoch : 31001 count : 200 rew : -12
epoch : 31002 count : 200 rew : -4
epoch : 31003 count : 200 rew : -3
epoch : 31004 count : 200 rew : -9
epoch : 31005 count : 200 rew : -2
epoch : 31006 count : 200 rew : -5
epoch : 31007 count : 200 rew : -3
epoch : 31008 count : 200 rew : -7
epoch : 31009 count : 200 rew : 0
tensor(144929.6562, grad_fn=<MseLossBac

tensor(135685.9062, grad_fn=<MseLossBackward>) tensor(-57564.5469, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 31160 count : 200 rew : -6
epoch : 31161 count : 200 rew : -9
epoch : 31162 count : 200 rew : -10
epoch : 31163 count : 200 rew : -7
epoch : 31164 count : 200 rew : -10
epoch : 31165 count : 200 rew : -8
epoch : 31166 count : 200 rew : -3
epoch : 31167 count : 200 rew : -8
epoch : 31168 count : 200 rew : 0
epoch : 31169 count : 200 rew : -1
tensor(107775.3594, grad_fn=<MseLossBackward>) tensor(23220.2207, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 31170 count : 200 rew : -4
epoch : 31171 count : 200 rew : -5
epoch : 31172 count : 200 rew : -3
epoch : 31173 count : 200 rew : -2
epoch : 31174 count : 200 rew : -7
epoch : 31175 count : 200 rew : -6
epoch : 31176 count : 200 rew : -5
epoch : 31177 count : 200 rew : -8
epoch : 31178 count : 200 rew : -15
epoch : 31179 count : 200 rew : -8
tensor(119819.9219, grad_fn=<MseLossBac

tensor(132133.8906, grad_fn=<MseLossBackward>) tensor(-44684.9727, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 31330 count : 200 rew : -7
epoch : 31331 count : 200 rew : -6
epoch : 31332 count : 200 rew : -12
epoch : 31333 count : 200 rew : -8
epoch : 31334 count : 200 rew : -4
epoch : 31335 count : 200 rew : -9
epoch : 31336 count : 200 rew : -3
epoch : 31337 count : 200 rew : -6
epoch : 31338 count : 200 rew : -6
epoch : 31339 count : 200 rew : -5
tensor(117334.5000, grad_fn=<MseLossBackward>) tensor(-26955.5215, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 31340 count : 200 rew : -8
epoch : 31341 count : 200 rew : -2
epoch : 31342 count : 200 rew : -14
epoch : 31343 count : 200 rew : -9
epoch : 31344 count : 200 rew : -3
epoch : 31345 count : 200 rew : -2
epoch : 31346 count : 200 rew : -8
epoch : 31347 count : 200 rew : 0
epoch : 31348 count : 200 rew : -3
epoch : 31349 count : 200 rew : -6
tensor(120229.4922, grad_fn=<MseLossBac

tensor(97632.1641, grad_fn=<MseLossBackward>) tensor(60886.4492, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 31500 count : 200 rew : -8
epoch : 31501 count : 200 rew : 0
epoch : 31502 count : 200 rew : -1
epoch : 31503 count : 200 rew : -3
epoch : 31504 count : 200 rew : -10
epoch : 31505 count : 200 rew : -5
epoch : 31506 count : 200 rew : -4
epoch : 31507 count : 200 rew : -2
epoch : 31508 count : 200 rew : -2
epoch : 31509 count : 200 rew : -4
tensor(133388.4844, grad_fn=<MseLossBackward>) tensor(-39289.9258, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 31510 count : 200 rew : -5
epoch : 31511 count : 200 rew : -11
epoch : 31512 count : 200 rew : -1
epoch : 31513 count : 200 rew : -9
epoch : 31514 count : 200 rew : -8
epoch : 31515 count : 200 rew : 0
epoch : 31516 count : 200 rew : -9
epoch : 31517 count : 200 rew : 0
epoch : 31518 count : 200 rew : -5
epoch : 31519 count : 200 rew : -6
tensor(115975.9766, grad_fn=<MseLossBackwar

tensor(101760.4922, grad_fn=<MseLossBackward>) tensor(49458.7734, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 31670 count : 200 rew : -4
epoch : 31671 count : 200 rew : -4
epoch : 31672 count : 200 rew : -8
epoch : 31673 count : 200 rew : -5
epoch : 31674 count : 200 rew : -3
epoch : 31675 count : 200 rew : -4
epoch : 31676 count : 200 rew : -3
epoch : 31677 count : 200 rew : -7
epoch : 31678 count : 200 rew : -1
epoch : 31679 count : 200 rew : 0
tensor(108796.1172, grad_fn=<MseLossBackward>) tensor(-18319.3301, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 31680 count : 200 rew : -9
epoch : 31681 count : 200 rew : -11
epoch : 31682 count : 200 rew : -2
epoch : 31683 count : 200 rew : -6
epoch : 31684 count : 200 rew : -8
epoch : 31685 count : 200 rew : -4
epoch : 31686 count : 200 rew : -7
epoch : 31687 count : 200 rew : -2
epoch : 31688 count : 200 rew : -10
epoch : 31689 count : 200 rew : -6
tensor(127598.7578, grad_fn=<MseLossBack

tensor(118669.3672, grad_fn=<MseLossBackward>) tensor(24467.7793, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 31840 count : 200 rew : -2
epoch : 31841 count : 200 rew : -2
epoch : 31842 count : 200 rew : -8
epoch : 31843 count : 200 rew : -4
epoch : 31844 count : 200 rew : 0
epoch : 31845 count : 200 rew : -14
epoch : 31846 count : 200 rew : -5
epoch : 31847 count : 200 rew : -6
epoch : 31848 count : 200 rew : -7
epoch : 31849 count : 200 rew : 0
tensor(102594.1562, grad_fn=<MseLossBackward>) tensor(-4710.6191, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 31850 count : 200 rew : -7
epoch : 31851 count : 200 rew : -2
epoch : 31852 count : 200 rew : -11
epoch : 31853 count : 200 rew : -2
epoch : 31854 count : 200 rew : -9
epoch : 31855 count : 200 rew : -6
epoch : 31856 count : 200 rew : -5
epoch : 31857 count : 200 rew : -2
epoch : 31858 count : 200 rew : -1
epoch : 31859 count : 200 rew : -3
tensor(116260.4375, grad_fn=<MseLossBackwa

tensor(114755.9141, grad_fn=<MseLossBackward>) tensor(-15315.8945, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 32010 count : 200 rew : -5
epoch : 32011 count : 200 rew : -6
epoch : 32012 count : 200 rew : -5
epoch : 32013 count : 200 rew : -2
epoch : 32014 count : 200 rew : -4
epoch : 32015 count : 200 rew : -2
epoch : 32016 count : 200 rew : -4
epoch : 32017 count : 200 rew : -7
epoch : 32018 count : 200 rew : -7
epoch : 32019 count : 200 rew : -9
tensor(127881.4375, grad_fn=<MseLossBackward>) tensor(-33963.2422, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 32020 count : 200 rew : -1
epoch : 32021 count : 200 rew : -9
epoch : 32022 count : 200 rew : -12
epoch : 32023 count : 200 rew : -3
epoch : 32024 count : 200 rew : 0
epoch : 32025 count : 200 rew : -3
epoch : 32026 count : 200 rew : -9
epoch : 32027 count : 200 rew : -10
epoch : 32028 count : 200 rew : -4
epoch : 32029 count : 200 rew : -3
tensor(110413.1172, grad_fn=<MseLossBac

tensor(126267., grad_fn=<MseLossBackward>) tensor(-19761.0605, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 32180 count : 200 rew : -8
epoch : 32181 count : 200 rew : -6
epoch : 32182 count : 200 rew : -2
epoch : 32183 count : 200 rew : -2
epoch : 32184 count : 200 rew : -8
epoch : 32185 count : 200 rew : -2
epoch : 32186 count : 200 rew : -4
epoch : 32187 count : 200 rew : -10
epoch : 32188 count : 200 rew : 0
epoch : 32189 count : 200 rew : 0
tensor(125748.4844, grad_fn=<MseLossBackward>) tensor(-36315.5547, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 32190 count : 200 rew : -7
epoch : 32191 count : 200 rew : -8
epoch : 32192 count : 200 rew : -3
epoch : 32193 count : 200 rew : -3
epoch : 32194 count : 200 rew : -9
epoch : 32195 count : 200 rew : -10
epoch : 32196 count : 200 rew : -2
epoch : 32197 count : 200 rew : -6
epoch : 32198 count : 200 rew : -9
epoch : 32199 count : 200 rew : -10
tensor(102099.6172, grad_fn=<MseLossBackwar

tensor(123269.1094, grad_fn=<MseLossBackward>) tensor(-8090.0664, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 32350 count : 200 rew : -9
epoch : 32351 count : 200 rew : -4
epoch : 32352 count : 200 rew : -11
epoch : 32353 count : 200 rew : -1
epoch : 32354 count : 200 rew : -3
epoch : 32355 count : 200 rew : -1
epoch : 32356 count : 200 rew : -4
epoch : 32357 count : 200 rew : -7
epoch : 32358 count : 200 rew : 0
epoch : 32359 count : 200 rew : -6
tensor(116330.4609, grad_fn=<MseLossBackward>) tensor(-18272.3359, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 32360 count : 200 rew : -8
epoch : 32361 count : 200 rew : -5
epoch : 32362 count : 200 rew : -5
epoch : 32363 count : 200 rew : -6
epoch : 32364 count : 200 rew : -2
epoch : 32365 count : 200 rew : 0
epoch : 32366 count : 200 rew : -6
epoch : 32367 count : 200 rew : -2
epoch : 32368 count : 200 rew : -9
epoch : 32369 count : 200 rew : -1
tensor(109406.7578, grad_fn=<MseLossBackwa

tensor(117676.8594, grad_fn=<MseLossBackward>) tensor(-14992.7676, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 32520 count : 200 rew : -6
epoch : 32521 count : 200 rew : -4
epoch : 32522 count : 200 rew : -7
epoch : 32523 count : 200 rew : -9
epoch : 32524 count : 200 rew : -9
epoch : 32525 count : 200 rew : -1
epoch : 32526 count : 200 rew : -1
epoch : 32527 count : 200 rew : -6
epoch : 32528 count : 200 rew : -8
epoch : 32529 count : 200 rew : -5
tensor(126465.2969, grad_fn=<MseLossBackward>) tensor(-14106.4834, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 32530 count : 200 rew : 0
epoch : 32531 count : 200 rew : -4
epoch : 32532 count : 200 rew : -7
epoch : 32533 count : 200 rew : -12
epoch : 32534 count : 200 rew : -9
epoch : 32535 count : 200 rew : -7
epoch : 32536 count : 200 rew : -7
epoch : 32537 count : 200 rew : -7
epoch : 32538 count : 200 rew : -4
epoch : 32539 count : 200 rew : -9
tensor(138020.9844, grad_fn=<MseLossBack

tensor(120458.6328, grad_fn=<MseLossBackward>) tensor(-36502.7539, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 32690 count : 200 rew : -6
epoch : 32691 count : 200 rew : -4
epoch : 32692 count : 200 rew : -6
epoch : 32693 count : 200 rew : -2
epoch : 32694 count : 200 rew : -8
epoch : 32695 count : 200 rew : -8
epoch : 32696 count : 200 rew : -6
epoch : 32697 count : 200 rew : -3
epoch : 32698 count : 200 rew : -6
epoch : 32699 count : 200 rew : -4
tensor(111938.4922, grad_fn=<MseLossBackward>) tensor(13374.7109, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 32700 count : 200 rew : -1
epoch : 32701 count : 200 rew : -9
epoch : 32702 count : 200 rew : -5
epoch : 32703 count : 200 rew : -2
epoch : 32704 count : 200 rew : -3
epoch : 32705 count : 200 rew : -3
epoch : 32706 count : 200 rew : -15
epoch : 32707 count : 200 rew : -5
epoch : 32708 count : 200 rew : -6
epoch : 32709 count : 200 rew : -10
tensor(116938.5391, grad_fn=<MseLossBac

tensor(105063.5234, grad_fn=<MseLossBackward>) tensor(21206.0449, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 32860 count : 200 rew : -5
epoch : 32861 count : 200 rew : -8
epoch : 32862 count : 200 rew : -4
epoch : 32863 count : 200 rew : -5
epoch : 32864 count : 200 rew : -7
epoch : 32865 count : 200 rew : -4
epoch : 32866 count : 200 rew : -2
epoch : 32867 count : 200 rew : -14
epoch : 32868 count : 200 rew : -9
epoch : 32869 count : 200 rew : -11
tensor(134140.8594, grad_fn=<MseLossBackward>) tensor(-36410.4102, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 32870 count : 200 rew : -5
epoch : 32871 count : 200 rew : 0
epoch : 32872 count : 200 rew : -1
epoch : 32873 count : 200 rew : -9
epoch : 32874 count : 200 rew : -7
epoch : 32875 count : 200 rew : -1
epoch : 32876 count : 200 rew : -10
epoch : 32877 count : 200 rew : -3
epoch : 32878 count : 200 rew : -1
epoch : 32879 count : 200 rew : -5
tensor(97414.4219, grad_fn=<MseLossBack

tensor(132046.2500, grad_fn=<MseLossBackward>) tensor(-29313.1094, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 33030 count : 200 rew : -10
epoch : 33031 count : 200 rew : -4
epoch : 33032 count : 200 rew : -1
epoch : 33033 count : 200 rew : -3
epoch : 33034 count : 200 rew : -2
epoch : 33035 count : 200 rew : -10
epoch : 33036 count : 200 rew : -2
epoch : 33037 count : 200 rew : -9
epoch : 33038 count : 200 rew : -9
epoch : 33039 count : 200 rew : -1
tensor(114010.7031, grad_fn=<MseLossBackward>) tensor(17707.3457, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 33040 count : 200 rew : -4
epoch : 33041 count : 200 rew : -5
epoch : 33042 count : 200 rew : -12
epoch : 33043 count : 200 rew : -7
epoch : 33044 count : 200 rew : -7
epoch : 33045 count : 200 rew : -3
epoch : 33046 count : 200 rew : -8
epoch : 33047 count : 200 rew : -7
epoch : 33048 count : 200 rew : 0
epoch : 33049 count : 200 rew : -9
tensor(106930.4062, grad_fn=<MseLossBac

tensor(112997.5625, grad_fn=<MseLossBackward>) tensor(-925.4562, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 33200 count : 200 rew : -8
epoch : 33201 count : 200 rew : -6
epoch : 33202 count : 200 rew : -5
epoch : 33203 count : 200 rew : -8
epoch : 33204 count : 200 rew : -9
epoch : 33205 count : 200 rew : -2
epoch : 33206 count : 200 rew : -11
epoch : 33207 count : 200 rew : -3
epoch : 33208 count : 200 rew : -10
epoch : 33209 count : 200 rew : -1
tensor(110004.5078, grad_fn=<MseLossBackward>) tensor(-17002.6895, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 33210 count : 200 rew : -7
epoch : 33211 count : 200 rew : -7
epoch : 33212 count : 200 rew : -13
epoch : 33213 count : 200 rew : -8
epoch : 33214 count : 200 rew : -8
epoch : 33215 count : 200 rew : -4
epoch : 33216 count : 200 rew : -2
epoch : 33217 count : 200 rew : -5
epoch : 33218 count : 200 rew : -8
epoch : 33219 count : 200 rew : -2
tensor(128922.0078, grad_fn=<MseLossBac

tensor(117936.9844, grad_fn=<MseLossBackward>) tensor(-1590.8884, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 33370 count : 200 rew : -7
epoch : 33371 count : 200 rew : -9
epoch : 33372 count : 200 rew : -9
epoch : 33373 count : 200 rew : -3
epoch : 33374 count : 200 rew : -9
epoch : 33375 count : 200 rew : -1
epoch : 33376 count : 200 rew : -7
epoch : 33377 count : 200 rew : -10
epoch : 33378 count : 200 rew : -3
epoch : 33379 count : 200 rew : -6
tensor(110727.7578, grad_fn=<MseLossBackward>) tensor(-9785.9395, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 33380 count : 200 rew : -3
epoch : 33381 count : 200 rew : 0
epoch : 33382 count : 200 rew : -7
epoch : 33383 count : 200 rew : -9
epoch : 33384 count : 200 rew : -6
epoch : 33385 count : 200 rew : -3
epoch : 33386 count : 200 rew : -6
epoch : 33387 count : 200 rew : -8
epoch : 33388 count : 200 rew : -10
epoch : 33389 count : 200 rew : -4
tensor(92618.5391, grad_fn=<MseLossBackwa

tensor(116881.2500, grad_fn=<MseLossBackward>) tensor(-19772.5332, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 33540 count : 200 rew : -6
epoch : 33541 count : 200 rew : -3
epoch : 33542 count : 200 rew : 0
epoch : 33543 count : 200 rew : -2
epoch : 33544 count : 200 rew : -6
epoch : 33545 count : 200 rew : 0
epoch : 33546 count : 200 rew : -2
epoch : 33547 count : 200 rew : -1
epoch : 33548 count : 200 rew : -4
epoch : 33549 count : 200 rew : -2
tensor(111861.7578, grad_fn=<MseLossBackward>) tensor(23786.3652, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 33550 count : 200 rew : -8
epoch : 33551 count : 200 rew : -1
epoch : 33552 count : 200 rew : -12
epoch : 33553 count : 200 rew : -2
epoch : 33554 count : 200 rew : -8
epoch : 33555 count : 200 rew : -3
epoch : 33556 count : 200 rew : -12
epoch : 33557 count : 200 rew : -11
epoch : 33558 count : 200 rew : -9
epoch : 33559 count : 200 rew : -7
tensor(126227.7500, grad_fn=<MseLossBack

tensor(138497.5938, grad_fn=<MseLossBackward>) tensor(-52283.6406, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 33710 count : 200 rew : -9
epoch : 33711 count : 200 rew : -7
epoch : 33712 count : 200 rew : -6
epoch : 33713 count : 200 rew : 0
epoch : 33714 count : 200 rew : -11
epoch : 33715 count : 200 rew : 0
epoch : 33716 count : 200 rew : -10
epoch : 33717 count : 200 rew : 0
epoch : 33718 count : 200 rew : -13
epoch : 33719 count : 200 rew : -9
tensor(97303.1484, grad_fn=<MseLossBackward>) tensor(52995.4141, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 33720 count : 200 rew : -3
epoch : 33721 count : 200 rew : -1
epoch : 33722 count : 200 rew : -13
epoch : 33723 count : 200 rew : -9
epoch : 33724 count : 200 rew : -10
epoch : 33725 count : 200 rew : -6
epoch : 33726 count : 200 rew : -4
epoch : 33727 count : 200 rew : -3
epoch : 33728 count : 200 rew : -7
epoch : 33729 count : 200 rew : -7
tensor(109374.2344, grad_fn=<MseLossBack

tensor(116711.1953, grad_fn=<MseLossBackward>) tensor(7102.0308, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 33880 count : 200 rew : 0
epoch : 33881 count : 200 rew : 0
epoch : 33882 count : 200 rew : -8
epoch : 33883 count : 200 rew : -11
epoch : 33884 count : 200 rew : -4
epoch : 33885 count : 200 rew : -3
epoch : 33886 count : 200 rew : -1
epoch : 33887 count : 200 rew : -2
epoch : 33888 count : 200 rew : -9
epoch : 33889 count : 200 rew : -10
tensor(117987.0469, grad_fn=<MseLossBackward>) tensor(-14512.0439, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 33890 count : 200 rew : -4
epoch : 33891 count : 200 rew : -4
epoch : 33892 count : 200 rew : -8
epoch : 33893 count : 200 rew : -3
epoch : 33894 count : 200 rew : -8
epoch : 33895 count : 200 rew : -7
epoch : 33896 count : 200 rew : -3
epoch : 33897 count : 200 rew : -1
epoch : 33898 count : 200 rew : -9
epoch : 33899 count : 200 rew : -6
tensor(148346.6719, grad_fn=<MseLossBackwa

tensor(135984.8594, grad_fn=<MseLossBackward>) tensor(-68111.7422, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 34050 count : 200 rew : -4
epoch : 34051 count : 200 rew : -2
epoch : 34052 count : 200 rew : 0
epoch : 34053 count : 200 rew : -4
epoch : 34054 count : 200 rew : 0
epoch : 34055 count : 200 rew : -4
epoch : 34056 count : 200 rew : -8
epoch : 34057 count : 200 rew : -7
epoch : 34058 count : 200 rew : -1
epoch : 34059 count : 200 rew : -11
tensor(97397.8906, grad_fn=<MseLossBackward>) tensor(59163.1797, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 34060 count : 200 rew : -9
epoch : 34061 count : 200 rew : -7
epoch : 34062 count : 200 rew : -6
epoch : 34063 count : 200 rew : -8
epoch : 34064 count : 200 rew : 0
epoch : 34065 count : 200 rew : -1
epoch : 34066 count : 200 rew : -11
epoch : 34067 count : 200 rew : -6
epoch : 34068 count : 200 rew : -7
epoch : 34069 count : 200 rew : -2
tensor(136366.0312, grad_fn=<MseLossBackwar

tensor(95746.1484, grad_fn=<MseLossBackward>) tensor(29126.4727, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 34220 count : 200 rew : -10
epoch : 34221 count : 200 rew : -6
epoch : 34222 count : 200 rew : -9
epoch : 34223 count : 200 rew : -6
epoch : 34224 count : 200 rew : -1
epoch : 34225 count : 200 rew : -4
epoch : 34226 count : 200 rew : -9
epoch : 34227 count : 200 rew : -9
epoch : 34228 count : 200 rew : -3
epoch : 34229 count : 200 rew : -6
tensor(123163.2969, grad_fn=<MseLossBackward>) tensor(-9774.0674, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 34230 count : 200 rew : 0
epoch : 34231 count : 200 rew : -9
epoch : 34232 count : 200 rew : -8
epoch : 34233 count : 200 rew : -4
epoch : 34234 count : 200 rew : -9
epoch : 34235 count : 200 rew : -9
epoch : 34236 count : 200 rew : 0
epoch : 34237 count : 200 rew : -9
epoch : 34238 count : 200 rew : -3
epoch : 34239 count : 200 rew : -6
tensor(117173.1172, grad_fn=<MseLossBackward

tensor(119947.5469, grad_fn=<MseLossBackward>) tensor(-36894.6172, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 34390 count : 200 rew : -10
epoch : 34391 count : 200 rew : -5
epoch : 34392 count : 200 rew : 0
epoch : 34393 count : 200 rew : 0
epoch : 34394 count : 200 rew : -5
epoch : 34395 count : 200 rew : -3
epoch : 34396 count : 200 rew : -5
epoch : 34397 count : 200 rew : -4
epoch : 34398 count : 200 rew : -7
epoch : 34399 count : 200 rew : -8
tensor(104275.0547, grad_fn=<MseLossBackward>) tensor(11687.4521, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 34400 count : 200 rew : -11
epoch : 34401 count : 200 rew : -7
epoch : 34402 count : 200 rew : -5
epoch : 34403 count : 200 rew : -8
epoch : 34404 count : 200 rew : -5
epoch : 34405 count : 200 rew : -6
epoch : 34406 count : 200 rew : -6
epoch : 34407 count : 200 rew : -2
epoch : 34408 count : 200 rew : -5
epoch : 34409 count : 200 rew : -9
tensor(139511.1250, grad_fn=<MseLossBackw

tensor(99368.9062, grad_fn=<MseLossBackward>) tensor(60229.7617, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 34560 count : 200 rew : -8
epoch : 34561 count : 200 rew : -7
epoch : 34562 count : 200 rew : -9
epoch : 34563 count : 200 rew : -8
epoch : 34564 count : 200 rew : -11
epoch : 34565 count : 200 rew : -5
epoch : 34566 count : 200 rew : -7
epoch : 34567 count : 200 rew : -3
epoch : 34568 count : 200 rew : -1
epoch : 34569 count : 200 rew : -9
tensor(106007.3281, grad_fn=<MseLossBackward>) tensor(24081.9062, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 34570 count : 200 rew : -4
epoch : 34571 count : 200 rew : -3
epoch : 34572 count : 200 rew : 0
epoch : 34573 count : 200 rew : -7
epoch : 34574 count : 200 rew : -7
epoch : 34575 count : 200 rew : -4
epoch : 34576 count : 200 rew : -6
epoch : 34577 count : 200 rew : -5
epoch : 34578 count : 200 rew : -5
epoch : 34579 count : 200 rew : -6
tensor(146342.2188, grad_fn=<MseLossBackwar

tensor(107402.0078, grad_fn=<MseLossBackward>) tensor(-6748.9614, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 34730 count : 200 rew : -1
epoch : 34731 count : 200 rew : -5
epoch : 34732 count : 200 rew : -10
epoch : 34733 count : 200 rew : -3
epoch : 34734 count : 200 rew : -3
epoch : 34735 count : 200 rew : -4
epoch : 34736 count : 200 rew : -9
epoch : 34737 count : 200 rew : -4
epoch : 34738 count : 200 rew : -12
epoch : 34739 count : 200 rew : -6
tensor(120685.3516, grad_fn=<MseLossBackward>) tensor(14274.8271, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 34740 count : 200 rew : -4
epoch : 34741 count : 200 rew : -6
epoch : 34742 count : 200 rew : -4
epoch : 34743 count : 200 rew : -1
epoch : 34744 count : 200 rew : -3
epoch : 34745 count : 200 rew : -2
epoch : 34746 count : 200 rew : 0
epoch : 34747 count : 200 rew : -11
epoch : 34748 count : 200 rew : -1
epoch : 34749 count : 200 rew : -9
tensor(95881.6172, grad_fn=<MseLossBackw

tensor(102587.5312, grad_fn=<MseLossBackward>) tensor(40630.9766, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 34900 count : 200 rew : -3
epoch : 34901 count : 200 rew : -1
epoch : 34902 count : 200 rew : -7
epoch : 34903 count : 200 rew : 0
epoch : 34904 count : 200 rew : -5
epoch : 34905 count : 200 rew : -7
epoch : 34906 count : 200 rew : 0
epoch : 34907 count : 200 rew : -4
epoch : 34908 count : 200 rew : -4
epoch : 34909 count : 200 rew : -9
tensor(119733.1562, grad_fn=<MseLossBackward>) tensor(-8724.3643, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 34910 count : 200 rew : -6
epoch : 34911 count : 200 rew : -11
epoch : 34912 count : 200 rew : -4
epoch : 34913 count : 200 rew : -6
epoch : 34914 count : 200 rew : -2
epoch : 34915 count : 200 rew : -2
epoch : 34916 count : 200 rew : -6
epoch : 34917 count : 200 rew : 0
epoch : 34918 count : 200 rew : -5
epoch : 34919 count : 200 rew : -7
tensor(135009.4531, grad_fn=<MseLossBackward

tensor(117369.9141, grad_fn=<MseLossBackward>) tensor(17402.7598, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 35070 count : 200 rew : -3
epoch : 35071 count : 200 rew : -10
epoch : 35072 count : 200 rew : -1
epoch : 35073 count : 200 rew : -8
epoch : 35074 count : 200 rew : -2
epoch : 35075 count : 200 rew : -8
epoch : 35076 count : 200 rew : -8
epoch : 35077 count : 200 rew : -8
epoch : 35078 count : 200 rew : -2
epoch : 35079 count : 200 rew : 0
tensor(118297.3984, grad_fn=<MseLossBackward>) tensor(-5114.1919, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 35080 count : 200 rew : -4
epoch : 35081 count : 200 rew : -8
epoch : 35082 count : 200 rew : -3
epoch : 35083 count : 200 rew : -6
epoch : 35084 count : 200 rew : 0
epoch : 35085 count : 200 rew : -6
epoch : 35086 count : 200 rew : -11
epoch : 35087 count : 200 rew : 0
epoch : 35088 count : 200 rew : 0
epoch : 35089 count : 200 rew : -8
tensor(122120.9531, grad_fn=<MseLossBackward

tensor(124319.6406, grad_fn=<MseLossBackward>) tensor(-19680.6270, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 35240 count : 200 rew : -9
epoch : 35241 count : 200 rew : -4
epoch : 35242 count : 200 rew : -7
epoch : 35243 count : 200 rew : -4
epoch : 35244 count : 200 rew : 0
epoch : 35245 count : 200 rew : -7
epoch : 35246 count : 200 rew : -3
epoch : 35247 count : 200 rew : -9
epoch : 35248 count : 200 rew : -3
epoch : 35249 count : 200 rew : -10
tensor(111854.2422, grad_fn=<MseLossBackward>) tensor(23858.8711, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 35250 count : 200 rew : -7
epoch : 35251 count : 200 rew : -1
epoch : 35252 count : 200 rew : -1
epoch : 35253 count : 200 rew : -4
epoch : 35254 count : 200 rew : -2
epoch : 35255 count : 200 rew : -10
epoch : 35256 count : 200 rew : -3
epoch : 35257 count : 200 rew : -8
epoch : 35258 count : 200 rew : -6
epoch : 35259 count : 200 rew : -13
tensor(122057.7969, grad_fn=<MseLossBac

tensor(124045.2891, grad_fn=<MseLossBackward>) tensor(-46331.1719, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 35410 count : 200 rew : -6
epoch : 35411 count : 200 rew : 0
epoch : 35412 count : 200 rew : -13
epoch : 35413 count : 200 rew : -9
epoch : 35414 count : 200 rew : -3
epoch : 35415 count : 200 rew : -9
epoch : 35416 count : 200 rew : -4
epoch : 35417 count : 200 rew : -3
epoch : 35418 count : 200 rew : -2
epoch : 35419 count : 200 rew : -7
tensor(104936.0781, grad_fn=<MseLossBackward>) tensor(11255.4141, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 35420 count : 200 rew : -8
epoch : 35421 count : 200 rew : -3
epoch : 35422 count : 200 rew : 0
epoch : 35423 count : 200 rew : 0
epoch : 35424 count : 200 rew : -8
epoch : 35425 count : 200 rew : 0
epoch : 35426 count : 200 rew : -9
epoch : 35427 count : 200 rew : -6
epoch : 35428 count : 200 rew : -8
epoch : 35429 count : 200 rew : -8
tensor(120315.6328, grad_fn=<MseLossBackward

tensor(124778.3438, grad_fn=<MseLossBackward>) tensor(-40905.5938, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 35580 count : 200 rew : -1
epoch : 35581 count : 200 rew : -6
epoch : 35582 count : 200 rew : -9
epoch : 35583 count : 200 rew : -9
epoch : 35584 count : 200 rew : -9
epoch : 35585 count : 200 rew : -9
epoch : 35586 count : 200 rew : -6
epoch : 35587 count : 200 rew : -5
epoch : 35588 count : 200 rew : -4
epoch : 35589 count : 200 rew : 0
tensor(109717.9219, grad_fn=<MseLossBackward>) tensor(511.7527, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 35590 count : 200 rew : -6
epoch : 35591 count : 200 rew : -4
epoch : 35592 count : 200 rew : -2
epoch : 35593 count : 200 rew : -7
epoch : 35594 count : 200 rew : 0
epoch : 35595 count : 200 rew : 0
epoch : 35596 count : 200 rew : 0
epoch : 35597 count : 200 rew : -1
epoch : 35598 count : 200 rew : 0
epoch : 35599 count : 200 rew : -6
tensor(105205.3594, grad_fn=<MseLossBackward>) t

tensor(104785.7578, grad_fn=<MseLossBackward>) tensor(24723.5742, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 35750 count : 200 rew : -9
epoch : 35751 count : 200 rew : -4
epoch : 35752 count : 200 rew : -1
epoch : 35753 count : 200 rew : -3
epoch : 35754 count : 200 rew : -8
epoch : 35755 count : 200 rew : -6
epoch : 35756 count : 200 rew : -4
epoch : 35757 count : 200 rew : -3
epoch : 35758 count : 200 rew : -1
epoch : 35759 count : 200 rew : 0
tensor(117620.0781, grad_fn=<MseLossBackward>) tensor(-37812.1211, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 35760 count : 200 rew : -3
epoch : 35761 count : 200 rew : -7
epoch : 35762 count : 200 rew : -2
epoch : 35763 count : 200 rew : -7
epoch : 35764 count : 200 rew : -13
epoch : 35765 count : 200 rew : -8
epoch : 35766 count : 200 rew : -3
epoch : 35767 count : 200 rew : -3
epoch : 35768 count : 200 rew : -6
epoch : 35769 count : 200 rew : -6
tensor(130453.0547, grad_fn=<MseLossBackw

tensor(119454.9219, grad_fn=<MseLossBackward>) tensor(-8992.2129, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 35920 count : 200 rew : -13
epoch : 35921 count : 200 rew : -7
epoch : 35922 count : 200 rew : -9
epoch : 35923 count : 200 rew : -13
epoch : 35924 count : 200 rew : -6
epoch : 35925 count : 200 rew : -3
epoch : 35926 count : 200 rew : -4
epoch : 35927 count : 200 rew : 0
epoch : 35928 count : 200 rew : -3
epoch : 35929 count : 200 rew : -4
tensor(115657.9531, grad_fn=<MseLossBackward>) tensor(4613.8682, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 35930 count : 200 rew : -6
epoch : 35931 count : 200 rew : -1
epoch : 35932 count : 200 rew : -12
epoch : 35933 count : 200 rew : -6
epoch : 35934 count : 200 rew : -5
epoch : 35935 count : 200 rew : -6
epoch : 35936 count : 200 rew : -8
epoch : 35937 count : 200 rew : -4
epoch : 35938 count : 200 rew : -8
epoch : 35939 count : 200 rew : -3
tensor(132153.1094, grad_fn=<MseLossBackw

tensor(115664.2734, grad_fn=<MseLossBackward>) tensor(10879.8711, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 36090 count : 200 rew : -7
epoch : 36091 count : 200 rew : -9
epoch : 36092 count : 200 rew : -7
epoch : 36093 count : 200 rew : -13
epoch : 36094 count : 200 rew : -5
epoch : 36095 count : 200 rew : -6
epoch : 36096 count : 200 rew : -4
epoch : 36097 count : 200 rew : -8
epoch : 36098 count : 200 rew : -9
epoch : 36099 count : 200 rew : -5
tensor(135262.4219, grad_fn=<MseLossBackward>) tensor(-59987.3750, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 36100 count : 200 rew : -1
epoch : 36101 count : 200 rew : -6
epoch : 36102 count : 200 rew : -7
epoch : 36103 count : 200 rew : -1
epoch : 36104 count : 200 rew : -6
epoch : 36105 count : 200 rew : -1
epoch : 36106 count : 200 rew : 0
epoch : 36107 count : 200 rew : -8
epoch : 36108 count : 200 rew : -9
epoch : 36109 count : 200 rew : -8
tensor(109549.7031, grad_fn=<MseLossBackw

tensor(97011.5625, grad_fn=<MseLossBackward>) tensor(41218.9062, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 36260 count : 200 rew : -7
epoch : 36261 count : 200 rew : -8
epoch : 36262 count : 200 rew : 0
epoch : 36263 count : 200 rew : 0
epoch : 36264 count : 200 rew : -1
epoch : 36265 count : 200 rew : -9
epoch : 36266 count : 200 rew : -9
epoch : 36267 count : 200 rew : -4
epoch : 36268 count : 200 rew : -8
epoch : 36269 count : 200 rew : -4
tensor(97254.3906, grad_fn=<MseLossBackward>) tensor(76914.0781, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 36270 count : 200 rew : -4
epoch : 36271 count : 200 rew : -7
epoch : 36272 count : 200 rew : -8
epoch : 36273 count : 200 rew : -3
epoch : 36274 count : 200 rew : -6
epoch : 36275 count : 200 rew : -1
epoch : 36276 count : 200 rew : 0
epoch : 36277 count : 200 rew : -6
epoch : 36278 count : 200 rew : -1
epoch : 36279 count : 200 rew : -7
tensor(118128.2656, grad_fn=<MseLossBackward>) 

tensor(110611.6172, grad_fn=<MseLossBackward>) tensor(34662.7031, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 36430 count : 200 rew : -2
epoch : 36431 count : 200 rew : -11
epoch : 36432 count : 200 rew : -8
epoch : 36433 count : 200 rew : -8
epoch : 36434 count : 200 rew : -7
epoch : 36435 count : 200 rew : -10
epoch : 36436 count : 200 rew : -10
epoch : 36437 count : 200 rew : -5
epoch : 36438 count : 200 rew : -7
epoch : 36439 count : 200 rew : -1
tensor(118157.4297, grad_fn=<MseLossBackward>) tensor(-32767.4629, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 36440 count : 200 rew : -12
epoch : 36441 count : 200 rew : -2
epoch : 36442 count : 200 rew : -11
epoch : 36443 count : 200 rew : -7
epoch : 36444 count : 200 rew : -6
epoch : 36445 count : 200 rew : -9
epoch : 36446 count : 200 rew : -4
epoch : 36447 count : 200 rew : -10
epoch : 36448 count : 200 rew : -7
epoch : 36449 count : 200 rew : -6
tensor(115501.8203, grad_fn=<MseLos

tensor(98393.4844, grad_fn=<MseLossBackward>) tensor(32775.5625, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 36600 count : 200 rew : -8
epoch : 36601 count : 200 rew : -8
epoch : 36602 count : 200 rew : -3
epoch : 36603 count : 200 rew : -12
epoch : 36604 count : 200 rew : -1
epoch : 36605 count : 200 rew : -7
epoch : 36606 count : 200 rew : -5
epoch : 36607 count : 200 rew : -4
epoch : 36608 count : 200 rew : -8
epoch : 36609 count : 200 rew : -7
tensor(104481.9297, grad_fn=<MseLossBackward>) tensor(2705.2339, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 36610 count : 200 rew : -6
epoch : 36611 count : 200 rew : -9
epoch : 36612 count : 200 rew : -3
epoch : 36613 count : 200 rew : -1
epoch : 36614 count : 200 rew : -6
epoch : 36615 count : 200 rew : -1
epoch : 36616 count : 200 rew : -6
epoch : 36617 count : 200 rew : -8
epoch : 36618 count : 200 rew : -5
epoch : 36619 count : 200 rew : -8
tensor(116568.6016, grad_fn=<MseLossBackwar

tensor(101947.4062, grad_fn=<MseLossBackward>) tensor(28091.9336, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 36770 count : 200 rew : -8
epoch : 36771 count : 200 rew : -3
epoch : 36772 count : 200 rew : -13
epoch : 36773 count : 200 rew : -3
epoch : 36774 count : 200 rew : -4
epoch : 36775 count : 200 rew : 0
epoch : 36776 count : 200 rew : -12
epoch : 36777 count : 200 rew : -6
epoch : 36778 count : 200 rew : -7
epoch : 36779 count : 200 rew : -10
tensor(125644.7500, grad_fn=<MseLossBackward>) tensor(-38455.8555, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 36780 count : 200 rew : 0
epoch : 36781 count : 200 rew : -1
epoch : 36782 count : 200 rew : -12
epoch : 36783 count : 200 rew : -4
epoch : 36784 count : 200 rew : -3
epoch : 36785 count : 200 rew : -2
epoch : 36786 count : 200 rew : -4
epoch : 36787 count : 200 rew : -2
epoch : 36788 count : 200 rew : -7
epoch : 36789 count : 200 rew : -9
tensor(101764.9453, grad_fn=<MseLossBac

tensor(101909.2500, grad_fn=<MseLossBackward>) tensor(2303.4080, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 36940 count : 200 rew : -3
epoch : 36941 count : 200 rew : -5
epoch : 36942 count : 200 rew : 0
epoch : 36943 count : 200 rew : -7
epoch : 36944 count : 200 rew : -12
epoch : 36945 count : 200 rew : -2
epoch : 36946 count : 200 rew : -7
epoch : 36947 count : 200 rew : 0
epoch : 36948 count : 200 rew : -2
epoch : 36949 count : 200 rew : -5
tensor(107068.2500, grad_fn=<MseLossBackward>) tensor(33454.1484, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 36950 count : 200 rew : -1
epoch : 36951 count : 200 rew : -1
epoch : 36952 count : 200 rew : -10
epoch : 36953 count : 200 rew : -2
epoch : 36954 count : 200 rew : -1
epoch : 36955 count : 200 rew : -8
epoch : 36956 count : 200 rew : -4
epoch : 36957 count : 200 rew : -2
epoch : 36958 count : 200 rew : -3
epoch : 36959 count : 200 rew : -5
tensor(108731.1016, grad_fn=<MseLossBackwar

tensor(100400.5859, grad_fn=<MseLossBackward>) tensor(13935.1094, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 37110 count : 200 rew : -6
epoch : 37111 count : 200 rew : -1
epoch : 37112 count : 200 rew : -13
epoch : 37113 count : 200 rew : -3
epoch : 37114 count : 200 rew : 0
epoch : 37115 count : 200 rew : -8
epoch : 37116 count : 200 rew : -1
epoch : 37117 count : 200 rew : -6
epoch : 37118 count : 200 rew : -1
epoch : 37119 count : 200 rew : 0
tensor(109895.5859, grad_fn=<MseLossBackward>) tensor(22148.0645, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 37120 count : 200 rew : -1
epoch : 37121 count : 200 rew : 0
epoch : 37122 count : 200 rew : -8
epoch : 37123 count : 200 rew : -9
epoch : 37124 count : 200 rew : -5
epoch : 37125 count : 200 rew : -2
epoch : 37126 count : 200 rew : -12
epoch : 37127 count : 200 rew : -5
epoch : 37128 count : 200 rew : -3
epoch : 37129 count : 200 rew : -7
tensor(134339.1250, grad_fn=<MseLossBackwar

tensor(136539.4844, grad_fn=<MseLossBackward>) tensor(-66095.2031, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 37280 count : 200 rew : 0
epoch : 37281 count : 200 rew : -9
epoch : 37282 count : 200 rew : -5
epoch : 37283 count : 200 rew : -6
epoch : 37284 count : 200 rew : -2
epoch : 37285 count : 200 rew : -10
epoch : 37286 count : 200 rew : 0
epoch : 37287 count : 200 rew : -6
epoch : 37288 count : 200 rew : 0
epoch : 37289 count : 200 rew : -5
tensor(113516.0469, grad_fn=<MseLossBackward>) tensor(5558.2007, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 37290 count : 200 rew : -2
epoch : 37291 count : 200 rew : -10
epoch : 37292 count : 200 rew : -8
epoch : 37293 count : 200 rew : -9
epoch : 37294 count : 200 rew : -2
epoch : 37295 count : 200 rew : -5
epoch : 37296 count : 200 rew : -8
epoch : 37297 count : 200 rew : -4
epoch : 37298 count : 200 rew : -3
epoch : 37299 count : 200 rew : 0
tensor(118131.5938, grad_fn=<MseLossBackward

tensor(94621.4766, grad_fn=<MseLossBackward>) tensor(24177.5039, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 37450 count : 200 rew : 0
epoch : 37451 count : 200 rew : -7
epoch : 37452 count : 200 rew : -4
epoch : 37453 count : 200 rew : -3
epoch : 37454 count : 200 rew : -10
epoch : 37455 count : 200 rew : 0
epoch : 37456 count : 200 rew : -4
epoch : 37457 count : 200 rew : 0
epoch : 37458 count : 200 rew : -11
epoch : 37459 count : 200 rew : -6
tensor(105270.8359, grad_fn=<MseLossBackward>) tensor(26192.8184, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 37460 count : 200 rew : -6
epoch : 37461 count : 200 rew : -5
epoch : 37462 count : 200 rew : -6
epoch : 37463 count : 200 rew : -6
epoch : 37464 count : 200 rew : -5
epoch : 37465 count : 200 rew : -4
epoch : 37466 count : 200 rew : -9
epoch : 37467 count : 200 rew : 0
epoch : 37468 count : 200 rew : -1
epoch : 37469 count : 200 rew : -2
tensor(117034.5391, grad_fn=<MseLossBackward>

tensor(124611.6016, grad_fn=<MseLossBackward>) tensor(-33816.9023, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 37620 count : 200 rew : -4
epoch : 37621 count : 200 rew : -3
epoch : 37622 count : 200 rew : -5
epoch : 37623 count : 200 rew : -13
epoch : 37624 count : 200 rew : -10
epoch : 37625 count : 200 rew : -10
epoch : 37626 count : 200 rew : -8
epoch : 37627 count : 200 rew : -14
epoch : 37628 count : 200 rew : -9
epoch : 37629 count : 200 rew : -7
tensor(101898.6562, grad_fn=<MseLossBackward>) tensor(58224.8359, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 37630 count : 200 rew : 0
epoch : 37631 count : 200 rew : -5
epoch : 37632 count : 200 rew : -6
epoch : 37633 count : 200 rew : -4
epoch : 37634 count : 200 rew : -7
epoch : 37635 count : 200 rew : -9
epoch : 37636 count : 200 rew : -1
epoch : 37637 count : 200 rew : -10
epoch : 37638 count : 200 rew : -8
epoch : 37639 count : 200 rew : -8
tensor(128930.1875, grad_fn=<MseLossB

tensor(99367.3047, grad_fn=<MseLossBackward>) tensor(39432.7578, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 37790 count : 200 rew : -3
epoch : 37791 count : 200 rew : -8
epoch : 37792 count : 200 rew : -8
epoch : 37793 count : 200 rew : -4
epoch : 37794 count : 200 rew : -8
epoch : 37795 count : 200 rew : -9
epoch : 37796 count : 200 rew : -7
epoch : 37797 count : 200 rew : -9
epoch : 37798 count : 200 rew : -1
epoch : 37799 count : 200 rew : -4
tensor(149086.6094, grad_fn=<MseLossBackward>) tensor(-134045.7656, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 37800 count : 200 rew : -4
epoch : 37801 count : 200 rew : -7
epoch : 37802 count : 200 rew : -6
epoch : 37803 count : 200 rew : -8
epoch : 37804 count : 200 rew : -6
epoch : 37805 count : 200 rew : -6
epoch : 37806 count : 200 rew : -2
epoch : 37807 count : 200 rew : -10
epoch : 37808 count : 200 rew : -5
epoch : 37809 count : 200 rew : -11
tensor(127959.6484, grad_fn=<MseLossBac

tensor(102827.5859, grad_fn=<MseLossBackward>) tensor(54225.4453, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 37960 count : 200 rew : -4
epoch : 37961 count : 200 rew : 0
epoch : 37962 count : 200 rew : -11
epoch : 37963 count : 200 rew : -2
epoch : 37964 count : 200 rew : -7
epoch : 37965 count : 200 rew : -10
epoch : 37966 count : 200 rew : -9
epoch : 37967 count : 200 rew : -1
epoch : 37968 count : 200 rew : -8
epoch : 37969 count : 200 rew : 0
tensor(106725.6719, grad_fn=<MseLossBackward>) tensor(42761.2305, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 37970 count : 200 rew : -5
epoch : 37971 count : 200 rew : -2
epoch : 37972 count : 200 rew : -2
epoch : 37973 count : 200 rew : -7
epoch : 37974 count : 200 rew : 0
epoch : 37975 count : 200 rew : -7
epoch : 37976 count : 200 rew : -9
epoch : 37977 count : 200 rew : -9
epoch : 37978 count : 200 rew : -3
epoch : 37979 count : 200 rew : -14
tensor(109582.6406, grad_fn=<MseLossBackwa

tensor(144172.4062, grad_fn=<MseLossBackward>) tensor(-75343.8125, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 38130 count : 200 rew : -3
epoch : 38131 count : 200 rew : -7
epoch : 38132 count : 200 rew : -1
epoch : 38133 count : 200 rew : -1
epoch : 38134 count : 200 rew : -5
epoch : 38135 count : 200 rew : 0
epoch : 38136 count : 200 rew : -10
epoch : 38137 count : 200 rew : -3
epoch : 38138 count : 200 rew : -5
epoch : 38139 count : 200 rew : -4
tensor(98706.3828, grad_fn=<MseLossBackward>) tensor(50850.5430, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 38140 count : 200 rew : -11
epoch : 38141 count : 200 rew : -10
epoch : 38142 count : 200 rew : 0
epoch : 38143 count : 200 rew : -1
epoch : 38144 count : 200 rew : 0
epoch : 38145 count : 200 rew : -5
epoch : 38146 count : 200 rew : -5
epoch : 38147 count : 200 rew : -5
epoch : 38148 count : 200 rew : -8
epoch : 38149 count : 200 rew : -7
tensor(119078.0078, grad_fn=<MseLossBackwa

tensor(114132.3672, grad_fn=<MseLossBackward>) tensor(11925.5225, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 38300 count : 200 rew : 0
epoch : 38301 count : 200 rew : -10
epoch : 38302 count : 200 rew : -3
epoch : 38303 count : 200 rew : -9
epoch : 38304 count : 200 rew : -12
epoch : 38305 count : 200 rew : -13
epoch : 38306 count : 200 rew : -5
epoch : 38307 count : 200 rew : -6
epoch : 38308 count : 200 rew : -2
epoch : 38309 count : 200 rew : -8
tensor(122678.9844, grad_fn=<MseLossBackward>) tensor(-48168.0391, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 38310 count : 200 rew : -5
epoch : 38311 count : 200 rew : -3
epoch : 38312 count : 200 rew : -8
epoch : 38313 count : 200 rew : -5
epoch : 38314 count : 200 rew : -6
epoch : 38315 count : 200 rew : -2
epoch : 38316 count : 200 rew : 0
epoch : 38317 count : 200 rew : -11
epoch : 38318 count : 200 rew : -11
epoch : 38319 count : 200 rew : -4
tensor(97128.0625, grad_fn=<MseLossBac

tensor(122428.5547, grad_fn=<MseLossBackward>) tensor(-21104.8965, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 38470 count : 200 rew : -16
epoch : 38471 count : 200 rew : -2
epoch : 38472 count : 200 rew : -9
epoch : 38473 count : 200 rew : -6
epoch : 38474 count : 200 rew : -12
epoch : 38475 count : 200 rew : -9
epoch : 38476 count : 200 rew : -7
epoch : 38477 count : 200 rew : -4
epoch : 38478 count : 200 rew : -9
epoch : 38479 count : 200 rew : -10
tensor(129052.3516, grad_fn=<MseLossBackward>) tensor(-37959.1133, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 38480 count : 200 rew : -11
epoch : 38481 count : 200 rew : -2
epoch : 38482 count : 200 rew : -10
epoch : 38483 count : 200 rew : -7
epoch : 38484 count : 200 rew : -7
epoch : 38485 count : 200 rew : -10
epoch : 38486 count : 200 rew : -12
epoch : 38487 count : 200 rew : -10
epoch : 38488 count : 200 rew : 0
epoch : 38489 count : 200 rew : -7
tensor(139254.7500, grad_fn=<MseL

tensor(89817.2734, grad_fn=<MseLossBackward>) tensor(48814.0430, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 38640 count : 200 rew : -2
epoch : 38641 count : 200 rew : 0
epoch : 38642 count : 200 rew : 0
epoch : 38643 count : 200 rew : -3
epoch : 38644 count : 200 rew : -5
epoch : 38645 count : 200 rew : -1
epoch : 38646 count : 200 rew : -4
epoch : 38647 count : 200 rew : -5
epoch : 38648 count : 200 rew : -6
epoch : 38649 count : 200 rew : -7
tensor(120472.8516, grad_fn=<MseLossBackward>) tensor(-11022.4971, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 38650 count : 200 rew : -4
epoch : 38651 count : 200 rew : -7
epoch : 38652 count : 200 rew : -9
epoch : 38653 count : 200 rew : -16
epoch : 38654 count : 200 rew : -2
epoch : 38655 count : 200 rew : -6
epoch : 38656 count : 200 rew : -6
epoch : 38657 count : 200 rew : -8
epoch : 38658 count : 200 rew : -2
epoch : 38659 count : 200 rew : 0
tensor(93914.3828, grad_fn=<MseLossBackward>

tensor(114493.9531, grad_fn=<MseLossBackward>) tensor(1877.6572, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 38810 count : 200 rew : 0
epoch : 38811 count : 200 rew : -3
epoch : 38812 count : 200 rew : -5
epoch : 38813 count : 200 rew : -3
epoch : 38814 count : 200 rew : -4
epoch : 38815 count : 200 rew : 0
epoch : 38816 count : 200 rew : -8
epoch : 38817 count : 200 rew : -5
epoch : 38818 count : 200 rew : 0
epoch : 38819 count : 200 rew : -9
tensor(126104.1016, grad_fn=<MseLossBackward>) tensor(-43580.3906, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 38820 count : 200 rew : -10
epoch : 38821 count : 200 rew : -7
epoch : 38822 count : 200 rew : -3
epoch : 38823 count : 200 rew : -9
epoch : 38824 count : 200 rew : -3
epoch : 38825 count : 200 rew : -7
epoch : 38826 count : 200 rew : 0
epoch : 38827 count : 200 rew : -8
epoch : 38828 count : 200 rew : -3
epoch : 38829 count : 200 rew : -8
tensor(143229.4375, grad_fn=<MseLossBackward>

tensor(111877.3750, grad_fn=<MseLossBackward>) tensor(-7075.3081, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 38980 count : 200 rew : -2
epoch : 38981 count : 200 rew : 0
epoch : 38982 count : 200 rew : -9
epoch : 38983 count : 200 rew : 0
epoch : 38984 count : 200 rew : 0
epoch : 38985 count : 200 rew : -5
epoch : 38986 count : 200 rew : -9
epoch : 38987 count : 200 rew : -6
epoch : 38988 count : 200 rew : -12
epoch : 38989 count : 200 rew : -10
tensor(98585.7109, grad_fn=<MseLossBackward>) tensor(28759.3672, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 38990 count : 200 rew : -4
epoch : 38991 count : 200 rew : 0
epoch : 38992 count : 200 rew : -10
epoch : 38993 count : 200 rew : -1
epoch : 38994 count : 200 rew : 0
epoch : 38995 count : 200 rew : -1
epoch : 38996 count : 200 rew : -8
epoch : 38997 count : 200 rew : -6
epoch : 38998 count : 200 rew : -9
epoch : 38999 count : 200 rew : -14
tensor(102167.7812, grad_fn=<MseLossBackward

tensor(92918.7266, grad_fn=<MseLossBackward>) tensor(77700.3828, grad_fn=<NegBackward>) tensor(-0.0459, grad_fn=<MulBackward0>)
epoch : 39150 count : 200 rew : -6
epoch : 39151 count : 200 rew : -10
epoch : 39152 count : 200 rew : -4
epoch : 39153 count : 200 rew : -4
epoch : 39154 count : 200 rew : -7
epoch : 39155 count : 200 rew : -3
epoch : 39156 count : 200 rew : -11
epoch : 39157 count : 200 rew : -8
epoch : 39158 count : 200 rew : -1
epoch : 39159 count : 200 rew : -8
tensor(165141.8906, grad_fn=<MseLossBackward>) tensor(-147235.6875, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 39160 count : 200 rew : -4
epoch : 39161 count : 200 rew : -7
epoch : 39162 count : 200 rew : -7
epoch : 39163 count : 200 rew : -8
epoch : 39164 count : 200 rew : -9
epoch : 39165 count : 200 rew : -3
epoch : 39166 count : 200 rew : -5
epoch : 39167 count : 200 rew : -6
epoch : 39168 count : 200 rew : 0
epoch : 39169 count : 200 rew : -2
tensor(139904.5000, grad_fn=<MseLossBack

tensor(116542.5312, grad_fn=<MseLossBackward>) tensor(953.0820, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 39320 count : 200 rew : -6
epoch : 39321 count : 200 rew : -2
epoch : 39322 count : 200 rew : -11
epoch : 39323 count : 200 rew : -9
epoch : 39324 count : 200 rew : -9
epoch : 39325 count : 200 rew : 0
epoch : 39326 count : 200 rew : -4
epoch : 39327 count : 200 rew : -10
epoch : 39328 count : 200 rew : -15
epoch : 39329 count : 200 rew : -7
tensor(104958.8906, grad_fn=<MseLossBackward>) tensor(26983.5215, grad_fn=<NegBackward>) tensor(-0.0460, grad_fn=<MulBackward0>)
epoch : 39330 count : 200 rew : 0
epoch : 39331 count : 200 rew : -8
epoch : 39332 count : 200 rew : -3
epoch : 39333 count : 200 rew : -6
epoch : 39334 count : 200 rew : -1
epoch : 39335 count : 200 rew : -2
epoch : 39336 count : 200 rew : -7
epoch : 39337 count : 200 rew : -5
epoch : 39338 count : 200 rew : 0
epoch : 39339 count : 200 rew : -6
tensor(108999.4688, grad_fn=<MseLossBackward

tensor(110374.9375, grad_fn=<MseLossBackward>) tensor(4263.1543, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 39490 count : 200 rew : -7
epoch : 39491 count : 200 rew : -6
epoch : 39492 count : 200 rew : -4
epoch : 39493 count : 200 rew : -5
epoch : 39494 count : 200 rew : -7
epoch : 39495 count : 200 rew : -11
epoch : 39496 count : 200 rew : -8
epoch : 39497 count : 200 rew : -5
epoch : 39498 count : 200 rew : -10
epoch : 39499 count : 200 rew : 0
tensor(131538.1406, grad_fn=<MseLossBackward>) tensor(-31573.5703, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 39500 count : 200 rew : -6
epoch : 39501 count : 200 rew : -8
epoch : 39502 count : 200 rew : -1
epoch : 39503 count : 200 rew : -14
epoch : 39504 count : 200 rew : -9
epoch : 39505 count : 200 rew : -9
epoch : 39506 count : 200 rew : -7
epoch : 39507 count : 200 rew : -1
epoch : 39508 count : 200 rew : -3
epoch : 39509 count : 200 rew : -8
tensor(131128.2188, grad_fn=<MseLossBack

tensor(107848.8672, grad_fn=<MseLossBackward>) tensor(29183.1797, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 39660 count : 200 rew : -1
epoch : 39661 count : 200 rew : -8
epoch : 39662 count : 200 rew : 0
epoch : 39663 count : 200 rew : -5
epoch : 39664 count : 200 rew : -8
epoch : 39665 count : 200 rew : -11
epoch : 39666 count : 200 rew : -2
epoch : 39667 count : 200 rew : -2
epoch : 39668 count : 200 rew : -3
epoch : 39669 count : 200 rew : 0
tensor(94793.2109, grad_fn=<MseLossBackward>) tensor(57947.2852, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 39670 count : 200 rew : -6
epoch : 39671 count : 200 rew : 0
epoch : 39672 count : 200 rew : -6
epoch : 39673 count : 200 rew : -8
epoch : 39674 count : 200 rew : -1
epoch : 39675 count : 200 rew : -6
epoch : 39676 count : 200 rew : -10
epoch : 39677 count : 200 rew : -11
epoch : 39678 count : 200 rew : -5
epoch : 39679 count : 200 rew : -7
tensor(136011.8594, grad_fn=<MseLossBackwar

tensor(107036.0469, grad_fn=<MseLossBackward>) tensor(42833.6250, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 39830 count : 200 rew : -2
epoch : 39831 count : 200 rew : -9
epoch : 39832 count : 200 rew : -3
epoch : 39833 count : 200 rew : -8
epoch : 39834 count : 200 rew : -8
epoch : 39835 count : 200 rew : -1
epoch : 39836 count : 200 rew : -2
epoch : 39837 count : 200 rew : -2
epoch : 39838 count : 200 rew : 0
epoch : 39839 count : 200 rew : 0
tensor(106371.4766, grad_fn=<MseLossBackward>) tensor(2857.9133, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 39840 count : 200 rew : -10
epoch : 39841 count : 200 rew : -8
epoch : 39842 count : 200 rew : -9
epoch : 39843 count : 200 rew : -5
epoch : 39844 count : 200 rew : 0
epoch : 39845 count : 200 rew : -6
epoch : 39846 count : 200 rew : -1
epoch : 39847 count : 200 rew : 0
epoch : 39848 count : 200 rew : -3
epoch : 39849 count : 200 rew : 0
tensor(107631.4609, grad_fn=<MseLossBackward>) 

tensor(102963.8359, grad_fn=<MseLossBackward>) tensor(30988.7949, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 40000 count : 200 rew : -4
epoch : 40001 count : 200 rew : -8
epoch : 40002 count : 200 rew : -3
epoch : 40003 count : 200 rew : -7
epoch : 40004 count : 200 rew : -1
epoch : 40005 count : 200 rew : -10
epoch : 40006 count : 200 rew : -8
epoch : 40007 count : 200 rew : -1
epoch : 40008 count : 200 rew : -11
epoch : 40009 count : 200 rew : -5
tensor(111161.3594, grad_fn=<MseLossBackward>) tensor(22144.5664, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 40010 count : 200 rew : -4
epoch : 40011 count : 200 rew : -10
epoch : 40012 count : 200 rew : -4
epoch : 40013 count : 200 rew : -5
epoch : 40014 count : 200 rew : -6
epoch : 40015 count : 200 rew : -1
epoch : 40016 count : 200 rew : -5
epoch : 40017 count : 200 rew : -6
epoch : 40018 count : 200 rew : -4
epoch : 40019 count : 200 rew : -9
tensor(117466.3594, grad_fn=<MseLossBac

tensor(113243.2188, grad_fn=<MseLossBackward>) tensor(-5939.1743, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 40170 count : 200 rew : 0
epoch : 40171 count : 200 rew : -5
epoch : 40172 count : 200 rew : -14
epoch : 40173 count : 200 rew : -2
epoch : 40174 count : 200 rew : -8
epoch : 40175 count : 200 rew : -5
epoch : 40176 count : 200 rew : -13
epoch : 40177 count : 200 rew : -3
epoch : 40178 count : 200 rew : -5
epoch : 40179 count : 200 rew : -2
tensor(95713.7109, grad_fn=<MseLossBackward>) tensor(43955.0586, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 40180 count : 200 rew : -8
epoch : 40181 count : 200 rew : -4
epoch : 40182 count : 200 rew : -8
epoch : 40183 count : 200 rew : -3
epoch : 40184 count : 200 rew : -12
epoch : 40185 count : 200 rew : -5
epoch : 40186 count : 200 rew : -1
epoch : 40187 count : 200 rew : -12
epoch : 40188 count : 200 rew : -8
epoch : 40189 count : 200 rew : -10
tensor(115690.3750, grad_fn=<MseLossBac

tensor(103998.1484, grad_fn=<MseLossBackward>) tensor(56166.8008, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 40340 count : 200 rew : -12
epoch : 40341 count : 200 rew : -10
epoch : 40342 count : 200 rew : -8
epoch : 40343 count : 200 rew : 0
epoch : 40344 count : 200 rew : -9
epoch : 40345 count : 200 rew : -4
epoch : 40346 count : 200 rew : -3
epoch : 40347 count : 200 rew : -9
epoch : 40348 count : 200 rew : 0
epoch : 40349 count : 200 rew : -9
tensor(112153.4922, grad_fn=<MseLossBackward>) tensor(12957.3896, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 40350 count : 200 rew : 0
epoch : 40351 count : 200 rew : -4
epoch : 40352 count : 200 rew : -7
epoch : 40353 count : 200 rew : -8
epoch : 40354 count : 200 rew : -7
epoch : 40355 count : 200 rew : -11
epoch : 40356 count : 200 rew : -3
epoch : 40357 count : 200 rew : -12
epoch : 40358 count : 200 rew : -7
epoch : 40359 count : 200 rew : 0
tensor(98020.1562, grad_fn=<MseLossBackwar

tensor(153446.7969, grad_fn=<MseLossBackward>) tensor(-88619.1797, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 40510 count : 200 rew : -1
epoch : 40511 count : 200 rew : -7
epoch : 40512 count : 200 rew : 0
epoch : 40513 count : 200 rew : -8
epoch : 40514 count : 200 rew : -10
epoch : 40515 count : 200 rew : -14
epoch : 40516 count : 200 rew : 0
epoch : 40517 count : 200 rew : -5
epoch : 40518 count : 200 rew : 0
epoch : 40519 count : 200 rew : -3
tensor(100620.4609, grad_fn=<MseLossBackward>) tensor(21072.5508, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 40520 count : 200 rew : -9
epoch : 40521 count : 200 rew : -7
epoch : 40522 count : 200 rew : -3
epoch : 40523 count : 200 rew : -6
epoch : 40524 count : 200 rew : -11
epoch : 40525 count : 200 rew : -5
epoch : 40526 count : 200 rew : -8
epoch : 40527 count : 200 rew : -7
epoch : 40528 count : 200 rew : -4
epoch : 40529 count : 200 rew : -13
tensor(135487.2969, grad_fn=<MseLossBack

tensor(113709.9297, grad_fn=<MseLossBackward>) tensor(-21292.2168, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 40680 count : 200 rew : -9
epoch : 40681 count : 200 rew : -9
epoch : 40682 count : 200 rew : -10
epoch : 40683 count : 200 rew : -4
epoch : 40684 count : 200 rew : -4
epoch : 40685 count : 200 rew : -2
epoch : 40686 count : 200 rew : 0
epoch : 40687 count : 200 rew : -10
epoch : 40688 count : 200 rew : -2
epoch : 40689 count : 200 rew : -12
tensor(107212.8828, grad_fn=<MseLossBackward>) tensor(13545.2920, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 40690 count : 200 rew : -6
epoch : 40691 count : 200 rew : 0
epoch : 40692 count : 200 rew : -5
epoch : 40693 count : 200 rew : -11
epoch : 40694 count : 200 rew : -13
epoch : 40695 count : 200 rew : -7
epoch : 40696 count : 200 rew : -3
epoch : 40697 count : 200 rew : -7
epoch : 40698 count : 200 rew : -13
epoch : 40699 count : 200 rew : -3
tensor(112408.0234, grad_fn=<MseLossB

tensor(133846.9062, grad_fn=<MseLossBackward>) tensor(-75693.4453, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 40850 count : 200 rew : -6
epoch : 40851 count : 200 rew : -7
epoch : 40852 count : 200 rew : -7
epoch : 40853 count : 200 rew : -5
epoch : 40854 count : 200 rew : -9
epoch : 40855 count : 200 rew : -2
epoch : 40856 count : 200 rew : -3
epoch : 40857 count : 200 rew : -2
epoch : 40858 count : 200 rew : -7
epoch : 40859 count : 200 rew : -3
tensor(118263.7812, grad_fn=<MseLossBackward>) tensor(-27447.5039, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 40860 count : 200 rew : -9
epoch : 40861 count : 200 rew : -8
epoch : 40862 count : 200 rew : -2
epoch : 40863 count : 200 rew : -9
epoch : 40864 count : 200 rew : -6
epoch : 40865 count : 200 rew : -2
epoch : 40866 count : 200 rew : -5
epoch : 40867 count : 200 rew : 0
epoch : 40868 count : 200 rew : -6
epoch : 40869 count : 200 rew : -1
tensor(136999.3906, grad_fn=<MseLossBackw

tensor(110625.9609, grad_fn=<MseLossBackward>) tensor(-2512.8479, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 41020 count : 200 rew : -7
epoch : 41021 count : 200 rew : -5
epoch : 41022 count : 200 rew : -8
epoch : 41023 count : 200 rew : -1
epoch : 41024 count : 200 rew : -3
epoch : 41025 count : 200 rew : -6
epoch : 41026 count : 200 rew : -1
epoch : 41027 count : 200 rew : -7
epoch : 41028 count : 200 rew : -5
epoch : 41029 count : 200 rew : -6
tensor(99698.9609, grad_fn=<MseLossBackward>) tensor(33231.5000, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 41030 count : 200 rew : -5
epoch : 41031 count : 200 rew : -7
epoch : 41032 count : 200 rew : -3
epoch : 41033 count : 200 rew : -6
epoch : 41034 count : 200 rew : -10
epoch : 41035 count : 200 rew : -8
epoch : 41036 count : 200 rew : -9
epoch : 41037 count : 200 rew : -4
epoch : 41038 count : 200 rew : -9
epoch : 41039 count : 200 rew : -1
tensor(122347.0078, grad_fn=<MseLossBackwa

tensor(95360.8203, grad_fn=<MseLossBackward>) tensor(43293.5547, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 41190 count : 200 rew : -9
epoch : 41191 count : 200 rew : 0
epoch : 41192 count : 200 rew : -1
epoch : 41193 count : 200 rew : 0
epoch : 41194 count : 200 rew : 0
epoch : 41195 count : 200 rew : -5
epoch : 41196 count : 200 rew : -7
epoch : 41197 count : 200 rew : -7
epoch : 41198 count : 200 rew : -4
epoch : 41199 count : 200 rew : -14
tensor(112890.2500, grad_fn=<MseLossBackward>) tensor(19802.1465, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 41200 count : 200 rew : -11
epoch : 41201 count : 200 rew : -6
epoch : 41202 count : 200 rew : -5
epoch : 41203 count : 200 rew : -2
epoch : 41204 count : 200 rew : -5
epoch : 41205 count : 200 rew : -2
epoch : 41206 count : 200 rew : -1
epoch : 41207 count : 200 rew : -5
epoch : 41208 count : 200 rew : -4
epoch : 41209 count : 200 rew : -10
tensor(112039.2500, grad_fn=<MseLossBackwar

tensor(115710.1719, grad_fn=<MseLossBackward>) tensor(-13433.8359, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 41360 count : 200 rew : -1
epoch : 41361 count : 200 rew : -2
epoch : 41362 count : 200 rew : -3
epoch : 41363 count : 200 rew : -11
epoch : 41364 count : 200 rew : -2
epoch : 41365 count : 200 rew : -1
epoch : 41366 count : 200 rew : -12
epoch : 41367 count : 200 rew : -7
epoch : 41368 count : 200 rew : -8
epoch : 41369 count : 200 rew : 0
tensor(97824.7656, grad_fn=<MseLossBackward>) tensor(-1689.4655, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 41370 count : 200 rew : -5
epoch : 41371 count : 200 rew : -5
epoch : 41372 count : 200 rew : -3
epoch : 41373 count : 200 rew : -5
epoch : 41374 count : 200 rew : 0
epoch : 41375 count : 200 rew : -5
epoch : 41376 count : 200 rew : 0
epoch : 41377 count : 200 rew : 0
epoch : 41378 count : 200 rew : -1
epoch : 41379 count : 200 rew : -4
tensor(105842.6250, grad_fn=<MseLossBackward

tensor(101669.1719, grad_fn=<MseLossBackward>) tensor(35001.8047, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 41530 count : 200 rew : -3
epoch : 41531 count : 200 rew : -1
epoch : 41532 count : 200 rew : -5
epoch : 41533 count : 200 rew : -1
epoch : 41534 count : 200 rew : -9
epoch : 41535 count : 200 rew : -6
epoch : 41536 count : 200 rew : -14
epoch : 41537 count : 200 rew : -5
epoch : 41538 count : 200 rew : -9
epoch : 41539 count : 200 rew : -13
tensor(100548.7031, grad_fn=<MseLossBackward>) tensor(26857.6309, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 41540 count : 200 rew : -6
epoch : 41541 count : 200 rew : -7
epoch : 41542 count : 200 rew : -3
epoch : 41543 count : 200 rew : -10
epoch : 41544 count : 200 rew : -10
epoch : 41545 count : 200 rew : -8
epoch : 41546 count : 200 rew : -8
epoch : 41547 count : 200 rew : -5
epoch : 41548 count : 200 rew : -10
epoch : 41549 count : 200 rew : -10
tensor(112926.1719, grad_fn=<MseLoss

tensor(93277.2188, grad_fn=<MseLossBackward>) tensor(25953.8770, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 41700 count : 200 rew : -10
epoch : 41701 count : 200 rew : -1
epoch : 41702 count : 200 rew : -9
epoch : 41703 count : 200 rew : -2
epoch : 41704 count : 200 rew : -8
epoch : 41705 count : 200 rew : 0
epoch : 41706 count : 200 rew : -4
epoch : 41707 count : 200 rew : -11
epoch : 41708 count : 200 rew : -9
epoch : 41709 count : 200 rew : -5
tensor(139871.3750, grad_fn=<MseLossBackward>) tensor(-104661.2656, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 41710 count : 200 rew : -6
epoch : 41711 count : 200 rew : -10
epoch : 41712 count : 200 rew : -9
epoch : 41713 count : 200 rew : -2
epoch : 41714 count : 200 rew : -2
epoch : 41715 count : 200 rew : -9
epoch : 41716 count : 200 rew : 0
epoch : 41717 count : 200 rew : -1
epoch : 41718 count : 200 rew : 0
epoch : 41719 count : 200 rew : -10
tensor(109535.1406, grad_fn=<MseLossBack

tensor(100733.7109, grad_fn=<MseLossBackward>) tensor(22870.1094, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 41870 count : 200 rew : -6
epoch : 41871 count : 200 rew : -4
epoch : 41872 count : 200 rew : -10
epoch : 41873 count : 200 rew : -5
epoch : 41874 count : 200 rew : -3
epoch : 41875 count : 200 rew : -1
epoch : 41876 count : 200 rew : -9
epoch : 41877 count : 200 rew : -3
epoch : 41878 count : 200 rew : -9
epoch : 41879 count : 200 rew : -10
tensor(121299.3828, grad_fn=<MseLossBackward>) tensor(-14034.2510, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 41880 count : 200 rew : -5
epoch : 41881 count : 200 rew : 0
epoch : 41882 count : 200 rew : -11
epoch : 41883 count : 200 rew : -1
epoch : 41884 count : 200 rew : -3
epoch : 41885 count : 200 rew : -9
epoch : 41886 count : 200 rew : 0
epoch : 41887 count : 200 rew : -8
epoch : 41888 count : 200 rew : 0
epoch : 41889 count : 200 rew : -11
tensor(119210.6641, grad_fn=<MseLossBack

tensor(120349.0156, grad_fn=<MseLossBackward>) tensor(-12474.0723, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 42040 count : 200 rew : -4
epoch : 42041 count : 200 rew : -1
epoch : 42042 count : 200 rew : -3
epoch : 42043 count : 200 rew : -7
epoch : 42044 count : 200 rew : -3
epoch : 42045 count : 200 rew : 0
epoch : 42046 count : 200 rew : -7
epoch : 42047 count : 200 rew : -2
epoch : 42048 count : 200 rew : -6
epoch : 42049 count : 200 rew : -1
tensor(102326., grad_fn=<MseLossBackward>) tensor(27111.1113, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 42050 count : 200 rew : -8
epoch : 42051 count : 200 rew : -8
epoch : 42052 count : 200 rew : -3
epoch : 42053 count : 200 rew : -7
epoch : 42054 count : 200 rew : -5
epoch : 42055 count : 200 rew : -10
epoch : 42056 count : 200 rew : -5
epoch : 42057 count : 200 rew : -9
epoch : 42058 count : 200 rew : -7
epoch : 42059 count : 200 rew : -1
tensor(136099.6406, grad_fn=<MseLossBackward>

tensor(116734.0703, grad_fn=<MseLossBackward>) tensor(5351.4097, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 42210 count : 200 rew : -6
epoch : 42211 count : 200 rew : -5
epoch : 42212 count : 200 rew : -6
epoch : 42213 count : 200 rew : -1
epoch : 42214 count : 200 rew : 0
epoch : 42215 count : 200 rew : -6
epoch : 42216 count : 200 rew : -8
epoch : 42217 count : 200 rew : -7
epoch : 42218 count : 200 rew : -3
epoch : 42219 count : 200 rew : -7
tensor(122309.1016, grad_fn=<MseLossBackward>) tensor(-61224.4492, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 42220 count : 200 rew : -8
epoch : 42221 count : 200 rew : -9
epoch : 42222 count : 200 rew : -3
epoch : 42223 count : 200 rew : -2
epoch : 42224 count : 200 rew : -6
epoch : 42225 count : 200 rew : -7
epoch : 42226 count : 200 rew : -5
epoch : 42227 count : 200 rew : 0
epoch : 42228 count : 200 rew : -7
epoch : 42229 count : 200 rew : -5
tensor(130588.5703, grad_fn=<MseLossBackward

tensor(88925.7422, grad_fn=<MseLossBackward>) tensor(39281.1836, grad_fn=<NegBackward>) tensor(-0.0462, grad_fn=<MulBackward0>)
epoch : 42380 count : 200 rew : -7
epoch : 42381 count : 200 rew : -3
epoch : 42382 count : 200 rew : 0
epoch : 42383 count : 200 rew : -4
epoch : 42384 count : 200 rew : -11
epoch : 42385 count : 200 rew : -5
epoch : 42386 count : 200 rew : -9
epoch : 42387 count : 200 rew : -4
epoch : 42388 count : 200 rew : -3
epoch : 42389 count : 200 rew : -8
tensor(113200.3359, grad_fn=<MseLossBackward>) tensor(20231.8848, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 42390 count : 200 rew : 0
epoch : 42391 count : 200 rew : -9
epoch : 42392 count : 200 rew : -2
epoch : 42393 count : 200 rew : -2
epoch : 42394 count : 200 rew : -4
epoch : 42395 count : 200 rew : 0
epoch : 42396 count : 200 rew : -4
epoch : 42397 count : 200 rew : -8
epoch : 42398 count : 200 rew : -7
epoch : 42399 count : 200 rew : -12
tensor(117602.1094, grad_fn=<MseLossBackward

tensor(92749.2891, grad_fn=<MseLossBackward>) tensor(45204.7539, grad_fn=<NegBackward>) tensor(-0.0463, grad_fn=<MulBackward0>)
epoch : 42550 count : 200 rew : -13
epoch : 42551 count : 200 rew : -3
epoch : 42552 count : 200 rew : -13
epoch : 42553 count : 200 rew : 0
epoch : 42554 count : 200 rew : -4
epoch : 42555 count : 200 rew : -8
epoch : 42556 count : 200 rew : -1
epoch : 42557 count : 200 rew : -4
epoch : 42558 count : 200 rew : -3
epoch : 42559 count : 200 rew : -14
tensor(103267.5156, grad_fn=<MseLossBackward>) tensor(21065.1523, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 42560 count : 200 rew : -1
epoch : 42561 count : 200 rew : -2
epoch : 42562 count : 200 rew : -9
epoch : 42563 count : 200 rew : -8
epoch : 42564 count : 200 rew : -6
epoch : 42565 count : 200 rew : -2
epoch : 42566 count : 200 rew : -2
epoch : 42567 count : 200 rew : -6
epoch : 42568 count : 200 rew : -3
epoch : 42569 count : 200 rew : -13
tensor(97393.8828, grad_fn=<MseLossBackw

tensor(138699.7969, grad_fn=<MseLossBackward>) tensor(-93007.8125, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 42720 count : 200 rew : -6
epoch : 42721 count : 200 rew : -9
epoch : 42722 count : 200 rew : -1
epoch : 42723 count : 200 rew : -3
epoch : 42724 count : 200 rew : -8
epoch : 42725 count : 200 rew : -2
epoch : 42726 count : 200 rew : -4
epoch : 42727 count : 200 rew : 0
epoch : 42728 count : 200 rew : 0
epoch : 42729 count : 200 rew : -8
tensor(133378.3750, grad_fn=<MseLossBackward>) tensor(-80294.9062, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 42730 count : 200 rew : -5
epoch : 42731 count : 200 rew : -9
epoch : 42732 count : 200 rew : -5
epoch : 42733 count : 200 rew : -9
epoch : 42734 count : 200 rew : -4
epoch : 42735 count : 200 rew : -5
epoch : 42736 count : 200 rew : -7
epoch : 42737 count : 200 rew : -2
epoch : 42738 count : 200 rew : -2
epoch : 42739 count : 200 rew : -7
tensor(141082.8750, grad_fn=<MseLossBackwa

tensor(100505.1641, grad_fn=<MseLossBackward>) tensor(25733.2949, grad_fn=<NegBackward>) tensor(-0.0461, grad_fn=<MulBackward0>)
epoch : 42890 count : 200 rew : -3
epoch : 42891 count : 200 rew : -9
epoch : 42892 count : 200 rew : -5
epoch : 42893 count : 200 rew : -3
epoch : 42894 count : 200 rew : -5
epoch : 42895 count : 200 rew : -11
epoch : 42896 count : 200 rew : -4
epoch : 42897 count : 200 rew : -1
epoch : 42898 count : 200 rew : -4
epoch : 42899 count : 200 rew : -7
tensor(140979.1250, grad_fn=<MseLossBackward>) tensor(-80581.0391, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 42900 count : 200 rew : -2
epoch : 42901 count : 200 rew : -2
epoch : 42902 count : 200 rew : -2
epoch : 42903 count : 200 rew : -6
epoch : 42904 count : 200 rew : -3
epoch : 42905 count : 200 rew : -7
epoch : 42906 count : 200 rew : -1
epoch : 42907 count : 200 rew : -9
epoch : 42908 count : 200 rew : -2
epoch : 42909 count : 200 rew : -14
tensor(130709.6875, grad_fn=<MseLossBac

tensor(90590.2812, grad_fn=<MseLossBackward>) tensor(80229.7109, grad_fn=<NegBackward>) tensor(-0.0458, grad_fn=<MulBackward0>)
epoch : 43060 count : 200 rew : -1
epoch : 43061 count : 200 rew : -3
epoch : 43062 count : 200 rew : -11
epoch : 43063 count : 200 rew : -7
epoch : 43064 count : 200 rew : -2
epoch : 43065 count : 200 rew : -4
epoch : 43066 count : 200 rew : 0
epoch : 43067 count : 200 rew : -8
epoch : 43068 count : 200 rew : -7
epoch : 43069 count : 200 rew : -8
tensor(123558.9375, grad_fn=<MseLossBackward>) tensor(-15875.6777, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 43070 count : 200 rew : -12
epoch : 43071 count : 200 rew : -4
epoch : 43072 count : 200 rew : -10
epoch : 43073 count : 200 rew : -5
epoch : 43074 count : 200 rew : -7
epoch : 43075 count : 200 rew : -11
epoch : 43076 count : 200 rew : 0
epoch : 43077 count : 200 rew : -1
epoch : 43078 count : 200 rew : -3
epoch : 43079 count : 200 rew : -1
tensor(114971.6953, grad_fn=<MseLossBack

tensor(87394.1406, grad_fn=<MseLossBackward>) tensor(47084.3281, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 43230 count : 200 rew : -13
epoch : 43231 count : 200 rew : -6
epoch : 43232 count : 200 rew : -3
epoch : 43233 count : 200 rew : 0
epoch : 43234 count : 200 rew : -3
epoch : 43235 count : 200 rew : -8
epoch : 43236 count : 200 rew : -1
epoch : 43237 count : 200 rew : 0
epoch : 43238 count : 200 rew : -1
epoch : 43239 count : 200 rew : -4
tensor(92415.3516, grad_fn=<MseLossBackward>) tensor(40318.1016, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 43240 count : 200 rew : -1
epoch : 43241 count : 200 rew : -1
epoch : 43242 count : 200 rew : -4
epoch : 43243 count : 200 rew : -6
epoch : 43244 count : 200 rew : -13
epoch : 43245 count : 200 rew : -3
epoch : 43246 count : 200 rew : -5
epoch : 43247 count : 200 rew : -4
epoch : 43248 count : 200 rew : 0
epoch : 43249 count : 200 rew : -8
tensor(113521.5469, grad_fn=<MseLossBackward>

tensor(123404.0781, grad_fn=<MseLossBackward>) tensor(-35508.4453, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 43400 count : 200 rew : -1
epoch : 43401 count : 200 rew : -4
epoch : 43402 count : 200 rew : -9
epoch : 43403 count : 200 rew : -5
epoch : 43404 count : 200 rew : -1
epoch : 43405 count : 200 rew : -7
epoch : 43406 count : 200 rew : -1
epoch : 43407 count : 200 rew : -6
epoch : 43408 count : 200 rew : -5
epoch : 43409 count : 200 rew : -7
tensor(107843.5000, grad_fn=<MseLossBackward>) tensor(2022.7471, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 43410 count : 200 rew : -7
epoch : 43411 count : 200 rew : -4
epoch : 43412 count : 200 rew : -3
epoch : 43413 count : 200 rew : -7
epoch : 43414 count : 200 rew : -5
epoch : 43415 count : 200 rew : -6
epoch : 43416 count : 200 rew : 0
epoch : 43417 count : 200 rew : -2
epoch : 43418 count : 200 rew : -4
epoch : 43419 count : 200 rew : -7
tensor(118859.3750, grad_fn=<MseLossBackwar

tensor(105937.6250, grad_fn=<MseLossBackward>) tensor(29182.9551, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 43570 count : 200 rew : -2
epoch : 43571 count : 200 rew : -1
epoch : 43572 count : 200 rew : -10
epoch : 43573 count : 200 rew : -12
epoch : 43574 count : 200 rew : -10
epoch : 43575 count : 200 rew : -5
epoch : 43576 count : 200 rew : -11
epoch : 43577 count : 200 rew : -3
epoch : 43578 count : 200 rew : -8
epoch : 43579 count : 200 rew : -3
tensor(120555.8516, grad_fn=<MseLossBackward>) tensor(-12195.3809, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 43580 count : 200 rew : -4
epoch : 43581 count : 200 rew : -9
epoch : 43582 count : 200 rew : -9
epoch : 43583 count : 200 rew : -9
epoch : 43584 count : 200 rew : -7
epoch : 43585 count : 200 rew : -3
epoch : 43586 count : 200 rew : -5
epoch : 43587 count : 200 rew : -6
epoch : 43588 count : 200 rew : -13
epoch : 43589 count : 200 rew : -9
tensor(117685.8359, grad_fn=<MseLoss

tensor(108144.9141, grad_fn=<MseLossBackward>) tensor(30346.8398, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 43740 count : 200 rew : -12
epoch : 43741 count : 200 rew : -1
epoch : 43742 count : 200 rew : -6
epoch : 43743 count : 200 rew : -7
epoch : 43744 count : 200 rew : 0
epoch : 43745 count : 200 rew : -10
epoch : 43746 count : 200 rew : -16
epoch : 43747 count : 200 rew : -3
epoch : 43748 count : 200 rew : -7
epoch : 43749 count : 200 rew : -8
tensor(99032.6953, grad_fn=<MseLossBackward>) tensor(17112.2402, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 43750 count : 200 rew : -5
epoch : 43751 count : 200 rew : 0
epoch : 43752 count : 200 rew : -4
epoch : 43753 count : 200 rew : 0
epoch : 43754 count : 200 rew : -6
epoch : 43755 count : 200 rew : -8
epoch : 43756 count : 200 rew : -10
epoch : 43757 count : 200 rew : -7
epoch : 43758 count : 200 rew : -7
epoch : 43759 count : 200 rew : -9
tensor(121593.3203, grad_fn=<MseLossBackwa

tensor(137935.4531, grad_fn=<MseLossBackward>) tensor(-22914.5586, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 43910 count : 200 rew : -4
epoch : 43911 count : 200 rew : -7
epoch : 43912 count : 200 rew : -3
epoch : 43913 count : 200 rew : -6
epoch : 43914 count : 200 rew : -8
epoch : 43915 count : 200 rew : -6
epoch : 43916 count : 200 rew : -8
epoch : 43917 count : 200 rew : -4
epoch : 43918 count : 200 rew : -3
epoch : 43919 count : 200 rew : -5
tensor(126925.3828, grad_fn=<MseLossBackward>) tensor(-29027.2246, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 43920 count : 200 rew : -5
epoch : 43921 count : 200 rew : 0
epoch : 43922 count : 200 rew : -11
epoch : 43923 count : 200 rew : -4
epoch : 43924 count : 200 rew : -4
epoch : 43925 count : 200 rew : 0
epoch : 43926 count : 200 rew : -7
epoch : 43927 count : 200 rew : -2
epoch : 43928 count : 200 rew : -9
epoch : 43929 count : 200 rew : 0
tensor(114630.3359, grad_fn=<MseLossBackwa

tensor(100171.8594, grad_fn=<MseLossBackward>) tensor(29749.7480, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 44080 count : 200 rew : -8
epoch : 44081 count : 200 rew : -5
epoch : 44082 count : 200 rew : -5
epoch : 44083 count : 200 rew : -9
epoch : 44084 count : 200 rew : -7
epoch : 44085 count : 200 rew : -1
epoch : 44086 count : 200 rew : -4
epoch : 44087 count : 200 rew : -11
epoch : 44088 count : 200 rew : -6
epoch : 44089 count : 200 rew : -6
tensor(115946.3359, grad_fn=<MseLossBackward>) tensor(-10745.3037, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 44090 count : 200 rew : 0
epoch : 44091 count : 200 rew : -7
epoch : 44092 count : 200 rew : -4
epoch : 44093 count : 200 rew : -7
epoch : 44094 count : 200 rew : 0
epoch : 44095 count : 200 rew : -8
epoch : 44096 count : 200 rew : -14
epoch : 44097 count : 200 rew : -6
epoch : 44098 count : 200 rew : -6
epoch : 44099 count : 200 rew : -8
tensor(125014.4375, grad_fn=<MseLossBackw

tensor(136549.4062, grad_fn=<MseLossBackward>) tensor(-71144.8438, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 44250 count : 200 rew : -2
epoch : 44251 count : 200 rew : -13
epoch : 44252 count : 200 rew : -2
epoch : 44253 count : 200 rew : -5
epoch : 44254 count : 200 rew : -12
epoch : 44255 count : 200 rew : -14
epoch : 44256 count : 200 rew : -5
epoch : 44257 count : 200 rew : 0
epoch : 44258 count : 200 rew : -3
epoch : 44259 count : 200 rew : -5
tensor(101893.4609, grad_fn=<MseLossBackward>) tensor(4123.0073, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 44260 count : 200 rew : -9
epoch : 44261 count : 200 rew : -4
epoch : 44262 count : 200 rew : -2
epoch : 44263 count : 200 rew : -3
epoch : 44264 count : 200 rew : -6
epoch : 44265 count : 200 rew : -8
epoch : 44266 count : 200 rew : 0
epoch : 44267 count : 200 rew : -1
epoch : 44268 count : 200 rew : -3
epoch : 44269 count : 200 rew : -4
tensor(110282.2109, grad_fn=<MseLossBackw

tensor(101930.8750, grad_fn=<MseLossBackward>) tensor(17229.6641, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 44420 count : 200 rew : -9
epoch : 44421 count : 200 rew : -1
epoch : 44422 count : 200 rew : -7
epoch : 44423 count : 200 rew : -7
epoch : 44424 count : 200 rew : -4
epoch : 44425 count : 200 rew : 0
epoch : 44426 count : 200 rew : -4
epoch : 44427 count : 200 rew : -8
epoch : 44428 count : 200 rew : -7
epoch : 44429 count : 200 rew : -6
tensor(105287.5469, grad_fn=<MseLossBackward>) tensor(19675.4180, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 44430 count : 200 rew : -4
epoch : 44431 count : 200 rew : -10
epoch : 44432 count : 200 rew : -5
epoch : 44433 count : 200 rew : -6
epoch : 44434 count : 200 rew : -7
epoch : 44435 count : 200 rew : -6
epoch : 44436 count : 200 rew : -1
epoch : 44437 count : 200 rew : -2
epoch : 44438 count : 200 rew : -8
epoch : 44439 count : 200 rew : -8
tensor(129929.3438, grad_fn=<MseLossBackwa

tensor(111748.7188, grad_fn=<MseLossBackward>) tensor(1861.8673, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 44590 count : 200 rew : -7
epoch : 44591 count : 200 rew : -5
epoch : 44592 count : 200 rew : -1
epoch : 44593 count : 200 rew : -2
epoch : 44594 count : 200 rew : -10
epoch : 44595 count : 200 rew : -7
epoch : 44596 count : 200 rew : -7
epoch : 44597 count : 200 rew : -3
epoch : 44598 count : 200 rew : -6
epoch : 44599 count : 200 rew : -2
tensor(98422.7500, grad_fn=<MseLossBackward>) tensor(29238.6191, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 44600 count : 200 rew : -3
epoch : 44601 count : 200 rew : -5
epoch : 44602 count : 200 rew : -4
epoch : 44603 count : 200 rew : 0
epoch : 44604 count : 200 rew : -6
epoch : 44605 count : 200 rew : -9
epoch : 44606 count : 200 rew : -10
epoch : 44607 count : 200 rew : -6
epoch : 44608 count : 200 rew : -3
epoch : 44609 count : 200 rew : 0
tensor(123894.8672, grad_fn=<MseLossBackward

tensor(121511.0156, grad_fn=<MseLossBackward>) tensor(-32530.0195, grad_fn=<NegBackward>) tensor(-0.0474, grad_fn=<MulBackward0>)
epoch : 44760 count : 200 rew : -3
epoch : 44761 count : 200 rew : -8
epoch : 44762 count : 200 rew : -10
epoch : 44763 count : 200 rew : -2
epoch : 44764 count : 200 rew : -8
epoch : 44765 count : 200 rew : 0
epoch : 44766 count : 200 rew : -6
epoch : 44767 count : 200 rew : -11
epoch : 44768 count : 200 rew : -7
epoch : 44769 count : 200 rew : -10
tensor(150400., grad_fn=<MseLossBackward>) tensor(-120509.3359, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 44770 count : 200 rew : -1
epoch : 44771 count : 200 rew : -3
epoch : 44772 count : 200 rew : -3
epoch : 44773 count : 200 rew : -15
epoch : 44774 count : 200 rew : -2
epoch : 44775 count : 200 rew : -7
epoch : 44776 count : 200 rew : -12
epoch : 44777 count : 200 rew : -9
epoch : 44778 count : 200 rew : -11
epoch : 44779 count : 200 rew : -11
tensor(97964.4453, grad_fn=<MseLossBa

tensor(107413.8203, grad_fn=<MseLossBackward>) tensor(34914.0586, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 44930 count : 200 rew : 0
epoch : 44931 count : 200 rew : -9
epoch : 44932 count : 200 rew : -6
epoch : 44933 count : 200 rew : -1
epoch : 44934 count : 200 rew : -14
epoch : 44935 count : 200 rew : -13
epoch : 44936 count : 200 rew : -9
epoch : 44937 count : 200 rew : -4
epoch : 44938 count : 200 rew : 0
epoch : 44939 count : 200 rew : -12
tensor(106789.6328, grad_fn=<MseLossBackward>) tensor(-3706.0803, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 44940 count : 200 rew : 0
epoch : 44941 count : 200 rew : -1
epoch : 44942 count : 200 rew : -1
epoch : 44943 count : 200 rew : -6
epoch : 44944 count : 200 rew : -5
epoch : 44945 count : 200 rew : -8
epoch : 44946 count : 200 rew : -9
epoch : 44947 count : 200 rew : -8
epoch : 44948 count : 200 rew : -8
epoch : 44949 count : 200 rew : -9
tensor(132018.5469, grad_fn=<MseLossBackwa

tensor(126100.6641, grad_fn=<MseLossBackward>) tensor(-28055.4922, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 45100 count : 200 rew : -7
epoch : 45101 count : 200 rew : -5
epoch : 45102 count : 200 rew : 0
epoch : 45103 count : 200 rew : -1
epoch : 45104 count : 200 rew : -11
epoch : 45105 count : 200 rew : -9
epoch : 45106 count : 200 rew : -8
epoch : 45107 count : 200 rew : -3
epoch : 45108 count : 200 rew : 0
epoch : 45109 count : 200 rew : -1
tensor(118663.1875, grad_fn=<MseLossBackward>) tensor(-48356.4531, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 45110 count : 200 rew : -5
epoch : 45111 count : 200 rew : -6
epoch : 45112 count : 200 rew : -8
epoch : 45113 count : 200 rew : 0
epoch : 45114 count : 200 rew : -5
epoch : 45115 count : 200 rew : -1
epoch : 45116 count : 200 rew : 0
epoch : 45117 count : 200 rew : -8
epoch : 45118 count : 200 rew : -4
epoch : 45119 count : 200 rew : -4
tensor(96268.8828, grad_fn=<MseLossBackward

tensor(97474.2109, grad_fn=<MseLossBackward>) tensor(59067.6172, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 45270 count : 200 rew : -6
epoch : 45271 count : 200 rew : -6
epoch : 45272 count : 200 rew : -11
epoch : 45273 count : 200 rew : -6
epoch : 45274 count : 200 rew : -10
epoch : 45275 count : 200 rew : -2
epoch : 45276 count : 200 rew : -15
epoch : 45277 count : 200 rew : -2
epoch : 45278 count : 200 rew : -4
epoch : 45279 count : 200 rew : -4
tensor(125660.5859, grad_fn=<MseLossBackward>) tensor(-28291.8145, grad_fn=<NegBackward>) tensor(-0.0473, grad_fn=<MulBackward0>)
epoch : 45280 count : 200 rew : -1
epoch : 45281 count : 200 rew : -16
epoch : 45282 count : 200 rew : -9
epoch : 45283 count : 200 rew : -5
epoch : 45284 count : 200 rew : -13
epoch : 45285 count : 200 rew : -1
epoch : 45286 count : 200 rew : 0
epoch : 45287 count : 200 rew : -1
epoch : 45288 count : 200 rew : -14
epoch : 45289 count : 200 rew : -6
tensor(101346.4609, grad_fn=<MseLossB

tensor(130826.2422, grad_fn=<MseLossBackward>) tensor(-88700.5156, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 45440 count : 200 rew : -7
epoch : 45441 count : 200 rew : -2
epoch : 45442 count : 200 rew : -6
epoch : 45443 count : 200 rew : 0
epoch : 45444 count : 200 rew : -8
epoch : 45445 count : 200 rew : -11
epoch : 45446 count : 200 rew : -5
epoch : 45447 count : 200 rew : -7
epoch : 45448 count : 200 rew : -6
epoch : 45449 count : 200 rew : -3
tensor(111274.1641, grad_fn=<MseLossBackward>) tensor(-31513.6035, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 45450 count : 200 rew : 0
epoch : 45451 count : 200 rew : -1
epoch : 45452 count : 200 rew : -10
epoch : 45453 count : 200 rew : -3
epoch : 45454 count : 200 rew : -10
epoch : 45455 count : 200 rew : -5
epoch : 45456 count : 200 rew : -2
epoch : 45457 count : 200 rew : -4
epoch : 45458 count : 200 rew : -11
epoch : 45459 count : 200 rew : 0
tensor(107980.3750, grad_fn=<MseLossBac

tensor(115864.5781, grad_fn=<MseLossBackward>) tensor(-7871.4180, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 45610 count : 200 rew : -4
epoch : 45611 count : 200 rew : -4
epoch : 45612 count : 200 rew : -9
epoch : 45613 count : 200 rew : -7
epoch : 45614 count : 200 rew : -4
epoch : 45615 count : 200 rew : -7
epoch : 45616 count : 200 rew : -2
epoch : 45617 count : 200 rew : -4
epoch : 45618 count : 200 rew : -1
epoch : 45619 count : 200 rew : 0
tensor(103429.4453, grad_fn=<MseLossBackward>) tensor(26390.8984, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 45620 count : 200 rew : -14
epoch : 45621 count : 200 rew : -4
epoch : 45622 count : 200 rew : -2
epoch : 45623 count : 200 rew : -10
epoch : 45624 count : 200 rew : -2
epoch : 45625 count : 200 rew : -8
epoch : 45626 count : 200 rew : -9
epoch : 45627 count : 200 rew : 0
epoch : 45628 count : 200 rew : -1
epoch : 45629 count : 200 rew : -1
tensor(106835.5547, grad_fn=<MseLossBackwa

tensor(135881.6094, grad_fn=<MseLossBackward>) tensor(-42532.5352, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 45780 count : 200 rew : 0
epoch : 45781 count : 200 rew : -8
epoch : 45782 count : 200 rew : -1
epoch : 45783 count : 200 rew : -5
epoch : 45784 count : 200 rew : -4
epoch : 45785 count : 200 rew : -12
epoch : 45786 count : 200 rew : -15
epoch : 45787 count : 200 rew : -3
epoch : 45788 count : 200 rew : -5
epoch : 45789 count : 200 rew : -7
tensor(135684.5156, grad_fn=<MseLossBackward>) tensor(-73073.3516, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 45790 count : 200 rew : -5
epoch : 45791 count : 200 rew : -2
epoch : 45792 count : 200 rew : -6
epoch : 45793 count : 200 rew : -4
epoch : 45794 count : 200 rew : -10
epoch : 45795 count : 200 rew : -9
epoch : 45796 count : 200 rew : -3
epoch : 45797 count : 200 rew : -4
epoch : 45798 count : 200 rew : -4
epoch : 45799 count : 200 rew : -2
tensor(107849.4922, grad_fn=<MseLossBa

tensor(105188.6875, grad_fn=<MseLossBackward>) tensor(2586.9028, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 45950 count : 200 rew : 0
epoch : 45951 count : 200 rew : -6
epoch : 45952 count : 200 rew : -5
epoch : 45953 count : 200 rew : -8
epoch : 45954 count : 200 rew : 0
epoch : 45955 count : 200 rew : -7
epoch : 45956 count : 200 rew : -5
epoch : 45957 count : 200 rew : -4
epoch : 45958 count : 200 rew : -6
epoch : 45959 count : 200 rew : -2
tensor(135497.5469, grad_fn=<MseLossBackward>) tensor(-64515.1680, grad_fn=<NegBackward>) tensor(-0.0474, grad_fn=<MulBackward0>)
epoch : 45960 count : 200 rew : -8
epoch : 45961 count : 200 rew : -12
epoch : 45962 count : 200 rew : -8
epoch : 45963 count : 200 rew : -10
epoch : 45964 count : 200 rew : 0
epoch : 45965 count : 200 rew : -11
epoch : 45966 count : 200 rew : -4
epoch : 45967 count : 200 rew : 0
epoch : 45968 count : 200 rew : -8
epoch : 45969 count : 200 rew : -4
tensor(99224.4453, grad_fn=<MseLossBackward

tensor(122884.7344, grad_fn=<MseLossBackward>) tensor(-5118.7837, grad_fn=<NegBackward>) tensor(-0.0477, grad_fn=<MulBackward0>)
epoch : 46120 count : 200 rew : -3
epoch : 46121 count : 200 rew : -13
epoch : 46122 count : 200 rew : -7
epoch : 46123 count : 200 rew : 0
epoch : 46124 count : 200 rew : -5
epoch : 46125 count : 200 rew : -11
epoch : 46126 count : 200 rew : -2
epoch : 46127 count : 200 rew : -2
epoch : 46128 count : 200 rew : -9
epoch : 46129 count : 200 rew : -4
tensor(119807.4062, grad_fn=<MseLossBackward>) tensor(-43657.0742, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 46130 count : 200 rew : -2
epoch : 46131 count : 200 rew : -6
epoch : 46132 count : 200 rew : -7
epoch : 46133 count : 200 rew : -7
epoch : 46134 count : 200 rew : -1
epoch : 46135 count : 200 rew : -1
epoch : 46136 count : 200 rew : -4
epoch : 46137 count : 200 rew : -5
epoch : 46138 count : 200 rew : -11
epoch : 46139 count : 200 rew : -3
tensor(102022.9609, grad_fn=<MseLossBac

tensor(113443.4453, grad_fn=<MseLossBackward>) tensor(-15086.2090, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 46290 count : 200 rew : -5
epoch : 46291 count : 200 rew : -10
epoch : 46292 count : 200 rew : -8
epoch : 46293 count : 200 rew : -8
epoch : 46294 count : 200 rew : 0
epoch : 46295 count : 200 rew : 0
epoch : 46296 count : 200 rew : 0
epoch : 46297 count : 200 rew : -10
epoch : 46298 count : 200 rew : -1
epoch : 46299 count : 200 rew : -6
tensor(112564.1250, grad_fn=<MseLossBackward>) tensor(35380.5352, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 46300 count : 200 rew : -10
epoch : 46301 count : 200 rew : -9
epoch : 46302 count : 200 rew : -10
epoch : 46303 count : 200 rew : 0
epoch : 46304 count : 200 rew : -10
epoch : 46305 count : 200 rew : -9
epoch : 46306 count : 200 rew : -7
epoch : 46307 count : 200 rew : -8
epoch : 46308 count : 200 rew : -7
epoch : 46309 count : 200 rew : -10
tensor(125922.9609, grad_fn=<MseLossBac

tensor(106878.7734, grad_fn=<MseLossBackward>) tensor(41011.2266, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 46460 count : 200 rew : -11
epoch : 46461 count : 200 rew : -6
epoch : 46462 count : 200 rew : -5
epoch : 46463 count : 200 rew : -7
epoch : 46464 count : 200 rew : -4
epoch : 46465 count : 200 rew : -13
epoch : 46466 count : 200 rew : -10
epoch : 46467 count : 200 rew : 0
epoch : 46468 count : 200 rew : -2
epoch : 46469 count : 200 rew : -3
tensor(100265.7031, grad_fn=<MseLossBackward>) tensor(6152.0654, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 46470 count : 200 rew : -4
epoch : 46471 count : 200 rew : -5
epoch : 46472 count : 200 rew : 0
epoch : 46473 count : 200 rew : -2
epoch : 46474 count : 200 rew : -10
epoch : 46475 count : 200 rew : -13
epoch : 46476 count : 200 rew : -4
epoch : 46477 count : 200 rew : -3
epoch : 46478 count : 200 rew : -6
epoch : 46479 count : 200 rew : -5
tensor(112415.7031, grad_fn=<MseLossBack

tensor(140836.4375, grad_fn=<MseLossBackward>) tensor(-67123.7031, grad_fn=<NegBackward>) tensor(-0.0476, grad_fn=<MulBackward0>)
epoch : 46630 count : 200 rew : -2
epoch : 46631 count : 200 rew : -12
epoch : 46632 count : 200 rew : -1
epoch : 46633 count : 200 rew : -12
epoch : 46634 count : 200 rew : -5
epoch : 46635 count : 200 rew : -5
epoch : 46636 count : 200 rew : 0
epoch : 46637 count : 200 rew : -9
epoch : 46638 count : 200 rew : -4
epoch : 46639 count : 200 rew : -11
tensor(109131.1797, grad_fn=<MseLossBackward>) tensor(-25184.3594, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 46640 count : 200 rew : -10
epoch : 46641 count : 200 rew : -1
epoch : 46642 count : 200 rew : -9
epoch : 46643 count : 200 rew : -4
epoch : 46644 count : 200 rew : -8
epoch : 46645 count : 200 rew : -7
epoch : 46646 count : 200 rew : -1
epoch : 46647 count : 200 rew : -9
epoch : 46648 count : 200 rew : -5
epoch : 46649 count : 200 rew : -5
tensor(111836.7422, grad_fn=<MseLossB

tensor(116395.2734, grad_fn=<MseLossBackward>) tensor(-18183.9531, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 46800 count : 200 rew : -9
epoch : 46801 count : 200 rew : -9
epoch : 46802 count : 200 rew : -8
epoch : 46803 count : 200 rew : -9
epoch : 46804 count : 200 rew : -3
epoch : 46805 count : 200 rew : -6
epoch : 46806 count : 200 rew : -9
epoch : 46807 count : 200 rew : -7
epoch : 46808 count : 200 rew : -2
epoch : 46809 count : 200 rew : -3
tensor(137306.3594, grad_fn=<MseLossBackward>) tensor(-93622.0312, grad_fn=<NegBackward>) tensor(-0.0474, grad_fn=<MulBackward0>)
epoch : 46810 count : 200 rew : -6
epoch : 46811 count : 200 rew : -5
epoch : 46812 count : 200 rew : -6
epoch : 46813 count : 200 rew : -5
epoch : 46814 count : 200 rew : -5
epoch : 46815 count : 200 rew : -8
epoch : 46816 count : 200 rew : -9
epoch : 46817 count : 200 rew : -11
epoch : 46818 count : 200 rew : -6
epoch : 46819 count : 200 rew : -3
tensor(126870.7422, grad_fn=<MseLossBac

tensor(94081.7109, grad_fn=<MseLossBackward>) tensor(-5847.1055, grad_fn=<NegBackward>) tensor(-0.0464, grad_fn=<MulBackward0>)
epoch : 46970 count : 200 rew : -10
epoch : 46971 count : 200 rew : -2
epoch : 46972 count : 200 rew : 0
epoch : 46973 count : 200 rew : 0
epoch : 46974 count : 200 rew : -2
epoch : 46975 count : 200 rew : 0
epoch : 46976 count : 200 rew : -9
epoch : 46977 count : 200 rew : -11
epoch : 46978 count : 200 rew : -2
epoch : 46979 count : 200 rew : -8
tensor(111621.8828, grad_fn=<MseLossBackward>) tensor(40996.6562, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 46980 count : 200 rew : -9
epoch : 46981 count : 200 rew : -7
epoch : 46982 count : 200 rew : -9
epoch : 46983 count : 200 rew : -7
epoch : 46984 count : 200 rew : -7
epoch : 46985 count : 200 rew : -3
epoch : 46986 count : 200 rew : -5
epoch : 46987 count : 200 rew : -10
epoch : 46988 count : 200 rew : -11
epoch : 46989 count : 200 rew : -1
tensor(115654.2500, grad_fn=<MseLossBackwa

tensor(117172.3984, grad_fn=<MseLossBackward>) tensor(-19853.3418, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 47140 count : 200 rew : -6
epoch : 47141 count : 200 rew : -5
epoch : 47142 count : 200 rew : 0
epoch : 47143 count : 200 rew : 0
epoch : 47144 count : 200 rew : -9
epoch : 47145 count : 200 rew : -1
epoch : 47146 count : 200 rew : -4
epoch : 47147 count : 200 rew : -2
epoch : 47148 count : 200 rew : -8
epoch : 47149 count : 200 rew : -3
tensor(110870.6250, grad_fn=<MseLossBackward>) tensor(14898.4062, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 47150 count : 200 rew : -5
epoch : 47151 count : 200 rew : 0
epoch : 47152 count : 200 rew : -8
epoch : 47153 count : 200 rew : -8
epoch : 47154 count : 200 rew : -7
epoch : 47155 count : 200 rew : -9
epoch : 47156 count : 200 rew : -7
epoch : 47157 count : 200 rew : 0
epoch : 47158 count : 200 rew : -8
epoch : 47159 count : 200 rew : -10
tensor(146930.5938, grad_fn=<MseLossBackward

tensor(128758.6562, grad_fn=<MseLossBackward>) tensor(4816.3550, grad_fn=<NegBackward>) tensor(-0.0475, grad_fn=<MulBackward0>)
epoch : 47310 count : 200 rew : -5
epoch : 47311 count : 200 rew : -10
epoch : 47312 count : 200 rew : -8
epoch : 47313 count : 200 rew : -13
epoch : 47314 count : 200 rew : 0
epoch : 47315 count : 200 rew : -6
epoch : 47316 count : 200 rew : -9
epoch : 47317 count : 200 rew : -7
epoch : 47318 count : 200 rew : 0
epoch : 47319 count : 200 rew : -6
tensor(101452.5469, grad_fn=<MseLossBackward>) tensor(37877.8203, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 47320 count : 200 rew : -5
epoch : 47321 count : 200 rew : -1
epoch : 47322 count : 200 rew : -2
epoch : 47323 count : 200 rew : -7
epoch : 47324 count : 200 rew : -2
epoch : 47325 count : 200 rew : -3
epoch : 47326 count : 200 rew : -3
epoch : 47327 count : 200 rew : -5
epoch : 47328 count : 200 rew : -9
epoch : 47329 count : 200 rew : -6
tensor(98280.4531, grad_fn=<MseLossBackward

tensor(99125.8672, grad_fn=<MseLossBackward>) tensor(22733.8945, grad_fn=<NegBackward>) tensor(-0.0465, grad_fn=<MulBackward0>)
epoch : 47480 count : 200 rew : -2
epoch : 47481 count : 200 rew : -9
epoch : 47482 count : 200 rew : -4
epoch : 47483 count : 200 rew : -5
epoch : 47484 count : 200 rew : -2
epoch : 47485 count : 200 rew : -7
epoch : 47486 count : 200 rew : -4
epoch : 47487 count : 200 rew : -2
epoch : 47488 count : 200 rew : -4
epoch : 47489 count : 200 rew : -14
tensor(101061.1797, grad_fn=<MseLossBackward>) tensor(15183.7002, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 47490 count : 200 rew : -5
epoch : 47491 count : 200 rew : -6
epoch : 47492 count : 200 rew : -9
epoch : 47493 count : 200 rew : -5
epoch : 47494 count : 200 rew : -5
epoch : 47495 count : 200 rew : -8
epoch : 47496 count : 200 rew : -7
epoch : 47497 count : 200 rew : -10
epoch : 47498 count : 200 rew : -9
epoch : 47499 count : 200 rew : -8
tensor(146458.6875, grad_fn=<MseLossBackw

tensor(146231.9375, grad_fn=<MseLossBackward>) tensor(-120199.5625, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 47650 count : 200 rew : -1
epoch : 47651 count : 200 rew : -12
epoch : 47652 count : 200 rew : -8
epoch : 47653 count : 200 rew : -5
epoch : 47654 count : 200 rew : -8
epoch : 47655 count : 200 rew : -5
epoch : 47656 count : 200 rew : -5
epoch : 47657 count : 200 rew : -3
epoch : 47658 count : 200 rew : -6
epoch : 47659 count : 200 rew : -12
tensor(111497.2344, grad_fn=<MseLossBackward>) tensor(23183.8184, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 47660 count : 200 rew : -9
epoch : 47661 count : 200 rew : -11
epoch : 47662 count : 200 rew : -5
epoch : 47663 count : 200 rew : -8
epoch : 47664 count : 200 rew : 0
epoch : 47665 count : 200 rew : -1
epoch : 47666 count : 200 rew : -4
epoch : 47667 count : 200 rew : -7
epoch : 47668 count : 200 rew : -10
epoch : 47669 count : 200 rew : -4
tensor(111983.1875, grad_fn=<MseLossB

tensor(134876.0469, grad_fn=<MseLossBackward>) tensor(-69459.6641, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 47820 count : 200 rew : -4
epoch : 47821 count : 200 rew : -7
epoch : 47822 count : 200 rew : 0
epoch : 47823 count : 200 rew : -10
epoch : 47824 count : 200 rew : 0
epoch : 47825 count : 200 rew : -1
epoch : 47826 count : 200 rew : -8
epoch : 47827 count : 200 rew : -2
epoch : 47828 count : 200 rew : -6
epoch : 47829 count : 200 rew : -9
tensor(126652.2344, grad_fn=<MseLossBackward>) tensor(-29281.3379, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 47830 count : 200 rew : -4
epoch : 47831 count : 200 rew : -6
epoch : 47832 count : 200 rew : -11
epoch : 47833 count : 200 rew : -8
epoch : 47834 count : 200 rew : 0
epoch : 47835 count : 200 rew : -9
epoch : 47836 count : 200 rew : -1
epoch : 47837 count : 200 rew : 0
epoch : 47838 count : 200 rew : -9
epoch : 47839 count : 200 rew : -10
tensor(113458.8828, grad_fn=<MseLossBackw

tensor(129437.9766, grad_fn=<MseLossBackward>) tensor(-4285.2910, grad_fn=<NegBackward>) tensor(-0.0474, grad_fn=<MulBackward0>)
epoch : 47990 count : 200 rew : -13
epoch : 47991 count : 200 rew : -6
epoch : 47992 count : 200 rew : -8
epoch : 47993 count : 200 rew : -6
epoch : 47994 count : 200 rew : -11
epoch : 47995 count : 200 rew : -9
epoch : 47996 count : 200 rew : -1
epoch : 47997 count : 200 rew : -2
epoch : 47998 count : 200 rew : -7
epoch : 47999 count : 200 rew : -5
tensor(128592.8125, grad_fn=<MseLossBackward>) tensor(-67307.3203, grad_fn=<NegBackward>) tensor(-0.0475, grad_fn=<MulBackward0>)
epoch : 48000 count : 200 rew : -7
epoch : 48001 count : 200 rew : -1
epoch : 48002 count : 200 rew : 0
epoch : 48003 count : 200 rew : -12
epoch : 48004 count : 200 rew : -4
epoch : 48005 count : 200 rew : -1
epoch : 48006 count : 200 rew : -9
epoch : 48007 count : 200 rew : -8
epoch : 48008 count : 200 rew : -8
epoch : 48009 count : 200 rew : 0
tensor(124797.3672, grad_fn=<MseLossBack

tensor(117858.3750, grad_fn=<MseLossBackward>) tensor(-55796.3203, grad_fn=<NegBackward>) tensor(-0.0473, grad_fn=<MulBackward0>)
epoch : 48160 count : 200 rew : -10
epoch : 48161 count : 200 rew : -13
epoch : 48162 count : 200 rew : -6
epoch : 48163 count : 200 rew : -2
epoch : 48164 count : 200 rew : -3
epoch : 48165 count : 200 rew : -8
epoch : 48166 count : 200 rew : -10
epoch : 48167 count : 200 rew : -5
epoch : 48168 count : 200 rew : -6
epoch : 48169 count : 200 rew : -10
tensor(98500.0625, grad_fn=<MseLossBackward>) tensor(33111.8594, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 48170 count : 200 rew : -1
epoch : 48171 count : 200 rew : -7
epoch : 48172 count : 200 rew : -6
epoch : 48173 count : 200 rew : -6
epoch : 48174 count : 200 rew : -7
epoch : 48175 count : 200 rew : -10
epoch : 48176 count : 200 rew : -1
epoch : 48177 count : 200 rew : -10
epoch : 48178 count : 200 rew : -9
epoch : 48179 count : 200 rew : -8
tensor(116961.7734, grad_fn=<MseLoss

tensor(153421.1094, grad_fn=<MseLossBackward>) tensor(-150423.6406, grad_fn=<NegBackward>) tensor(-0.0473, grad_fn=<MulBackward0>)
epoch : 48330 count : 200 rew : -10
epoch : 48331 count : 200 rew : -8
epoch : 48332 count : 200 rew : 0
epoch : 48333 count : 200 rew : -7
epoch : 48334 count : 200 rew : -11
epoch : 48335 count : 200 rew : -7
epoch : 48336 count : 200 rew : -3
epoch : 48337 count : 200 rew : -12
epoch : 48338 count : 200 rew : -6
epoch : 48339 count : 200 rew : -7
tensor(125932.6328, grad_fn=<MseLossBackward>) tensor(-74054.1250, grad_fn=<NegBackward>) tensor(-0.0477, grad_fn=<MulBackward0>)
epoch : 48340 count : 200 rew : -6
epoch : 48341 count : 200 rew : -7
epoch : 48342 count : 200 rew : -3
epoch : 48343 count : 200 rew : -2
epoch : 48344 count : 200 rew : -12
epoch : 48345 count : 200 rew : -9
epoch : 48346 count : 200 rew : -6
epoch : 48347 count : 200 rew : -2
epoch : 48348 count : 200 rew : -10
epoch : 48349 count : 200 rew : -10
tensor(111642.5391, grad_fn=<MseLo

tensor(142197.2656, grad_fn=<MseLossBackward>) tensor(-87352.9297, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 48500 count : 200 rew : -7
epoch : 48501 count : 200 rew : -7
epoch : 48502 count : 200 rew : -1
epoch : 48503 count : 200 rew : -3
epoch : 48504 count : 200 rew : -9
epoch : 48505 count : 200 rew : -13
epoch : 48506 count : 200 rew : -4
epoch : 48507 count : 200 rew : 0
epoch : 48508 count : 200 rew : -12
epoch : 48509 count : 200 rew : -6
tensor(83650.2734, grad_fn=<MseLossBackward>) tensor(99534.8672, grad_fn=<NegBackward>) tensor(-0.0468, grad_fn=<MulBackward0>)
epoch : 48510 count : 200 rew : 0
epoch : 48511 count : 200 rew : -4
epoch : 48512 count : 200 rew : -2
epoch : 48513 count : 200 rew : -13
epoch : 48514 count : 200 rew : 0
epoch : 48515 count : 200 rew : -4
epoch : 48516 count : 200 rew : -9
epoch : 48517 count : 200 rew : -7
epoch : 48518 count : 200 rew : -1
epoch : 48519 count : 200 rew : -9
tensor(102009.9141, grad_fn=<MseLossBackwa

tensor(117342.7109, grad_fn=<MseLossBackward>) tensor(10319.7920, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 48670 count : 200 rew : -2
epoch : 48671 count : 200 rew : -8
epoch : 48672 count : 200 rew : -9
epoch : 48673 count : 200 rew : -5
epoch : 48674 count : 200 rew : -1
epoch : 48675 count : 200 rew : -3
epoch : 48676 count : 200 rew : -11
epoch : 48677 count : 200 rew : -2
epoch : 48678 count : 200 rew : -9
epoch : 48679 count : 200 rew : -6
tensor(129313.0625, grad_fn=<MseLossBackward>) tensor(-31148.6602, grad_fn=<NegBackward>) tensor(-0.0475, grad_fn=<MulBackward0>)
epoch : 48680 count : 200 rew : -10
epoch : 48681 count : 200 rew : -1
epoch : 48682 count : 200 rew : -7
epoch : 48683 count : 200 rew : -5
epoch : 48684 count : 200 rew : -6
epoch : 48685 count : 200 rew : -8
epoch : 48686 count : 200 rew : -4
epoch : 48687 count : 200 rew : -3
epoch : 48688 count : 200 rew : 0
epoch : 48689 count : 200 rew : -14
tensor(119636.0781, grad_fn=<MseLossBac

tensor(114240.5312, grad_fn=<MseLossBackward>) tensor(3478.4539, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 48840 count : 200 rew : -15
epoch : 48841 count : 200 rew : -1
epoch : 48842 count : 200 rew : -8
epoch : 48843 count : 200 rew : -5
epoch : 48844 count : 200 rew : -7
epoch : 48845 count : 200 rew : -11
epoch : 48846 count : 200 rew : -13
epoch : 48847 count : 200 rew : -10
epoch : 48848 count : 200 rew : -6
epoch : 48849 count : 200 rew : 0
tensor(93128.2266, grad_fn=<MseLossBackward>) tensor(53362.4375, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 48850 count : 200 rew : -6
epoch : 48851 count : 200 rew : -12
epoch : 48852 count : 200 rew : -4
epoch : 48853 count : 200 rew : 0
epoch : 48854 count : 200 rew : -7
epoch : 48855 count : 200 rew : -3
epoch : 48856 count : 200 rew : -1
epoch : 48857 count : 200 rew : -8
epoch : 48858 count : 200 rew : -2
epoch : 48859 count : 200 rew : -2
tensor(125438.7578, grad_fn=<MseLossBackw

tensor(108573.0234, grad_fn=<MseLossBackward>) tensor(7374.1553, grad_fn=<NegBackward>) tensor(-0.0470, grad_fn=<MulBackward0>)
epoch : 49010 count : 200 rew : -6
epoch : 49011 count : 200 rew : -1
epoch : 49012 count : 200 rew : -1
epoch : 49013 count : 200 rew : -13
epoch : 49014 count : 200 rew : -8
epoch : 49015 count : 200 rew : -11
epoch : 49016 count : 200 rew : -5
epoch : 49017 count : 200 rew : -3
epoch : 49018 count : 200 rew : -1
epoch : 49019 count : 200 rew : -3
tensor(112894.6094, grad_fn=<MseLossBackward>) tensor(7685.9663, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 49020 count : 200 rew : -9
epoch : 49021 count : 200 rew : -1
epoch : 49022 count : 200 rew : -4
epoch : 49023 count : 200 rew : -12
epoch : 49024 count : 200 rew : -1
epoch : 49025 count : 200 rew : -10
epoch : 49026 count : 200 rew : -9
epoch : 49027 count : 200 rew : -8
epoch : 49028 count : 200 rew : -1
epoch : 49029 count : 200 rew : -10
tensor(95478.9688, grad_fn=<MseLossBack

tensor(121162.6797, grad_fn=<MseLossBackward>) tensor(-44370.2109, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 49180 count : 200 rew : -2
epoch : 49181 count : 200 rew : -5
epoch : 49182 count : 200 rew : -11
epoch : 49183 count : 200 rew : -13
epoch : 49184 count : 200 rew : -2
epoch : 49185 count : 200 rew : -7
epoch : 49186 count : 200 rew : -6
epoch : 49187 count : 200 rew : -4
epoch : 49188 count : 200 rew : -3
epoch : 49189 count : 200 rew : -1
tensor(108098.9297, grad_fn=<MseLossBackward>) tensor(-5344.8857, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 49190 count : 200 rew : -6
epoch : 49191 count : 200 rew : -8
epoch : 49192 count : 200 rew : 0
epoch : 49193 count : 200 rew : -9
epoch : 49194 count : 200 rew : -7
epoch : 49195 count : 200 rew : -4
epoch : 49196 count : 200 rew : -9
epoch : 49197 count : 200 rew : -6
epoch : 49198 count : 200 rew : -7
epoch : 49199 count : 200 rew : -6
tensor(132876.7812, grad_fn=<MseLossBack

tensor(119979.1953, grad_fn=<MseLossBackward>) tensor(21681.9355, grad_fn=<NegBackward>) tensor(-0.0473, grad_fn=<MulBackward0>)
epoch : 49350 count : 200 rew : -15
epoch : 49351 count : 200 rew : -2
epoch : 49352 count : 200 rew : -4
epoch : 49353 count : 200 rew : -3
epoch : 49354 count : 200 rew : -8
epoch : 49355 count : 200 rew : -3
epoch : 49356 count : 200 rew : -4
epoch : 49357 count : 200 rew : -3
epoch : 49358 count : 200 rew : -4
epoch : 49359 count : 200 rew : -4
tensor(115159.7891, grad_fn=<MseLossBackward>) tensor(-17256.3789, grad_fn=<NegBackward>) tensor(-0.0469, grad_fn=<MulBackward0>)
epoch : 49360 count : 200 rew : -3
epoch : 49361 count : 200 rew : -2
epoch : 49362 count : 200 rew : -8
epoch : 49363 count : 200 rew : -1
epoch : 49364 count : 200 rew : -12
epoch : 49365 count : 200 rew : -7
epoch : 49366 count : 200 rew : -4
epoch : 49367 count : 200 rew : -7
epoch : 49368 count : 200 rew : -9
epoch : 49369 count : 200 rew : -2
tensor(123452.4141, grad_fn=<MseLossBac

tensor(129266.7734, grad_fn=<MseLossBackward>) tensor(-58834.2656, grad_fn=<NegBackward>) tensor(-0.0475, grad_fn=<MulBackward0>)
epoch : 49520 count : 200 rew : -2
epoch : 49521 count : 200 rew : -7
epoch : 49522 count : 200 rew : -5
epoch : 49523 count : 200 rew : -9
epoch : 49524 count : 200 rew : -6
epoch : 49525 count : 200 rew : -6
epoch : 49526 count : 200 rew : -2
epoch : 49527 count : 200 rew : -1
epoch : 49528 count : 200 rew : -9
epoch : 49529 count : 200 rew : -12
tensor(111712.3516, grad_fn=<MseLossBackward>) tensor(-7364.8638, grad_fn=<NegBackward>) tensor(-0.0472, grad_fn=<MulBackward0>)
epoch : 49530 count : 200 rew : -6
epoch : 49531 count : 200 rew : 0
epoch : 49532 count : 200 rew : -3
epoch : 49533 count : 200 rew : -4
epoch : 49534 count : 200 rew : -9
epoch : 49535 count : 200 rew : -9
epoch : 49536 count : 200 rew : -7
epoch : 49537 count : 200 rew : -11
epoch : 49538 count : 200 rew : -3
epoch : 49539 count : 200 rew : 0
tensor(103177.0078, grad_fn=<MseLossBackw

tensor(111984.9766, grad_fn=<MseLossBackward>) tensor(17915.3105, grad_fn=<NegBackward>) tensor(-0.0475, grad_fn=<MulBackward0>)
epoch : 49690 count : 200 rew : -4
epoch : 49691 count : 200 rew : -9
epoch : 49692 count : 200 rew : -1
epoch : 49693 count : 200 rew : -9
epoch : 49694 count : 200 rew : -2
epoch : 49695 count : 200 rew : -5
epoch : 49696 count : 200 rew : -5
epoch : 49697 count : 200 rew : -14
epoch : 49698 count : 200 rew : -6
epoch : 49699 count : 200 rew : -3
tensor(93735.5156, grad_fn=<MseLossBackward>) tensor(51982.9570, grad_fn=<NegBackward>) tensor(-0.0466, grad_fn=<MulBackward0>)
epoch : 49700 count : 200 rew : 0
epoch : 49701 count : 200 rew : -8
epoch : 49702 count : 200 rew : -5
epoch : 49703 count : 200 rew : -9
epoch : 49704 count : 200 rew : -2
epoch : 49705 count : 200 rew : -5
epoch : 49706 count : 200 rew : -1
epoch : 49707 count : 200 rew : -3
epoch : 49708 count : 200 rew : -2
epoch : 49709 count : 200 rew : -2
tensor(111229.9766, grad_fn=<MseLossBackwar

tensor(107311.2656, grad_fn=<MseLossBackward>) tensor(9886.3633, grad_fn=<NegBackward>) tensor(-0.0467, grad_fn=<MulBackward0>)
epoch : 49860 count : 200 rew : -12
epoch : 49861 count : 200 rew : -8
epoch : 49862 count : 200 rew : -9
epoch : 49863 count : 200 rew : -4
epoch : 49864 count : 200 rew : 0
epoch : 49865 count : 200 rew : -14
epoch : 49866 count : 200 rew : -8
epoch : 49867 count : 200 rew : -6
epoch : 49868 count : 200 rew : -6
epoch : 49869 count : 200 rew : -7
tensor(128932.4062, grad_fn=<MseLossBackward>) tensor(-76165.9375, grad_fn=<NegBackward>) tensor(-0.0471, grad_fn=<MulBackward0>)
epoch : 49870 count : 200 rew : -1
epoch : 49871 count : 200 rew : -1
epoch : 49872 count : 200 rew : -10
epoch : 49873 count : 200 rew : -3
epoch : 49874 count : 200 rew : -7
epoch : 49875 count : 200 rew : -8
epoch : 49876 count : 200 rew : -2
epoch : 49877 count : 200 rew : -9
epoch : 49878 count : 200 rew : 0
epoch : 49879 count : 200 rew : -9
tensor(115371.0078, grad_fn=<MseLossBackw