polixir · mzktbyjc2016 · Nov 21, 2022 · Jul 28, 2022
diff --git a/offlinerl/utils/net/tanhpolicy.py b/offlinerl/utils/net/tanhpolicy.py
@@ -26,7 +26,6 @@ def __init__(self, normal_mean, normal_std, max_action=1, min_action=-1, epsilon
         self.normal_std = normal_std
         self.normal = Normal(normal_mean, normal_std)
         self.epsilon = epsilon
-        self.mode = torch.tanh(normal_mean)
         self.max_action = max_action
         self.min_action = min_action
 
@@ -41,6 +40,10 @@ def atanh(self,x):
         one_plus_x = (1 + x).clamp(min=1e-6)
         one_minus_x = (1 - x).clamp(min=1e-6)
         return 0.5 * torch.log(one_plus_x / one_minus_x)
+
+    @property
+    def mode(self):
+        return torch.tanh(self.normal_mean)
 
     def log_prob(self, value, pre_tanh_value=None):
         """
@@ -161,4 +164,4 @@ def forward(
         return TanhNormal(mean, std)
 
     def policy_infer(self, obs):
-        return self(obs).mode
+        return self(obs).mode