Unity-Technologies · awjuliani · Sep 5, 2018 · Sep 5, 2018 · Sep 5, 2018
diff --git a/UnitySDK/Assets/ML-Agents/Examples/Soccer/TFModels/SoccerTwos.bytes b/UnitySDK/Assets/ML-Agents/Examples/Soccer/TFModels/SoccerTwos.bytes
diff --git a/UnitySDK/Assets/ML-Agents/Examples/Soccer/TFModels/SoccerTwos.bytes.meta b/UnitySDK/Assets/ML-Agents/Examples/Soccer/TFModels/SoccerTwos.bytes.meta
diff --git a/config/trainer_config.yaml b/config/trainer_config.yaml
@@ -67,21 +67,25 @@ BigWallBrain:
     normalize: false
 
 StrikerBrain:
-    max_steps: 1.0e5
+    max_steps: 5.0e5
+    learning_rate: 1e-3
     batch_size: 128
-    buffer_size: 2048
-    beta: 5.0e-3
+    num_epoch: 3
+    buffer_size: 2000
+    beta: 1.0e-2
     hidden_units: 256
     summary_freq: 2000
     time_horizon: 128
     num_layers: 2
     normalize: false
 
 GoalieBrain:
-    max_steps: 1.0e5
-    batch_size: 128
-    buffer_size: 2048
-    beta: 5.0e-3
+    max_steps: 5.0e5
+    learning_rate: 1e-3
+    batch_size: 320
+    num_epoch: 3
+    buffer_size: 2000
+    beta: 1.0e-2
     hidden_units: 256
     summary_freq: 2000
     time_horizon: 128

diff --git a/ml-agents/mlagents/trainers/models.py b/ml-agents/mlagents/trainers/models.py
@@ -153,9 +153,10 @@ def create_discrete_action_masking_layer(all_logits, action_masks, action_size):
         action_idx = [0] + list(np.cumsum(action_size))
         branches_logits = [all_logits[:, action_idx[i]:action_idx[i + 1]] for i in range(len(action_size))]
         branch_masks = [action_masks[:, action_idx[i]:action_idx[i + 1]] for i in range(len(action_size))]
-        raw_probs = [tf.multiply(tf.nn.softmax(branches_logits[k]), branch_masks[k]) + (1-branch_masks[k])*1.0e-10
+        raw_probs = [tf.multiply(tf.nn.softmax(branches_logits[k]), branch_masks[k]) + 1.0e-10
                      for k in range(len(action_size))]
-        normalized_probs = [tf.divide(raw_probs[k], tf.reduce_sum(raw_probs[k], axis=1, keepdims=True))
+        normalized_probs = [
+            tf.divide(raw_probs[k], tf.reduce_sum(raw_probs[k] + 1.0e-10, axis=1, keepdims=True))
                             for k in range(len(action_size))]
         output = tf.concat([tf.multinomial(tf.log(normalized_probs[k]), 1) for k in range(len(action_size))], axis=1)
         return output, tf.concat([tf.log(normalized_probs[k]) for k in range(len(action_size))], axis=1)