Fix discount factor and node update on first run (#34)

* fixed discount factor and node update * new_node prevents repeat of simulate line
JuliaPOMDP · Feb 16, 2018 · d77f22e · d77f22e
1 parent 464b8c9
commit d77f22e
Showing 1 changed file with 8 additions and 5 deletions.
diff --git a/src/dpw.jl b/src/dpw.jl
@@ -120,6 +120,7 @@ function simulate(dpw::DPWPlanner, snode::Int, d::Int)
     a = tree.a_labels[sanode]
 
     # state progressive widening
+    new_node = false
     if length(tree.transitions[sanode]) <= sol.k_state*tree.n[sanode]^sol.alpha_state
 
         sp, r = generate_sr(dpw.mdp, s, a, dpw.rng)
@@ -132,17 +133,19 @@ function simulate(dpw::DPWPlanner, snode::Int, d::Int)
 
         if spnode == 0 # there was not a state node for sp already in the tree
             spnode = insert_state_node!(tree, sp, sol.keep_tree || sol.check_repeat_state)
+            new_node = true
         end
         push!(tree.transitions[sanode], (spnode, r))
 
-        if tree.total_n[spnode] == 0
-            return r + estimate_value(dpw.solved_estimate, dpw.mdp, sp, d-1)
-        end
     else
-        (spnode, r) = rand(dpw.rng, tree.transitions[sanode])
+        spnode, r = rand(dpw.rng, tree.transitions[sanode])
     end
 
-    q = r + discount(dpw.mdp)*simulate(dpw, spnode, d-1)
+    if new_node
+        q = r + discount(dpw.mdp)*estimate_value(dpw.solved_estimate, dpw.mdp, sp, d-1)
+    else
+        q = r + discount(dpw.mdp)*simulate(dpw, spnode, d-1)
+    end
 
     tree.n[sanode] += 1
     tree.total_n[snode] += 1