Merge pull request #3 from yrevar/patch-2

Fixing policy improvement equation
mimoralea · Jul 16, 2017 · 863804c · 863804c
2 parents 34273a9 + 7f074ce
commit 863804c
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/notebooks/solutions/03-planning-algorithms.ipynb b/notebooks/solutions/03-planning-algorithms.ipynb
@@ -751,7 +751,7 @@
     "        Qs = np.zeros(len(A), dtype=float)\n",
     "        for a in A:\n",
     "            for prob, s_prime, reward, done in P[s][a]:\n",
-    "                Qs[a] += prob * (reward + gamma * V[s] * (not done))\n",
+    "                Qs[a] += prob * (reward + gamma * V[s_prime] * (not done))\n",
     "        pi[s] = np.argmax(Qs)\n",
     "        V[s] = np.max(Qs)\n",
     "    return pi, V"