# Deep Learning Sessions Lisboa

Code used in the examples.

## 1. Example definition

This is the 9-state scenario used in the examples.

In [1]:
import numpy as np
from tqdm import trange 

S = ('1', '2', '3', '4', '5', '6', '7', '8', '9')
A = ('Up', 'Down', 'Left', 'Right', 'Stay')

#                 1   2   3   4   5   6   7   8   9                
Pup = np.array([[1., 0., 0., 0., 0., 0., 0., 0., 0.],  # 1
                [0., 1., 0., 0., 0., 0., 0., 0., 0.],  # 2
                [0., 0., 1., 0., 0., 0., 0., 0., 0.],  # 3
                [.9, 0., 0., .1, 0., 0., 0., 0., 0.],  # 4
                [0., .9, 0., 0., .1, 0., 0., 0., 0.],  # 5
                [0., 0., .9, 0., 0., .1, 0., 0., 0.],  # 6
                [0., 0., 0., .9, 0., 0., .1, 0., 0.],  # 7
                [0., 0., 0., 0., .9, 0., 0., .1, 0.],  # 8
                [0., 0., 0., 0., 0., .9, 0., 0., .1]]) # 9

#                   1   2   3   4   5   6   7   8   9                
Pdown = np.array([[.1, 0., 0., .9, 0., 0., 0., 0., 0.],  # 1
                  [0., .1, 0., 0., .9, 0., 0., 0., 0.],  # 2
                  [0., 0., .1, 0., 0., .9, 0., 0., 0.],  # 3
                  [0., 0., 0., .1, 0., 0., .9, 0., 0.],  # 4
                  [0., 0., 0., 0., .1, 0., 0., .9, 0.],  # 5
                  [0., 0., 0., 0., 0., .1, 0., 0., .9],  # 6
                  [0., 0., 0., 0., 0., 0., 1., 0., 0.],  # 7
                  [0., 0., 0., 0., 0., 0., 0., 1., 0.],  # 8
                  [0., 0., 0., 0., 0., 0., 0., 0., 1.]]) # 9

#                   1   2   3   4   5   6   7   8   9                
Pleft = np.array([[1., 0., 0., 0., 0., 0., 0., 0., 0.],  # 1
                  [.9, .1, 0., 0., 0., 0., 0., 0., 0.],  # 2
                  [0., .9, .1, 0., 0., 0., 0., 0., 0.],  # 3
                  [0., 0., 0., 1., 0., 0., 0., 0., 0.],  # 4
                  [0., 0., 0., .9, .1, 0., 0., 0., 0.],  # 5
                  [0., 0., 0., 0., .9, .1, 0., 0., 0.],  # 6
                  [0., 0., 0., 0., 0., 0., 1., 0., 0.],  # 7
                  [0., 0., 0., 0., 0., 0., .9, .1, 0.],  # 8
                  [0., 0., 0., 0., 0., 0., 0., .9, .1]]) # 9

#                    1   2   3   4   5   6   7   8   9                
Pright = np.array([[.1, .9, 0., 0., 0., 0., 0., 0., 0.],  # 1
                   [0., .1, .9, 0., 0., 0., 0., 0., 0.],  # 2
                   [0., 0., 1., 0., 0., 0., 0., 0., 0.],  # 3
                   [0., 0., 0., .1, .9, 0., 0., 0., 0.],  # 4
                   [0., 0., 0., 0., .1, .9, 0., 0., 0.],  # 5
                   [0., 0., 0., 0., 0., 1., 0., 0., 0.],  # 6
                   [0., 0., 0., 0., 0., 0., .1, .9, 0.],  # 7
                   [0., 0., 0., 0., 0., 0., 0., .1, .9],  # 8
                   [0., 0., 0., 0., 0., 0., 0., 0., 1.]]) # 9

#                   1   2   3   4   5   6   7   8   9                
Pstay = np.array([[1., 0., 0., 0., 0., 0., 0., 0., 0.],  # 1
                  [0., 1., 0., 0., 0., 0., 0., 0., 0.],  # 2
                  [0., 0., 1., 0., 0., 0., 0., 0., 0.],  # 3
                  [0., 0., 0., 1., 0., 0., 0., 0., 0.],  # 4
                  [0., 0., 0., 0., 1., 0., 0., 0., 0.],  # 5
                  [0., 0., 0., 0., 0., 1., 0., 0., 0.],  # 6
                  [0., 0., 0., 0., 0., 0., 1., 0., 0.],  # 7
                  [0., 0., 0., 0., 0., 0., 0., 1., 0.],  # 8
                  [0., 0., 0., 0., 0., 0., 0., 0., 1.]]) # 9

P = (Pup, Pdown, Pleft, Pright, Pstay)

#              U   D   L   R   S
r = np.array([[-.1, -.1, -.1, -.1, 0.],  # 1
              [-.1, -.1, -.1, -.1, 0.],  # 2
              [4.9, 4.9, 4.9, 4.9, 5.],  # 3
              [-.1, -.1, -.1, -.1, 0.],  # 4
              [-.1, -.1, -.1, -.1, 0.],  # 5
              [-.1, -.1, -.1, -.1, 0.],  # 6
              [0.9, 0.9, 0.9, 0.9, 1.],  # 7
              [-.1, -.1, -.1, -.1, 0.],  # 8
              [-.1, -.1, -.1, -.1, 0.]]) # 9

gamma = 0.9

## 2. Compute "q" exactly

In [2]:
qrand = np.zeros((len(S), len(A)))

quit = False

while not quit:
    qnew = np.zeros((len(S), len(A)))
    vnew = np.mean(qrand, axis=1, keepdims=True)
    
    for a in range(len(A)):
        qnew[:, a, None] = r[:, a, None] + gamma * P[a].dot(vnew)
        
    if np.linalg.norm(qnew - qrand) < 1e-8:
        quit = True
        
    qrand = qnew
    
print(np.round(qrand, 2))

[[ 3.16  2.93  3.16  5.6   3.26]
 [ 5.88  3.91  3.43 14.01  5.98]
 [19.91 11.78 11.78 19.91 20.01]
 [ 3.13  4.02  2.9   3.61  3.  ]
 [ 5.66  2.98  2.98  5.66  3.79]
 [14.01  3.43  3.91  5.88  5.98]
 [ 4.02  5.15  5.15  4.02  5.25]
 [ 3.61  2.9   4.02  3.13  3.  ]
 [ 5.6   3.16  2.93  3.16  3.26]]


In [3]:
qopt = np.zeros((len(S), len(A)))

quit = False

while not quit:
    qnew = np.zeros((len(S), len(A)))
    vnew = np.max(qopt, axis=1, keepdims=True)
    
    for a in range(len(A)):
        qnew[:, a, None] = r[:, a, None] + gamma * P[a].dot(vnew)
        
    if np.linalg.norm(qnew - qopt) < 1e-8:
        quit = True
        
    qopt = qnew
    
print(np.round(qopt, 2))

[[35.37 31.77 35.37 39.41 35.47]
 [39.86 35.82 35.82 44.4  39.96]
 [49.9  45.36 45.36 49.9  50.  ]
 [34.97 29.06 31.37 34.97 31.47]
 [39.41 31.77 31.77 39.41 35.47]
 [44.4  35.82 35.82 39.86 39.96]
 [32.11 29.8  29.8  32.11 29.9 ]
 [34.97 31.37 29.06 34.97 31.47]
 [39.41 35.37 31.77 35.37 35.47]]


## 3. Compute "q" using QL

In [4]:
STEP = 0.5

np.random.seed(42)

q = np.zeros((len(S), len(A)))
s = np.random.choice(len(S))

for t in trange(5000):

    # Select next action
    if np.random.rand() < 0.5:
        a = np.random.choice(len(A))
    else:
        a = np.argmax(q[s, :])
    
    # Sample next reward
    rnew = r[s, a]
    
    # Sample next state
    snew = np.random.choice(len(S), p=P[a][s, :])
    q[s, a] = q[s, a] + STEP * (rnew + gamma * np.max(q[snew, :]) - q[s, a])
    
    s = snew
    
print(np.round(q, 1))

100%|██████████| 5000/5000 [00:00<00:00, 20658.34it/s]

[[35.8 31.8 31.5 39.2 34.6]
 [39.  35.4 36.1 44.9 39.2]
 [49.9 45.6 45.3 49.9 50. ]
 [31.2 28.6 31.4 35.7 31.8]
 [39.8 31.  32.  40.  35.6]
 [44.9 34.4 35.9 39.2 39.4]
 [27.2 19.9 25.  32.7 25.1]
 [35.1 31.1 30.  31.  31.1]
 [39.9 29.5 29.9 29.3 27.4]]



