## **Bellman Q Value**

In [None]:
import numpy as np

```
[
    # estado S0
    [   
        [0.7, 0.3, 0.0], # acción A0
        [1.0, 0.0, 0.0], # acción A1
        [0.8, 0.2, 0.0]  # acción A2
    ],
    # estado S1
    [
        [0.0, 1.0, 0.0], # acción A0
        None,            # acción A1
        [0.0, 0.0, 1.0]  # acción A2
    ],
    # estado S2
    [ 
        None,            # acción A0
        [0.8, 0.1, 0.1], # acción A1
        None             # acción A2
    ]
]
```

In [None]:
transitionProbs = [
    [ [0.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]],
    [ [0.0, 1.0, 0.0], None,            [0.0, 0.0, 1.0]],
    [ None,            [0.8, 0.1, 0.1], None           ]
]

np.array(transitionProbs).shape # shape = [s, a, s']

In [None]:
rewards = [
    [ [+10, 0, 0], [  0, 0, 0], [0, 0,  0]],
    [ [  0, 0, 0], [  0, 0, 0], [0, 0,-50]],
    [ [  0, 0, 0], [+40, 0, 0], [0, 0,  0]]
]

np.array(rewards).shape # shape = [s, a, s']

In [None]:
possibleActions = [
    [0, 1, 2], # estado S0
    [0, 2], # estado S1
    [1] # estado S2
]

QValues = np.full((3, 3), -np.inf) # -np.inf para todas las acciones imposibles

for state, actions in enumerate(possibleActions):
    QValues[state, actions] = 0.0 # for all possible actions

QValues

In [None]:
gamma = 1.0 # factor de descuento
iters = 50 # número de iteraciones

for _ in range(iters):
    # los estados S actuales pasan a ser los S' anteriores
    QPrev = QValues.copy()
    # para el estado S
    for s in range(3):
        # para la acción A
        for a in possibleActions[s]:
            # evaluar la ecuación de Bellman en el estado S, dada la mejor acción A en S'
            QValues[s, a] = np.sum( [ transitionProbs[s][a][sp]*(rewards[s][a][sp] + gamma*np.max(QPrev[sp])) for sp in range(3) ] )

QValues

In [None]:
np.argmax(QValues,axis=1) # acción óptima para cada estado