# Programação Dinâmica Estocástica
## Avaliação 1

1. Considere um programa dinâmico estocástico com horizonte infinito descrito pelos seguintes
elementos:

- Espaço de estados $\mathcal{S} = \{s_1, s_2 \}$
- Conjuntos de decisões $\mathcal X (s_1) = \{x_{11}, x_{12} \}$ e $\mathcal X (s_{2}) = \{x_{21}, x_{22} \}$.
- Função probabilidade de transição de estados dada por:

$$p(s_{1}|s_{1}, x{11}) = 0.5, \;\; p(s_{2}|s_{1}, x{11}) = 0.5$$
$$p(s_{1}|s_{1}, x{12}) = 0.7, \;\; p(s_{2}|s_{1}, x{12}) = 0.3$$
$$p(s_{1}|s_{2}, x{21}) = 0.1, \;\; p(s_{2}|s_{2}, x{21}) = 0.9$$
$$p(s_{1}|s_{2}, x{22}) = 0.9, \;\; p(s_{2}|s_{2}, x{22}) = 0.1$$

- Função recompensa dada por:

$$r(s1, x11) = r(s1, x12) = 1$$
$$r(s2, x21) = r(s2, x22) = 0$$

- Fator de desconto $\gamma = 0.9$

Note que neste exercício utiliza-se diretamente a função probabilidade de transição de estados $p(s'|s, x)$, em vez da função de transição de estados $s′ = f(s, x, w)$ e distribuição de probabilidades $P(W = w|s, x)$. Note também que a função recompensa retorna diretamente a recompensa esperada, ou seja:

$$r(s, x) = \mathbb E \left[r \left(s, x, W \right)|s, x \right], \forall s \in \mathcal S, x \in \mathcal X (s),$$

em que o valor esperado é computado em relação à distribuição de probabilidades da fonte de aleatoriedade $P(W = w|s, x)$.

Responda aos seguintes itens:

a. Aproxime a função de valor ótima por meio do método de iteração de valor. Adote $\epsilon = 0.01$.

b. Obtenha a política correspondente à função de valor aproximada no item anterior.

c. Obtenha uma política ótima por meio do método de iteração de política. Analise a política e comente se ela parece razoável considerando os dados do problema.

d. Compare a política obtida por meio do método da iteração de valor e do método da iteração de política. As políticas coincidem?


## Importando Pacotes

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from os.path import join
import numpy as np
import random

In [2]:

pd.options.display.max_columns = None

sns.set_theme(style='darkgrid')
sns.set_palette("twilight_shifted")

## Definindo parâmetros

In [3]:
states = list(range(2))

actions = list(range(2))

# State transition probability function
# Dimentions: new state x current state x decision
p_transition = np.array([[[0.5, 0.7],
                            [0.1, 0.9]],
                            [[0.5, 0.3],
                            [0.9, 0.1]]])

# Reward
# Dimentions: current state x decision
r = np.array([[1., 1.],
               [0., 0.]],)

# Discount Factor
gamma = 0.9

# Probability of transictioning to states 1 and 2 if choose decision 1 in state 2
p_transition[:, 1, 0]

array([0.1, 0.9])

In [4]:
V = np.zeros([2])
V

array([0., 0.])

### a. Função de valor ótima por meio do método de iteração de valor

In [5]:
epsilon = 0.01

In [6]:
history = [[], []]
loss_history = [[], []]
while True:
    delta = 0

    for s in states:
        v_old = V[s]
        V[s] = max([r[s, a] + gamma * sum(p_transition[s_, s, a]*V[s_] for s_ in states) for a in actions])
        
        history[s].append(V[s])
        delta = max(delta, abs(v_old-V[s]))
        loss_history[s].append(delta)
    
    if delta < epsilon:
        break

V

array([7.64348677, 6.80266129])

### b. Política correspondente à função de valor

In [7]:
# Policy
pi = np.zeros([2])

for s in states:
    pi[s] = np.argmax([r[s, a] + gamma * sum(p_transition[s_, s, a]*V[s_] for s_ in states) for a in actions])
pi

array([1., 1.])

### c. Política ótima por meio do método de iteração de política