## Zaawansowane Metody Inteligencji Obliczeniowej
# Zadanie domowe 1
### Prowadzący: Michał Kempka
### Autor: Jakub Frąszczak 136704 - SI1

## Wprowadzenie

Całe zadanie jest oparte o różne wersje środowiska `FrozenLake` ze znanej biblioteki OpenAI Gym (https://gym.openai.com), która agreguje różnego rodzaju środowiska pod postacią jednego zunifikowanego API.

Zapoznaj się z opisem środowiska (https://gym.openai.com/envs/FrozenLake-v0) następnie zapoznaj się z kodem poniżej. Pokazuje on podstawy użytkowania API biblioteki Gym.

#### Uwaga: Możesz dowolnie modyfikować elementy tego notebooka (wstawiać komórki i zmieniać kod) o ile nie napisano gdzieś inaczej.

In [1]:
# Zainstaluj bibliotekę OpenAI Gym
!pip install gym



In [2]:
# Zaimportuj środowisko FrozenLake z OpenAI Gym
from gym.envs.toy_text.frozen_lake import FrozenLakeEnv 

# Stwórzmy deterministyczne (`is_slippper=False`) środowisko w oparciu o jedną z zpredefiniowanych map (`map_name="4x4"`)
env = FrozenLakeEnv(map_name="4x4", is_slippery=False) 

# Po stworzeniu środowiska musimy je zresetować 
env.reset()
# W każdym momencie możemy wyświetlić stan naszego środowiska przy użyciu fukcji `render`
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [3]:
from pprint import pprint

# Najważniejsze pola środowiska, na potrzeby tego zadania załóżmy, że mamy dostęp do nich wszystkich 
# (oczywiście dla niektórych środowisk w OpenAI Gym tak nie jest)
print("Przestrzeń akcji: ", env.action_space) # Dyskretne akcje od 0 do 3: LEFT = 0, DOWN = 1, RIGHT = 2, UP = 3
print("Przestrzeń obserwacji: ", env.observation_space) # Dyskretne stany od 0 do 15
print("Opis środowiska (mapa):")
print(env.desc)
print("Model przejść w środowisku:")
pprint(env.P) # gdzie P[s][a] == [(probability, nextstate, reward, done), ...]
print("Aktualny stan: ", env.s)

Przestrzeń akcji:  Discrete(4)
Przestrzeń obserwacji:  Discrete(16)
Opis środowiska (mapa):
[[b'S' b'F' b'F' b'F']
 [b'F' b'H' b'F' b'H']
 [b'F' b'F' b'F' b'H']
 [b'H' b'F' b'F' b'G']]
Model przejść w środowisku:
{0: {0: [(1.0, 0, 0.0, False)],
     1: [(1.0, 4, 0.0, False)],
     2: [(1.0, 1, 0.0, False)],
     3: [(1.0, 0, 0.0, False)]},
 1: {0: [(1.0, 0, 0.0, False)],
     1: [(1.0, 5, 0.0, True)],
     2: [(1.0, 2, 0.0, False)],
     3: [(1.0, 1, 0.0, False)]},
 2: {0: [(1.0, 1, 0.0, False)],
     1: [(1.0, 6, 0.0, False)],
     2: [(1.0, 3, 0.0, False)],
     3: [(1.0, 2, 0.0, False)]},
 3: {0: [(1.0, 2, 0.0, False)],
     1: [(1.0, 7, 0.0, True)],
     2: [(1.0, 3, 0.0, False)],
     3: [(1.0, 3, 0.0, False)]},
 4: {0: [(1.0, 4, 0.0, False)],
     1: [(1.0, 8, 0.0, False)],
     2: [(1.0, 5, 0.0, True)],
     3: [(1.0, 0, 0.0, False)]},
 5: {0: [(1.0, 5, 0, True)],
     1: [(1.0, 5, 0, True)],
     2: [(1.0, 5, 0, True)],
     3: [(1.0, 5, 0, True)]},
 6: {0: [(1.0, 5, 0.0, True)

In [4]:
# Nasz agent może wejść w interakcje ze środowiskiem  poprzez wywołanie funkcji `step(action)`, 
# gdzie `action` to jedna z możliwych akcji (int od 0 do env.action_space.n - 1)
s = env.reset() # `reset()` zwraca początkowy stan
env.render()
for i in range(5):
    # Wybierzmy losową akcje
    random_a = env.action_space.sample() 
    # `step(action)` zwraca nowy stan (`s`), nagrodę (`r`), informację czy stan jest terminalny (`term`) 
    # oraz dodatkowe informacje, które pomijamy
    # w tym wypadku nowy stan to jedynie id, ale dla innych środowisk może być to inny typ reprezentujący obserwację
    s, r, term, _ = env.step(random_a) 
    env.render()
    if term:
        break


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Right)
SF[41mF[0mF
FHFH
FFFH
HFFG
  (Right)
SFF[41mF[0m
FHFH
FFFH
HFFG
  (Down)
SFFF
FHF[41mH[0m
FFFH
HFFG


## Zad 1 - Policy iteration + value iteration (10 pkt)

W komórkach poniżej zaimplementuj algorytmy **iteracji polityki** oraz **iteracji wartości**, wyznaczające deterministyczną politykę dla środowiska FrozenLake.

Odpowiedź na pytania wykonując odpowiednie eksperymenty (zostaw output odpowiednich komórek na poparcie swoich twierdzeń):
- Jak zmiana współczynniku `gamma` wpływa na wynikową politykę?
- Jak stochastyczność wpływa na liczbę iteracji potrzebnych do zbiegnięcia obu algorytmów oraz wynikową politykę?

#### Uwaga: nie zmieniaj nazwy funkcji `policy_iteration` i `value_iteration`, ani ich argumentów. Nie dopisuj do komórek z funkcjami innego kodu. Może zdefiniować funkcje pomocnicze dla danej funkcji w tej samej komórce.

Odpowiedzi: Miejsce na Twoje odpowiedzi

1) Im współczynnik gamma jest większy tym większą wagę mają oczekiwane nagrody z przyszłości. Gdyby współczynnik gamma wynosił 0, polityka byłaby bardzo krótkowzroczna ponieważ patrzyłaby jedynie na nagrodę z następnego ruchu.

2) Wraz ze wzrostem stochastyczności środowiska algorytm iteracji wartości potrzebuje większej liczby iteracji by się zbiec, natomiast dla algorytmu iteracji polityki stochastyczność nie rzutuje na jego zbieżność. Wzrost stochastyczności uniemożliwia uzyskanie polityki, która zawsze osiąga optymalną nagrodę, możliwe jest jedynie maksymalizowanie wartości oczekiwanej nagrody. W kontekście powyższego środowiska, ustawienie gamma na 0, oczywiście nie miałoby sensu ponieważ finalnym celem jest dotarcie do docelowego miejsca.

In [5]:
def policy_iteration(P, gamma, delta=0.001):
    """
    Argumenty:
        P - model przejścia, gdzie P[s][a] == [(prawdopodobieństwo, kolejny stan, nagroda, czy stan terminalny), ...]
        gamma - współczynnik dyskontujący
        delta - tolerancja warunku stopu
    Zwracane wartości:
        V - lista o długości len(P) zawierający oszacowane wartość stanu s: V[s]
        pi - lista o długości len(P) zawierający wyznaczoną deterministyczną politykę - akcję dla stanu s: pi[s]
        i - ilość iteracji algorytmu po wszystkich stanach
    """
    
    def bellman_equation(P, V, pi, gamma, s, a=None):
        if a is None:
            a = pi[s]
        expected_value = 0
        for state in P[s][a]:
            probability, next_state, reward, termination = state
            expected_value += probability * (reward + gamma * V[next_state])
        return expected_value

    def policy_evaluation(P, V, pi, gamma, delta_min):
        while True:
            delta = 0
            for s in range(len(V)):
                v = V[s]
                V[s] = bellman_equation(P, V, pi, gamma, s)
                delta = max(delta, abs(v - V[s]))
            if delta < delta_min:
                return V

    def max_action(P, V, pi, gamma, s):
        actions = [action for action, _ in P[0].items()]
        best_action = actions[0]
        max_value = bellman_equation(P, V, pi, gamma, s, a=best_action)

        for action in actions[1:]:
            value = bellman_equation(P, V, pi, gamma, s, a=action)
            if value > max_value:
                max_value = value
                best_action = action
        return best_action

    def policy_update(P, V, pi, gamma):
        stop = True
        for s in range(len(V)):
            a = pi[s]
            pi[s] = max_action(P, V, pi, gamma, s) 
            if a != pi[s]:
                stop = False
        return pi, stop
    
    
    V = [0] * len(P)
    pi = [0] * len(P)
    i = 0
    
    stop = False
    while not stop:
        V = policy_evaluation(P, V, pi, gamma, delta)
        pi, stop = policy_update(P, V, pi, gamma)
        i += 1
               
    return V, pi, i

In [6]:
def value_iteration(P, gamma, delta=0.001):
    """
    Argumenty:
        P - model przejścia, gdzie P[s][a] == [(prawdopodobieństwo, kolejny stan, nagroda, czy stan terminalny), ...]
        gamma - współczynnik dyskontujący
        delta - tolerancja warunku stopu
    Zwracane wartości:
        Q - lista o długości len(P) zawierający listy z oszacowanymi wartościami dla stanu s i akcji a: Q[s][a]
        pi - lista o długości len(P) zawierający wyznaczoną deterministyczną politykę - akcję dla stanu s: pi[s]
        i - ilość iteracji algorytmu po wszystkich stanach
    """
    def bellman_equation(P, Q, pi, gamma, s, a=None):
        if a is None:
            a = pi[s]
        expected_value = 0
        for state in P[s][a]:
            probability, next_state, reward, termination = state
            expected_value += probability * (reward + gamma * max(Q[next_state]))
        return expected_value

    def values_update(P, Q, pi, gamma, delta_min):
        i = 0
        while True:
            delta = 0
            for s in range(len(Q)):
                v = max(Q[s])
                for action in range(len(Q[s])):
                    Q[s][action] = bellman_equation(P, Q, pi, gamma, s, a=action)
                delta = max(delta, abs(v - max(Q[s])))
            i += 1
            if delta < delta_min:
                return Q, i

    def max_action(Q, s):
        best_action = 0
        best_value = Q[s][0]
        for action in range(1, len(Q[s])):
            if Q[s][action] > best_value:
                best_value = Q[s][action]
                best_action = action
        return best_action

    def policy_update(P, Q, pi, gamma):
        for s in range(len(Q)):
            pi[s] = max_action(Q, s)
        return pi
    
    pi = [0] * len(P)
    Q = [[0] * len(P[s]) for s in P.keys()]
    i = 0
    
    Q, i = values_update(P, Q, pi, gamma, delta)
    pi = policy_update(P, Q, pi, gamma)
    
    return Q, pi, i

In [7]:
# Przykładowy kod do testowania zaimplementowanych metod

# Zaimportuj generator map dla środowiska FrozenLake z OpenAI Gym
from gym.envs.toy_text.frozen_lake import generate_random_map

# Wygeneruj losową mapę jeziora o zadanym rozmiarze (`size=`)
lake_map = generate_random_map(size=8)

# Stwórz środowisko w oparciu o wygenerowaną mapę, 
# sprawdz deterministyczną (`is_slippery=False`) jak i stochastyczną wersję środowiska (`is_slippery=True`)
env = FrozenLakeEnv(desc=lake_map, is_slippery=True) 
env.render()

# Ciekawym przykładem jest też jedna z predefiniowanych map "8x8"
env = FrozenLakeEnv(map_name="8x8", is_slippery=True) 
env.render()


[41mS[0mFFFHFFH
FFHFFFFF
FFFFFHHF
HFHFFFFF
FFFFFHFH
FFFFFFHF
FFFFFFFF
FFFFFHFG

[41mS[0mFFFFFFF
FFFFFFFF
FFFHFFFF
FFFFFHFF
FFFHFFFF
FHHFFFHF
FHFFHFHF
FFFHFFFG


In [8]:
# Wprowadzmy teraz funkcję, które empirycznie zewauluje naszą politykę
# po prostu rozgrywając odpowiednią liczbę episodów zgodnie z naszą polityką.
def evaluate_empirically(env, pi, episodes=1000, max_actions=100):
    mean_r = 0
    for e in range(episodes):
        s = env.reset()
        total_r = 0
        for _ in range(max_actions): # Na wypadek polityki, która nigdy nie dojdzie od stanu terminalnego
            s, r, final, _ = env.step(pi[s])
            total_r += r
            if final:
                break
        mean_r += 1/(e + 1) * (total_r - mean_r)
    return mean_r 

In [9]:
env = FrozenLakeEnv(map_name="8x8", is_slippery=False)
V, pi1, i1 = policy_iteration(env.P, 0.9)
Q, pi2, i2 = value_iteration(env.P, 0.9)
print(evaluate_empirically(env, pi1))
print(evaluate_empirically(env, pi2))
print(i1, i2)

env = FrozenLakeEnv(map_name="4x4", is_slippery=False)
V, pi1, i1 = policy_iteration(env.P, 0.9)
Q, pi2, i2 = value_iteration(env.P, 0.9)
print(evaluate_empirically(env, pi1))
print(evaluate_empirically(env, pi2))
print(i1, i2)

1.0
1.0
15 15
1.0
1.0
7 7


In [10]:
env = FrozenLakeEnv(map_name="8x8", is_slippery=True)
V, pi1, i1 = policy_iteration(env.P, 0.9)
Q, pi2, i2 = value_iteration(env.P, 0.9)
print(evaluate_empirically(env, pi1))
print(evaluate_empirically(env, pi2))
print(i1, i2)

env = FrozenLakeEnv(map_name="4x4", is_slippery=True)
V, pi1, i1 = policy_iteration(env.P, 0.9)
Q, pi2, i2 = value_iteration(env.P, 0.9)
print(evaluate_empirically(env, pi1))
print(evaluate_empirically(env, pi2))
print(i1, i2)

0.5750000000000006
0.547
12 21
0.728
0.7290000000000002
6 21


## Zad 2 - Monte Carlo (10 pkt)
W komórce poniżej zaimplementuj metodę **On-policy Monte Carlo** dla polityki epsilon-greedy.
Zakładamy, że model przejść nie jest w tym wypadku dla nas dostępny,
dlatego możesz używać wyłącznie metod `env.reset()` i `env.step()`
w swojej implementacji, w celu wygenerowania nowego epizodu.

- Zaproponuj warunek stopu dla swojej implementacji.
- Jaki jest wpływ epsilony na działanie algorytmu?
- Jaka prosta modyfikacja nagród środowiska przyśpieszyłaby odkrywanie dobrej polityki? Zmodyfikuj env.P i zademonstruj. 

Tip: z racji, że env.P jest dostępne, możesz porównać wyniki `on_policy_eps_greedy_monte_carlo` ze wynikami `value_iteration`. 

#### Uwaga: nie zmieniaj nazwy funkcji `on_policy_eps_greedy_monte_carlo`, ani jej pierwszych argumentów (możesz dodać nowe argumenty z wartościami domyślnymi). Nie dopisuj do komórki z funkcją innego kodu. Może zdefiniować funkcje pomocnicze dla funkcji w tej samej komórce.

Odpowiedź: Miejsce na Twoje odpowiedzi

1) W celu sprawdzenia czy zakończyć działanie algorytmu przechowywana jest historia k ostatnich wygenerowanych epizodów. Jeżeli odpowiedni procent, determinowany współczynnikiem epsilon, tych epizodów zakończyła się sukcesem, czyli dotarciem do celu to można założyć, że obliczana polityka jest wystarczająco dobra ponieważ w sposób powtarzalny dociera do celu, pomimo swojej wbudowanej stochastyczności.

2) Im epsilon jest większy tym algorytm cechuje się większą zdolnością eksploracyjną a więc zostaną wygenerowane bardziej różnorodne epizody umożliwiające w szerszym stopniu oszacowanie wartości oczekiwanej nagrody. Jest to zatem pożądana własność na początku działania algorytmu, jednakże na późniejszym etapie spowoduje to ignorowanie wiedzy o już oszacowanych nagrodach oczekiwanych. Pod koniec działania epsilon powinien zatem maleć aby algorytm oscylował bardziej wokół sub-optymalnych rozwiązań i był w stanie skuteczniej oczacować wartości par stanów i akcji koniecznych do dotarcia do celu.

3) W oryginalnym środowisku nagroda jest przyznawana jedynie za osiągnięcie celu a zatem oszacowanie wartości oczekiwanej dla danego stanu i akcji propaguje się jedynie od tego stanu docelowego. Z tego powodu duża część wygenerowanych rozwiązań jest jedynie ślepym błądzeniem. W celu przyspieszenia odkrywania dobrej polityki mogłyby zostać przydzielane nagrody za zbliżenie się do docelowego miejsca. Dzięki temu algorytm priorytetyzowałby od samego początku konkretne akcje, nawet jeśli nie został wygenerowany jeszcze epizod zawierający stan docelowy.

In [18]:
import random

class Step:
    def __init__(self, state, action, reward):
        self.state = state
        self.action = action
        self.reward = reward
    
    def the_same(self, state, action):
        return state == self.state and action == self.action
    
    def values(self):
        return self.state, self.action, self.reward
    
    def show(self):
        return str(self.state) + ' ' + str(self.action) + ' ' + str(self.reward)
        
def choose_action(probabilities):
    p = random.uniform(0, 1)
    for action in range(len(probabilities)):
        action_probability = sum(probabilities[:action + 1])
        if action_probability >= p:
            return action

def generate_episode(env, policy):
    env.reset()
    state = 0
    episode = []
    termination = False
    while not termination:
        action = choose_action(policy[state])
        next_state, reward, termination, _ = env.step(action) 
        step = Step(state, action, reward)
        episode.append(step)
        state = next_state
    return episode

def first_visit(episode, t):
    state, action, _ = episode[t].values()
    for i in range(t):
        step = episode[i]
        if step.the_same(state, action):
            return False
    return True

def mean(array):
    return sum(array) / len(array)

def max_action(Q, state):
    best_action = None
    best_value = 0
    for action, value in enumerate(Q[state]):
        if best_action is None or value > best_value:
            best_action = action
            best_value = value
    return best_action

def convert_to_deterministic_policy(nd_policy, pi):
    for state in range(len(nd_policy)):
        action = nd_policy[state].index(max(nd_policy[state]))
        pi[state] = action
    return pi

def show_episode(episode):
    line = ''
    for step in episode:
        line += step.show()
        line += '-'
    print(line)
    
def stop_condition(episodes_history, history_length, epsilon):
    k = 0
    mean_length = 0
    if len(episodes_history) == history_length:
        for episode in episodes_history:
            k += episode[-1].reward
            mean_length += len(episode)
        mean_length /= history_length
        return k >= (1 - epsilon) * history_length
    return False
        
def on_policy_eps_greedy_monte_carlo(env, eps, gamma):
    """
    Argumenty:
        env - środowisko implementujące metody `reset()` oraz `step(action)`
        eps - współczynnik eksploracji
        gamma - współczynnik dyskontujący
    Zwracane wartości:
        Q - lista o długości len(P) zawierający listy z oszacowanymi wartościami dla stanu s i akcji a: Q[s][a]
        pi - lista o długości len(P) zawierający wyznaczoną deterministyczną (zachłanną) politykę - akcję dla stanu s: pi[s]
        i - ilość epizodów wygenerowanych przez algorytm
    """
    P = env.P
    
    pi = [0] * len(P)
    Q = [[0] * len(P[s]) for s in P.keys()]
    i = 0
    
    returns = []
    for s in P.keys():
        tmp = []
        for _ in range(len(P[s])):
            tmp.append([])
        returns.append(tmp)
    
    nd_policy = [[1 + eps * (1 / len(P[s]) - 1) if i == 0 else eps / len(P[s]) for i in range(len(P[s]))] for s in P.keys()]
    
    episodes_history = []
    history_length = 10
    
    while not stop_condition(episodes_history, history_length, eps):
        episode = generate_episode(env, nd_policy)
        
        episodes_history.insert(0, episode)
        episodes_history = episodes_history[:min(history_length, len(episodes_history))]
        
        G = 0
        for t in range(len(episode) - 1, -1, -1):
            state, action, reward = episode[t].values()
            G = gamma * G + reward
            if first_visit(episode, t):
                returns[state][action].append(G)
                Q[state][action] = mean(returns[state][action])

                A_star = max_action(Q, state)

                for a in range(len(Q[state])):
                    if a == A_star:
                        nd_policy[state][a] = 1 + eps * (1 / len(Q[state]) - 1)
                    else:
                        nd_policy[state][a] = eps / len(Q[state])
        i += 1
    
    pi = convert_to_deterministic_policy(nd_policy, pi)
    
    return Q, pi, i

In [19]:
def convert_environment(env):
    for state in range(len(env.P)):
        for action in range(len(env.P[state])):
            for option in range(len(env.P[state][action])):
                if not env.P[state][action][option][-1] and env.P[state][action][option][-2] == 0 and (action == 1 or action == 2):
                    if env.P[state][action][option][1] != state:
                        tmp = list(env.P[state][action][option][:])
                        tmp[2] = 0.1
                        tmp = tuple(tmp)
                        env.P[state][action][option] = tmp[:]
    return env

In [20]:
is_slippery = True
env = FrozenLakeEnv(map_name="4x4", is_slippery=is_slippery) 
env.reset()
Q, pi, i = on_policy_eps_greedy_monte_carlo(env, 0.7, 0.9)

env = FrozenLakeEnv(map_name="4x4", is_slippery=is_slippery) 
env.reset()
evaluate_empirically(env, pi)

0.3210000000000003

In [21]:
no_conversion = 0
conversion = 0
num = 20
for _ in range(num):
    is_slippery = False
    env = FrozenLakeEnv(map_name="4x4", is_slippery=is_slippery) 
    env.reset()
    Q, pi, i = on_policy_eps_greedy_monte_carlo(env, 0.7, 0.9)
    no_conversion += i
    
    env = FrozenLakeEnv(map_name="4x4", is_slippery=is_slippery) 
    env.reset()
    env = convert_environment(env)
    Q, pi, i = on_policy_eps_greedy_monte_carlo(env, 0.7, 0.9)
    conversion += i

print('Średnia liczba iteracji bez konwersji środowiska:', no_conversion / num)
print('Średnia liczba iteracji z konwersją środowiska:', conversion / num)     

Średnia liczba iteracji bez konwersji środowiska: 274.15
Średnia liczba iteracji z konwersją środowiska: 120.45
