# 1. Passive learning sans politique aléatoire

Nous initions le facteur de réduction $\gamma = 0,95$ (proche de 1) dû au fait que nous considérons que les futures récompenses sont très importantes. Cependant, nous n'initialisons pas $\gamma = 1$ car nous voulons pénalisé les états qui sont loins de la solution.

In [None]:
from environment import SimpleMaze
from agent import PassiveAgentTD

row, col = 7, 12

env = SimpleMaze(row, col)
env.render()

### Nous affichons l'évolution de l'utilité de chaque état : 

In [None]:
agent = PassiveAgentTD(env, gamma=0.95, debug=False)
agent.learning(trials=100)
agent.print_u_table()

In [None]:
import matplotlib.pyplot as plt
utilities = agent.get_utilities()
visited_states = agent.get_visited_state()

fig = plt.figure()
ax = plt.subplot(111)
for i in range(len(visited_states)):
    plt.plot(utilities[i], label="state "+str(visited_states[i]))

# Shrink current axis by 20%
box = ax.get_position()
ax.set_position([box.x0, box.y0, box.width * 0.8, box.height])

# Put a legend to the right of the current axis
ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
plt.xlabel("Number of trials")
plt.show()

### Nous affichons l'utilité finale pour chaque état où passe notre agent

In [None]:
states = agent.get_visited_state()
utilities = agent.get_utilities()
print("   ", end="")
for i in range(col):
    print("{:<8}".format(str(i)), end=" ")
print()
for i in range(row):
    print("{:<2}".format(str(i)), end=" ")
    for j in range(col):
        if [i, j] in states:
            print("{:<8}".format(str(round(utilities[states.index([i, j])][-1], 2))), end=" ")
        else:
            print("{:<8}".format(""), end=" ")
    print()

# 2. Passive learning avec politique aléatoire

In [None]:
from environment import SimpleMaze
from agent import PassiveAgentTD

row, col = 7, 12

env = SimpleMaze(row, col)
env.render()

In [None]:
agent = PassiveAgentTD(env, seed=0, gamma=0.95, random_policy=True, debug=False)
agent.learning(trials=500)

### Nous affichons l'évolution de l'utilité de chaque état : 

In [None]:
states = agent.get_visited_state()
utilities = agent.get_utilities()
print("   ", end="")
for i in range(col):
    print("{:<8}".format(str(i)), end=" ")
print()
for i in range(row):
    print("{:<2}".format(str(i)), end=" ")
    for j in range(col):
        if [i, j] in states:
            print("{:<8}".format(str(round(utilities[states.index([i, j])][-1], 2))), end=" ")
        else:
            print("{:<8}".format(""), end=" ")
    print()

# 3. Active learning avec l'utilisation de la Q-function

In [None]:
from environment import Maze
from agent import ActiveAgentQLearning

row, col = 7, 10

env = Maze(row, col, seed=1, ratio_obstacles=0.2,ratio_hole=0.2)
env.render("gui")

In [None]:
agent = ActiveAgentQLearning(env, q_min=1000, n_min=400, gamma=0.95, debug=False)
agent.learning(trials=1000)

### Affichage de la solution que l'agent choisit après son apprentissage

In [None]:
agent.play("gui")

# 3. Régression Linéaire

In [1]:
from environment import Maze
from agent import ActiveAgentRegressionLearning

row, col = 7, 10

env = Maze(row, col, seed=1, ratio_obstacles=0.2,ratio_hole=0.2)
env.render("gui")

Canvas(height=336, width=480)

In [4]:
agent = ActiveAgentRegressionLearning(env, q_min=10000, n_min=100, gamma=0.95, debug=False)
agent.learning(trials=100)

 |██████████████████████████████████------------------------------------------------------------------| 34.0% 

KeyboardInterrupt: 

L'apprentissage ne se passe pas comme prévu, en effet, nous rencontrons un problème avec l'apprentissage de $Q_\beta(s,a)$. Cela aura pour effet de calculer des valeurs de $Q_\beta(s,a)$ proche de la réalité par conséquent l'agent va se coincer dans une boucle d'état.

### Affichage de la solution que l'agent choisit après son apprentissage

In [None]:
agent.play("gui")