# TME UE IAR: From Traditional EA to Quality-Diversity algorithms

Cette séance de TME consiste à mettre en oeuvre des méthodes d'apprentissage de type "direct policy search" s'appuyant sur des algorithmes évolutionnistes. 

Ces algorithmes s'appuient sur des opérateurs de recherche stochastiques. Si vous lancez plusieurs fois une même expérience avec une graine aléatoire différente vous obtiendrez des résultats différents. Dans la mesure du possible et de la puissance de calcul que vous avez à disposition et s'il n'a pas été demandé explicitement de ne faire qu'une seule expérience, il est donc souhaitable de répéter les expériences plusieurs fois avant de conclure.

Les cellules à compléter sont marquées <à compléter>.

Vous prendrez soin de ne soumettre que les fichiers nécessaires (merci d'éviter les fichiers de log inutiles et de taille conséquente...).

## 1. Introduction



### 1.1 Dépendances

L'environnement `FastsimSimpleNavigation-v0` de gym_fastsim permet de lancer des expériences de navigation avec un robot à roues naviguant dans un labyrinthe. Il se présente sous la forme d'une bibliothèque en C++ (libfastsim), d'une interface en python (pyfastsim) et d'une interface gym (fastsim_gym). Ces trois bibliothèques vous sont fournies avec un README qui explique comment les installer. En bref:
* libfastsim: `./waf configure` et `./waf build` (dépendance optionnelle SDL 1.2)
* pyfastsim: `pip3 install .` (dépendances: compilateur compatible c++14, module pybind11 avec module de développement associé)
* fastsim_gym: `pip3 install .` (dépendance: gym)




### 1.2 Code fourni

Le code vous permettant de reproduire les expériences de Lehman et Stanley sur la recherche de nouveauté vous est fourni (ceux qui ont suivi l'UE robotique et apprentissage de M1 l'ont fait en TME l'an dernier).

Contenu des fichiers fournis:
* fixed_structure_nn_numpy.py: réseau de neurones à structures fixe qui servira de politique paramétrée
* maze_plot.py: fonctions pour tracer l'espace comportemental associé aux expériences de Lehman et Stanley (navigation dans un labyrinthe)
* plot.py: fonctions pour tracer des fronts de pareto

Code à modifier/compléter:
* ea_dps.py: c'est le fichier principal pour lancer une expérience 
* novelty_search.py: gestion d'un objectif de nouveauté
* grid_management.py: gestion d'une grille pour suivre l'avancement de l'exploration et implémenter MAP-Elites

Ce code inclut des facilités pour enregistrer des logs, sauvegarder des trajectoires et les tracer ensuite.



### 1.3 Import

In [1]:
# Il n'y a rien à faire d'autre que d'exécuter cette cellule, 
# elle contient des imports qui vous seront utiles

# Note: l'import d'un fichier ne se fait qu'une seule fois. Si vous modifiez ce fichier, 
# il vous faut redémarrer votre kernel si vous voulez prendre en compte les modifications.
# vous pouvez éviter cela de la façon suivante: 
import importlib # une seule fois
import plot # le module doit avoir été importé une première fois
importlib.reload(plot) # cette ligne permet de charger la dernière version

import matplotlib.pyplot as plt

# pour que les figures apparaissent directement dans le notebook
%matplotlib inline 

## 2 Comparaison des expériences de Fit, NS et Fit+NS

Cette première partie vise à vous faire prendre en main le code de l'expérience de navigation dans un labyrinthe et ses variantes NS, FIT et FIT+NS. 

Vous regarderez attentivement le fichier ea_dps.py et vous le compléterez pour afficher un message chaque fois qu'une politique s'approche de la sortie plus que ce qui a été fait auparavant. A cette occasion, vous sauvegarderez la trajectoire de cet individu (vous devrez pour cela le réévaluer en mettant le paramètre dump à True) pour pouvoir la tracer ensuite dans les questions suivantes de ce notebook.

### 2.1 Variante Fit

Lancez quelques expériences avec la variante FIT et indiquez le nombre moyen de générations pour atteindre la sortie (avec un nombre maximum de générations de 200). Vous pouvez l'obtenir en regardant les fichiers info.log générés et en cherchant la première génération où apparait un 'exit_reached': 1.0.



In [46]:
#le code suivant permet d'interpréter une ligne contenant un dictionnaire, vous pouvez vous en inspirer pour lire les fichiers info.log 
# et extraire les valeurs de exit_reached.
import ast


# pour relire un dictionnaire depuis info.log, vous pourrez utiliser le code suivant:
y = ast.literal_eval("{'foo' : 'bar', 'hello' : 'world'}")
print(str(y))



{'foo': 'bar', 'hello': 'world'}


In [11]:
# <à compléter>

# indiquer ici la valeur moyenne trouvée 

Tracez les trajectoires générées par les individus qui ont fait progresser la fitness pendant une expérience. Vous pourrez utiliser la fonction plot_traj_file qui est dans le fichier maze_plot.py.

In [55]:
# <à compléter>


### 2.2 Variante NS

Mêmes questions avec la variante NS: lancez quelques expériences avec cette variante et indiquez le nombre moyen de générations pour atteindre la sortie (avec un nombre maximum de générations de 200). 

Tracez les trajectoires générées par les individus qui ont fait progresser la fitness pendant une expérience.

In [56]:
# <à compléter>

# indiquer ici la valeur moyenne trouvée et compléter avec le code permettant de tracer les trajectoires.


### 2.3 Variante FIT+NS

Mêmes questions avec la variante qui utilise 2 objectifs: Fitness et Novelty (variante FIT+NS). Lancez quelques expériences avec cette variante et indiquez le nombre moyen de générations pour atteindre la sortie (avec un nombre maximum de générations de 200). 

Tracez les trajectoires générées par les individus qui ont fait progresser la fitness pendant une expérience.

In [57]:
# <à compléter>

# indiquer ici la valeur moyenne trouvée et compléter avec le code permettant de tracer les trajectoires.


## 3 Diversité des comportements générés




La position finale de chaque point généré est enregistrée dans le fichier info.log (champ robot_pos). Tracez ces différents points sur une même figure pour une experience de NS, de FIT et de FIT+NS. Vous tracerez sur une figure l'ensemble des points générés par une expérience de chaque variante. Qu'en déduisez-vous sur la capacité d'exploration de chacun de ces algorithmes ? Vous pourrez le comparer à un échantillonnage aléatoire (il suffit de mettre 0 générations et pour mu le nombre d'échantillons souhaités).

In [58]:
# <à compléter>


# pour tracer un ensemble de points, vous pourrez utiliser maze_plot.plot_points(pts)

        

Tracez sur des figures séparées les points générés pour plusieurs générations successives de NS, FIT et FIT+NS (par exemple 90, 91, 92). Que constatez vous ? 

In [59]:
# <à compléter>


## 4 Ajout d'une qualité locale

L'ensemble des solutions générées peut être utilisé pour atteindre n'importe lequel des comportements atteignables, mais l'inconvénient de cette approche est que la notion de qualité est totalement absente du processus, or parmi les solutions générant un comportement donné, toutes ne se valent pas. Certaines sont plus intéressantes que d'autres parce qu'elle consomment moins d'énergie, qu'elles ne créent pas de collision, etc.

Une solution pour prendre en compte un tel critère de qualité consiste à utiliser, à côté de l'objectif de nouveauté, un objectif de performance. Définir cet objectif comme une pression globale est contreproductif, car pour éviter des collisions ou minimiser la consommation d'énergie, il suffit de ne pas bouger... Pour rendre cette pression plus intéressante, il faut en faire un objectif non pas global, mais local.

Pour cela, on peut suivre l'approche proposée par Lehman et Stanley [1]: on compare la fitness de l'individu considéré avec celle de ses plus proches voisins (qui sont déjà déterminés pour le calcul de nouveauté). L'objectif de compétition locale vaut le nombre de voisins dont la fitness est inférieure.

Complétez le code de novelty_search.py pour que la fonction de calcul de nouveauté renvoie la nouveauté et l'objectif de compétition locale. Pour cela, vous devrez garder dans l'archive la liste des fitness des points ajoutés.

Utilisez cette nouvelle version pour générer des politiques qui permettent d'atteindre les différentes positions du labyrinthe en minimisant le nombre de collision du robot avec les murs, par exemple.

Vous tracerez les trajectoires des meilleurs individus générés.

* [1] Lehman, J., & Stanley, K. O. (2011). Evolving a diversity of virtual creatures through novelty search and local competition. In Proceedings of GECCO

In [60]:
# <à compléter>


## 5 "Illuminer" l'espace exploré

### 5.1 Quantifier l'espace comportemental exploré

Définissez une grille dans l'espace comportemental qui va vous permettre de mesurer l'espace exploré. Découpez l'espace en cases (vous ignorerez les murs pour simplifier) et écrivez une fonction permettant de placer un individu dans case correspondant à son descripteur comportemental une fois qu'il a été évalué. Il n'y aura qu'un seul individu par case. Lorsque vous tentez d'ajouter un individu dans une case, si elle est déjà remplie, le nouvel individu remplacera l'ancien si sa fitness est plus élevée. 

Cette grille est (pour l'instant) indépendante de l'algorithme d'apprentissage. Elle vise simplement à mesurer la capacité de ce dernier à explorer cet espace et à retrouver facilement, si besoin, une politique efficace permettant d'atteindre un comportement donné.

Vous mesurerez la couverture de votre exploration (pourcentage de cellules explorées). Utilisez une grille de 100x100 cases sur l'expérience de navigation dans le labyrinthe et déterminez la couverture pour les trois variantes: FIT, NS, FIT+NS et NSLC (vous vous contenterez d'une seule expérience).

A la fin de votre expérience, vous afficherez le nombre de cellules que vous pouvez atteindre sans collision. Vous tracerez les trajectoires associées à quelques unes d'entre elles.

In [4]:
# <à compléter>

# indiquez ici les résultats trouvés

### 5.2 OPTION: MAP-Elites

#### 5.2.1 Implémentation de MAP-Elites

La grille définie à la question précédente permet de définir un algorithme très simple: MAP-Elites [1]. Dans cet algorithme, la sélection s'appuie sur la grille. La génération d'un nouvel individu consiste à tirer aléatoirement un (si mutation uniquement) ou deux individus (si croisement) dans la grille puis à appliquer l'opérateur génétique de mutation ou de croisement. Après évaluation, on tente d'ajouter cet individu dans la grille et on 

Utilisez cet algorithme sur la tâche de navigation et indiquer le nombre de cellules atteignables sans collision. Vous pourrez tracer des trajectoires associées à quelques unes d'entre elles.


MAP-Elites est un algorithme très simple. Le prix à payer est qu'il est bien plus lent que Novelty search pour couvrir l'espace atteignable. Ses performances peuvent être améliorées si le génotype est de plus petite taille. 

* [1] Mouret, J. B., & Clune, J. (2015). Illuminating search spaces by mapping elites. arXiv preprint arXiv:1504.04909

In [4]:
# <à compléter>

# indiquez ici les résultats trouvés

#### 5.2.2 Variantes de MAP-Elites

MAP-Elites peut aussi être amélioré avec des stratégies de choix des parents qui ne sont plus uniformes sur toute la grille, mais biaisées pour favoriser les cellules isolées ou les individus dont les descendants ont réussi à remplir des cellules (score de "curiosité" [1]). 

* [1] Cully, A., & Demiris, Y. (2017). Quality and diversity optimization: A unifying modular framework. IEEE Transactions on Evolutionary Computation, 22(2), 245-259.

In [4]:
# <à compléter>

# indiquez ici les résultats trouvés