<a href="https://colab.research.google.com/github/EmmanuelADAM/IntelligenceArtificiellePython/blob/master/TPMLIntroGym.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Machine Learning
## Appliqué à [Gym.OpenAI](https://gym.openai.com)

Parmis les algorithmes de "*machine learning*" (d'apprentissage automatique), on trouve : 
- le Q-Learning
- les algorithmes évolutionnaires (algorithmes génétiques)
- les réseaux de neurones
- ...

Chacun de ces algorithmes suit une trame générale, mais est constament l'objet d'optimisation (choix des valeurs des constantes d'apprentissage, définition d'une fonction objectif, d'une fonction de correction, ...).

Pour comparer différents approches, il est important d'avoir un cadre de référence commun.
[Gym](https://gym.openai.com) est un de ces cadres.




---
## Présentation de Gymnasium

Gym propose un ensemble d'environnement de tests : 
- "Classic control" : problèmes de contrôle classique dans la littérature du ML
- "Algorithms" : problèmes d'imitation du calcul (apprendre l'addition par exemple)
- "Box2D" : exercice de contrôle continu sur un environnement 2D
- "MuJoCo" : contrôle continu d'un robot 3D pour apprendre à se déplacer
- "Robotics" : contrôle d'un automate (machine outil)
- "Toy text" : exemple réduit affichés en mode texte 
- plus des environnements plugables (jeux atari, .....)


### Installation de gymnasium

#### Outil AUTRE QUE COLAB (pyzo, jupyter lab, .....)

In [15]:
%pip install gymnasium
%pip install gymnasium[classic-control]

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [9]:
import gymnasium as gym

#### <font color=red>Sous colab</font>
*Sous colab, l'affichage ne sera pas dynamique.. Il faudra passer soit par un rendu sous forme de plot (matplotlib), soit passer par une vidéo à enregistrer...*

***Solution pour affichage statique***<br>
*Il vous faut importer, seulement si vous utilisez colab, les packages suivants :*

In [None]:
!pip install gymnasium
!apt-get install -y xvfb python-opengl > /dev/null 2>&1
!pip install gym pyvirtualdisplay > /dev/null 2>&1
!apt-get install x11-utils

In [None]:
import gym
import numpy as np
import matplotlib.pyplot as plt
from IPython import display as ipythondisplay
from pyvirtualdisplay import Display
display = Display(visible=0, size=(400, 300))
display.start()

---
### Charger un environnement
Un environnement se charge par la commande : `env = gym.make('nomenvironnement')`

In [17]:
#exemple pour outil autre que colab
env = gym.make('MountainCarContinuous-v0', render_mode="human") 
env.reset()
#exemple pour colab
#env = gym.make('MountainCarContinuous-v0', render_mode="rgb_array") 
#env.reset()

(array([-0.5540683,  0.       ], dtype=float32), {})

---
### Afficher un environnement
#### Outil AUTRE QUE COLAB (pyzo, jupyter lab, .....)
affichage de l'état actuel de l'environnement :

In [16]:
env.render()

#### <font color=red>Afficher sous colab</font>
*utilisation d'un plot (matplotlib), soit passer par une vidéo à enregistrer...*


In [14]:
rendu = env.render(mode='rgb_array')
plt.imshow(rendu)

TypeError: Wrapper.render() got an unexpected keyword argument 'mode'

- Sous colab, une image représentant l'enironnement doit apparaître.
- En exécution locale, un fenêtre s'ouvre présentant cet environnement
![exemple d'environnement](http://emmanuel.adam.free.fr/data/exempleGymCar.png)

---
### Les types d'environnements
Un environnement peut être 
- discret : les actions à entreprendre sont discrete (avancer, reculer, ...)
- continu : les actions à entreprendre dépendent de valeurs réelles

Un environnement est borné, et l'objet à mouvoir l'est également.
- **accéder aux caracteristiques** : `env.spec`
- **les actions possibles** : `env.action_space`
- **le nombre de valeurs observables** : `env.observation_space`
- **le domaine de valeurs (si réelles)** : `env.observation_space.high` et `env.observation_space.low`

In [18]:
print(env.spec)
print("nombre et type d'actions = ", env.action_space) 
print("valeurs d'actions les plus elevées = ", env.action_space.high) # seulement si box (non discret)
print("valeurs d'actions les plus basses = ", env.action_space.low)  # seulement si box (non discret)
print("nombre et type d'observations = ", env.observation_space) 
print("valeurs de observations les plus elevées = ", env.observation_space.high) # seulement si box (non discret)
print("valeurs de  observations les plus basses = ", env.observation_space.low) # seulement si box (non discret)

EnvSpec(id='MountainCarContinuous-v0', entry_point='gymnasium.envs.classic_control.continuous_mountain_car:Continuous_MountainCarEnv', reward_threshold=90.0, nondeterministic=False, max_episode_steps=999, order_enforce=True, autoreset=False, disable_env_checker=False, apply_api_compatibility=False, kwargs={'render_mode': 'human'}, namespace=None, name='MountainCarContinuous', version=0, additional_wrappers=(), vector_entry_point=None)
nombre et type d'actions =  Box(-1.0, 1.0, (1,), float32)
valeurs d'actions les plus elevées =  [1.]
valeurs d'actions les plus basses =  [-1.]
nombre et type d'observations =  Box([-1.2  -0.07], [0.6  0.07], (2,), float32)
valeurs de observations les plus elevées =  [0.6  0.07]
valeurs de  observations les plus basses =  [-1.2  -0.07]


In [19]:
# exemple avec un autre environnement : 
env = gym.make('MountainCar-v0') 
env.reset()
print(env.spec)
print("nombre et type d'actions = ", env.action_space) 


EnvSpec(id='MountainCar-v0', entry_point='gymnasium.envs.classic_control.mountain_car:MountainCarEnv', reward_threshold=-110.0, nondeterministic=False, max_episode_steps=200, order_enforce=True, autoreset=False, disable_env_checker=False, apply_api_compatibility=False, kwargs={}, namespace=None, name='MountainCar', version=0, additional_wrappers=(), vector_entry_point=None)
nombre et type d'actions =  Discrete(3)


### Les types de valeurs
- `Discrete(3)`: signifie que la variables est discrete et prend ses valeurs dans 0,1,2
- `Box(1,)`: signifie que la variable est un tableau contenant 1 réel

---
### Comprendre les valeurs des caractéristiques et des actions
Se référer à la documentation pour comprendre les actions..<br>
Par exemple, pour `MountainCarContinuous-v0`, vous trouverez l'explication des valeurs [ici](https://github.com/openai/gym/wiki/MountainCarContinuous-v0).

| No | Observation | Min | Max |
|:--:|:--:|:--:|:--:|
| 0 | Position | -1.2 | 0.6 |
| 1 | Velocité | -0.07 | 0.07 |

On peut donc récupérer la position x de la voiture et sa vitesse.

---
### Les actions
Se référer à la documentation pour comprendre les actions..<br>
Exemple :
- Dans `MountainCar-v0` : 0 fait reculer le véhicule, 1 le met au point mort, 2 le fait avancer
- Dans `MountainCarContinuous-v0` : [-1.0] fait reculer le véhicule d'une force 1, [0] le met au point mort, [1.0] le fait avancer d'une force 1

- ***Exécuter une action :***
  - *choix aléatoire* : `action = env.action_space.sample()`
  - *exécution* : `observation, reward,done,info = env.step(action)`
    - `observation`: selon l'environnement, pour moutain car, la position du mobile et sa vitesse ([x, v])
    - `reward`: utilité de l'état (récompense)
    - `done` : booléen (True si but atteint)
    - `info` : éventuelle information retournée par l'outil


In [24]:
action = env.action_space.sample()
observation, reward, done, stopped, info = env.step(action)
#sous outil autre que Colab : 
env.render()

  gym.logger.warn(


In [25]:
print ("apres execution de ", action)
print ("\tvoiture en ", round(observation[0],2)," vitesse=", round(observation[1],4))
print("\trecompense = ", reward, ", but atteint : ", done, ", info éventuelle = ", info)

apres execution de  0
	voiture en  -0.57  vitesse= 0.0007
	recompense =  -1.0 , but atteint :  False , info éventuelle =  {}


---
### La récompense (reward)
Le *reward* dépend l'environnement d'exécution.. Dans `MountainCarContinuous-v0`, il est de `100(si le but est atteint) - le nombre d'actions au carré` !!
Selon la méthode IA choisie, il peut être plus intéressant de définir sa popre fonction récompense 
(par exemple, on peut favoriser les séquences qui mènent le plus loin possible..)


---
### Exemple d'exécution
*Sous outil autre que Colab*, 
le code suivant effectue 100 actions aléatoire, et demande le rendu à chaque étape 

In [26]:
def hasard():
    env.reset()
    for step in range(1,101):
        env.render()
        action = env.action_space.sample()
        observation, reward, done, stopped, info = env.step(action)
        if done:
            print("Objectif atteint par hasard apres ", step," actions.")
            break
hasard()

***Sous Colab***, on affiche le rendu qu'une fois toutes les actions effectuées : 


In [30]:
def hasard_colab():
    env.reset()
    for step in range(1,101):
        action = env.action_space.sample()
        observation, reward, done, stoped,  info = env.step(action)
        if done:
            print("Objectif atteint par hasard apres ", step," actions.")
            break
    rendu = env.render() # env.render(mode='rgb_array') pour colab
    #plt.imshow(rendu) pour colab

hasard_colab()

: 

---
## Aide python
Quelques éléments python pour faciliter l'utilisation de listes et de tableaux
### Listes

In [15]:
#liste en python = ensemble de valeurs de types différents ou non : 
t = [[[-1.0],[0.5],[1.0],[0.0]], 0.5]
print(t[0])
print(t[1])

[[-1.0], [0.5], [1.0], [0.0]]
0.5


In [16]:
#ajout d'un element : 
t.append([1,2,3])
print(t)

[[[-1.0], [0.5], [1.0], [0.0]], 0.5, [1, 2, 3]]


In [17]:
#longueur d'une liste
print(len(t))

3


In [18]:
#tri
liste = [3,5,2,1]
print(liste)
liste.sort()
print(liste)

[3, 5, 2, 1]
[1, 2, 3, 5]


In [19]:
import numpy as np
#comparateur "à la java"
import functools

###compare 2 tuples sur base du 2e element. 
### retourne <0 si tupleB[1] < tupleA[1]
### retourne >0 si tupleB[1] > tupleA[1]
### retourne 0  si tupleB[1] = tupleA[1]
def comp(tupleA, tupleB)->int:
    return (int(round(tupleB[1]*100)) - int(round(tupleA[1]*100)))
# liste composé de sous-liste.
## chaque sous liste possède en 1er élément un tableau d'entiers (les actions par exemple)
## et en 2nd élément un réel (récompense par exemple)
liste = [
[np.array([ 0,  1,  1]),  -0.72],
[np.array([-1,  0,  1]),  -0.73],
[np.array([-1,  0, -1]),  -0.24],
[np.array([ 0,  0, -1]),  0.70],
[np.array([ 0, -1,  1]),  -0.77],
[np.array([-1, -1,  1]),  0.31]]
print(liste)
print("----")
liste_triee = sorted(liste, key=functools.cmp_to_key(comp))
print("liste triee selon la valeur réelle de ses sous-listes")
print(liste_triee)   

[[array([0, 1, 1]), -0.72], [array([-1,  0,  1]), -0.73], [array([-1,  0, -1]), -0.24], [array([ 0,  0, -1]), 0.7], [array([ 0, -1,  1]), -0.77], [array([-1, -1,  1]), 0.31]]
----
liste triee selon la valeur réelle de ses sous-listes
[[array([ 0,  0, -1]), 0.7], [array([-1, -1,  1]), 0.31], [array([-1,  0, -1]), -0.24], [array([0, 1, 1]), -0.72], [array([-1,  0,  1]), -0.73], [array([ 0, -1,  1]), -0.77]]


### Tableaux 
Utilisation de la classe numpy

In [20]:
import numpy as np
#creation de tableaux
tab0 = np.zeros((10), int)
print(tab0)
mat = np.zeros((2,3), float)
print(mat)
#avec passage de valeurs
tab_val = np.array([1,2,3,4])
print(tab_val)

[0 0 0 0 0 0 0 0 0 0]
[[0. 0. 0.]
 [0. 0. 0.]]
[1 2 3 4]


In [21]:
#génération de valeurs aléatoires
#création d'une matrice 2x3 avec valeurs entières entre -1 et 1 (2 exclus)
mat1 = np.random.randint(-1, 2, (2,3)) 
print(mat1)
print()
#création d'une matrice 4x2 avec valeurs réelles  entre 0 et 1
mat2 = np.random.random((4,2)) 
print(mat2)
print()
#création d'une matrice 3x3 avec valeurs réelles  entre 0 et 100
mat3 = np.random.random((3,3)) * 100
print(mat3)
print()

[[1 0 1]
 [1 1 0]]

[[0.45030414 0.92759053]
 [0.65469881 0.47752805]
 [0.05627396 0.05488038]
 [0.26609763 0.98522353]]

[[27.2696706  79.30064932 68.24320755]
 [ 7.45463938 27.94711818 87.29667556]
 [92.27646571 77.82180815  0.2574833 ]]



In [22]:
#extraits de tableau
tab1 = np.array([1,2,3,4,5,6])
tab1_partA = tab1[:3]
tab1_partB = tab1[3:]
print (tab1_partA)
print (tab1_partB)

[1 2 3]
[4 5 6]


In [23]:
#concaténation de tableaux
tab2 = np.array([10,20,30,40,50,60])
tab2_partB = tab2[3:]
mixe = np.concatenate((tab1_partA, tab2_partB))
print (mixe)

[ 1  2  3 40 50 60]


In [24]:
#egalite entre tableaux
tab3 = np.array([1,2,3,4,5,7])
print(np.array_equal(tab1, tab3))
print(np.array_equal(tab1, tab1))

False
True
