# **Flappy Bird : Test de différents paramètres d'apprentissage**

Les tests ont été réalisés pour l'environnement Flappy Bird (https://github.com/davHub/flappy-bird-env.git) dans le cas simple flappyBird_env

## Détail de l'environnement
Description FlappyBird_env: 
- 1 bird 
- Observation : $\Delta$y
- Reward : +1 à chaque step, 0 si done

## Paramétrage standard
Quand rien n'est spécifié:

- Architecture: Dense(10) - Dropout(0.2) - Tanh - Dense(8) - Tanh - Dense(2)
- Experience Replay : Prioritized ($\alpha = 0.6,\ \ \beta=0.4\ \ \epsilon=1.e-6$)
- Learning rate : $\alpha=0.00025$
- Gamma : $\gamma=0.9$

### **Sommaire**
1. [Test Exp Replay](#test-ExpReplay)<br>

2. [Test Greedy-$\epsilon$](#test-greedyEps)<br>
    2.1 [Test 1 : Full Exploration](#test-greedyExpl)<br>
    2.2 [Test 2 : Mixte](#test-greedyMixte)<br>
    2.3 [Test 3 : Full Exploration](#test-greedyExploit)<br>

3. [Test Learning Rate](#test-lr)<br>
    3.1 [Test 1 : Comparaison $\alpha = 0.00025$ vs $\alpha = 0.001$](#test-lr-vs)<br>


<a id="test-ExpReplay"></a>
## **1. Test Exp Replay (SimpleBuffer vs Prioritized)**

### Paramétrage global

$\alpha$ = 0.001 | $\gamma$ = 0.9  |  $\epsilon_{deb}$=1.0  |   $\epsilon_{fin}$= 0.1  |  $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200

num_episodes = 800

<a id="test-greedyEps"></a>
## **2. Tests greedy-$\epsilon$ exploration**

Les tests ont été réalisés avec les hyperparamètres suivants :

> $\alpha$ = 0.00025 | $\gamma$ = 0.9   |  $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200  |   num_episodes = 1000

L'exploration est linéaire durant les 1000 épisodes entre $\epsilon_{deb}$ et $\epsilon_{fin}$

<a id="test-greedyExpl"></a>
### **Test 1 : Quasi Full exploration**

### Paramétrage global

> $\alpha$ = 0.00025 | $\gamma$ = 0.9  |  $\epsilon_{deb}$=1.0  |   $\epsilon_{fin}$= 0.8  |  $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200  |   num_episodes = 1000

### Résultats

Durée apprentissage : <em style='color:red'> 2h25 </em>

![alt text](plot_img/Value-t1.gif "Value")
![alt text](plot_img/QValue-t1.gif "Q-Value")

> **-> Démarrage entraînement (1 épisode)**
> <br><em style='color:red'> A l'initial, l'aspect de la courbe est proche de la fonction TanH (couche d'activation choisie) </em>

 ![alt text](plot_img/Value-model-0.png "Value after no epochs")
 ![alt text](plot_img/Qvalue-model-0.png "Q-value after no epochs")


> **-> Début entraînement (100 épisodes)** -- Stratégie quasi parfaite

![alt text](plot_img/Value-model-100.png "Value after 100 epochs")
![alt text](plot_img/Qvalue-model-100.png "Q-value after 100 epochs")


> **-> Milieu entraînement (500 épisodes)**

![alt text](plot_img/Value-model-500.png "Value after 500 epochs")
![alt text](plot_img/Qvalue-model-500.png "Q-value after 500 epochs")

> **-> Fin entraînement (1000 épisodes)**

![alt text](plot_img/Value-model-1000.png "Value after 1000 epochs")
![alt text](plot_img/Qvalue-model-1000.png "Q-value after 1000 epochs")

### Interprétation/Conclusion


Une bonne stratégie (celle du Bot) est trouvée extrêmement rapidement (< 100 épisodes). De plus, avec seulement la phase d'exploration (de 100\% à 80\% d'exploration), l'algo comprend la mécanique de ce système.
La fonction de valeur quand à elle met un certain temps à converger. Même si la convergence ne semble pas terminée, après 1000 épisodes on distingue un applatissement surprenant de la fonction de valeur autour de 0. La largeur de l'applatissement est environ égale à : $$min\_size\_ouv - \frac{epaisseur\_bird}{2} = 60 - 7.5 \approx 50 $$
En d'autre termes, l'espérance à long terme dans cet intervalle est identique. 

<a id="test-greedyMixte"></a>
### **Test 2 : From full exploration to few exploration**

### Paramétrage global (Idem sauf $\epsilon$)

> $\alpha$ = 0.001 | $\gamma$ = 0.9  |  $\epsilon_{deb}$=1.0  |   $\epsilon_{fin}$= 0.1  |  $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200  |   num_episodes = 1000

### Résultats

Durée apprentissage : <em style='color:red'> 5h40 </em>

![alt text](plot_img/Value-t2.gif "Value after no epochs")
![alt text](plot_img/QValue-t2.gif "Value after no epochs")

<!--
> **-> Démarrage entraînement (1 épisode)**

 ![alt text](plot_img/Value-t2-Eps-0.png "Value after no epochs")
 ![alt text](plot_img/Qvalue-t2-Eps-0.png "Q-value after no epochs")
-->

> **-> Début entraînement (100 épisodes)** 

![alt text](plot_img/Value-t2-Eps-100.png "Value after 100 epochs")
![alt text](plot_img/Qvalue-t2-Eps-100.png "Q-value after 100 epochs")

<!--
> **-> Milieu 1 entraînement (350 épisodes)** 

![alt text](plot_img/Value-t2-Eps-350.png "Value after 350 epochs")
![alt text](plot_img/Qvalue-t2-Eps-350.png "Q-value after 350 epochs")

> **-> Milieu 2 entraînement (500 épisodes)** 

![alt text](plot_img/Value-t2-Eps-500.png "Value after 500 epochs")
![alt text](plot_img/Qvalue-t2-Eps-500.png "Q-value after 500 epochs")

> **-> Fin entraînement (1000 épisodes)**

![alt text](plot_img/Value-t2-Eps-1000.png "Value after 1000 epochs")
![alt text](plot_img/Qvalue-t2-Eps-1000.png "Q-value after 1000 epochs")
-->

### Interprétation / Conlusion

<a id="test-greedyExploit"></a>
### **Test 3 : Only few exploration**

### Paramétrage global (Idem sauf $\epsilon$)

> $\alpha$ = 0.00025 | $\gamma$ = 0.9  |  $\epsilon_{deb}$=0.1  |   $\epsilon_{fin}$= 0.01  |  $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200  |   num_episodes = 1000

### Résultats

![alt text](plot_img/Value-t3.gif "Value")
![alt text](plot_img/QValue-t3.gif "QValue")

<!--
> **-> Démarrage entraînement (1 épisode)**

 ![alt text](plot_img/Value-lowEps-0.png "Value after no epochs")
 ![alt text](plot_img/Qvalue-lowEps-0.png "Q-value after no epochs")

> **-> Début entraînement (100 épisodes)** 

![alt text](plot_img/Value-lowEps-100.png "Value after 100 epochs")
![alt text](plot_img/Qvalue-lowEps-100.png "Q-value after 100 epochs")

> **-> Fin entraînement (250 épisodes)**

![alt text](plot_img/Value-lowEps-250.png "Value after 250 epochs")
![alt text](plot_img/Qvalue-lowEps-250.png "Q-value after 250 epochs")

-->

### Interprétation / Conlusion

La réalisation d'un épisode est plus long. Ceci est dû à la plus forte utilisation de l'exploitation du modèle (qui nécessitee un passage entier dans le réseau, plus coûteux en calcul qu'un simple random) en dépit de l'exploration.

## Comparaison apprentissage des 3 tests : 

![alt text](plot_img/vs/eps-loss.png "Comparaison Loss")
![alt text](plot_img/vs/eps-rew.png "Comparaison Rewards")

<a id="test-lr"></a>
## **2. Tests Learning Rate**

Les tests ont été réalisés avec les hyperparamètres suivants :

> $\gamma$ = 0.9   |  $\epsilon_{deb}$=1.0  |   $\epsilon_{fin}$= 0.1  |   $batch\_size$ = 32   |   $memory\_size$ = 10000    |    $C$ = 200  |   num_episodes = 1000

<a id="test-lr-vs"></a>
### **Test 1 : Comparaison $\alpha$ =  0.001 vs $\alpha$ = 0.00025**

### Résultats

![alt text](plot_img/vs/loss-lr-000025vs0001.png "Comparaison Loss")
![alt text](plot_img/vs/rew-lr-000025vs0001.png "Comparaison Rewards")

### Interprétation / Conlusion

La valeure $\alpha = 0.00025$ semble donner de meilleurs résultats que $\alpha = 0.001$ car la reward est plus importante dès de début.