# Dueling Double DQN

_Ismaël Bonneau_


## Modèle & architecture

Comme indiqué dans le titre, ce modèle est une amélioration du **DQN**. Il reprend tous ses principes, comme le experience replay, le remplacement de la target tous les ${C}$ pas de temps, mais diffère en un point. 

Avec un **DQN**, notre réseau prend ${\phi(s)}$ en entrée et sort ${Q(s,a)}$ les valeurs des actions pour cet état ${s}$. Généralement, dans le cas d'un jeu, ${\phi(s)}$ correspond à un réseau de convolution (CNN).

Avec un **DDQN**, on prend ${\phi(s)}$ et on le traite avec 2 réseaux différents, pour produire deux sorties:
- ${V(s)}$ qui est la "valeur" de l'état, ou combien il est intéressant d'être dans cet état.
- ${A(s, a)}$ qui est la fonction avantage (rappel: <a href="">actor-critic</a>) et qui indique combien il est avantageux, quand on se trouve dans l'état ${s}$, d'effectuer l'action ${a}$ par rapport aux autres actions.

### Architecture du réseau de neurones:

L'architecture du modèle est composée d'un premier réseau de convolution, qui va prendre en entrée les frames du jeu (généralement stackées par groupe, nous verrons ça plus tard)

<img src="images/dueling-q-network.png" width="600">

In [1]:
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns

import torch
import torch.nn as nn

sns.set()
%matplotlib inline
%load_ext autoreload
%autoreload 2

## Nous allons appliquer ce modèle sur un jeu bien connu, super Mario bros.

Ce jeu n'est pas disponible dans l'environnement gym par défaut. Il doit être installé à part (avec d'autres packages comme pyNes)

<img src="images/mario.gif" width="400">

In [5]:
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
import pprint
pp = pprint.PrettyPrinter(indent=4)

env = gym_super_mario_bros.make('SuperMarioBros-v0')
env = JoypadSpace(env, SIMPLE_MOVEMENT)

state = env.reset()
state, reward, done, info = env.step(env.action_space.sample())

print("frame shape: ", state.shape)
print("game status: ")
pp.pprint(info)
plt.imshow(state)
plt.show()