# Car racing using DQN

## Descripción general del proyecto

Este proyecto tiene como objetivo crear un agente de aprendizaje por refuerzo para el juego CarRacing-v2. El objetivo principal del agente es aprender a conducir un automóvil en una pista de carreras, maximizando la puntuación obtenida y evitando obstáculos. Este trabajo se baso en el ejemplo del siguiente ejemplo:Capstone Project – Car Racing Using DQN
 https://learning.oreilly.com/library/view/hands-on-reinforcement-learning/9781788836524/4929bee3-df49-40e9-977f-9360293ad8ed.xhtml


## Contexto del proyecto

El aprendizaje por refuerzo es un enfoque del aprendizaje automático en el que un agente interactúa con un entorno para aprender cuales son las acciones que maximizan una recompensa que se acumula en el tiempo. En este proyecto, se uso el algoritmo de aprendizaje por refuerzo DQN (Deep Q-Network) para entrenar a un agente que aprenda a conducir un automóvil de manera que este siga la pista de carreras en el juego CarRacing-v2.

Se uso el el juego CarRacing-v2, debido al que la version v0 no se encontraba disponible. Este juego, es un entorno de simulación en el que el agente controla un automóvil y debe recorrer una pista de carreras, evitando obstáculos y maximizando el puntaje obtenido. 

El enfoque utilizado en este proyecto es una combinacion de una CNN (convolutional neural network) y representacion por imagenes. La CNN usa los fotogramas pre procesados dfel juego como entrada y genera una salida que corresponde a una estimacion de los que corresponderan a la accion del agente. Utilizando técnicas como la memoria de repetición y la actualización recursiva, el agente aprende mejora la calidad de sus decisiones en funcion del puntaje. 

El objetivo final, es que el agente pueda conducir de forma competente un auto en el juego, superando obstaculos y maximizando su puntaje a travez del aprendizaje por refuerzo. 

## Metodología

## Metodología

La metodología utilizada en este proyecto consta de los siguientes pasos:

1. **Creación del entorno del juego:** Utilizando la biblioteca `gym`, se crea un entorno para el juego de carreras de coches 'CarRacing-v2'.
2. **Preprocesamiento de las imágenes:** Se procesan las imágenes del juego para convertirlas en imágenes en escala de grises de 84x84. El reescalado y el filtro de colores son necesarios para reducir el consumo de recursos de hardware. 
3. **Implementación de la red neuronal convolucional (CNN):** Se utiliza una CNN para aprender a estimar la función de valor Q (funcion de calidad. Representa la calidad de la accion tomada por el agente). Esta red toma como entrada la representación de la imagen del estado actual y proporciona una estimación de la función de valor para cada acción posible.
4. **Uso de un Buffer de Repetición:** Se almacenan las etapas que sigue el agente (estado actual, acción que ejecuta, recompensa por la accion, estado siguiente) en un buffer de repetición. Este buffer se utiliza luego para generar muestras de entrenamiento.
5. **Implementación de DQN:** Se implementa el algoritmo DQN, que utiliza la CNN para estimar la función de valor Q y seleccionar acciones, y el buffer de repetición para el entrenamiento.
6. **Evaluación del agente:** El rendimiento del agente se evalúa constantemente. Se proporciona una visualización del rendimiento del agente a lo largo del tiempo como un grafico que se actualiza cada cierto intervalo de iteraciones y que muestra la recompensa promedio a medida que avanza el entrenamiento. 

![image.png](attachment:image.png)


7. **Guardado del modelo:** Una vez finalizado el entrenamiento, se guarda el estado del modelo para su posterior uso.

8. **Generación de un video de la jugada:** Finalmente, se genera un video que muestra cómo juega el agente entrenado.


## Estructura del repositorio

El repositorio está organizado de la siguiente manera:

- main.py: El archivo principal del proyecto que contiene el código para entrenar y evaluar el agente DQN.
- model.py: El archivo que contiene la implementación de la arquitectura de red neuronal QNetworkDueling.
- utils.py: El archivo que contiene funciones de utilidad y clases auxiliares utilizadas en el proyecto.

Todos los archivos necesarios para ejecutar el proyecto estan presentes en el repositorio

## Dependencias

Para ejecutar este proyecto, se requiere la instalación de las siguientes bibliotecas de Python:

- numpy
- random
- gym
- opencv-python
- tensorflow

Para instalar las dependencias, ejecute el siguiente comando:

pip install numpy random gym opencv-python tensorflow



## Ejecución de los notebooks

Si se utilizan notebooks de Jupyter en este proyecto, se deben seguir los siguientes pasos para ejecutarlos:

1. Crear un entorno virtual (opcional): Se recomienda crear un entorno virtual antes de instalar las dependencias y ejecutar los notebooks. Esto ayudará a mantener las dependencias del proyecto separadas de otras instalaciones de Python en su sistema.

2. Instalar las dependencias: Una vez creado el entorno virtual, instale las dependencias necesarias utilizando el comando mencionado anteriormente.

3. Ejecutar los notebooks: Abra los notebooks en el entorno de Jupyter y ejecute las celdas secuencialmente. Asegúrese de seguir las instrucciones proporcionadas en los notebooks para configurar cualquier configuración especial requerida.

## Pasos seguidos y resultados obtenidos

Los pasos utilizados en este proyecto para desarrollar el agente de aprendizaje por refuerzo fueron los siguientes:

1. Se obtuvieron datos del juego del entorno CarRacing-v2, incluidas capturas de pantalla de la pantalla y las acciones del agente.

2. Los datos del juego se preprocesaron utilizando técnicas de cambio de tamaño y conversión a escala de grises para analizarlos y modelarlos posteriormente.

3. Para representar la función de valor del agente y determinar el mejor curso de acción, se implementó una arquitectura CNN llamada QNetworkDueling.

4. El agente fue entrenado utilizando el algoritmo de aprendizaje por refuerzo DQN, interactuando con el entorno CarRacing-v2 y actualizando su modelo de valor en función de las recompensas recibidas.

5. La efectividad del agente no se pudo evaluar debido a los problemas sin resolver.

## Ejemplos reproducibles

Este código muestra cómo crear y utilizar las clases EnvWrapper, CustomLambda, QNetwork, QNetworkDueling, ReplayMemoryFast y DQN para entrenar un agente DQN en el juego CarRacing-v2. El agente utiliza una red neuronal con la arquitectura QNetworkDueling y una memoria de repetición rápida para el aprendizaje. Se muestra un ejemplo de entrenamiento del agente durante 10 episodios, con el total de recompensas por cada episodio. 

Este ejemplo se basa en la estructura y configuración previamente definidas en el proyecto. Asegúrate de tener todas las dependencias y los datos necesarios para ejecutar el código de manera adecuada.

A continuación se muestra un ejemplo de código para entrenar y evaluar el agente DQN en el juego CarRacing-v2:
```python
# Importar las bibliotecas necesarias
import numpy as np
import random
import gym
from gym.spaces import Box
import cv2
import tensorflow as tf
from tensorflow.keras.layers import Layer

# Clase EnvWrapper: envoltorio para el entorno de juego. Esta clase envuelve el juego y nos permite interactuar con él.
class EnvWrapper:

# Clase CustomLambda: capa personalizada de Keras. Esta clase ayuda a realizar cálculos en la red neuronal.
class CustomLambda(Layer):

# Clase QNetwork: clase base para redes Q. Esta clase representa una red neuronal que aprende a tomar decisiones en el juego.
class QNetwork(object):


# Clase QNetworkDueling: red neuronal para el agente DQN. Esta clase es una versión especializada de la red neuronal que se adapta específicamente a los juegos.
class QNetworkDueling(QNetwork):


# Clase ReplayMemoryFast: memoria de repetición rápida. Esta clase es una memoria que guarda recuerdos de lo que ha sucedido en el juego, para que el agente pueda aprender de ellos.
class ReplayMemoryFast:


# Clase DQN: agente de aprendizaje profundo. Esta clase es el agente de aprendizaje en sí, que utiliza todas las otras clases y algoritmos para mejorar su rendimiento en el juego.
class DQN(object):


# Crear una instancia de EnvWrapper
env_wrapper = EnvWrapper("CarRacing-v2", debug=True)

state_size = (84, 84, 4)
action_size = env_wrapper.action_space.shape[0]

# Crear la sesión de TensorFlow
session = tf.compat.v1.InteractiveSession()

# Crear una instancia de DQN
agent = DQN(state_size=state_size,
            action_size=action_size,
            session=session,
            summary_writer=None,
            exploration_period=1000000,
            minibatch_size=32,
            discount_factor=0.99,
            experience_replay_buffer=1000000,
            target_qnet_update_frequency=20000,
            initial_exploration_epsilon=1.0,
            final_exploration_epsilon=0.1,
            reward_clipping=1.0)

# variables
session.run(tf.compat.v1.global_variables_initializer())

# Entrenamiento
for episode in range(1, 11):
    state = env_wrapper.reset()
    total_reward = 0
    done = False

    while not done:
        action = agent.action(state, training=True)
        next_state, reward, done, _ = env_wrapper.step(action)
        agent.store(state, action, reward, next_state, done)
        agent.train()
        state = next_state
        total_reward += reward

    print("Episode:", episode, "Total Reward:", total_reward)

env_wrapper.env.close()