In [11]:
import time
from collections import deque, namedtuple
from IPython.display import display
import pandas as pd


import gym # type: ignore
import numpy as np # type: ignore
import tensorflow as tf # type: ignore
import sys # type: ignore
import importlib # type: ignore

from tensorflow.keras import Sequential # type: ignore
from tensorflow.keras.layers import Dense, Input # type: ignore
from tensorflow.keras.losses import MSE # type: ignore
from tensorflow.keras.optimizers import Adam # type: ignore

print("Numpy version:", np.__version__)
print("Gym version:", gym.__version__)
print("TensorFlow version:", tf.__version__)



Numpy version: 1.21.2
Gym version: 0.26.2
TensorFlow version: 2.18.0


In [12]:
spec = importlib.util.spec_from_file_location("utils", "/Users/francolimon/Documents/IA/CubeIA/utils.py")
utils = importlib.util.module_from_spec(spec)
sys.modules["utils"] = utils
spec.loader.exec_module(utils)

El seed se utiliza para establecer una semilla aleatoria que permite la reproducibilidad de los resultados. Al fijar una semilla, garantizamos que los números aleatorios generados en diferentes ejecuciones del código sean los mismos, lo cual es crucial para poder comparar resultados y realizar pruebas consistentes. En este caso, hemos fijado la semilla en 0 y generado números aleatorios tanto con numpy como con tensorflow, obteniendo los siguientes valores:

- Números aleatorios con numpy: [0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ]
- Números aleatorios con tensorflow: [0.29197514, 0.20656645, 0.53539073, 0.5612575 , 0.4166745 ]

In [13]:
# Set a random seed for reproducibility
seed = 0
np.random.seed(seed)
tf.random.set_seed(seed)
# Generate some random numbers using numpy and tensorflow to see the effect of the seed
random_numbers_np = np.random.rand(5)
random_numbers_tf = tf.random.uniform([5])

print("Random numbers with numpy:", random_numbers_np)
print("Random numbers with tensorflow:", random_numbers_tf)

Random numbers with numpy: [0.5488135  0.71518937 0.60276338 0.54488318 0.4236548 ]
Random numbers with tensorflow: tf.Tensor([0.29197514 0.20656645 0.53539073 0.5612575  0.4166745 ], shape=(5,), dtype=float32)


In [14]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
env = gym.make('LunarLander-v2')
current_state = env.reset()
# Inicializar listas para almacenar los resultados
states = [current_state]
actions = []
next_states = []
rewards = []
dones = []
truncateds = []

done = False
while not done:
    # Seleccionar una acción (por ejemplo, "Fire main engine")
    action = env.action_space.sample()
    # Ejecutar la acción y obtener la siguiente observación
    next_state, reward, done, truncated, info = env.step(action)
    # Almacenar los resultados
    actions.append(action)
    next_states.append(next_state)
    rewards.append(reward)
    dones.append(done)
    truncateds.append(truncated)
    
    # Actualizar el estado actual
    current_state = next_state
    states.append(current_state)
    
    # Crear un DataFrame con los resultados
    data = {
        "Current State": states[:-1],  # Excluir el último estado ya que es el next_state del último paso
        "Action Taken": actions,
        "Next State": next_states,
        "Reward": rewards,
        "Done": dones,
        "Truncated": truncateds
    }

    df = pd.DataFrame(data)
    # Guardar la tabla en un archivo Excel
    df.to_excel("resultados_lunar_lander.xlsx", index=False)
    
    if done:
        print("El episodio ha terminado")
        # Mostrar la tabla
        display(df)
        break


    # Mostrar comentario de finalización
print("Juego finalizado")



El episodio ha terminado


Unnamed: 0,Current State,Action Taken,Next State,Reward,Done,Truncated
0,"([-0.004980755, 1.421248, -0.5045116, 0.459007...",1,"[-0.010058308, 1.4309869, -0.515922, 0.4327858...",-0.947763,False,False
1,"[-0.010058308, 1.4309869, -0.515922, 0.4327858...",2,"[-0.015197086, 1.4412717, -0.5218063, 0.457004...",-4.138587,False,False
2,"[-0.015197086, 1.4412717, -0.5218063, 0.457004...",2,"[-0.020224284, 1.4516103, -0.5112142, 0.459350...",-1.543986,False,False
3,"[-0.020224284, 1.4516103, -0.5112142, 0.459350...",0,"[-0.025251579, 1.4613498, -0.51123935, 0.43267...",-0.070771,False,False
4,"[-0.025251579, 1.4613498, -0.51123935, 0.43267...",2,"[-0.030239772, 1.4711773, -0.50759494, 0.43652...",-2.131975,False,False
5,"[-0.030239772, 1.4711773, -0.50759494, 0.43652...",0,"[-0.03522835, 1.4804054, -0.50762033, 0.409841...",-0.094951,False,False
6,"[-0.03522835, 1.4804054, -0.50762033, 0.409841...",2,"[-0.040320493, 1.4904766, -0.5177395, 0.447269...",-5.339952,False,False
7,"[-0.040320493, 1.4904766, -0.5177395, 0.447269...",3,"[-0.0453249, 1.4999452, -0.50672656, 0.4205408...",0.954058,False,False
8,"[-0.0453249, 1.4999452, -0.50672656, 0.4205408...",2,"[-0.050194837, 1.5097487, -0.49413815, 0.43535...",-2.009024,False,False
9,"[-0.050194837, 1.5097487, -0.49413815, 0.43535...",0,"[-0.05506506, 1.5189526, -0.4941577, 0.4086763...",0.086925,False,False


Juego finalizado


# Creación de la Red Q (Q-Network)

La red Q (Q-Network) es una red neuronal utilizada en el aprendizaje por refuerzo para aproximar la función Q, que estima el valor esperado de la recompensa acumulada que se puede obtener desde un estado dado al tomar una acción específica.

En este caso, la red Q se define utilizando la API de Keras de TensorFlow. La red consta de las siguientes capas:

- **Capa de entrada**: `Input(state_size)`, donde `state_size` es el tamaño del vector de estado que representa el entorno.
- **Primera capa oculta**: `Dense(units=128, activation='relu')`, una capa densa con 128 unidades y función de activación ReLU.
- **Segunda capa oculta**: `Dense(units=128, activation='relu')`, otra capa densa con 128 unidades y función de activación ReLU.
- **Capa de salida**: `Dense(units=num_actions, activation='linear')`, una capa densa con un número de unidades igual al número de acciones posibles (`num_actions`) y función de activación lineal.

El código para crear la red Q es el siguiente:


In [15]:
# Create the Q-Network
q_network = Sequential([
    Input(shape=(8,)),
    Dense(units=128, activation='relu'),
    Dense(units=128, activation='relu'),
    Dense(units=4, activation='linear')
    ])

# Creación de la Red Q^- (Target Q-Network)

La red Q^- (Target Q-Network) es una copia de la red Q principal que se utiliza para estabilizar el entrenamiento en el aprendizaje por refuerzo. La idea es que, en lugar de actualizar la red Q principal en cada paso, se actualiza la red Q^- periódicamente. Esto ayuda a reducir la variabilidad y mejora la estabilidad del entrenamiento.

En este caso, la red Q^- se define de manera similar a la red Q, pero con una arquitectura ligeramente diferente. La red consta de las siguientes capas:

- **Capa de entrada**: `Input(state_size)`, donde `state_size` es el tamaño del vector de estado que representa el entorno.
- **Primera capa oculta**: `Dense(units=64, activation='relu')`, una capa densa con 64 unidades y función de activación ReLU.
- **Segunda capa oculta**: `Dense(units=64, activation='relu')`, otra capa densa con 64 unidades y función de activación ReLU.
- **Capa de salida**: `Dense(units=num_actions, activation='linear')`, una capa densa con un número de unidades igual al número de acciones posibles (`num_actions`) y función de activación lineal.

El código para crear la red Q^- es el siguiente:

In [16]:
# Create the target Q^-Network
target_q_network = Sequential([
    Input(shape=(8,)),
    Dense(units=128, activation='relu'),
    Dense(units=128, activation='relu'),
    Dense(units=4, activation='linear')
    ])

# Optimizer

El **optimizer** (optimizador) es una parte crucial en el entrenamiento de redes neuronales. Su función principal es ajustar los pesos de la red para minimizar el error entre las predicciones de la red y los valores reales. Esto se hace mediante un proceso iterativo que se llama "descenso de gradiente".

## ¿Qué es el Alpha (α)?

El **Alpha (α)**, también conocido como tasa de aprendizaje (learning rate), es un parámetro que controla la magnitud de los ajustes que el optimizador realiza en los pesos de la red en cada iteración. Un valor de α muy grande puede hacer que el entrenamiento sea inestable y no converja, mientras que un valor muy pequeño puede hacer que el entrenamiento sea muy lento.

## Ejemplo de uso

En este caso, estamos utilizando el optimizador **Adam**, que es uno de los optimizadores más populares y eficientes. El código para crear el optimizador con un valor de α específico es el siguiente:


In [17]:
ALPHA = 0.001
optimizer = Adam(ALPHA)

Cuando un agente interactúa con el entorno, los estados, acciones y recompensas que experimenta son secuenciales por naturaleza. Si el agente intenta aprender de estas experiencias consecutivas, puede encontrarse con problemas debido a las fuertes correlaciones entre ellas. Para evitar esto, empleamos una técnica conocida como **Experience Replay** para generar experiencias no correlacionadas para entrenar a nuestro agente. El Experience Replay consiste en almacenar las experiencias del agente (es decir, los estados, acciones y recompensas que recibe) en un buffer de memoria y luego muestrear un mini-lote aleatorio de experiencias del buffer para realizar el aprendizaje. Las tuplas de experiencia se agregarán al buffer de memoria en cada paso de tiempo a medida que el agente interactúa con el entorno.

Para mayor comodidad, almacenaremos las experiencias como tuplas nombradas.

### ¿Qué es una tupla?

Una **tupla** es una estructura de datos en Python que permite almacenar múltiples elementos en una sola variable. A diferencia de las listas, las tuplas son inmutables, lo que significa que una vez creadas, no se pueden modificar. Las tuplas se utilizan cuando se desea almacenar un conjunto de valores que no deben cambiar a lo largo del tiempo.

#### Ejemplo de una tupla:

In [24]:
experiencia = namedtuple('Experiencia', ['estado', 'accion', 'recompensa', 'siguiente_estado', 'hecho'])
ejemplo_tupla = experiencia(estado=current_state, accion=action, recompensa=reward, siguiente_estado=next_state, hecho=done)
ejemplo_tupla

Experiencia(estado=array([-0.91228557,  0.10570551, -1.2290698 , -1.0846012 ,  0.28434473,
        4.0032134 ,  1.        ,  1.        ], dtype=float32), accion=2, recompensa=-100, siguiente_estado=array([-0.91228557,  0.10570551, -1.2290698 , -1.0846012 ,  0.28434473,
        4.0032134 ,  1.        ,  1.        ], dtype=float32), hecho=True)