<a href="https://colab.research.google.com/github/SerArtDev/redes-neuronales/blob/main/aprendizaje_reforzado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aprendizaje reforzado (RL)
En este tipo de aprendizaje hay *agentes* que interactúan con el *entorno* eligiendo acciones de una serie. Estas acciones alteran el entorno y el entorno altera a los agentes mediante *recompensas*. El modelo debe estimar estas recompensas. Este ciclo de modificar el entorno y recibir recompensas se repite hasta que el modelo aprende cómo obtener estas recompensas.

Este entrenamiento de este tipo de modelos se ve limitado por la cantidad de datos y el poder computacional requerido, es por esto que es muy utilizado para enseñar a máquinas a jugar. El requerimiento computacional sigue siendo alto, ya que los posibles movimientos en cada instante suelen ser demasiados.

Se utiliza para otras aplicaciones, como predecir cuál es la mejor posición para poner un anuncio en una página web, recomendaciones en motores de búsqueda, marketing.

Este tipo de aprendizaje tiene ciertas complejidades, como el no tener certeza de si una acción dará recompensa, ya que podría ser que sea el correcto para obtener una recompensa a largo plazo. También el que el entorno cambia, entonces los datos no son estáticos.

La biblioteca más común para aprendizaje reforzado en python es `gym` de `OpenAI`.



## Q-Learning en Keras
Q-Leargning es un algorítmo ampliamente usado para RL. RL es un paradigma de Machine Learning enfocado en entrenar agentes para que sigan una serie de pasos con noción de obtener recompensas. Q-learning se centra en que los agentes aprendan una política para aplicar una u otra acción, de tal forma que maximice las recompensas acumuladas en el tiempo.

La esencia de Q-learning radica la función Q-value, `Q(s, a)`. Esta función mide la utilidad de hacer una acción `a` en un estado `s`. Los Q-values son actualizados constantemente usando la ecuación de Bellman, la cual tiene en cuenta la recompensa inmediata y recompensas futuras estimadas.

$$ Q(s,a) = Q(s,a)+\alpha[r+\gamma *max_{a'}Q(s',a')-Q(s,a)]$$
- $a$ = Acción actual.
- $s$ = Estado actual.
- $r$ = Recompensa recibida tras tomar la acción $a$.
- $s'$ = Estado resultante de tomar la acción $a$.
- $a'$ = Siguiente acción.
- $\alpha$ = Ratio de aprendizaje, que extiende qué tanto aprendizaje viejo será reemplazado con nuevo.
- $\gamma$ = Factor de descuento, que modela la importancia de futuras recompensas.
- $\epsilon$ = Factor de exploración. Controla la probabilidad de elegir una acción al azar.

Para implementar Q-Learning se debe definir la Q-Table, que contiene pares acción-estado. Se deben definir los hiperparámetros, como $\alpha$, $\gamma$ y $\epsilon$. Después de esto, se construye una red que aproxime los valores de Q-value, ya que esta tabla de valores se vuelve poco práctica cuando existen demasiadas posibilidades. Cuando se usa una red neuronal en lugar de una tabla, el modelo se llama Deep Q-Network (DQNs). Se implementa un learning loop donde el agente interactúa con el entorno, selecciona acciones, recibe recompensas, cambia de estados y actualiza los Q-values.

Un entorno que `gym` trae como ejemplo es CartPole, en el cual el objetivo es balancear un polo en un carrito. Una Q-Network podría estar compuesta por algunas capas densas, la entrada debe tener el mismo tamaño de los estados y la salida del tamaño de una acción. Las capas ocultas pueden tener cualquier arquitectura, pero típicamente son 2 o 3 con ReLU como función de activación.

El entrenamiento consiste en empezar tanto el agente como el entorno con un estado inicial, seleccionar una acción al azar, o la que tenga mayor Q-value. Tras realizar la acción el entorno cambia, así que se calculan los Q-values con la ecuación de Bellman. Se calcula el Q-value objetivo para el par estado-acción actual y se entrena a la red para minimizar la diferencia entre el Q-value predicho y el Q-value objetivo. El factor de exploración va disminuyendo a medida que el modelo se entrena, haciendo que tome las acciones más óptimas. Este proceso se repite hasta que el agente llegue a la meta o llegue al estado terminal.

In [1]:
import gym
import numpy as np

# Create the environment
env = gym.make('CartPole-v1')

# Set random seed for reproducibility
np.random.seed(42)
env.action_space.seed(42)
env.observation_space.seed(42)

  deprecation(
  deprecation(


[42]

In [2]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input  # Import Input layer
from tensorflow.keras.optimizers import Adam
import gym  # Ensure the environment library is available

# Define the model building function
def build_model(state_size, action_size):
    model = Sequential()
    model.add(Input(shape=(state_size,)))  # Use Input layer to specify the input shape
    model.add(Dense(24, activation='relu'))
    model.add(Dense(24, activation='relu'))
    model.add(Dense(action_size, activation='linear'))
    model.compile(loss='mse', optimizer=Adam(learning_rate=0.001))
    return model

# Create the environment and set up the model
env = gym.make('CartPole-v1')
state_size = env.observation_space.shape[0]
action_size = env.action_space.n
model = build_model(state_size, action_size)


  from jax import xla_computation as _xla_computation
  deprecation(
  deprecation(


In [8]:
import random
import numpy as np
from collections import deque
import tensorflow as tf

# Define epsilon and epsilon_decay
epsilon = 1.0  # Starting with a high exploration rate
epsilon_min = 0.01  # Minimum exploration rate
epsilon_decay = 0.99  # Faster decay rate for epsilon after each episode

# Replay memory
memory = deque(maxlen=2000)

def remember(state, action, reward, next_state, done):
    """Store experience in memory."""
    memory.append((state, action, reward, next_state, done))

def replay(batch_size=64):  # Increased batch size
    """Train the model using a random sample of experiences from memory."""
    if len(memory) < batch_size:
        return  # Skip replay if there's not enough experience

    minibatch = random.sample(memory, batch_size)  # Sample a random batch from memory

    # Extract information for batch processing
    states = np.vstack([x[0] for x in minibatch])
    actions = np.array([x[1] for x in minibatch])
    rewards = np.array([x[2] for x in minibatch])
    next_states = np.vstack([x[3] for x in minibatch])
    dones = np.array([x[4] for x in minibatch])

    # Predict Q-values for the next states in batch
    q_next = model.predict(next_states)
    # Predict Q-values for the current states in batch
    q_target = model.predict(states)

    # Vectorized update of target values
    for i in range(batch_size):
        target = rewards[i]
        if not dones[i]:
            target += 0.95 * np.amax(q_next[i])  # Update Q value with the discounted future reward
        q_target[i][actions[i]] = target  # Update only the taken action's Q value

    # Train the model with the updated targets in batch
    model.fit(states, q_target, epochs=1, verbose=0)  # Train in batch mode

    # Reduce exploration rate (epsilon) after each training step
    global epsilon
    if epsilon > epsilon_min:
        epsilon *= epsilon_decay

def act(state):
    """Choose an action based on the current state and exploration rate."""
    if np.random.rand() <= epsilon:
        return random.randrange(action_size)  # Explore: choose a random action
    act_values = model.predict(state)  # Exploit: predict action based on the state
    return np.argmax(act_values[0])  # Return the action with the highest Q-value

# Define the number of episodes you want to train the model for
episodes = 10  # You can set this to any number you prefer
train_frequency = 5  # Train the model every 5 steps

for e in range(episodes):
    state = env.reset()  # Unpack the tuple returned by env.reset()
    state = np.reshape(state, [1, state_size])
    for time in range(200):
      action = act(state)
      next_state, reward, done, info = env.step(action)  # Ajustado para 4 valores
      reward = reward if not done else -10
      next_state = np.reshape(next_state, [1, state_size])
      remember(state, action, reward, next_state, done)
      state = next_state

      if done:
          print(f"episode: {e+1}/{episodes}, score: {time}, e: {epsilon:.2}")
          break

      if time % train_frequency == 0:
          replay(batch_size=64)


env.close()

episode: 1/10, score: 14, e: 1.0
episode: 2/10, score: 25, e: 1.0
episode: 3/10, score: 10, e: 1.0
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step  
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step 
episode: 4/10, score: 25, e: 0.98
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step 
[

In [11]:
# Se evalua el rendimiento
for e in range(10):

    state = env.reset()  # Unpack the state from the tuple
    state = np.reshape(state, [1, state_size])  # Reshape the state correctly
    for time in range(500):
        env.render()
        action = np.argmax(model.predict(state)[0])
        next_state, reward, done, info = env.step(action)  # Unpack the five return values
        next_state = np.reshape(next_state, [1, state_size])
        state = next_state
        if done:
            print(f"episode: {e+1}/10, score: {time}")
            break

env.close()

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step


If you want to render in human mode, initialize the environment in this way: gym.make('EnvName', render_mode='human') and don't call the render method.
See here for more information: https://www.gymlibrary.ml/content/api/[0m
  deprecation(


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 36ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 33ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
episode: 1/10, score: 9
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 27ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 19ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0

## Ejemplo DQNs
Esta implementación de Q-Learning usa una red neuronal para predecir los valores de Q-value.

In [12]:
# Create the environment
env = gym.make('CartPole-v1')

# Set random seed for reproducibility
np.random.seed(42)
env.reset(seed=42)

  deprecation(
  deprecation(


array([ 0.0273956 , -0.00611216,  0.03585979,  0.0197368 ], dtype=float32)

In [13]:
def build_model(state_size, action_size):
    model = Sequential()
    model.add(Dense(24, input_dim=state_size, activation='relu'))
    model.add(Dense(24, activation='relu'))
    model.add(Dense(action_size, activation='linear'))
    model.compile(loss='mse', optimizer=Adam(learning_rate=0.001))
    return model

state_size = env.observation_space.shape[0]
action_size = env.action_space.n
model = build_model(state_size, action_size)

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [14]:
from collections import deque
import random

memory = deque(maxlen=2000)
def remember(state, action, reward, next_state, done):
    memory.append((state, action, reward, next_state, done))

In [15]:
epsilon = 1.0
epsilon_min = 0.01
epsilon_decay = 0.995

 # act elige una acción al azar
def act(state):
    if np.random.rand() <= epsilon:
        return random.randrange(action_size)
    q_values = model.predict(state)
    return np.argmax(q_values[0])

In [17]:
# Implement the Q-learning update to train the DQN using experiences stored in the replay buffer.
def replay(batch_size):
    global epsilon
    minibatch = random.sample(memory, batch_size)
    for state, action, reward, next_state, done in minibatch:
        target = reward
        if not done:
            target = reward + gamma * np.amax(model.predict(next_state)[0])
        target_f = model.predict(state)
        target_f[0][action] = target
        model.fit(state, target_f, epochs=1, verbose=0)
    if epsilon > epsilon_min:
        epsilon *= epsilon_decay

In [18]:
# Entrenar la red DQN
for e in range(10):
    state = env.reset()

    # If state is a tuple, take the first element
    if isinstance(state, tuple):
        state = state[0]

    state = np.reshape(state, [1, state_size])

    for time in range(100):
        env.render()
        action = np.argmax(model.predict(state)[0])

        # Handle environments that return more than 4 values
        result = env.step(action)
        if isinstance(result, tuple) and len(result) == 4:
            next_state, reward, done, _ = result
        else:
            next_state, reward, done, _, _ = result  # Adjust based on the number of values returned

        # If next_state is a tuple, take the first element
        if isinstance(next_state, tuple):
            next_state = next_state[0]

        next_state = np.reshape(next_state, [1, state_size])
        state = next_state

        if done:
            print(f"episode: {e+1}/10, score: {time}")
            break

env.close()

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 95ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step


  if not isinstance(terminated, (bool, np.bool8)):


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 42ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 64ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step
episode: 1/10, score: 8
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 33ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0

In [23]:
# Evaluar el modelo
for e in range(10):
    state = env.reset()

    # Check if state is a tuple and extract the first element if it is
    if isinstance(state, tuple):
        state = state[0]

    state = np.reshape(state, [1, state_size])

    for time in range(100):
        #env.render(mode="rgb_array")
        action = np.argmax(model.predict(state)[0])

        # Handle environments that return more than 4 values
        result = env.step(action)
        if len(result) == 4:
            next_state, reward, done, _ = result
        else:
            next_state, reward, done, _, _ = result  # Adjust this based on the number of values returned

        # Check if next_state is a tuple and extract the first element if it is
        if isinstance(next_state, tuple):
            next_state = next_state[0]

        next_state = np.reshape(next_state, [1, state_size])
        state = next_state

        if done:
            print(f"episode: {e+1}/10, score: {time}")
            break

env.close()

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 33ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 34ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 48ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 50ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 33ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 33ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29