In [11]:
import random # Import the random module

class AgenteRL:
  def __init__(self, acciones):
    self.acciones = acciones


  def seleccionar_accion(self, estado):
    return random.choice(self.acciones)

# Uso del agente RL
acciones_posibles = ["arriba", "abajo", "izquierda", "derecha"]
agente = AgenteRL(acciones_posibles)
estado_actual = [0, 0]
accion_seleccionada = agente.seleccionar_accion(estado_actual)
print(f"La acción seleccionada es: {accion_seleccionada}")



La acción seleccionada es: derecha


In [12]:
class EntornoRL:
  def __init__(self, estados):
    self.estados = estados

  def tomar_accion(self, estado, accion): # This method requires two arguments: 'estado' and 'accion'
    nuevo_estado = random.choice(self.estados)
    recompensa = random.uniform(-10, 10)
    return nuevo_estado, recompensa

# Uso entorno RL
estados_posibles = ['A', 'B', 'C', 'D']
entorno = EntornoRL(estados_posibles)
estado_actual = 'A' # Define an initial state
accion = 'izquierda'
nuevo_estado, recompensa = entorno.tomar_accion(estado_actual, accion) # Pass both 'estado_actual' and 'accion' to the method
print("Nuevo estado: ", nuevo_estado)
print("Recompensa: ", recompensa)

Nuevo estado:  A
Recompensa:  0.7642248054939849


In [13]:
class QLearning:
  def __init__(self, estados, acciones, alpha=0.1, gamma=0.9, epsilon=0.1):
    self.estados = estados
    self.acciones = acciones
    self.alpha = alpha
    self.gamma = gamma
    self.epsilon = epsilon
    self.q_table = {}

  def actualizar_q_table(self, estado, accion, recompensa, nuevo_estado):
    if estado not in self.q_table:
      self.q_table[estado] = {a: 0 for a in self.acciones}

    if nuevo_estado not in self.q_table:
      self.q_table[nuevo_estado] = {a: 0 for a in self.acciones}
      self.q_table[nuevo_estado] = {a: 0 for a in self.acciones}

    q_actual = self.q_table[estado_actual][accion]
    max_q_nuevo = max(self.q_table[nuevo_estado].values())
    nuevo_q_valor = q_actual + self.alpha * (recompensa + self.gamma * max_q_nuevo - q_actual)
    self.q_table[estado_actual][accion] = nuevo_q_valor

# Uso del algoritmo Q-Learning
estados = ['A', 'B', 'C', 'D']
acciones = ['izquierda', 'derecha']
q_learning = QLearning(estados, acciones)

# Simulación de una epoca de entrenamiento
estado_actual = 'A'
accion = 'izquierda'
recompensa = 10
nuevo_estado = 'B'
q_learning.actualizar_q_table(estado_actual, accion, recompensa, nuevo_estado)

# Imprimir la tabla Q
print("Tabla Q:")
print(q_learning.q_table)

Tabla Q:
{'A': {'izquierda': 1.0, 'derecha': 0}, 'B': {'izquierda': 0, 'derecha': 0}}


In [14]:
# Proceso de Decisión de Markov (MDP)
import numpy as np
import random

# Defincion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(0, 10, size=(len(estados), len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
    return np.random.choice(estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

# Imprimir resultados
print(f"Estado actual: {estado_actual}")
print(f"Acción: {accion}")
print(f"Nuevo estado: {nuevo_estado}")
print(f"Recompensa: {recompensa}")

Estado actual: B
Acción: Abajo
Nuevo estado: C
Recompensa: 6


In [16]:
# Proceso de Decisión de Markov (MDP)
import numpy as np
import random

# Defincion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(0, 10, size=(len(estados), len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
    return np.random.choice(estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

# Imprimir resultados
print(f"Estado actual: {estado_actual}")
print(f"Acción: {accion}")
print(f"Nuevo estado: {nuevo_estado}")
print(f"Recompensa: {recompensa}")

Estado actual: B
Acción: Abajo
Nuevo estado: B
Recompensa: 6


In [17]:
# Conceptos de MDP
def calcular_valor_estado(mdp, gamma=0.9, theta=0.01):
  valores = {estado: 0 for estado in mdp.estados}
  while True:
    delta = 0
    for estado in mdp.estados:
      valor_previo = valores[estado]
      valores[estado] = sum(mdp.transiciones[estado][accion][nuevo_estado] * (mdp.recompensas[estado][accion][nuevo_estado] + gamma * valores[nuevo_estado]) for accion, in mdp.acciones for nuevo_estado in mdp.estados)
      delta = max(delta, abs(valor_previo - valores[estado]))
    if delta < theta:
      break
  return valores

  # Ejemplo de uso
  valores_estados = calcular_valor_estado(mdp)
  print("Valores de los estados: ", valores_estados)

In [18]:
# Propiedades de Markov
class MDP:
    def __init__(self, estados, acciones, transiciones, recompensas):
        self.estados = estados
        self.acciones = acciones
        self.transiciones = transiciones
        self.recompensas = recompensas


def verificar_propiedad_markov(mdp):
  for estado in mdp.estados:
    for accion in mdp.acciones:
      suma_probabilidades = sum(mdp.transiciones[estado][accion].values())
      if not np.isclose(suma_probabilidades, 1):
        return False
  return True

  # ejemplo de uso
  print (verificar_propiedad_markov(mdp))

transiciones = {
    'A': {'Arriba': {'A': 0.3, 'B': 0.7}, 'Abajo': {'C': 1.0}},
    'B': {'Arriba': {'A': 0.6, 'B': 0.4}, 'Abajo': {'C': 1.0}},
    'C': {'Arriba': {'A': 1.0}, 'Abajo': {'C': 1.0}}
}
recompensas = {
    'A': {'Arriba': {'A': 1, 'B': 2}, 'Abajo': {'C': 3}},
    'B': {'Arriba': {'A': 4, 'B': 5}, 'Abajo': {'C': 6}},
    'C': {'Arriba': {'A': 7}, 'Abajo': {'C': 8}}
}

# Crea un objeto MDP
mdp = MDP(['A', 'B', 'C'], ['Arriba', 'Abajo'], transiciones, recompensas)

if verificar_propiedad_markov(mdp):
  print("El MDP cumple con la propiedad de Markov.")
else:
  print("El MDP no cumple con la propiedad de Markov.")

El MDP cumple con la propiedad de Markov.


In [19]:
# Propiedad de Recompensa
def calcular_recompensa_promedio(mdp):
  recompensa_total = 0
  total_transiciones = 0
  for estado in mdp.estados:
    for accion in mdp.acciones:
      for nuevo_estado in mdp.transiciones[estado][accion]:
        recompensa_total += mdp.transiciones[estado][accion][nuevo_estado] * mdp.recompensas[estado][accion][nuevo_estado]
        total_transiciones += mdp.transiciones[estado][accion][nuevo_estado]
  return recompensa_total / total_transiciones

  # ejemplo de uso
  print ("Recompensa promedio por acción: ", calcular_recompensa_promedio(mdp))

In [20]:
# recompensa promedio por acción
def calcular_recompensa_promedio(mdp):
  recompensa_total = 0
  total_transiciones = 0
  for estado in mdp.estados:
    for accion in mdp.acciones:
      for nuevo_estado in mdp.transiciones[estado][accion]:
        recompensa_total += mdp.transiciones[estado][accion][nuevo_estado] * mdp.recompensas[estado][accion][nuevo_estado]
        total_transiciones += mdp.transiciones[estado][accion][nuevo_estado]
  return recompensa_total / total_transiciones

In [21]:
# 1. Introducción a los principales algoritmos de RL:
# Define el entorno del juego
class Environment:
  def __init__(self):
    self.state_space = [0, 1, 2, 3]
    self.action_space = [0, 1]
    self.rewards = {0: -1, 1: -1, 2: -1, 3: -10}

# Crea una instancia del entorno
env = Environment()

# Muestra información del entorno
print("Estados posibles: ", env.state_space)
print("Acciones posibles: ", env.action_space)
print("Recompensas: ", env.rewards)

Estados posibles:  [0, 1, 2, 3]
Acciones posibles:  [0, 1]
Recompensas:  {0: -1, 1: -1, 2: -1, 3: -10}


In [22]:
# 2. Q-Learning:
import numpy as np

# Inicializa la tabla Q con valores arbitriarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Define los parametros del algoritmo
alpha = 0.1
gamma = 0.9
epsilon = 0.1
# Entrena el agente utilizando Q-learning
for _ in range(1000):
  state = np.random.choice(env.state_space)
  while state != 3:
    action = np.random.choice(env.action_space)
    next_state = state + action
    reward = env.rewards[next_state]
    Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
    state = next_state

# Muestra la función Q-valor aprendida
print("Función Q-valor aprendida: ")
print(Q)

Función Q-valor aprendida: 
[[ -8.87499891  -9.92105503]
 [ -9.9361924   -9.99302418]
 [ -9.99405148 -10.        ]
 [  0.           0.        ]]


In [23]:
# 3. Sarsa
# Reinicia la tabla Q con valores arbitriarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Entrena el agente usando Sarsa
for _ in range(1000):
  state = np.random.choice(env.state_space)
  action = np.random.choice(env.action_space)
  while state != 3:
    next_state = state + action
    next_action = np.random.choice(env.action_space)
    reward = env.rewards[next_state]
    Q[state, action] = Q[state, action] + alpha * (reward + gamma * Q[next_state, next_action] - Q[state, action])
    state = next_state
    action = next_action

# Muestra la función Q-valor aprendida
print("Función Q-valor aprendida: ")
print(Q)

Función Q-valor aprendida: 
[[ -9.99998513 -10.        ]
 [-10.         -10.        ]
 [-10.         -10.        ]
 [  0.           0.        ]]


In [24]:
# 4. Política de Gradiente de Montecarlo
import numpy as np
# Crea una instancia del entorno
env = Environment()
# Inicia la política con probabilidades uniformes
policy = np.ones((len(env.state_space), len(env.action_space))) / len(env.action_space)

max_steps = 1000  # Define el límite máximo de pasos
steps = 0

# Define la función de recompensa promedio
def average_reward(Q):
  return np.mean([Q[state, np.argmax(policy[state])] for state in env.state_space])

# Entrena la política utilizando Gradiente de Montecarlo
for _ in range(1000):
  state = np.random.choice(env.state_space)
  while state != 3 and steps < max_steps:
    action = np.random.choice(env.action_space, p=policy[state])
    next_state = state + action
    reward = env.rewards[next_state]
    gradient = np.zeros_like(policy[state])
    gradient[action] = 1
    alpha = 0.01
    policy[state] += alpha * gradient * (reward - average_reward(Q))
    steps += 1
    # Normalize probabilities to sum to 1
    policy[state] /= np.sum(policy[state]) # Add this line to normalize probabilities
    state = next_state

# Muestra la política aprendida
print("Política aprendida: ")
print(policy)

Política aprendida: 
[[4.39187548e-01 5.60812452e-01]
 [5.46500244e-01 4.53499756e-01]
 [1.00000000e+00 1.88329831e-28]
 [5.00000000e-01 5.00000000e-01]]


In [25]:
# 1: Implementación de Q-Learning en un entorno de gridworld simple
import numpy as np

# Definición del gridworld
gridworld = np.array([
  [-1, -1, -1, 1],
  [-1, -1, -1, -1],
  [-1, -1, -1, -1],
  [-1, -1, -1, -1]
])

# Define las acciones posibles: arriba, abajo, izquierda, derecha
actions = {
  'up': (-1, 0),
  'down': (1, 0),
  'left': (0, -1),
  'right': (0, 1)
}

# Implementación de Q-Learning
Q = np.zeros((gridworld.shape[0], gridworld.shape[1], len(actions))) # Initialize Q-table correctly

gamma = 0.8
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado = (0, 0)
  while estado != (0, 3):
    action_key = np.random.choice(list(actions.keys())) # Choose a random action key
    action = actions[action_key] # Get the action tuple from the dictionary
    nueva_fila = estado[0] + action[0]
    nueva_columna = estado[1] + action[1]
    if 0 <= nueva_fila < gridworld.shape[0] and 0 <= nueva_columna < gridworld.shape[1]:
      recompensa = gridworld[nueva_fila, nueva_columna]
      nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
      action_index = list(actions.keys()).index(action_key) # Get the index of the action
      Q[estado[0], estado[1], action_index] = (1 - alpha) * Q[estado[0], estado[1], action_index] + alpha * nuevo_valor # Update Q-value for the estado-action pair
      estado = (nueva_fila, nueva_columna)

# Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)

Tabla Q-valor aprendida: 
[[[ 0.   -1.    0.   -1.  ]
  [ 0.   -1.8  -1.   -0.2 ]
  [ 0.   -1.16 -1.    1.  ]
  [ 0.    0.    0.    0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.   -1.8  -1.   -1.16]
  [-0.2  -1.8  -1.8  -0.2 ]
  [ 1.   -1.   -1.16  0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.8  -1.   -1.   -1.8 ]
  [-1.16 -1.   -1.8  -1.  ]
  [-0.2  -1.   -1.8   0.  ]]

 [[-1.    0.    0.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.    0.   -1.    0.  ]]]


In [26]:
# Ejercicio 2: Aplicación del Aprendizaje por Refuerzo en juegos
import numpy as np

# Definición de las recompensas
recompensas = {'ganar': 10, 'perder': -1, 'empatar': 0}

# Implementación de Q-Learning para el juego
Q = {}

def q_learning(estado_actual, accion, nuevo_estado, resultado):
  if (estado_actual, accion) not in Q:
    Q[(estado_actual, accion)] = np.zeros(len(acciones))
    if nuevo_estado not in Q:
      Q[nuevo_estado] = np.zeros(len(acciones))
      nuevo_valor = recompensas[resultado] + gamma * np.max(Q[nuevo_estado])
      Q[estado_actual][accion] = (1 - alpha) * Q[estado_actual][accion] + alpha * nuevo_valor

In [27]:
# Ejercicio 3: Aplicación del Aprendizaje por Refuerzo en robótica
import numpy as np

# Definición del entormo de navegación (datos ficticos)
entorno = np.array([
  [0, 0, 0, 0, 0],
  [0, -1, -1, -1, 0],
  [0, 0, -1, 0, 0],
  [0, -1, -1, -1, 0],
  [0, 0, 0, 0, 0]
])

# Definición de acciones posibles arriba, abajo, izquierda, derecha
acciones = {
  'up': (0, -1),
  'down': (0, 1),
  'left': (-1, 0),
  'right': (1, 0)
}

# Implementación de Q-Learning para el entorno de navegación
Q = np.zeros((entorno.shape[0], entorno.shape[1], len(acciones)))

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado = (0, 0)
  while True:
    # Choose a random action key instead of an index
    accion_key = np.random.choice(list(acciones.keys()))
    accion = acciones[accion_key] # Get the action tuple using the key
    nueva_fila = estado[0] + accion[0]
    nueva_columna = estado[1] + accion[1]
    if 0 <= nueva_fila < entorno.shape[0] and 0 <= nueva_columna < entorno.shape[1]:
      recompensa = entorno[nueva_fila, nueva_columna]
      nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
      # Get the index of the action to update the corresponding Q-value
      accion_index = list(acciones.keys()).index(accion_key)
      Q[estado[0], estado[1], accion_index] = (1 - alpha) * Q[estado[0], estado[1], accion_index] + alpha * nuevo_valor
      estado = (nueva_fila, nueva_columna)
      if recompensa == -1:
        break

  # Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)

Tabla Q-valor aprendida: 
[[[ 0.          0.          0.          0.        ]
  [ 0.          0.          0.         -1.        ]
  [ 0.          0.          0.         -0.99999926]
  [ 0.          0.          0.         -0.99753497]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -1.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [-0.61257951  0.          0.          0.        ]]

 [[ 0.          0.          0.          0.        ]
  [ 0.         -0.95760884 -0.96566316 -0.9774716 ]
  [ 0.          0.          0.          0.        ]
  [-0.271       0.          0.         -0.1       ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -0.99030226  0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.  

In [28]:
# Ejercicio 4: Aplicación del Aprendizaje por Refuerzo en gestión de recursos

import numpy as np

# Definición de los estados (niveles de inventario), acciones (ordenes de reabastecimiento) y recompensas (costos, ganancias, etc.)
estados = ['bajo', 'medio', 'alto']
acciones = ['reabastecer', 'no_reabastecer']
recompensas = {
  ('bajo', 'reabastecer'): -50,
  ('bajo', 'no_reabastecer'): -10,
  ('medio', 'reabastecer'): 30,
  ('medio', 'no_reabastecer'): 0,
  ('alto', 'reabastecer'): 10,
  ('alto', 'no_reabastecer'): -20
}

# Implementación de Q-Learning
Q = {}

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado_actual = np.random.choice(estados)
  while True:
    accion = np.random.choice(acciones)
    recompensa = recompensas[(estado_actual, accion)]
    if (estado_actual, accion) not in Q:
      Q[estado_actual] = {}
    if accion not in Q[estado_actual]:
      Q[estado_actual][accion] = 0
      nuevo_estado = np.random.choice(estados)
      max_nuevo_estado = max(Q[nuevo_estado].values()) if nuevo_estado in Q else 0
      Q[estado_actual][accion] += alpha * (recompensa + gamma * max_nuevo_estado - Q[estado_actual][accion])
      estado_actual = nuevo_estado
      if recompensa == 50 or recompensa == 30 or recompensa ==10:
        break

# Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)


Tabla Q-valor aprendida: 
{'alto': {'no_reabastecer': -1.7300000000000002}, 'medio': {'reabastecer': 3.0}, 'bajo': {'reabastecer': -4.91}}
