In [1]:
import numpy as np
import random

In [2]:
# Definición del entorno
n_states = 4  # Número de estados posibles (2 estados por semáforo, por lo que 2*2=4)
n_actions = 2  # Acciones posibles (cambiar estado de semáforos A o B)

# Definición de la tabla Q
Q = np.zeros((n_states, n_actions))

# Parámetros de Q-Learning
gamma = 0.9  # Factor de descuento
alpha = 0.1  # Tasa de aprendizaje
epsilon = 0.1  # Tasa de exploración
num_episodes = 1000

def get_next_state(state, action):
    semaforo_A, semaforo_B = state

    if action == 0:  # Acción: Cambiar el semáforo A
        semaforo_A = 1 - semaforo_A
    else:  # Acción: Cambiar el semáforo B
        semaforo_B = 1 - semaforo_B

    return (semaforo_A, semaforo_B)

def get_reward(state):
    semaforo_A, semaforo_B = state
    if semaforo_A == 1 and semaforo_B == 1:  # Ambos en verde
        return 1
    elif semaforo_A == 0 or semaforo_B == 0:  # Alguno en rojo
        return -1
    else:  # Estados intermedios
        return 0

for episode in range(num_episodes):
    state = (0, 0)  # Estado inicial (ambos semáforos en rojo)
    done = False

    while not done:
        # Selección de acción basada en la política epsilon-greedy
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, n_actions - 1)
        else:
            action = np.argmax(Q[state[0] * 2 + state[1], :])

        next_state = get_next_state(state, action)
        reward = get_reward(next_state)

        # Actualización de la tabla Q
        next_max = np.max(Q[next_state[0] * 2 + next_state[1], :])
        Q[state[0] * 2 + state[1], action] = (1 - alpha) * Q[state[0] * 2 + state[1], action] + alpha * (reward + gamma * next_max)

        state = next_state

        # Terminamos el episodio si llegamos al estado objetivo (opcional)
        if state == (1, 1):
            done = True

print("Tabla Q después del entrenamiento:")
print(Q)

Tabla Q después del entrenamiento:
[[-0.11874013 -0.1       ]
 [ 1.         -1.08455467]
 [-0.45002694  0.99582544]
 [ 0.          0.        ]]
