In [2]:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
import pickle

In [3]:
def save_q_table(q, filename):
    with open(filename, 'w') as f:
        for i in range(q.shape[0]):
            for j in range(q.shape[1]):
                f.write(f"state({i},{j}): {q[i, j]}\n")

$$
Q(s,a)=Q(s,a)+α(recompensa+γmaxQ(s′,a′)−Q(s,a))
$$

Donde:

- $Q(s,a)Q(s, a)Q(s,a)$ es el valor Q actual para el estado $sss$ y la acción $α$.
- $α$ es la tasa de aprendizaje incremental.
- $γ$\gammaγ es el factor de descuento (considera las recompensas futuras).
- $max⁡Q(s′,a′)\max Q(s', a')maxQ(s′,a′)$ es el valor máximo esperado para el siguiente estado s′s's′ y todas las acciones a′a'a′.

In [4]:
def run(episodes, is_training=True, render=False, epsilon=0.1):
    env = gym.make('Taxi-v3', render_mode='human' if render else None)

    if is_training:
        q = np.zeros((env.observation_space.n, env.action_space.n))
        visit_count = np.zeros_like(q)  # Contador de visitas para la implementación incremental
    else:
        with open('taxi.pkl', 'rb') as f:
            q = pickle.load(f)
        visit_count = np.zeros_like(q)

    discount_factor_g = 0.9
    rng = np.random.default_rng()

    rewards_per_episode = np.zeros(episodes)

    for i in range(episodes):
        state = env.reset()[0]

        terminated = False
        truncated = False
        rewards = 0

        while not terminated and not truncated:
            if is_training:
                # Selección de acción utilizando epsilon-greedy
                if rng.random() < epsilon:
                    action = env.action_space.sample()
                else:
                    action = np.argmax(q[state, :])
            else:
                action = np.argmax(q[state, :])

            new_state, reward, terminated, truncated, _ = env.step(action)
            rewards += reward

            if is_training:
                visit_count[state, action] += 1  # Incrementar el contador de visitas
                alpha = 1 / visit_count[state, action]  # Tasa de aprendizaje incremental

                # Actualización de Q usando la fórmula de acción-valor incremental
                q[state, action] += alpha * (
                    reward + discount_factor_g * np.max(q[new_state, :]) - q[state, action]
                )

            state = new_state

        epsilon = max(epsilon - 0.0001, 0)
        rewards_per_episode[i] = rewards

        if (i + 1) % 50 == 0:
            print(f'Episodio: {i + 1} - Recompensa: {rewards_per_episode[i]}')

    env.close()

    # Guardar la tabla Q final en un archivo de texto
    save_q_table(q, 'C:/Users/Manuel/Desktop/Septimo Semestre/Inteligencia Artificial/Laboratorios/Lab7/Juego_Taxi🕹️🚗/2/q_table.txt')

    if is_training:
        with open("taxi.pkl", "wb") as f:
            pickle.dump(q, f)

In [5]:
if __name__ == '__main__':
    run(15000, is_training=True, render=False, epsilon=0.1)  # Primero entrena el modelo
    run(6, is_training=False, render=True, epsilon=0.1)  # Luego usa el modelo entrenado con renderización


Episodio: 50 - Recompensa: -254.0
Episodio: 100 - Recompensa: -48.0
Episodio: 150 - Recompensa: -24.0
Episodio: 200 - Recompensa: -17.0
Episodio: 250 - Recompensa: -38.0
Episodio: 300 - Recompensa: -103.0
Episodio: 350 - Recompensa: -182.0
Episodio: 400 - Recompensa: -57.0
Episodio: 450 - Recompensa: 12.0
Episodio: 500 - Recompensa: 2.0
Episodio: 550 - Recompensa: -26.0
Episodio: 600 - Recompensa: -30.0
Episodio: 650 - Recompensa: -37.0
Episodio: 700 - Recompensa: 7.0
Episodio: 750 - Recompensa: -34.0
Episodio: 800 - Recompensa: -58.0
Episodio: 850 - Recompensa: 0.0
Episodio: 900 - Recompensa: 6.0
Episodio: 950 - Recompensa: -64.0
Episodio: 1000 - Recompensa: -33.0
Episodio: 1050 - Recompensa: -49.0
Episodio: 1100 - Recompensa: -79.0
Episodio: 1150 - Recompensa: -90.0
Episodio: 1200 - Recompensa: -25.0
Episodio: 1250 - Recompensa: -18.0
Episodio: 1300 - Recompensa: -71.0
Episodio: 1350 - Recompensa: -30.0
Episodio: 1400 - Recompensa: -45.0
Episodio: 1450 - Recompensa: 12.0
Episodio: 15

: 