![](SARSA.png)

- Estado-Acci√≥n-Recompensa-Estado-Acci√≥n

- Aprender la mejor acci√≥n en cada estado.

- SARSA toma en cuenta el esrado actual, como la acci√≥n actual para predecir la pr√≥xima acci√≥n y su recompensa.
- Aprendizaje On policy.

## ¬øQu√© significa esta f√≥rmula?

Es la f√≥rmula de **actualizaci√≥n de Q en SARSA**. A diferencia de Q-learning, que usa el **mejor valor futuro posible**, SARSA actualiza el valor **basado en la acci√≥n realmente tomada** en el siguiente paso.

## Descripci√≥n de cada t√©rmino:

| S√≠mbolo     | Significado                                                                                                                       |
| ----------- | --------------------------------------------------------------------------------------------------------------------------------- |
| `Q(s, a)`   | Valor actual de tomar la acci√≥n `a` en el estado `s`.                                                                             |
| `Œ±` (alfa)  | Tasa de aprendizaje (cu√°nto se ajusta el valor Q actual).                                                                         |
| `r`         | Recompensa inmediata obtenida al hacer `a` desde `s`.                                                                             |
| `Œ≥` (gamma) | Factor de descuento (cu√°nto importa el futuro).                                                                                   |
| `Q(s', a')` | Valor esperado de tomar la **acci√≥n elegida** `a'` en el **nuevo estado** `s'`. **Aqu√≠ est√° la diferencia clave con Q-learning**. |

---

### ¬øQu√© hace SARSA?

> Actualiza la tabla `Q` usando el valor de **la acci√≥n que realmente tom√≥ el agente**, no la mejor posible.

Por eso su nombre:
**S ‚Üí A ‚Üí R ‚Üí S' ‚Üí A'**
(state, action, reward, next state, next action)

## Comparaci√≥n con Q-learning

| Algoritmo  | Usa en la actualizaci√≥n                   |
| ---------- | ----------------------------------------- |
| Q-learning | `max_a' Q(s', a')` (mejor acci√≥n posible) |
| SARSA      | `Q(s', a')` (acci√≥n realmente tomada)     |

### ¬øPor qu√© importa esto?

* **SARSA es m√°s conservador**: aprende de lo que el agente *hizo*, no de lo que *hubiera sido mejor*.
* Esto puede ser √∫til en **entornos donde el riesgo importa** (por ejemplo, evitar colisiones en rob√≥tica).

In [85]:
import numpy as np
import random
import matplotlib.pyplot as plt

In [86]:
dimensiones = (4, 4)
estado_inicial = (0, 0)
estado_final = (3, 3)
acciones = [(0,-1), (0,1), (-1,0), (1,0)]
acciones_simbolos = ['^', 'v', '<', '>']

In [87]:
num_estados = dimensiones[0] * dimensiones[1]
num_acciones = len(acciones)

In [88]:
Q = np.zeros((num_estados, num_acciones))
Q

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

- Alpha: 
  - Factor de la taza de aprendizaje. 
  - Cu√°nto se actualiza el valor Q en cada paso. 
  - Valor bajo es m√°s lento pero m√°s seguro
- Gamma:
  - Factor de descuento. 
  - Determinar la importancia de las recompensas que va a obtener en el futuro.
  - Cercano a 1 hace que las recompensas futuras sean casi tan importantes como las inmediatas, haciendo que el agente considera consecuencias a largo plazo de sus acciones.
  - Valos m√°s bajo, al agente va a valorar m√°s las consecuencias inmediatas.
- Epsilon:
  - Sirve para que el agente no repita siempre las mismas decisiones.
  - Se define la probabilidad de que el agente tome una acci√≥n aleatoria en lugar de que el agente tome una acci√≥n conocida en la tabla Q.
  - Permite que el agente explore el entorno.
- Episodios:
  - Define el n√∫mero total de veces que se va a repetir el proceso de entrenamiento.
  - Empieza con el agente en el estado inicial y termina cuando alcance el objetivo.

In [89]:
alpha = 0.1
gamma = 0.99
epsilon = 0.2
episodios = 1000

In [90]:
def estado_a_indice(estado):
    return estado[0] * dimensiones[1] + estado[1]

In [91]:
def elegir_accion(estado):
    if random.uniform(0,1) < epsilon:
        return random.randint(0, num_acciones-1)
    else:
        return np.argmax(Q[estado_a_indice(estado)])

In [92]:
def aplicar_accion(estado, accion_idx):
    
    accion = acciones[accion_idx]
    
    nuevo_estado = tuple(np.add(estado, accion) % np.array(dimensiones))
    
    if nuevo_estado == estado_final:
        recompensa = 1
    else:
        recompensa = -1
    
    return nuevo_estado, recompensa, nuevo_estado == estado_final

In [93]:
for episodio in range(episodios):

    estado = estado_inicial
    terminado = False
    accion_idx = elegir_accion(estado)

    while not terminado:

        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)

        nuevo_accion_idx = elegir_accion(nuevo_estado)

        indice = estado_a_indice(estado)

        Q[indice, accion_idx] += alpha * (recompensa + gamma * Q[estado_a_indice(nuevo_estado), nuevo_accion_idx] - Q[indice, accion_idx])

        estado, accion_idx = nuevo_estado, nuevo_accion_idx

In [94]:
politica_simbolos = np.empty(dimensiones, dtype="<U2")
politica_simbolos

array([['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', ''],
       ['', '', '', '']], dtype='<U2')

In [95]:
for i in range(dimensiones[0]):
    for j in range(dimensiones[1]):
        estado = (i, j)
        accion_idx = np.argmax(Q[estado_a_indice(estado)])
        politica_simbolos[i, j] = acciones_simbolos[accion_idx]
politica_simbolos

array([['^', 'v', '<', '<'],
       ['>', '>', '<', '<'],
       ['>', 'v', '>', '>'],
       ['^', 'v', 'v', '^']], dtype='<U2')

In [130]:
import numpy as np
import random
import matplotlib.pyplot as plt

# Definici√≥n del entorno: una cuadr√≠cula 4x4
dimensiones = (4, 4)
estado_inicial = (0, 0)
estado_final = (3, 3)

# Acciones posibles: izquierda, derecha, arriba, abajo
acciones = [(0, -1), (0, 1), (-1, 0), (1, 0)]
acciones_simbolos = ['^', 'v', '<', '>']

# N√∫mero total de estados y acciones
num_estados = dimensiones[0] * dimensiones[1]
num_acciones = len(acciones)

# Inicializaci√≥n de la tabla Q con ceros
Q = np.zeros((num_estados, num_acciones))

# Par√°metros de aprendizaje
alpha = 0.1      # tasa de aprendizaje
gamma = 0.99     # factor de descuento
epsilon = 0.2    # probabilidad de explorar
episodios = 1000 # n√∫mero total de episodios de entrenamiento

# Convierte un estado (fila, columna) a un √≠ndice de la tabla Q
def estado_a_indice(estado):
    return estado[0] * dimensiones[1] + estado[1]

# Elige una acci√≥n con pol√≠tica Œµ-greedy (exploraci√≥n/explotaci√≥n)
def elegir_accion(estado):
    if random.uniform(0, 1) < epsilon:
        return random.randint(0, num_acciones - 1)  # acci√≥n aleatoria
    else:
        return np.argmax(Q[estado_a_indice(estado)])  # mejor acci√≥n conocida

# Aplica una acci√≥n al estado actual y devuelve:
# nuevo estado, recompensa obtenida y si el episodio termin√≥
def aplicar_accion(estado, accion_idx):
    accion = acciones[accion_idx]
    nuevo_estado = tuple(np.add(estado, accion) % np.array(dimensiones))  # wrap-around

    # Recompensa +1 si se alcanza el estado objetivo, -1 en otro caso
    if nuevo_estado == estado_final:
        recompensa = 1
    else:
        recompensa = -1

    return nuevo_estado, recompensa, nuevo_estado == estado_final

# Entrenamiento usando SARSA
for episodio in range(episodios):
    estado = estado_inicial
    terminado = False
    accion_idx = elegir_accion(estado)  # elegir acci√≥n inicial

    while not terminado:
        # Aplicar la acci√≥n elegida
        nuevo_estado, recompensa, terminado = aplicar_accion(estado, accion_idx)

        # Elegir siguiente acci√≥n (SARSA aprende de la acci√≥n realmente tomada)
        nuevo_accion_idx = elegir_accion(nuevo_estado)

        # Obtener el √≠ndice del estado actual para acceder a la Q-table
        indice = estado_a_indice(estado)

        # Actualizar Q usando la f√≥rmula de SARSA
        Q[indice, accion_idx] += alpha * (
            recompensa + gamma * Q[estado_a_indice(nuevo_estado), nuevo_accion_idx]
            - Q[indice, accion_idx]
        )

        # Avanzar al nuevo estado y acci√≥n
        estado, accion_idx = nuevo_estado, nuevo_accion_idx


def mostrar_politica_sarsa():
    print("\nPol√≠tica aprendida con SARSA:\n")
    for fila in range(dimensiones[0]):
        linea = ""
        for col in range(dimensiones[1]):
            estado = (fila, col)
            if estado == estado_final:
                linea += " üéØ "  # objetivo
            else:
                idx = estado_a_indice(estado)
                mejor_accion = np.argmax(Q[idx])
                linea += f" {acciones_simbolos[mejor_accion]}  "
        print(linea)

mostrar_politica_sarsa()



Pol√≠tica aprendida con SARSA:

 ^   >   <   <  
 ^   ^   >   >  
 >   >   >   >  
 ^   v   v   üéØ 
