#Esta es la versión estocastoca del problema del robot limpiador

In [62]:


## Resumen de Modelos de RL Model-Based Estocásticos
El aprendizaje por refuerzo (RL), los modelos **model-based** utilizan una representación explícita de la dinámica del entorno para planificar y tomar decisiones. Cuando el entorno es **estocástico**, las transiciones entre estados no son deterministas, sino que están gobernadas por probabilidades.

### Características principales

- **Modelo de transición**: Define la probabilidad de pasar de un estado a otro dado una acción, es decir, \( P(s'|s, a) \).
- **Modelo de recompensa**: Especifica la recompensa esperada al tomar una acción en un estado, \( R(s, a, s') \).
- **Planificación**: Se utilizan algoritmos como Value Iteration o Policy Iteration para calcular la política óptima usando el modelo aprendido o conocido.

### Ejemplos de algoritmos

- **Value Iteration Estocástico**: Actualiza los valores de los estados considerando la expectativa sobre todas las posibles transiciones.
- **Policy Iteration Estocástico**: Alterna entre evaluar la política actual y mejorarla, considerando la naturaleza probabilística de las transiciones.
- **Q-Iteration Estocástico**: Extiende la iteración Q al caso donde las transiciones y recompensas son probabilísticas.

### Ventajas

- Permiten planificar a futuro considerando la incertidumbre del entorno.
- Pueden adaptarse a cambios en la dinámica si el modelo se aprende en línea.

### Desventajas

- Requieren conocer o aprender el modelo de transición y recompensa.
- El cálculo puede ser costoso en entornos con muchos estados o acciones.

### Aplicaciones

- Robótica móvil en ambientes inciertos.
- Juegos y simulaciones donde las acciones tienen resultados probabilísticos.
- Toma de decisiones en sistemas dinámicos complejos.

---

SyntaxError: invalid syntax (2231656779.py, line 2)

In [55]:
class enviroment():
    def __init__(self):
        """Esta clase cre el ambiente del robot movil 

        * self.numeroDeEstados -> Numero de estados
        * self.acciones -> Acciones permitidas por el robot
        * self.numeroDeAcciones -> Numero de acciones permitidas por el robot 

        """
        self.numeroDeEstados=6 #Numero de estados para el problema del robot
        self.acciones=[-1,1] #Accciones del problema del robot
        self.numeroDeAcciones=len(self.acciones) #Numero de acciones
        self.cambios = [1, 0, -1]  # S+1, S+0, S-1
        self.probabilidades = [0.8, 0.15, 0.05]  # 80%, 5%, 15%
        self.Dinamica_delrobot_limpiador_estocastico=[[1.00,0.00,0.00,0.00,0.00,0.00],
                                                      [0.80,0.15,0.05,0.00,0.00,0.00],
                                                      [0.00,0.80,0.15,0.05,0.00,0.00],
                                                      [0.00,0.00,0.80,0.15,0.05,0.00],
                                                      [0.00,0.00,0.00,0.80,0.15,0.05],
                                                      [0.00,0.00,0.00,0.00,0.00,1.00],
                                                      [1.00,0.00,0.00,0.00,0.00,0.00],
                                                      [0.05,0.15,0.80,0.00,0.00,0.00],
                                                      [0.00,0.05,0.15,0.80,0.00,0.00],
                                                      [0.00,0.00,0.05,0.15,0.80,0.00],
                                                      [0.00,0.00,0.00,0.05,0.15,0.80],
                                                      [0.00,0.00,0.00,0.00,0.00,1.00]]
    def reset(self):
        """Esta función resetea el robot a la posición inicial, se recomienda utilizar justo depues de inicializar el ambiente 
            ejemplo enviroment=enviroment() --> inicia el ambiente
        *self.current_state: 3, Estado actual del robot, al utiizar reset el estado del robot regresa a 3 independientemente de donde este
                                por ejemplo enviroment.reset() --> resetea al estado 3
        * terminado: False, indica que un episodio ha terminado
        * truncate: False, indica que el agente ha llegado a un punto en donde no puede avanzar y hay que terminar el estado el espisodio 
        """
        self.current_state=3
        recompensa=0
        self.terminado=False
        self.Truncado=False
        self.informacion="El robot ha empezado"
        return self.current_state, recompensa, self.terminado, self.Truncado 
    def step(self,action: int):
        """Este metodo contiene las dinamicas del ambiente

        Args:
            action (int): contiene la acción del robot, puede ser -1 o 1

        Returns:
            _int, float, bool, bool_: Estado actual, recompensa, si termino, o quedo estancado 
        """
        #RECOMPENSA------------------------------------------
        recompensa=self.reward(action)
        #----------------------------------------------------
        #CAMBIO DE ESTADO------------------------------------
        if 1<=self.current_state  and self.current_state<=4:
            #Implementación elegante de la aleatoriedad
            cambio = random.choices(self.cambios, weights=self.probabilidades)[0]
            #----------------------------------------
            self.current_state+=action#*cambio
        return self.current_state, recompensa, self.terminado, self.Truncado 

    def reward(self,stocastic_state):
        """Genera la recompensa del agente al tomar la acción a_i en un estado s_i

        Args:
            action (_lista_): [-1,1] 

        Returns:
            _float_: _retorna la recomepensa_
        """
        #RECOMPENSA DETERMINISTICA------------------------------------------
        """recompensa=0
        if self.current_state==4 and action==1:
            recompensa=5
            self.terminado=True
        if self.current_state==1 and action==-1:
            recompensa=1
            self.Truncado=True """
        #----------------------------------------------------
        #RECOMPENSA ESTOCASTICA------------------------------
        recompensa=0
        if self.current_state!=5 and stocastic_state==5:
            recompensa=5
            self.terminado=True
        if self.current_state!=0 and stocastic_state==0:
            recompensa=1
            self.Truncado=True
        return recompensa

class Qiteration():
    """_Se encarga de realizar la iteración Q para el caso deterministico del robot limpiador_
    """
    def __init__(self,env,numeroDeEstados: int,numeroDeAcciones: int):
        """_Inicializa la iteración Q_

        Args:
            env (_class_): _Ambiente con las dinamicas de Transición _
            numeroDeEstados (int): _Numero de estados_
            numeroDeAcciones (int): _Numero de acciones_
        """
        self.env=env
        self.matriz_estado_accion=np.zeros((numeroDeEstados,numeroDeAcciones))
        self.matriz_estado_accion_estocastico=np.zeros((numeroDeEstados,numeroDeAcciones))
        self.gamma=0.5
        
    def Qupdate(self,estado,accion,vervose=False):
        """_Actualiza la función Q con la ecuación de Bellman_

        Args:
            estado (_int_): _estado actual del agente_
            accion (_type_): _acción tomada en el estado actual_
            vervose (bool, optional): _permite imprimit información del estado acción para saber lo que el agente esta haciendo_. Defaults to False.

        Returns:
            _type_: _La función Q descrita como matriz_
        """
        _, recompensa, terminado, Truncado =self.env.reset() #<-- Se resetea el ambiente al estado s=3
        self.env.current_state=estado #<-- Se cambia el estado al estado decidido fuera de la funcion "pueders 1,2,3..."
        current_state_1, recompensa, terminado, Truncado=self.env.step(accion)#"<---- Con el estado cambiado se realiza la acción a"
        if vervose==True:
            print("Estado antes de accion")
            print(estado)
            print("La acción tomada es !!!!!")
            print(accion)
            print("estado actual ************")
            print(current_state_1)
            print("Current Q value")
            print(self.matriz_estado_accion[current_state_1][0])
            print(self.matriz_estado_accion[current_state_1][1])
            print("Current max value")
            print(max(self.matriz_estado_accion[current_state_1][0],self.matriz_estado_accion[current_state_1][1]  ) )
            print("Recompensa!!!!!!!!!")
            print(recompensa)
        
        Q_estocastico=0.0# Iniciamos el estado estocastico varia de 0-5
        self.env.current_state=estado #Como se realizo una transición en la aprte superior para provar funcionamiento de .step() se reinicia el estado actual al "estado"
        for estado_estocastico in range(self.env.numeroDeEstados):#--> Inicio del ciclo for
            filaDeDinamicaEstadoAccion=estado+3*accion+3 #--> Dertemina la fila adecuada de la matriz self.Dinamica_delrobot_limpiador_estocastico
            recompensa=self.env.reward(estado_estocastico)#--> Aquí la recomensa depende del estado actual y la intención de estado el "estado estocastico" y NO del estadp acción
            Probabilidad_ocurrencia=self.env.Dinamica_delrobot_limpiador_estocastico[filaDeDinamicaEstadoAccion][estado_estocastico] #--->Determina la probabilidad de ocurrencia
            Q_estocastico+=Probabilidad_ocurrencia*(recompensa+self.gamma*max(self.matriz_estado_accion_estocastico[estado_estocastico][0],self.matriz_estado_accion_estocastico[estado_estocastico][1]) )#Determina la actualización del valor Q 
            accion_to_index=int(0.5*accion+0.5)#Encuentra el index al que correponde colocar el valor actualizado de Q
            self.matriz_estado_accion_estocastico[estado][accion_to_index]=Q_estocastico#Actualizamos "self.matriz_estado_accion_estocastico"
        
        return self.matriz_estado_accion_estocastico
    

In [48]:
"""Este codigo contiene la iteración principal 
"""
env=enviroment()
Q=Qiteration(env,env.numeroDeEstados,env.numeroDeAcciones)


for k in range(22):
    for i in range(6):
        for j in range(2):
            estado=i
            accion=env.acciones[j]
            Q_state_action_matriz=Q.Qupdate(estado,accion,vervose=False)
    print("Q-iteratio")
    print(k)
    print(Q_state_action_matriz)


Q-iteratio
0
[[0.         0.        ]
 [0.86       0.1145    ]
 [0.3698     0.049235  ]
 [0.159014   0.02117105]
 [0.31837602 4.02785355]
 [0.         0.        ]]
Q-iteratio
1
[[0.         0.        ]
 [0.869245   0.26311338]
 [0.3777507  0.11366803]
 [0.26312914 1.64031987]
 [1.20821697 4.13162427]
 [0.         0.        ]]
Q-iteratio
2
[[0.         0.        ]
 [0.86944377 0.26630856]
 [0.41486882 0.7089792 ]
 [0.50990628 1.70861716]
 [1.24331868 4.13596433]
 [0.         0.        ]]
Q-iteratio
3
[[0.         0.        ]
 [0.87772448 0.39942102]
 [0.44697866 0.73891338]
 [0.52711075 1.71239187]
 [1.24515407 4.13619635]
 [0.         0.        ]]
Q-iteratio
4
[[0.         0.        ]
 [0.87847283 0.41145081]
 [0.44961743 0.74063988]
 [0.52809025 1.71260131]
 [1.24525525 4.13620918]
 [0.         0.        ]]
Q-iteratio
5
[[0.         0.        ]
 [0.878516   0.41214465]
 [0.44976942 0.74073613]
 [0.52814478 1.71261293]
 [1.24526086 4.13620989]
 [0.         0.        ]]
Q-iteratio
6
[[0

0
