# Exercício 2 - Agente Reativo Simples em Ambiente Completamente Observável

Implemente um novo agente reativo simples, mas agora com a vantagem de conhecer o ambiente (completamente observável). Você deve ser capaz de colocar o agente no seu simulador do exercício anterior e comparar o desempenho seguindo a mesma metodologia do exercício anterior. Compare o desempenho dos dois agentes (o deste exercício e o do anterior) neste simulador. Para o comparativo, alguns critérios do PEAS serão alterados.

- **Medida de Desempenho**: A medida de desempenho oferece o prêmio de um ponto para cada quadrado limpo em cada período de tempo ao longo de uma duração de mil períodos de tempo. Entretanto, diferentemente do exercício anterior, agora penaliza em um ponto qualquer operação de movimento que não seja NoOp e Limpar.
- **Conhecimento a priori**: A geografia do ambiente é conhecida a priori (Figura 2.2), mas a distribuição da sujeira e a posição inicial do agente não são previamente conhecidas. O ambiente para o agente é completamente observável. A aspiração limpa o quadrado atual. As ações esquerda e direita movem o agente para a esquerda e para a direita, exceto quando isso tenta levar o agente para fora do ambiente; nesse caso, o agente permanece onde está. 
- **Ações do agente**: Esquerda, Direita, Limpar e NoOp (fazer nada).
- Percepções: O agente percebe corretamente sua posição e se esta posição contém sujeita.
- **Ambiente**: mundo do aspirador de pó com apenas duas salas. Estas que por sua vez, podem estar limpas ou não conforme o tempo passa. A sujeira pode surgir de modo espontâneo para fins de simulação. 

Agora, implemente um agente reativo simples para este ambiente. Execute o simulador de ambiente com este agente para todas as configuraçoes iniciais possíveis de sujeira e posições do agente. Registre a pontuação  de desempenho dos dois agentes para cada configuração e suas pontuações médias globais.

## Imports
Para começar vamos importar algumas funções que vamos utilizar no código.

In [2]:
import random as r

## Classe: Enviroment
A classe Enviroment vai representar o ambiente, foi criada com a intenção de funcionar para n salas. Nessa classe foram implementadas as funções da criação do próprio ambiente e da criação de sujeira ao longo do tempo.

In [1]:
class Enviroment:
    FLOOR_STATE = {"clean": 0, "dirty": 1}
    
    def __init__ (self, size: int):
        self.rooms = [0] * size
    
    # Função que inicia as salas de maneira randômica.
    def init_randomly(self, dirtyRate: int):
        for i in range(len(self.rooms)):
            if r.randint(0, 100) < dirtyRate:
                self.rooms[i] = Enviroment.FLOOR_STATE["dirty"]
            else:
                self.rooms[i] = Enviroment.FLOOR_STATE["clean"]
    
    # Função que inicia as salas de acordo com o array desejado.
    def init_rooms(self, rooms: list):
        self.rooms = rooms.copy()

    # Função que suja as salas de maneira aleatória(usada no loop para sujar as salas de acordo com o tempo).
    # dirtyRate: Variável que vai de 0 a 100 que representa a porcentagem de chance de sujar cada sala.
    def rand_dirty_rooms (self, dirtyRate: int):
        for i, room in enumerate(self.rooms):
            if(room == Enviroment.FLOOR_STATE["clean"] and r.randint(0, 100) < dirtyRate):
                self.rooms[i] = Enviroment.FLOOR_STATE["dirty"]

## Classe: Agent
A classe agent representará o agente e possui a função que determina como o mesmo irá se comportar dado o ambiente. Ele possui as ações de NoOp(ficar pararo caso bater na parede), limpar(caso a sala que está esteja suja), direita e esquerda(para andar pelas salas).

In [10]:
class Agent:
    ACTIONS = {"NoOp": 0, "clean": 2, "right": 1, "left": -1}
    
    def __init__ (self):
        self.position = None
        
    def initial_position(self, initial_position: int):
        self.position = initial_position
    
    def action (self, env: Enviroment):
        if env.rooms[self.position] == Enviroment.FLOOR_STATE["dirty"]:
            env.rooms[self.position] = Enviroment.FLOOR_STATE["clean"]
            
            return Agent.ACTIONS["clean"]
        
        distance = 0
        
        for i in range(len(env.rooms)):
            if env.rooms[i] == Enviroment.FLOOR_STATE["dirty"]:
                if abs(i - self.position) < abs(distance) or distance == 0:
                    distance = i - self.position
        
        decision = Agent.ACTIONS["right"] if distance > 0 else Agent.ACTIONS["left"] if distance < 0 else Agent.ACTIONS["NoOp"]
            
        self.position += decision
            
        return decision

## Classe: Evaluator
A classe evaluator vai representar a avaliação do agente no ambiente, foi criada com a intenção de funcionar para n passos(quantas iterações necessárias). Nessa classe foi implementada a lógica de pontuação do agente de acordo com suas ações.

In [5]:
class Evaluator:
    def __init__ (self, env: Enviroment, agent: Agent, steps: int, seed: int, dirtyRate: int):
        self.env = env
        self.agent = agent
        self.steps = steps
        r.seed(seed)
        self.dirtyRate = dirtyRate
        self.agent_points = 0
    
    # Função que inicia a simulação
    def execute (self):
        self.agent_points = 0
        for i in range(self.steps):
            # Pontuar o agente de acordo com a sua ação.
            self.evaluate_agent(self.agent.action(self.env))
            # Sujar sala de maneira aleatória.
            self.env.rand_dirty_rooms(self.dirtyRate)
        
        return self.agent_points
    
    # Função que avalia o agente.
    def evaluate_agent (self, action: int):
        if action == Agent.ACTIONS["clean"]:
            self.agent_points += 1
        elif action == Agent.ACTIONS["right"] or action == Agent.ACTIONS["left"]:
            self.agent_points -= 1

## Rodando os testes
Utilizando as classes para criar os testes pedidos para 2 salas.

In [9]:
# Criando as variáveis das classes.
env = Enviroment(2)
agent = Agent()
eval = Evaluator(env, agent, 1000, 123, 30)

# Variáveis que representam os testes.
env_possibilities = [[0, 0], [0, 1], [1, 0], [1, 1]]
agent_possibilities = [0, 1]
result = []

for agent_possibility in agent_possibilities:
    print(f"Agente com posição inicial {agent_possibility}: ")
    for env_possibility in env_possibilities:
        agent.initial_position(agent_possibility)
        env.init_rooms(env_possibility)
        result.append(eval.execute())
        print(f"\tAmbiente inicial: {env_possibility} | Pontuação: {result[-1]}")
    print()
print(f"Média das pontuações: {sum(result)/len(result)}")

Agente com posição inicial 0: 
	Ambiente inicial: [0, 0] | Pontuação: 228
	Ambiente inicial: [0, 1] | Pontuação: 215
	Ambiente inicial: [1, 0] | Pontuação: 211
	Ambiente inicial: [1, 1] | Pontuação: 218

Agente com posição inicial 1: 
	Ambiente inicial: [0, 0] | Pontuação: 217
	Ambiente inicial: [0, 1] | Pontuação: 213
	Ambiente inicial: [1, 0] | Pontuação: 232
	Ambiente inicial: [1, 1] | Pontuação: 216

Média das pontuações: 218.75
