# Modelo de Agente Aspirador de Pó Aleatório em 4 Lugares

-----------------------------------------------------------------
Trabalho desenvolvido por Ayron Sanfra e Thainara Rocha

------------------------------------------------------------------

O modelo de agente aspirador de pó aleatório em 4 lugares é um modelo simples de aprendizado por reforço que pode ser usado para limpar um ambiente de 4x4 quadrados. O agente é inicializado no centro do ambiente e, a cada iteração do loop principal, move-se para uma posição aleatória. Se a posição for suja, o agente limpa-a. O processo continua até que todos os quadrados estejam limpos.

**Definição do Ambiente**

O ambiente é definido pelas seguintes variáveis:

* `size`: O tamanho do ambiente.
* `actions`: As ações possíveis que o agente pode realizar.
* `agent_pos`: A posição atual do agente no ambiente.
* `state`: O estado atual do ambiente.

O tamanho do ambiente é definido na variável `size`. As ações possíveis são definidas na variável `actions`. O agente é inicializado no centro do ambiente, na posição `[size // 2, size // 2]`. O estado do ambiente é inicializado como uma matriz de 4x4, onde 0 representa um quadrado sujo e 1 representa um quadrado limpo.

**Loop Principal**

O loop principal executa as seguintes etapas repetidamente:

1. Gera uma ação aleatória.
2. Atualiza a posição do agente com base na ação gerada.
3. Atualiza o estado do ambiente com base na posição atualizada do agente.
4. Imprime o estado do ambiente.

**Gerar uma Ação Aleatória**

A função `generate_random_action()` é usada para gerar uma ação aleatória. A função retorna uma das ações possíveis, `"up"`, `"down"`, `"left"` ou `"right"`.

**Atualizar a Posição do Agente**

A função `update_state()` é usada para atualizar a posição do agente. A função recebe a posição atual do agente e a ação gerada. A função usa a ação para determinar a direção em que o agente deve se mover.

Por exemplo, se a ação for `"up"`, a função atualizará a posição do agente para `[agent_pos[0], agent_pos[1] - 1]`.

**Atualizar o Estado do Ambiente**

A função `update_state()` também é usada para atualizar o estado do ambiente. A função usa a posição atualizada do agente para determinar se o quadrado em que o agente está localizado está sujo ou limpo.

Se o quadrado estiver sujo, a função atualizará o estado do ambiente para 1. Se o quadrado estiver limpo, a função não fará nenhuma alteração no estado do ambiente.

**Imprimir o Estado do Ambiente**

A função `print()` é usada para imprimir o estado do ambiente. A função imprime a matriz de estado como uma string.

**Verificação de Conclusão**

A condição de parada do loop principal é verificada na linha 47. Se todos os quadrados do ambiente estiverem limpos, a variável `all_clean` será `True` e o loop será encerrado.

**Conclusão**

O modelo de agente aspirador de pó aleatório em 4 lugares é um modelo simples e eficiente que pode ser usado para limpar um ambiente pequeno. O modelo pode ser estendido para ambientes maiores ou mais complexos adicionando mais ações, como virar ou mover para trás.

In [7]:
import random

# Define o tamanho do ambiente
size = 4

# Define as ações possíveis
actions = ["up", "down", "left", "right"]

# Inicializa o agente no centro do ambiente
agent_pos = [size // 2, size // 2]

# Inicializa o estado do ambiente
state = [
    [0, 0, 0, 0],
    [0, 0, 0, 0],
    [0, 0, 0, 0],
    [0, 0, 0, 0],
]

def update_state(state, action):
    # Update agent position with boundary checks
    if action == "up":
        if agent_pos[1] > 0:
            agent_pos[1] -= 1
    elif action == "down":
        if agent_pos[1] < size - 1:
            agent_pos[1] += 1
    elif action == "left":
        if agent_pos[0] > 0:
            agent_pos[0] -= 1
    elif action == "right":
        if agent_pos[0] < size - 1:
            agent_pos[0] += 1

    # Update state based on valid position
    if 0 <= agent_pos[0] < size and 0 <= agent_pos[1] < size:
        state[agent_pos[0]][agent_pos[1]] = 1

    return state


def generate_random_action():
    while True:
        action = random.choice(actions)
        # Ensure action stays within boundaries
        if (action == "up" and agent_pos[1] > 0) or \
            (action == "down" and agent_pos[1] < size - 1) or \
            (action == "left" and agent_pos[0] > 0) or \
            (action == "right" and agent_pos[0] < size - 1):
            return action


# Loop principal
while True:
    # Gera uma ação aleatória
    action = generate_random_action()

    # Atualiza o estado do ambiente
    state = update_state(state, action)

    # Imprime o estado do ambiente
    print(state)

    # Verifica se todos os quadrados estão limpos
    all_clean = True
    for i in range(size):
        for j in range(size):
            if state[i][j] == 0:
                all_clean = False
                break

    # Se todos os quadrados estiverem limpos, saia do loop
    if all_clean:
        break


[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 0]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 0], [0, 0, 1, 0]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 0], [0, 0, 1, 0]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 0], [0, 0, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [0, 0, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [0, 0, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [0, 0, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [0, 1, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [0, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 0, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 1, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 1, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 1, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 1, 0, 0], [1, 1, 1, 1], [1, 1, 1, 1]]
[[0, 0, 0, 0], [0, 1, 0, 0], [1