# Aplicações de IA na robótica

In [36]:
import numpy as np

## Aluno: Augusto Mathias Adams

## Problema 

Suponha que um veı́culo espacial em Marte está em busca de amostras especı́ficas de solo, e que o mesmo possui 6 posições (estados) possı́veis, conforme ilustrado abaixo.

| Estado     | 1  | 2 | 3 | 4 | 5 | 6  |
|------------|----|---|---|---|---|----|
| Recompensa | 100| 0 | 0 | 0 | 0 | 40 |

A figura acima também mostra em vermelho a recompensa associada a cada estado. Os estados 1 e 6 representam amostras de solo de interesse cientı́fico.
**OBS:** Considere que os estados 1 e 6 são terminais. Ou seja, considere que, ao atingir qualquer um desses dois estados, independentemente da ação praticada, é decretado “fim de jogo”. Nesse contexto, por exemplo, isso pode significar que o robô terá que repousar para recarregar sua bateria.

In [37]:
def computar_recompensa(lbda, recompensas, passos, passo_atual):
    """
        Computa a recompensa dada considerando a série de passos dada pelo robô
        Args:
            lbda (float): penalização das recompensas futuras
            recomensas (ndarray): lista de recompensas para cada estado
            passos (ndarray): lista de passos (esquerda, direita) dados pelo robô
            passo_atual (int): posição atual do robô
        Returns:
            reward (float): a recompensa obtida pela trajetória
    """
    reward = recompensas[passo_atual - 1]
    passo = passo_atual
    for i in range(1, len(passos)+1):
        passo += passos[i-1]
        reward += (lbda ** i) * recompensas[passo-1]
    return reward

recompensas = np.array([100,0,0,0,0,40])


## Questão 1:
Partindo do estado inicial 4 e considerando um fator de desconto $\gamma = 0.9$, note que o Retorno obtido pelo robô caso o mesmo decida andar sempre para a esquerda ($\Leftarrow$) será de 72.9 pontos. Escolha a alternativa que representa o cálculo correto deste valor.

In [38]:
lbda = 0.9
passo_atual = 4
passos = np.array([-1,-1,-1])
recompensa = computar_recompensa(lbda, recompensas, passos, passo_atual)
print(f"Recompensa por caminhar para a esquerda: {recompensa:.2f}")

Recompensa por caminhar para a esquerda: 72.90


### Resposta: Letra A

## Questão 2:
Partindo do estado inicial 4 e considerando um fator de desconto $\gamma = 0.9$, note que o Retorno obtido pelo robô caso o mesmo decida andar sempre para a direira ($\Rightarrow$) será de 32.4 pontos. Escolha a alternativa que representa o cálculo correto deste valor.

In [39]:
passos = np.array([1,1])
recompensa = computar_recompensa(lbda, recompensas, passos, passo_atual)
print(f"Recompensa por caminhar para a direita: {recompensa:.2f}")

Recompensa por caminhar para a direita: 32.40


### Resposta: Letra B

## Questão 3:

Comparando os valores de Retorno obtidos nas questões 1 e 2 (que considera $\gamma = 0.9$), qual é a melhor sequência de ações a ser praticada pelo robô?

### Resposta: Caminhar para a esquerda - Letra A

## Questão 4:

Partindo do estado inicial 4 e considerando um fator de desconto $\gamma = 0.3$, note que o Retorno obtido pelo robô caso o mesmo decida andar sempre para a esquerda ($\Leftarrow$) será de 2.7 pontos. Escolha a alternativa que representa o cálculo correto deste valor.

In [40]:
lbda = 0.3
passos = np.array([-1,-1,-1])
recompensa = computar_recompensa(lbda, recompensas, passos, passo_atual)
print(f"Recompensa por caminhar para a esquerda: {recompensa:.2f}")

Recompensa por caminhar para a esquerda: 2.70


### Resposta: Letra A

## Questão 5:
Partindo do estado inicial 4 e considerando um fator de desconto $\gamma = 0.3$, note que o Retorno obtido pelo robô caso o mesmo decida andar sempre para a direita ($\Rightarrow$) será de 3.6 pontos. Escolha a alternativa que representa o cálculo correto deste valor.

In [41]:
passos = np.array([1,1])
recompensa = computar_recompensa(lbda, recompensas, passos, passo_atual)
print(f"Recompensa por caminhar para a direita: {recompensa:.2f}")

Recompensa por caminhar para a direita: 3.60


### Resposta: Letra B

## Questão 6:

Comparando os valores de Retorno obtidos nas questões 4 e 5 (que considera $\gamma = 0.3$), qual é a melhor sequência de ações a ser praticada pelo robô?

### Resposta: Caminhar para a direita - Letra B

O robô impaciente