### Task 1

1. ¿Qué es un Markov Decision Process (MDP)?
    a. Una MDP se trata de un tipo de machine learning en el que se quiere aumentar el rendimiento de la máquina. Lo que hacen es tener una recompensa que se conoce como señal de refuerzo para que así el agente sea capaz de tomar decisiones en torno a un ambiente en específico o estocástico. 

2. ¿Cuáles son los componentes principales de un MDP?
    a. Los componentes principales de un MDP son:
        - Estados, acciones, función de transición, recompensa y política.

3. ¿Cuál es el objetivo principal del aprendizaje por refuerzo con MDPs?
    a. El objetivo principal se trata acerca de que el agente explore distintas situaciones y que en base al ambiente o entorno en el que se encuentre, haga que la recompensa sea siempre mayor y mejor optimizada.

GeeksforGeeks. (2018, January 4). Markov Decision Process. GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/markov-decision-process/

### Task 2

In [None]:
class MDP():
    def __init__(self):
        self.states = self.getStates()
        self.actions = self.getActions()
        self.map = self.getMap()
        self.transitions = self.getTransitions()

        self.rewards = self.getRewards()
        self.policy = self.getPolicy()
    
    def simulatePolicy(self,steps, initialState=0):
        rewardAcc = 0
        estado = initialState
        for _ in range(steps):
            action = self.policy[estado]
            sPrime = self.transitions[estado][action]
            reward = self.rewards[estado][action][sPrime]
            
            rewardAcc += reward
            estado = sPrime
            
            if estado == 2:  # Si el robot alcanza la meta (G), terminamos la simulación
                break
        return rewardAcc
    
    def getStates(self):
        states = [i for i in range(9)]
        return states

    def getMapSymbol(self,pos):
        return self.map[pos]

    def getRewards(self):
        rewards = {}
        for i in self.states:
            rewards[i] = {}
            for j in self.actions:
                sPrime = self.transitions[i][j]
                if self.getMapSymbol(sPrime) == 'G':
                    rewards[i][j] = {sPrime: 1}
                elif self.getMapSymbol(sPrime) == 'X':
                    rewards[i][j] = {sPrime: -1}
                else:
                    rewards[i][j] = {sPrime: 0}
        return rewards
                
    def getPolicy(self):
        policy = {}
        for i in self.states:
            if i <3:
                policy[i] = 'derecha'
            else:
                policy[i] = 'arriba'
        return policy
    
    def checkPosition(self, state, action):
        indexState = self.states.index(state)
        if action=='arriba':
            if (indexState-3) < 0:
                return indexState
            else:
                return indexState-3
        elif action == 'abajo':
            if (indexState+3) > len(self.states)-1:
                return indexState
            else:
                return indexState+3
        elif action=='izquierda':
            if (indexState%3)== 0 :
                return indexState
            else:
                return indexState-1
        elif action=='derecha':
            if (indexState%3)== 2:
                return indexState
            else:
                return indexState+1
        
    def getTransitions(self):
        p = {}
        for i in self.states:
            p[i] = {}
            for j in self.actions:
                p[i][j] = self.checkPosition(i, j)
        return p
    
    def getMap(self):
        map = ['S', ' ', 'G',
               ' ', 'X', ' ',
               ' ', ' ', 'X']
        return map

    def getActions(self):
        actions = ['arriba', 'abajo', 'izquierda', 'derecha']
        return actions



In [18]:
def evaluatePolicy(mdp, steps, simulations):
    markovProcess = mdp
    rewards = []
    
    for _ in range(simulations):
        reward = markovProcess.simulatePolicy(steps)
        rewards.append(reward)
    return sum(rewards)/simulations
    

In [20]:
markov = MDP()

for key, value in markov.transitions.items():
    print(key, value)
    
print()
print(markov.policy)
print()
for key, value in markov.rewards.items():
    print(key,value)

print()
print('Reward: ', markov.simulatePolicy(10))

print()
print('Average accumlated reward', evaluatePolicy(markov, 10, 100))

0 {'arriba': 0, 'abajo': 3, 'izquierda': 0, 'derecha': 1}
1 {'arriba': 1, 'abajo': 4, 'izquierda': 0, 'derecha': 2}
2 {'arriba': 2, 'abajo': 5, 'izquierda': 1, 'derecha': 2}
3 {'arriba': 0, 'abajo': 6, 'izquierda': 3, 'derecha': 4}
4 {'arriba': 1, 'abajo': 7, 'izquierda': 3, 'derecha': 5}
5 {'arriba': 2, 'abajo': 8, 'izquierda': 4, 'derecha': 5}
6 {'arriba': 3, 'abajo': 6, 'izquierda': 6, 'derecha': 7}
7 {'arriba': 4, 'abajo': 7, 'izquierda': 6, 'derecha': 8}
8 {'arriba': 5, 'abajo': 8, 'izquierda': 7, 'derecha': 8}

{0: 'derecha', 1: 'derecha', 2: 'derecha', 3: 'arriba', 4: 'arriba', 5: 'arriba', 6: 'arriba', 7: 'arriba', 8: 'arriba'}

0 {'arriba': {0: 0}, 'abajo': {3: 0}, 'izquierda': {0: 0}, 'derecha': {1: 0}}
1 {'arriba': {1: 0}, 'abajo': {4: -1}, 'izquierda': {0: 0}, 'derecha': {2: 1}}
2 {'arriba': {2: 1}, 'abajo': {5: 0}, 'izquierda': {1: 0}, 'derecha': {2: 1}}
3 {'arriba': {0: 0}, 'abajo': {6: 0}, 'izquierda': {3: 0}, 'derecha': {4: -1}}
4 {'arriba': {1: 0}, 'abajo': {7: 0}, 'iz