## Making MDPs in Python

For the simple environments, we can just hardcode the MDPs into a dictionary by exhaustively encoding the whole state space and the transition function. We will also go through a more complicated example where the state space is too large to be manually coded and we need to implement the transition function based on some state parameters.

You can start this assignment during/after reading Grokking Ch-2.

NOTE: all page numbers referred to in this ipynb notebook refer to Grokking textbook

## Environment 0 - Bandit Walk

Let us consider the BW environment on Page 39. 

State Space has 3 elements, states 0, 1 and 2.
States 0 and 2 are terminal states and state 1 is the starting state.

Action space has 2 elements, left and right.

The environment is deterministic - transition probability of any action is 1.

Only 1 (State, Action, State') tuple has positive reward, (1, Right, 2) gives the agent +1 reward.

We'll model this MDP as a dictionary. This code is an example for the upcoming exercises.

In [11]:
bw_mdp = {

    0 : {
        "Right" : [(1, 0, 0, True)],
        "Left" : [(1, 0, 0, True)]
    },

    1 : {
        "Right" : [(1, 2, 1, True)],
        "Left" : [(1, 0, 0, True)]
    },

    2 : {
        "Right" : [(1, 2, 0, True)],
        "Left" : [(1, 2, 0, True)]
    }
    
}

Here we a dictionary bw_mdp which to get the transitions possible we can do bw_mdp\[current state\]\[action to take\]. this will return a list of the possibilities.

The format of each element within the list is   
(probability of that transition , next state , reward , 'is the next state a terminal state?')

Obviously make sure that the sum of probability of all possible transitions is 1

Note that by convention, all actions from terminal states still lead to the same state with reward 0.

## Environment 1 - Slippery Walk

Here, states 0 and 6 are terminal states and state 3 is the starting state.

Action space has again 2 elements, left and right.

The environment is now stochastic, transition probability of any action is as follows -
If agent chooses `Right` at a non-terminal state,
- $50\%$ times it will go to `Right` state
- $33\frac{1}{3} \%$ times it will stay in same state
- $16\frac{2}{3}\%$ times it will go to `Left`state

And similiarly vice versa for Left(just replace left with right and right with left in previous list)

This time, 2 different (State, Action, State') tuples have positive rewards, you need to find them.

We'll again model this MDP as a dictionary. Part of the code is written for you.

In [12]:
swf_mdp = {

    0 : {
        "Right" : [(1, 0, 0, True)],
        "Left" : [(1, 0, 0, True)],
    },

    1 : {
        "Right" : [
            (1/2, 2, 0, False),
            (1/3, 1, 0, False),
            (1/6, 0, 0, True),
        ],
        "Left" : [
            (1/2,0,0,True),
            (1/3,1,0,False),
            (1/6,2,0,False),
        ]
    }, 
    2 : {
        "Right":[
            (1/2,3,0,False),
            (1/3,2,0,False),
            (1/6,1,0,False),],
        "Left":[
            (1/2,1,0,False),
            (1/3,2,0,False),
            (1/6,3,0,False),]
                 
    },
    3 :{
        "Right":[
            (1/2,4,0,False),
            (1/3,3,0,False),
            (1/6,2,0,False),],
        "Left":[
            (1/2,2,0,False),
            (1/3,3,0,False),
            (1/6,4,0,False),]
                 
    } ,
    4 : {
        "Right":[
            (1/2,5,0,False),
            (1/3,4,0,False),
            (1/6,3,0,False),],
        "Left":[
            (1/2,3,0,False),
            (1/3,4,0,False),
            (1/6,5,0,False),]
                 
    },
    5 : {
        "Right":[
            (1/2,6,1,True),
            (1/3,5,0,False),
            (1/6,4,0,False),],
        "Left":[
            (1/2,4,0,False),
            (1/3,5,0,False),
            (1/6,6,1,True),]
                 
    },
    6 : {
        "Right" : [(1, 6, 0, True)],
        "Left" : [(1, 6, 0, True)],
    } 
    
}

## Environment 2 - Frozen Lake Environment

This environment is described on Page 46.

The FL environment has a large state space, so it's better to generate most of the MDP via Python instead of typing stuff manually.

Note that all 5 states - 5, 7, 11, 12, 15 are terminal states, so keep that in mind while constructing the MDP.

There are 4 actions now - Up, Down, Left, Right.

The environment is stochastic, and states at the border of lake will require separate treatment.



Yet again we will model this MDP as a (large) dictionary.

In [13]:
fl_mdp = {
    0: {
        'Up': [
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 1, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 1, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 4, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 4, 0, False)
        ]
    },
    1: {
        'Up': [
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 2, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 2, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 5, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 5, 0, True)
        ]
    },
    2: {
        'Up': [
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 3, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 6, 0, False),
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 3, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 3, 0, False),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 6, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 1, 0, False),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 6, 0, False)
        ]
    },
    3: {
        'Up': [
            (0.3333333333333333, 3, 0, False),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 3, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 3, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 3, 0, False),
            (0.3333333333333333, 3, 0, False),
            (0.3333333333333333, 7, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 3, 0, False),
            (0.3333333333333333, 7, 0, True)
        ]
    },
    4: {
        'Up': [
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 5, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 5, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 8, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 0, 0, False),
            (0.3333333333333333, 8, 0, False)
        ]
    },
    5: {
        'Up': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 5, 0, True)
        ]
    },
    6: {
        'Up': [
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 7, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 10, 0, False),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 7, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 10, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 2, 0, False),
            (0.3333333333333333, 10, 0, False)
        ]
    },
    7: {
        'Up': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True),
            (0.3333333333333333, 7, 0, True)
        ]
    },
    8: {
        'Up': [
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 9, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 9, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 12, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 4, 0, False),
            (0.3333333333333333, 12, 0, True)
        ]
    },
    9: {
        'Up': [
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 10, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 13, 0, False),
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 10, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 10, 0, False),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 13, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 8, 0, False),
            (0.3333333333333333, 5, 0, True),
            (0.3333333333333333, 13, 0, False)
        ]
    },
    10: {
        'Up': [
            (0.3333333333333333, 6, 0, False),
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 11, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 14, 0, False),
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 11, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 6, 0, False),
            (0.3333333333333333, 14, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 6, 0, False),
            (0.3333333333333333, 14, 0, False)
        ]
    },
    11: {
        'Up': [
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True),
            (0.3333333333333333, 11, 0, True)
        ]
    },
    12: {
        'Up': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 12, 0, True)
        ]
    },
    13: {
        'Up': [
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 14, 0, False)
        ],
        'Down': [
            (0.3333333333333333, 13, 0, False),
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 14, 0, False)
        ],
        'Right': [
            (0.3333333333333333, 14, 0, False),
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 13, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 12, 0, True),
            (0.3333333333333333, 9, 0, False),
            (0.3333333333333333, 13, 0, False)
        ]
    },
    14: {
        'Up': [
            (0.3333333333333333, 10, 0, False),
            (0.3333333333333333, 13, 0, False),
            (0.3333333333333333, 15, 1, True)
        ],
        'Down': [
            (0.3333333333333333, 14, 0, False),
            (0.3333333333333333, 13, 0, False),
            (0.3333333333333333, 15, 1, True)
        ],
        'Right': [
            (0.3333333333333333, 15, 1, True),
            (0.3333333333333333, 10, 0, False),
            (0.3333333333333333, 14, 0, False)
        ],
        'Left': [
            (0.3333333333333333, 13, 0, False),
            (0.3333333333333333, 10, 0, False),
            (0.3333333333333333, 14, 0, False)
        ]
    },
    15: {
        'Up': [
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True)
        ],
        'Down': [
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True)
        ],
        'Right': [
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True)
        ],
        'Left': [
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True),
            (0.3333333333333333, 15, 0, True)
        ]
    }
}



            


In [14]:
for state in range(0, 16):

    holes = [5,7,11,12,15]
    transitions = {}
    possible ={}
    for action in ["Up", "Down", "Right", "Left"]:
        if(state in holes):
            transitions[action] = [(1/3,state,0,True),(1/3,state,0,True),(1/3,state,0,True),]
        else:
            if(action=="Up"):
                if(state<4):
                    possible[action]= state
                else:
                    possible[action] = state-4
            elif(action=="Down"):
                if(state>12):
                    possible[action]= state
                else:
                    possible[action] = state+4
            elif(action == "Left"):
                if(state%4 == 0):
                    possible[action]= state
                else: 
                    possible[action]= state-1
            else:
                if(state%4 == 3):
                    possible[action]= state
                else: 
                    possible[action]= state+1
    if(state not in holes):    
        actions=[]
        for action in ["Up", "Down", "Right", "Left"]:
            if(action=="Up"):
                actions.extend([possible["Up"],possible["Left"],possible["Right"]])
            elif(action=="Down"):
                actions.extend([possible["Down"],possible["Left"],possible["Right"]])
            elif(action=="Left"):
                actions.extend([possible["Left"],possible["Up"],possible["Down"]])
            else:
                actions.extend([possible["Right"],possible["Up"],possible["Down"]])
        transitions[action] = []
        for a in actions:
            if(a ==15):
                transitions[action].append((1/3,a,1,True))
            elif(a in holes):
                transitions[action].append((1/3,a,0,True))
            else:
                transitions[action].append((1/3,a,0,False))
    fl_mdp[state] = transitions

You might need to do some stuff manually, but make sure to automate most of it.

You can check your implementation of the FL environment by comparing it with the one in OpenAI Gym.
OpenAI Gym basically contains implmentations of common RL MDPs so that we can directly train our agents on test environments. 

In [15]:
import gym
P = gym.make('FrozenLake-v1').env.P

<class 'ModuleNotFoundError'>: No module named 'gym'

Since the imported MDP is also just a dictionary, we can just print it.

In [None]:
# using the pretty print module

import pprint
pprint.pprint(P)

## Environment 3 - Key Door Game

Now we will implement a slightly different version of frozen lake without the stochasticity but with the added constraint of a key.

So now we have a 4x4 grid in which some cells are holes(and so terminal) and we have a goal state(keep it as 15) but this time someone locked the goal state with a door :(. Without the key we CANNOT ENTER the goal state.

Luckily for us, that guy was very clumsy and dropped the key in tile 3!. So now make a MDP to represent the process of us escaping this grid world.

Remember that the state in a MDP isnt just the position/location we are in. it should represent our whole game situation. (For example I can either be at tile 14 with the key or at tile 14 without key and these two situations are different and therfore must be represented as **different** states!)

To summarise
- state state is 0
- door/goal state is 15
- holes at 5, 7, 11, 12
- key at 3
- The key is picked up automatically upon entering tile 3
- can only enter tile 15 when key is obtained(otherwise its like a wall)
- holes & goal are terminal
- reward of 1 when reaching tile 15 wiht the key
- Attempting to enter tile 15 when we DONT have the key should be treated like hitting a wall and bouncing back to the original state where we took that action

In [None]:
#state is : (state, true or false if we have the key)
gw_map = {}
holes = [5,7,11,12,15]
#if we have the key
for state in range(0, 16):
    transitions = {}
    for action in ["Up", "Down", "Right", "Left"]:
        if state in holes:
            transitions[action]=[(1,(state,True),0,True)]
        else:
            if action=="Up":
                next=state-4 if state//4>0 else state                            
            elif action=="Down":
                next=state+4 if state//4<3 else state
            elif action=="Right":
                next=state if state%4==3 else state+1
            else:
                next=state if state%4==0 else state-1
            if next in holes:
                transitions[action]=[(1,(next,True),0,True)]
            elif next==15:
                transitions[action]=[(1,(next,True),1,True)]
            else:
                transitions[action]=[(1,(next,True),0,False)]
    gw_map[(state,True)] = transitions


    for state in range(0, 15):
        if state==3:
            continue
        transitions = {}
        for action in ["Up", "Down", "Right", "Left"]:
            if state in {5,7,11,12}:
                transitions[action]=[(1,(state,False),0,True)]
            else:
                transitions[action]=[]
                if action=="Up":
                    next=state-4 if state//4>0 else state
                elif action=="Down":
                    next=state+4 if state//4<3 else state
                elif action=="Right":
                    next=state if state%4==3 else state+1
                else:
                    next=state if state%4==0 else state-1
                if next in {5,7,11,12}:
                    transitions[action]=[(1/3,(next,False),0,True)]
                elif next==15:
                    transitions[action]=[(1/3,(state,False),0,False)]
                elif next==3:
                    transitions[action]=[(1/3,(state,True),0,False)]
                else:
                    transitions[action]=[(1/3,(next,False),0,False)]
        gw_map[(state,False)] = transitions


The exact way you represent each state and each action is up to you! But... do atleast write down in a comment or something how you represent the states and action in the MDP. So i don't have to spend time deciphering.

Note: For additional challenges
- Make this grid-world also stochastic like Frozen Lake
- Make a function that allows you to input in the locations of the holes, the door(goal state) and the key and using that it will generate and return the MDP

## Environment 4 - Lights Out

**Lights out** is a deterministic puzzle game which consists of a 5x5 grid of lights which can either be on or off.

When the game begins a random set of these lights will be switched on. Pressing any light will toggle it (toggle means if the light was on then it will become off and if it was off then it will become on) and it will also toggle all of its neighbours.

![image of the game](./images/LightsOutIllustration.png)

Note: so any non-edge and non-corner cell action will toggle 5 lights, an edge cell action would toggle 4 lights and a corner cell action only toggles 3 lights.


The goal of the game is to find a sequence of moves to switch off all the lights. Now i'm not gonna make you solve this instead we are going to represent this as a deterministic MDP, where 
- the states should represent the game grid layout 
- the actions are the cells you wish to toggle
- Give a reward of 1 when solved 
- the ONLY terminal state is the fully solved state

Since 5x5 is pretty big we will restrict ourselves to a **4x4** grid and represent it as an MDP instead

In [None]:
# You can implements any helper function or other variables to help you implement it

lo_map = { 
    #fill this with stuff
}
#each state is represented by a binary number where the nth digit is the current state of the ith cell (on/off)
states=[]
for n in range(2**16):
    binary=[]
    for t in range(16):
        binary.append(n%2)
        n=int(n/2)
    states.append(binary)
    
for i in range(2**16):
    transition={}
    state=states[i]
    lo_map[i]={}
    for choice in range(16):
        changes=[]
        for possible in [choice-4, choice, choice+4]:
            if possible>=0 and possible<16:
                changes.append(possible)
        if choice%4 != 0:
            changes.append(choice-1)
        if (choice+1)%4 != 0 and choice+1<16:
            changes.append(choice+1)

        new_state=state.copy()
        for change in changes:
            new_state[change] = not state[change]
        reward=0
        if new_state == [0]*16: 
            reward=1
        transition=[(new_state, reward)]
        lo_map[i][action]=transition




The exact way you represent each state and each action is up to you! But... do atleast write down in a comment or something how you represent the states and action in the MDP. So i don't have to spend time deciphering.

Note: if you want you can also try to represent the 5x5 one but this is optional