# Step 1: Package Installation
First we import the necessary packages

In [1]:
import or_suite
import numpy as np

import copy

import os
from stable_baselines3.common.monitor import Monitor
from stable_baselines3 import PPO
from stable_baselines3.ppo import MlpPolicy
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.evaluation import evaluate_policy
import pandas as pd


import gym

# Step 2: Pick problem parameters for the environment

Here we use the ambulance metric environment as outlined in `or_suite/envs/ambulance/ambulance_metric.py`.  The package has default specifications for all of the environments in the file `or_suite/envs/env_configs.py`, and so we use one the default for the ambulance problem in a metric space.

In addition, we need to specify the number of episodes for learning, and the number of iterations (in order to plot average results with confidence intervals).

In [2]:
CONFIG =  or_suite.envs.env_configs.airline_default_config

epLen = CONFIG['epLen']
nEps = 1
numIters = 100

# Step 3: Pick simulation parameters

Next we need to specify parameters for the simulation. This includes setting a seed, the frequency to record the metrics, directory path for saving the data files, a deBug mode which prints the trajectory, etc.

In [3]:
DEFAULT_SETTINGS = {'seed': 1, 
                    'recFreq': 1, 
                    'dirPath': '../data/', 
                    'deBug': False, 
                    'nEps': nEps, 
                    'numIters': numIters, 
                    'saveTrajectory': True, 
                    'epLen' : 5,
                    'render': False,
                    'pickle': False
                    }


revenue_env = gym.make('Airline-v0', config=CONFIG)
mon_env = Monitor(revenue_env)

# Step 4: Pick list of algorithms

We have several heuristics implemented for each of the environments defined, in addition to a `Random` policy, and some `RL discretization based` algorithms. 

The `Stable` agent only moves ambulances when responding to an incoming call and not in between calls. This means the policy $\pi$ chosen by the agent for any given state $X$ will be $\pi_h(X) = X$

The `Median` agent takes a list of all past call arrivals sorted by arrival location, and partitions it into $k$ quantiles where $k$ is the number of ambulances. The algorithm then selects the middle data point in each quantile as the locations to station the ambulances.

In [4]:
agents = { # 'SB PPO': PPO(MlpPolicy, mon_env, gamma=1, verbose=0, n_steps=epLen),
'Random': or_suite.agents.rl.random.randomAgent(),
'BayesSelector': or_suite.agents.airline_revenue_management.bayes_selector.bayes_selectorAgent(epLen),
'BayesSelectorBadRounding': or_suite.agents.airline_revenue_management.bayes_selector.bayes_selectorAgent(epLen, round_flag=False)
}

# Step 5: Run Simulations

Run the different heuristics in the environment

In [5]:
path_list_line = []
algo_list_line = []
path_list_radar = []
algo_list_radar= []
for agent in agents:
    print(agent)
    DEFAULT_SETTINGS['dirPath'] = '../data/airline_'+str(agent)
    if agent == 'SB PPO':
        or_suite.utils.run_single_sb_algo(mon_env, agents[agent], DEFAULT_SETTINGS)
    else:
        or_suite.utils.run_single_algo(revenue_env, agents[agent], DEFAULT_SETTINGS)

    path_list_line.append('../data/airline_'+str(agent))
    algo_list_line.append(str(agent))
    if agent != 'SB PPO':
        path_list_radar.append('../data/airline_'+str(agent))
        algo_list_radar.append(str(agent))

Random
**************************************************
Running experiment
**************************************************
**************************************************
Experiment complete
**************************************************
**************************************************
Saving data
**************************************************
Writing to file data.csv
**************************************************
Data save complete
**************************************************
BayesSelector
**************************************************
Running experiment
**************************************************
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.333333


The optimal value is 1.66666666674789
A solution x is
[0.33333333 0.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 2.333333333261572
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.3

Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 2.333333333261572
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 2.0000000004263816
A solution x is
[0.66666667 0.66666667]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.666

Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 3.0000000002694702
A solution x is
[1. 1.]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 1.66666666674789
A solution x is
[0.33333333 0.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 1.66666666674789
A solution x is
[0.33333333 0.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 2.444444444436977
A solution x is
[2.75197093e-11 1.22222222e+00]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 2.333333333261572
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.333333

The optimal value is 2.333333333261572
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 2.0000000004263816
A solution x is
[0.66666667 0.66666667]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 3.0000000002694702
A solution x is
[1. 1.]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 1.9999999999702602
A solution x is
[0.66666667 0.66666667]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.3

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 3.0000000002694702
A solution x is
[1. 1.]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 1.66666666674789
A solution x is
[0.33333333 0.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.333


The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 3.0000000002694702
A solution x is
[1. 1.]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 2.0000000004263816
A solution x is
[0.66666667 0.66666667]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.


The optimal value is 0.444444444218131
A solution x is
[1.32514969e-09 2.22222221e-01]
Final action: [0 0]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[0.66666667 0.66666667]

The optimal value is 0.44444444446110803
A solution x is
[8.99905308e-12 2.22222222e-01]
Final action: [0 0]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 2.444444444436977
A solution x is
[2.75197093e-11 1.22222222e+00]
Final action: [0 1]
Triggering a new LP solve


The optimal value is 1.111111110246404
A solution x is
[1.48380397e-09 5.55555554e-01]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 2.333333333261572
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.333

The optimal value is 2.0000000004263816
A solution x is
[0.66666667 0.66666667]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.66666667 1.66666667]

The optimal value is 4.166666666475649
A solution x is
[0.83333333 1.66666667]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1.33333333 1.33333333]

The optimal value is 3.9999999994774535
A solution x is
[1.33333333 1.33333333]
Final action: [1 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]
 [0.33333333 0.33333333]]
(5, 2)
[1. 1.]

The optimal value is 2.3333333336447724
A solution x is
[0.33333333 1.        ]
Final action: [0 1]
Triggering a new LP solve
[[0.33333333 0.33333333]
 [0.33333333 0

TypeError: 'numpy.float64' object cannot be interpreted as an integer

In [None]:
np.random.binomial(1, 0, size=None) 

In [None]:
fig_path = '../figures/'
fig_name = 'revenue'+'_line_plot'+'.pdf'
or_suite.plots.plot_line_plots(path_list_line, algo_list_line, fig_path, fig_name, int(nEps / 40)+1)

# 
additional_metric = {}
fig_name = 'revenue'+'_radar_plot'+'.pdf'
or_suite.plots.plot_radar_plots(path_list_radar, algo_list_radar,
fig_path, fig_name,
additional_metric
)



# Visualization Demo

The following demo includes a command-line interface with a visualization to demonstrate how the Ambulance Routing code works with 2 ambulances.