In [15]:
from opt.value_estimator import *
from environment.MarketEnv import *
from common.RangeMap import *
import numpy as np
from opt.bbo_sim_anneal import *


STATE_DIM = 2
ACTION_DIM = 10
BATCH_SIZE = 200

marketEnv = MarketEnv(action_size = ACTION_DIM, max_price = 100, max_inventory = 2, n_agents = 3)

range_dict = {
    (0, 10): 0.10,
    (10, 20): 0.10,
    (20, 30): 0.10,
    (30, 40): 0.10,
    (40, 50): 0.10,
    (50, 60): 0.10,
    (60, 70): 0.10,
    (70, 80): 0.10,
    (80, 90): 0.10,
    (90, 100): 0.10,
}

policy_dic = RangeMapDict(range_dict)

# s -> n -> a
na_policy_dict = dict()
for n in range(marketEnv.n_agents):
    na_policy_dict[n] = policy_dic

# everyone same policy
sna_policy_dict = dict()
for s in range(marketEnv.state_space_size):
    key = repr(list(marketEnv.state_space[s]))
    sna_policy_dict[key] = na_policy_dict

In [16]:
marketEnv.action_space

array([ 0., 10., 20., 30., 40., 50., 60., 70., 80., 90.])

In [17]:
value_vector, joint_action_vector = value_search_sample_policy_approx(marketEnv, sna_policy_dict, max_iter = 199)

In [18]:
test_state_index = 4
print(joint_action_vector[test_state_index])
print(marketEnv.state_space[test_state_index])
print(value_vector[test_state_index])

[40. 40. 40.]
[0. 0. 1. 0.]
0.09905426596214778


In [19]:
check_state = marketEnv.state_space[test_state_index]
sna_policy_dict[repr(list(check_state))][0][21]

0.1

In [20]:
value_vector

array([0.10235724, 0.09937014, 0.09935196, 0.1017121 , 0.09905427,
       0.09923718, 0.10080129, 0.09974328, 0.0986499 , 0.09899539,
       0.10008261, 0.10229481, 0.09716099, 0.09833925, 0.10176058,
       0.10187309, 0.09925504, 0.10075336, 0.09829003, 0.0997361 ,
       0.10120615, 0.0998655 , 0.09826494, 0.10123906, 0.10141845,
       0.10224079, 0.10118024, 0.09989684, 0.10100619, 0.10197429,
       0.10048917, 0.10059791, 0.10180882, 0.09753425, 0.0992387 ,
       0.1024419 , 0.10342362, 0.10006334, 0.10220514, 0.1001345 ,
       0.1018305 , 0.09592342, 0.10237641, 0.10253549, 0.10024699,
       0.09666868, 0.10064116, 0.10153203, 0.10080085, 0.10198829,
       0.0985259 , 0.10042859, 0.0999568 , 0.1012768 , 0.09602138,
       0.10250589, 0.10098501, 0.10216432, 0.09864685, 0.10230995,
       0.09847807, 0.098805  , 0.10023187, 0.10219471, 0.10078501,
       0.10021081, 0.0994123 , 0.10068588, 0.10187965, 0.10286325,
       0.10083945, 0.10038213, 0.09993355, 0.10097282, 0.09990

In [21]:
state_key = repr(list(marketEnv.state_space[test_state_index]))

epsilon, value_cur_policy, sna_policy_dict_iter = sim_anneal_optimize(marketEnv, sna_policy_dict, k_max = 44)

In [22]:
epsilon

array([0.1539446 , 0.2478585 , 0.35864689, 0.34199446, 0.18308232,
       0.18612004, 0.26981674, 0.15706929, 0.17080161, 0.18414041,
       0.2483453 , 0.36538064, 0.25697805, 0.18632488, 0.17007662,
       0.29061435, 0.18173109, 0.25112653, 0.37700605, 0.25536228,
       0.19558666, 0.19710879, 0.21323841, 0.26108879, 0.26813841,
       0.36441283, 0.15075934, 0.37496184, 0.24755087, 0.18875596,
       0.2533226 , 0.10248963, 0.27081671, 0.27350097, 0.26335137,
       0.20402459, 0.15958928, 0.25098481, 0.36804328, 0.26897722,
       0.26781134, 0.1930566 , 0.18608613, 0.35507593, 0.17662692,
       0.34572979, 0.28750873, 0.1970344 , 0.26935812, 0.20910462,
       0.25964744, 0.25967821, 0.10149653, 0.10776366, 0.24085668,
       0.30440922, 0.1856962 , 0.18411977, 0.25447563, 0.28026639,
       0.11072069, 0.15440484, 0.20329439, 0.19161501, 0.25583562,
       0.1836225 , 0.12673565, 0.34883084, 0.18491199, 0.14232907,
       0.17383389, 0.17786494, 0.25406477, 0.097277  , 0.15938

In [23]:
value_cur_policy

array([0.10002767, 0.09884822, 0.09949343, 0.09837291, 0.10127071,
       0.09859837, 0.1006793 , 0.0985681 , 0.10338774, 0.09545425,
       0.10594724, 0.0973178 , 0.10042937, 0.09865608, 0.1002664 ,
       0.09936595, 0.10133386, 0.0997134 , 0.09851846, 0.09894645,
       0.09763617, 0.10059878, 0.10055776, 0.09955564, 0.09761515,
       0.09709218, 0.1003094 , 0.10356578, 0.09866378, 0.09932781,
       0.09676148, 0.10087268, 0.10224573, 0.10072199, 0.09816933,
       0.10065247, 0.09735831, 0.099591  , 0.09956043, 0.09749164,
       0.103359  , 0.09932343, 0.10026338, 0.10011822, 0.10063506,
       0.10004491, 0.09756486, 0.09906987, 0.09782632, 0.09709385,
       0.10181428, 0.09930604, 0.09829114, 0.0992213 , 0.09701912,
       0.0988282 , 0.09859769, 0.10116381, 0.10150064, 0.09535338,
       0.10014089, 0.09959988, 0.09908697, 0.10005344, 0.09945986,
       0.09871714, 0.09752676, 0.09773461, 0.10218145, 0.10472499,
       0.0979002 , 0.10103598, 0.09739243, 0.09811487, 0.09743

In [26]:
sna_policy_dict_iter[state_key][1].range_dic

{(0, 10): 0.11825566011637631,
 (10, 20): 0.07717937095476324,
 (20, 30): 0.09262450920223027,
 (30, 40): 0.11845655733164966,
 (40, 50): 0.10588310597877287,
 (50, 60): 0.11238623240306261,
 (60, 70): 0.12154399648640163,
 (70, 80): 0.044535563766779945,
 (80, 90): 0.11889322849245108,
 (90, 100): 0.09024177526751236}