In [1]:
import pickle
import numpy as np
import pandas as pd
from tqdm import tqdm
import matplotlib.pyplot as plt
from IPython.display import display

In [2]:
!ls ./definite
print("="*35)
!ls ./indefinite



In [3]:
!rm -rf -r ./definite/*.pkl
!rm -rf -r ./indefinite/*.pkl

In [4]:
!ls ./definite
print("="*35)
!ls ./indefinite



In [5]:
NSIM = 1500
NSTEPS = 1000
N_ARMS = 10
INITIAL = 5
ALPHA = 0.5

In [6]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --is_definite

Naive K-armed Bandit with definite Bernoulli arms
Action profile: [0.19 0.1  0.04 0.22 0.07 0.9  0.01 0.13 0.25 0.16]
Optimal arm: 5
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.62it/s]
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.24it/s]
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 45.45it/s]
100%|███████████████████████████████████████| 1500/1500 [00:28<00:00, 51.88it/s]
100%|███████████████████████████████████████| 1500/1500 [00:24<00:00, 61.58it/s]
100%|███████████████████████████████████████| 1500/1500 [00:22<00:00, 66.02it/s]
Naive K-armed Bandit with definite Gaussian arms
Action profile: [0.13 0.07 0.25 0.04 0.22 0.16 0.1  0.9  0.01 0.19]
Optimal arm: 7
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.34it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.02it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 40.85it/s]
100%|█

In [7]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab

Naive K-armed Bandit with ambiguous Bernoulli arms
Action profile: [0.84 0.91 0.88 0.8  0.95 0.73 0.69 0.76 0.99 0.65]
Optimal arm: 8
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.87it/s]
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.92it/s]
100%|███████████████████████████████████████| 1500/1500 [00:32<00:00, 45.97it/s]
100%|███████████████████████████████████████| 1500/1500 [00:28<00:00, 52.47it/s]
100%|███████████████████████████████████████| 1500/1500 [00:24<00:00, 61.93it/s]
100%|███████████████████████████████████████| 1500/1500 [00:22<00:00, 66.61it/s]
Naive K-armed Bandit with ambiguous Gaussian arms
Action profile: [0.91 0.84 0.95 0.88 0.69 0.8  0.99 0.65 0.73 0.76]
Optimal arm: 6
100%|███████████████████████████████████████| 1500/1500 [00:38<00:00, 39.30it/s]
100%|███████████████████████████████████████| 1500/1500 [00:38<00:00, 39.18it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 39.85it/s]
100%

In [8]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL --is_definite                                                     
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL --is_definite

Optimistic K-armed Bandit with definite Bernoulli arms
Action profile: [0.19 0.22 0.01 0.9  0.1  0.07 0.04 0.25 0.13 0.16]
Optimal arm: 3
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.64it/s]
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 44.19it/s]
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 45.33it/s]
100%|███████████████████████████████████████| 1500/1500 [00:29<00:00, 51.64it/s]
100%|███████████████████████████████████████| 1500/1500 [00:24<00:00, 61.85it/s]
100%|███████████████████████████████████████| 1500/1500 [00:22<00:00, 65.91it/s]
Optimistic K-armed Bandit with definite Gaussian arms
Action profile: [0.04 0.25 0.01 0.07 0.22 0.16 0.1  0.19 0.13 0.9 ]
Optimal arm: 9
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 39.57it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 39.67it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.35it

In [9]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL                                               
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL

Optimistic K-armed Bandit with ambiguous Bernoulli arms
Action profile: [0.99 0.84 0.69 0.73 0.88 0.8  0.95 0.76 0.65 0.91]
Optimal arm: 0
100%|███████████████████████████████████████| 1500/1500 [00:32<00:00, 45.89it/s]
100%|███████████████████████████████████████| 1500/1500 [00:32<00:00, 45.49it/s]
100%|███████████████████████████████████████| 1500/1500 [00:32<00:00, 46.73it/s]
100%|███████████████████████████████████████| 1500/1500 [00:28<00:00, 53.44it/s]
100%|███████████████████████████████████████| 1500/1500 [00:23<00:00, 64.16it/s]
100%|███████████████████████████████████████| 1500/1500 [00:21<00:00, 68.84it/s]
Optimistic K-armed Bandit with ambiguous Gaussian arms
Action profile: [0.99 0.76 0.95 0.88 0.69 0.73 0.8  0.91 0.84 0.65]
Optimal arm: 0
100%|███████████████████████████████████████| 1500/1500 [00:38<00:00, 39.44it/s]
100%|███████████████████████████████████████| 1500/1500 [00:38<00:00, 39.03it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 39.89

In [10]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbnaive --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbnaive --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbdelta --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbdelta --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite

Naive Naive UCB Approach with definite Bernoulli arms
Action profile: [0.01 0.25 0.04 0.16 0.22 0.07 0.19 0.1  0.13 0.9 ]
Optimal arm: 9
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 40.70it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.50it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 40.54it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.26it/s]
100%|███████████████████████████████████████| 1500/1500 [00:37<00:00, 40.21it/s]
Naive Naive UCB Approach with definite Gaussian arms
Action profile: [0.01 0.1  0.13 0.07 0.16 0.04 0.22 0.19 0.9  0.25]
Optimal arm: 8
100%|███████████████████████████████████████| 1500/1500 [00:41<00:00, 36.14it/s]
100%|███████████████████████████████████████| 1500/1500 [00:41<00:00, 36.13it/s]
100%|███████████████████████████████████████| 1500/1500 [00:41<00:00, 36.13it/s]
100%|███████████████████████████████████████| 1500/1500 [00:41<00:00, 35.85it/s

In [11]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbnaive
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbnaive
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbdelta
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbdelta
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbasym
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbasym
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbmoss
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbmoss

Naive Naive UCB Approach with ambiguous Bernoulli arms
Action profile: [0.8  0.95 0.65 0.76 0.84 0.91 0.88 0.69 0.73 0.99]
Optimal arm: 9
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 41.09it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 40.82it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 41.04it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 41.03it/s]
100%|███████████████████████████████████████| 1500/1500 [00:36<00:00, 40.63it/s]
Naive Naive UCB Approach with ambiguous Gaussian arms
Action profile: [0.65 0.8  0.69 0.76 0.95 0.91 0.88 0.99 0.84 0.73]
Optimal arm: 7
100%|███████████████████████████████████████| 1500/1500 [00:42<00:00, 35.10it/s]
100%|███████████████████████████████████████| 1500/1500 [00:42<00:00, 34.98it/s]
100%|███████████████████████████████████████| 1500/1500 [00:42<00:00, 34.97it/s]
100%|███████████████████████████████████████| 1500/1500 [00:42<00:00, 35.31it

In [12]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model thompson --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model thompson --is_definite

Naive Thompson Sampling with definite Bernoulli arms
Action profile: [0.22 0.01 0.9  0.16 0.13 0.19 0.04 0.07 0.1  0.25]
Optimal arm: 2
100%|███████████████████████████████████████| 1500/1500 [00:52<00:00, 28.67it/s]
Naive Thompson Sampling with definite Gaussian arms
Action profile: [0.07 0.25 0.1  0.13 0.9  0.01 0.19 0.16 0.22 0.04]
Optimal arm: 4
100%|███████████████████████████████████████| 1500/1500 [01:27<00:00, 17.13it/s]


In [13]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model thompson
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model thompson

Naive Thompson Sampling with ambiguous Bernoulli arms
Action profile: [0.99 0.69 0.65 0.91 0.76 0.88 0.73 0.8  0.84 0.95]
Optimal arm: 0
100%|███████████████████████████████████████| 1500/1500 [00:53<00:00, 27.89it/s]
Naive Thompson Sampling with ambiguous Gaussian arms
Action profile: [0.99 0.73 0.91 0.84 0.76 0.8  0.95 0.65 0.69 0.88]
Optimal arm: 0
100%|███████████████████████████████████████| 1500/1500 [01:27<00:00, 17.11it/s]


In [14]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model etc --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model etc --is_definite

Naive Explore-then-commit with definite Bernoulli arms
Action profile: [0.9  0.13 0.25 0.1  0.07 0.01 0.22 0.19 0.04 0.16]
Optimal arm: 0
100%|███████████████████████████████████████| 1500/1500 [00:28<00:00, 52.84it/s]
100%|███████████████████████████████████████| 1500/1500 [00:26<00:00, 57.66it/s]
100%|███████████████████████████████████████| 1500/1500 [00:22<00:00, 66.83it/s]
100%|███████████████████████████████████████| 1500/1500 [00:16<00:00, 92.00it/s]
Naive Explore-then-commit with definite Gaussian arms
Action profile: [0.04 0.1  0.22 0.19 0.07 0.25 0.16 0.01 0.9  0.13]
Optimal arm: 8
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 45.25it/s]
100%|███████████████████████████████████████| 1500/1500 [00:30<00:00, 48.56it/s]
100%|███████████████████████████████████████| 1500/1500 [00:27<00:00, 55.47it/s]
100%|███████████████████████████████████████| 1500/1500 [00:20<00:00, 72.16it/s]


In [15]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model etc
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model etc

Naive Explore-then-commit with ambiguous Bernoulli arms
Action profile: [0.76 0.69 0.8  0.84 0.65 0.91 0.99 0.88 0.95 0.73]
Optimal arm: 6
100%|███████████████████████████████████████| 1500/1500 [00:28<00:00, 53.36it/s]
100%|███████████████████████████████████████| 1500/1500 [00:25<00:00, 57.77it/s]
100%|███████████████████████████████████████| 1500/1500 [00:22<00:00, 67.47it/s]
100%|███████████████████████████████████████| 1500/1500 [00:16<00:00, 92.01it/s]
Naive Explore-then-commit with ambiguous Gaussian arms
Action profile: [0.73 0.65 0.95 0.91 0.8  0.99 0.84 0.76 0.88 0.69]
Optimal arm: 5
100%|███████████████████████████████████████| 1500/1500 [00:33<00:00, 45.10it/s]
100%|███████████████████████████████████████| 1500/1500 [00:30<00:00, 48.94it/s]
100%|███████████████████████████████████████| 1500/1500 [00:27<00:00, 55.38it/s]
100%|███████████████████████████████████████| 1500/1500 [00:20<00:00, 72.63it/s]
