In [1]:
import pickle
import numpy as np
import pandas as pd
from tqdm import tqdm
import matplotlib.pyplot as plt
from IPython.display import display

In [2]:
!if [ ! -d ./definite ]; then mkdir -p ./definite; fi
!if [ ! -d ./indefinite ]; then mkdir -p ./indefinite; fi

In [3]:
!rm -rf -r ./definite/*.pkl
!rm -rf -r ./indefinite/*.pkl

In [4]:
!ls ./definite
print("="*35)
!ls ./indefinite



In [2]:
NSIM = 800
NSTEPS = 4000
N_ARMS = 5
INITIAL = 2.5
ALPHA = 0.5

In [6]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --is_definite

Naive K-armed Bandit with definite Bernoulli arms
Action profile: [0.09 0.25 0.17 0.01 0.9 ]
Optimal arm: 4
100%|█████████████████████████████████████████| 800/800 [01:03<00:00, 12.51it/s]
100%|█████████████████████████████████████████| 800/800 [01:04<00:00, 12.37it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.30it/s]
100%|█████████████████████████████████████████| 800/800 [00:56<00:00, 14.18it/s]
100%|█████████████████████████████████████████| 800/800 [00:46<00:00, 17.13it/s]
100%|█████████████████████████████████████████| 800/800 [00:42<00:00, 18.69it/s]
Naive K-armed Bandit with definite Gaussian arms
Action profile: [0.17 0.9  0.01 0.09 0.25]
Optimal arm: 1
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.22it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.23it/s]
100%|█████████████████████████████████████████| 800/800 [01:03<00:00, 12.50it/s]
100%|█████████████████████████████████████████| 800/800 

In [7]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab

Naive K-armed Bandit with ambiguous Bernoulli arms
Action profile: [0.82 0.74 0.99 0.9  0.65]
Optimal arm: 2
100%|█████████████████████████████████████████| 800/800 [01:06<00:00, 11.97it/s]
100%|█████████████████████████████████████████| 800/800 [01:06<00:00, 11.99it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.17it/s]
100%|█████████████████████████████████████████| 800/800 [00:57<00:00, 13.83it/s]
100%|█████████████████████████████████████████| 800/800 [00:48<00:00, 16.48it/s]
100%|█████████████████████████████████████████| 800/800 [00:45<00:00, 17.56it/s]
Naive K-armed Bandit with ambiguous Gaussian arms
Action profile: [0.65 0.9  0.99 0.74 0.82]
Optimal arm: 2
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.20it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.19it/s]
100%|█████████████████████████████████████████| 800/800 [01:03<00:00, 12.55it/s]
100%|█████████████████████████████████████████| 800/80

In [8]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL --is_definite                                                     
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL --is_definite

Optimistic K-armed Bandit with definite Bernoulli arms
Action profile: [0.17 0.09 0.01 0.9  0.25]
Optimal arm: 3
100%|█████████████████████████████████████████| 800/800 [01:17<00:00, 10.37it/s]
100%|█████████████████████████████████████████| 800/800 [01:17<00:00, 10.28it/s]
100%|█████████████████████████████████████████| 800/800 [01:15<00:00, 10.59it/s]
100%|█████████████████████████████████████████| 800/800 [01:07<00:00, 11.94it/s]
100%|█████████████████████████████████████████| 800/800 [00:56<00:00, 14.13it/s]
100%|█████████████████████████████████████████| 800/800 [00:53<00:00, 14.97it/s]
Optimistic K-armed Bandit with definite Gaussian arms
Action profile: [0.9  0.25 0.09 0.17 0.01]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:18<00:00, 10.15it/s]
100%|█████████████████████████████████████████| 800/800 [01:19<00:00, 10.11it/s]
100%|█████████████████████████████████████████| 800/800 [01:17<00:00, 10.37it/s]
100%|█████████████████████████████████████████

In [9]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model mab --initial $INITIAL                                               
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --alpha $ALPHA --model mab --initial $INITIAL

Optimistic K-armed Bandit with ambiguous Bernoulli arms
Action profile: [0.99 0.82 0.74 0.65 0.9 ]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.28it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.22it/s]
100%|█████████████████████████████████████████| 800/800 [01:03<00:00, 12.50it/s]
100%|█████████████████████████████████████████| 800/800 [00:55<00:00, 14.30it/s]
100%|█████████████████████████████████████████| 800/800 [00:46<00:00, 17.24it/s]
100%|█████████████████████████████████████████| 800/800 [00:43<00:00, 18.25it/s]
Optimistic K-armed Bandit with ambiguous Gaussian arms
Action profile: [0.82 0.65 0.9  0.99 0.74]
Optimal arm: 3
100%|█████████████████████████████████████████| 800/800 [01:06<00:00, 12.08it/s]
100%|█████████████████████████████████████████| 800/800 [01:06<00:00, 12.07it/s]
100%|█████████████████████████████████████████| 800/800 [01:04<00:00, 12.36it/s]
100%|███████████████████████████████████████

In [None]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbnaive --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbnaive --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbdelta --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbdelta --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite

Naive Naive UCB Approach with definite Bernoulli arms
Action profile: [0.9  0.01 0.09 0.17 0.25]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:19<00:00, 10.06it/s]
100%|█████████████████████████████████████████| 800/800 [01:20<00:00,  9.96it/s]
100%|█████████████████████████████████████████| 800/800 [01:19<00:00, 10.02it/s]
100%|█████████████████████████████████████████| 800/800 [01:20<00:00,  9.98it/s]
100%|█████████████████████████████████████████| 800/800 [01:20<00:00,  9.98it/s]
Naive Naive UCB Approach with definite Gaussian arms
Action profile: [0.9  0.09 0.17 0.25 0.01]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.35it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.32it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.34it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.31it/s]
100%|█████████████████████████████████████████| 

In [3]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbdelta --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbasym --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbmoss --is_definite

Naive UCB-delta Algorithm with definite Gaussian arms
Action profile: [0.09 0.01 0.9  0.17 0.25]
Optimal arm: 2
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.41it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.35it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.36it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.35it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.38it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.35it/s]
Naive Asymptotically Optimal UCB with definite Bernoulli arms
Action profile: [0.17 0.9  0.25 0.09 0.01]
Optimal arm: 1
100%|█████████████████████████████████████████| 800/800 [01:11<00:00, 11.17it/s]
Naive Asymptotically Optimal UCB with definite Gaussian arms
Action profile: [0.17 0.25 0.01 0.9  0.09]
Optimal arm: 3
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.85it/s]
N

In [3]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbnaive
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbnaive
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbdelta
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbdelta
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbasym
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbasym
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model ucbmoss
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model ucbmoss

Naive Naive UCB Approach with ambiguous Bernoulli arms
Action profile: [0.9  0.99 0.65 0.74 0.82]
Optimal arm: 1
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.22it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.19it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.17it/s]
100%|█████████████████████████████████████████| 800/800 [01:05<00:00, 12.21it/s]
100%|█████████████████████████████████████████| 800/800 [01:07<00:00, 11.87it/s]
Naive Naive UCB Approach with ambiguous Gaussian arms
Action profile: [0.9  0.65 0.99 0.74 0.82]
Optimal arm: 2
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.92it/s]
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.90it/s]
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.86it/s]
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.95it/s]
100%|█████████████████████████████████████████

In [4]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model thompson --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model thompson --is_definite

Naive Thompson Sampling with definite Bernoulli arms
Action profile: [0.01 0.25 0.9  0.09 0.17]
Optimal arm: 2
100%|█████████████████████████████████████████| 800/800 [01:51<00:00,  7.16it/s]
Naive Thompson Sampling with definite Gaussian arms
Action profile: [0.9  0.17 0.01 0.09 0.25]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:52<00:00,  7.09it/s]


In [5]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model thompson
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model thompson

Naive Thompson Sampling with ambiguous Bernoulli arms
Action profile: [0.99 0.65 0.82 0.74 0.9 ]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [01:56<00:00,  6.88it/s]
Naive Thompson Sampling with ambiguous Gaussian arms
Action profile: [0.99 0.74 0.9  0.65 0.82]
Optimal arm: 0
100%|█████████████████████████████████████████| 800/800 [02:00<00:00,  6.65it/s]


In [6]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model etc --is_definite
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model etc --is_definite

Naive Explore-then-commit with definite Bernoulli arms
Action profile: [0.17 0.09 0.25 0.9  0.01]
Optimal arm: 3
100%|█████████████████████████████████████████| 800/800 [01:16<00:00, 10.50it/s]
100%|█████████████████████████████████████████| 800/800 [01:16<00:00, 10.46it/s]
100%|█████████████████████████████████████████| 800/800 [01:12<00:00, 11.04it/s]
100%|█████████████████████████████████████████| 800/800 [01:11<00:00, 11.25it/s]
Naive Explore-then-commit with definite Gaussian arms
Action profile: [0.17 0.25 0.09 0.01 0.9 ]
Optimal arm: 4
100%|█████████████████████████████████████████| 800/800 [01:19<00:00, 10.08it/s]
100%|█████████████████████████████████████████| 800/800 [01:15<00:00, 10.66it/s]
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.95it/s]
100%|█████████████████████████████████████████| 800/800 [01:09<00:00, 11.54it/s]


In [7]:
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --bernoulli --n_arms $N_ARMS --tqdm --model etc
print(f"=" * 35)
!python3 main.py --nsim $NSIM --nsteps $NSTEPS --n_arms $N_ARMS --tqdm --model etc

Naive Explore-then-commit with ambiguous Bernoulli arms
Action profile: [0.82 0.99 0.9  0.65 0.74]
Optimal arm: 1
100%|█████████████████████████████████████████| 800/800 [01:09<00:00, 11.55it/s]
100%|█████████████████████████████████████████| 800/800 [01:08<00:00, 11.65it/s]
100%|█████████████████████████████████████████| 800/800 [01:06<00:00, 12.07it/s]
100%|█████████████████████████████████████████| 800/800 [01:02<00:00, 12.70it/s]
Naive Explore-then-commit with ambiguous Gaussian arms
Action profile: [0.9  0.65 0.82 0.99 0.74]
Optimal arm: 3
100%|█████████████████████████████████████████| 800/800 [01:11<00:00, 11.16it/s]
100%|█████████████████████████████████████████| 800/800 [01:13<00:00, 10.83it/s]
100%|█████████████████████████████████████████| 800/800 [01:10<00:00, 11.27it/s]
100%|█████████████████████████████████████████| 800/800 [01:08<00:00, 11.60it/s]
