[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Paulescu/hands-on-rl/blob/main/04_cart_pole_tune_hparams_like_a_pro/notebooks/01_deep_q_agent_hyperparameter_tuning_with_optuna_and_weights_and_biases.ipynb)

# 01 Deep Q agent hyper-parameter tuning with

<img src="https://optuna.readthedocs.io/en/stable/_static/optuna-logo.png" width="500" height="400" />

<div align="center">
<h1>+</h1>
</div>

<img src="https://lever-client-logos.s3.amazonaws.com/bb006941-a5fe-4d4c-b13d-931f9b9c303f-1569362661885.png" width="500" height="400" />

#### 👉 Let's train a Deep Q agent to solve the `Cart Pole` environment.

![nn](../images/deep_q_net.svg)

## Python environment setup if running in Colab 🐍⚒️

In [None]:
if 'google.colab' in str(get_ipython()):
    
    !git clone https://github.com/Paulescu/hands-on-rl.git

    # navigate to lesson directory
    %cd /content/hands-on-rl/04_cart_pole_tune_hparams_like_a_pro

    # install exact package versions
    %pip install -r requirements.txt
    print('Go to Runtime > Restart runtime to make sure python uses the exact packages version we just installed.')

In [None]:
if 'google.colab' in str(get_ipython()):
    %cd /content/hands-on-rl/04_cart_pole_tune_hparams_like_a_pro
    !python setup.py install
    print('Local package installed!')

----

In [1]:
%load_ext autoreload
%autoreload 2
%pylab inline
%config InlineBackend.figure_format = 'svg'

Populating the interactive namespace from numpy and matplotlib


## Environment 🌎

In [2]:
import gym
env = gym.make('CartPole-v1')

## Log in to your W&B account

In [3]:
import wandb

wandb.login()

[34m[1mwandb[0m: Currently logged in as: [33mpaulescu[0m (use `wandb login --relogin` to force relogin)


True

## Create an Optuna study

In [4]:
import optuna
study = optuna.create_study(
    study_name="hyperparameter_search",
    direction='maximize'
)

[32m[I 2022-02-22 20:36:17,458][0m A new study created in memory with name: hyperparameter_search[0m


## Objective function we want to maximize

In [5]:
from src.optimize_hyperparameters_shorter import objective
func = lambda trial: objective(trial, force_linear_model=False, n_episodes_to_train=200)

## Weights&Biases callback to log all results

In [6]:
from optuna.integration.wandb import WeightsAndBiasesCallback

wandb_kwargs = {"project": "deep-q-learning-hyperparameters", "entity": "paulescu"}
wandb_callback = WeightsAndBiasesCallback(metric_name='eval_reward_avg', wandb_kwargs=wandb_kwargs)

  after removing the cwd from sys.path.


## Let's start the search!

In [7]:
study.optimize(func, n_trials=100, callbacks=[wandb_callback])

67,586 parameters


 38%|███████████████████████████▊                                              | 75/200 [00:00<00:00, 252.36it/s]
  0%|                                                                                   | 0/1000 [00:00<?, ?it/s][A
  2%|█▏                                                                       | 17/1000 [00:00<00:05, 165.32it/s][A
  3%|██▍                                                                      | 34/1000 [00:00<00:06, 147.45it/s][A
  5%|███▌                                                                     | 49/1000 [00:00<00:06, 140.58it/s][A
  6%|████▋                                                                    | 65/1000 [00:00<00:06, 145.96it/s][A
  8%|█████▊                                                                   | 80/1000 [00:00<00:07, 127.69it/s][A
  9%|██████▊                                                                  | 94/1000 [00:00<00:07, 115.09it/s][A
 11%|███████▋                                                      

 98%|███████████████████████████████████████████████████████████████████████▎ | 977/1000 [00:08<00:00, 96.57it/s][A
 99%|████████████████████████████████████████████████████████████████████████ | 988/1000 [00:08<00:00, 81.96it/s][A
100%|███████████████████████████████████████████████████████████████████████| 1000/1000 [00:08<00:00, 118.41it/s][A
 60%|████████████████████████████████████████████▍                             | 120/200 [00:09<00:07, 10.38it/s]

Reward mean: 9.37, std: 0.73
Num steps mean: 9.37, std: 0.73


 93%|████████████████████████████████████████████████████████████████████▊     | 186/200 [00:09<00:00, 31.47it/s]
  0%|                                                                                   | 0/1000 [00:00<?, ?it/s][A
  1%|▉                                                                        | 13/1000 [00:00<00:07, 124.46it/s][A
  3%|█▉                                                                       | 26/1000 [00:00<00:07, 122.85it/s][A
  4%|██▉                                                                      | 40/1000 [00:00<00:07, 128.25it/s][A
  6%|████                                                                     | 56/1000 [00:00<00:06, 139.75it/s][A
  8%|█████▍                                                                   | 75/1000 [00:00<00:05, 154.90it/s][A
  9%|██████▋                                                                  | 91/1000 [00:00<00:05, 154.24it/s][A
 11%|███████▋                                                      

 70%|███████████████████████████████████████████████████▏                     | 702/1000 [00:08<00:04, 61.92it/s][A
 71%|███████████████████████████████████████████████████▉                     | 712/1000 [00:09<00:04, 70.84it/s][A
 72%|████████████████████████████████████████████████████▋                    | 721/1000 [00:09<00:03, 75.46it/s][A
 73%|█████████████████████████████████████████████████████▏                   | 729/1000 [00:09<00:03, 76.39it/s][A
 74%|█████████████████████████████████████████████████████▊                   | 737/1000 [00:09<00:03, 77.28it/s][A
 74%|██████████████████████████████████████████████████████▍                  | 745/1000 [00:09<00:03, 76.71it/s][A
 76%|███████████████████████████████████████████████████████                  | 755/1000 [00:09<00:03, 81.67it/s][A
 77%|████████████████████████████████████████████████████████▏                | 769/1000 [00:09<00:02, 97.21it/s][A
 78%|████████████████████████████████████████████████████████▉  

Reward mean: 9.35, std: 0.75
Num steps mean: 9.35, std: 0.75


100%|████████████████████████████████████████████████████████████████████████| 1000/1000 [00:10<00:00, 97.93it/s]
[32m[I 2022-02-22 20:37:04,557][0m Trial 0 finished with value: 9.376 and parameters: {'learning_rate': 3.2438955981768875e-05, 'discount_factor': 0.95, 'batch_size': 32, 'memory_size': 100000, 'freq_steps_train': 16, 'freq_steps_update_target': 10, 'n_steps_warm_up_memory': 5000, 'n_gradient_steps': 8, 'nn_hidden_layers': '[256, 256]', 'max_grad_norm': 10, 'normalize_state': False, 'epsilon_start': 0.9, 'epsilon_end': 0.12697161277021096, 'steps_epsilon_decay': 100000, 'seed': 848991623}. Best is trial 0 with value: 9.376.[0m


67,586 parameters


 42%|███████████████████████████████▌                                           | 84/200 [00:03<00:05, 21.22it/s]
  0%|                                                                                   | 0/1000 [00:00<?, ?it/s][A
  1%|▊                                                                        | 11/1000 [00:00<00:09, 108.23it/s][A
  2%|█▋                                                                        | 22/1000 [00:00<00:11, 82.07it/s][A
  3%|██▎                                                                       | 31/1000 [00:00<00:11, 82.47it/s][A
  4%|██▉                                                                       | 40/1000 [00:00<00:14, 66.71it/s][A
  5%|███▌                                                                      | 48/1000 [00:00<00:14, 67.89it/s][A
  6%|████▏                                                                     | 56/1000 [00:00<00:13, 70.51it/s][A
  7%|████▉                                                         

 69%|██████████████████████████████████████████████████▌                      | 692/1000 [00:08<00:06, 45.86it/s][A
 70%|███████████████████████████████████████████████████                      | 699/1000 [00:09<00:07, 42.34it/s][A
 71%|███████████████████████████████████████████████████▌                     | 706/1000 [00:09<00:06, 46.78it/s][A
 72%|████████████████████████████████████████████████████▏                    | 715/1000 [00:09<00:05, 54.57it/s][A
 72%|████████████████████████████████████████████████████▋                    | 722/1000 [00:09<00:05, 55.41it/s][A
 73%|█████████████████████████████████████████████████████▏                   | 729/1000 [00:09<00:04, 57.50it/s][A
 74%|█████████████████████████████████████████████████████▊                   | 738/1000 [00:09<00:04, 64.57it/s][A
 75%|██████████████████████████████████████████████████████▍                  | 746/1000 [00:09<00:03, 65.22it/s][A
 75%|██████████████████████████████████████████████████████▉    

Reward mean: 21.01, std: 3.67
Num steps mean: 21.01, std: 3.67


 99%|█████████████████████████████████████████████████████████████████████████▎| 198/200 [00:38<00:00,  6.53it/s]
  0%|                                                                                   | 0/1000 [00:00<?, ?it/s][A
  0%|▏                                                                          | 2/1000 [00:00<01:00, 16.45it/s][A
  0%|▎                                                                          | 4/1000 [00:00<01:19, 12.57it/s][A
  1%|▍                                                                          | 6/1000 [00:00<01:27, 11.38it/s][A
  1%|▌                                                                          | 8/1000 [00:00<01:19, 12.54it/s][A
  1%|▋                                                                         | 10/1000 [00:00<01:13, 13.50it/s][A
  1%|▉                                                                         | 12/1000 [00:00<01:08, 14.42it/s][A
  1%|█                                                             

 13%|█████████▏                                                               | 126/1000 [00:12<01:44,  8.34it/s][A
 13%|█████████▎                                                               | 127/1000 [00:12<02:33,  5.68it/s][A
 13%|█████████▎                                                               | 128/1000 [00:12<02:32,  5.72it/s][A
 13%|█████████▍                                                               | 129/1000 [00:12<03:06,  4.66it/s][A
 13%|█████████▍                                                               | 130/1000 [00:13<02:57,  4.89it/s][A
 13%|█████████▌                                                               | 131/1000 [00:13<02:33,  5.68it/s][A
 13%|█████████▋                                                               | 132/1000 [00:13<02:36,  5.55it/s][A
 13%|█████████▋                                                               | 133/1000 [00:13<02:20,  6.16it/s][A
 13%|█████████▊                                                 

 25%|██████████████████▌                                                      | 254/1000 [00:24<01:13, 10.13it/s][A
 26%|██████████████████▋                                                      | 256/1000 [00:25<01:10, 10.61it/s][A
 26%|██████████████████▊                                                      | 258/1000 [00:25<01:10, 10.59it/s][A
 26%|██████████████████▉                                                      | 260/1000 [00:25<01:16,  9.71it/s][A
 26%|███████████████████                                                      | 261/1000 [00:25<01:21,  9.02it/s][A
 26%|███████████████████▏                                                     | 262/1000 [00:25<01:21,  9.09it/s][A
 26%|███████████████████▎                                                     | 264/1000 [00:25<01:14,  9.85it/s][A
 26%|███████████████████▎                                                     | 265/1000 [00:26<01:31,  8.07it/s][A
 27%|███████████████████▍                                       

 34%|█████████████████████████▏                                               | 345/1000 [00:35<01:07,  9.65it/s][A
 35%|█████████████████████████▎                                               | 347/1000 [00:35<01:08,  9.50it/s][A
 35%|█████████████████████████▍                                               | 349/1000 [00:35<01:05,  9.92it/s][A
 35%|█████████████████████████▌                                               | 351/1000 [00:36<01:02, 10.33it/s][A
 35%|█████████████████████████▊                                               | 353/1000 [00:36<01:00, 10.65it/s][A
 36%|█████████████████████████▉                                               | 355/1000 [00:36<01:06,  9.73it/s][A
 36%|█████████████████████████▉                                               | 356/1000 [00:36<01:07,  9.50it/s][A
 36%|██████████████████████████                                               | 357/1000 [00:36<01:09,  9.21it/s][A
 36%|██████████████████████████▏                                

 45%|████████████████████████████████▊                                        | 449/1000 [00:47<01:02,  8.75it/s][A
 45%|████████████████████████████████▊                                        | 450/1000 [00:47<01:12,  7.56it/s][A
 45%|████████████████████████████████▉                                        | 452/1000 [00:48<01:05,  8.32it/s][A
 45%|█████████████████████████████████▏                                       | 454/1000 [00:48<01:00,  8.97it/s][A
 46%|█████████████████████████████████▎                                       | 456/1000 [00:48<00:58,  9.37it/s][A
 46%|█████████████████████████████████▎                                       | 457/1000 [00:48<00:57,  9.42it/s][A
 46%|█████████████████████████████████▌                                       | 459/1000 [00:48<00:51, 10.59it/s][A
 46%|█████████████████████████████████▋                                       | 461/1000 [00:48<00:49, 10.87it/s][A
 46%|█████████████████████████████████▊                         

 56%|████████████████████████████████████████▋                                | 558/1000 [01:01<01:38,  4.49it/s][A
 56%|████████████████████████████████████████▊                                | 559/1000 [01:01<01:31,  4.81it/s][A
 56%|████████████████████████████████████████▉                                | 560/1000 [01:01<01:23,  5.28it/s][A
 56%|████████████████████████████████████████▉                                | 561/1000 [01:01<01:15,  5.84it/s][A
 56%|█████████████████████████████████████████                                | 562/1000 [01:01<01:11,  6.15it/s][A
 56%|█████████████████████████████████████████                                | 563/1000 [01:01<01:04,  6.76it/s][A
 56%|█████████████████████████████████████████▏                               | 564/1000 [01:01<01:10,  6.22it/s][A
 57%|█████████████████████████████████████████▎                               | 566/1000 [01:02<00:52,  8.24it/s][A
 57%|█████████████████████████████████████████▍                 

 65%|███████████████████████████████████████████████▌                         | 651/1000 [01:11<00:38,  9.07it/s][A
 65%|███████████████████████████████████████████████▋                         | 653/1000 [01:11<00:35,  9.91it/s][A
 66%|███████████████████████████████████████████████▊                         | 655/1000 [01:12<00:32, 10.75it/s][A
 66%|███████████████████████████████████████████████▉                         | 657/1000 [01:12<00:36,  9.51it/s][A
 66%|████████████████████████████████████████████████                         | 658/1000 [01:12<00:35,  9.58it/s][A
 66%|████████████████████████████████████████████████                         | 659/1000 [01:12<00:35,  9.55it/s][A
 66%|████████████████████████████████████████████████▏                        | 660/1000 [01:12<00:35,  9.60it/s][A
 66%|████████████████████████████████████████████████▎                        | 662/1000 [01:12<00:35,  9.65it/s][A
 66%|████████████████████████████████████████████████▍          

 79%|█████████████████████████████████████████████████████████▌               | 788/1000 [01:23<00:19, 10.95it/s][A
 79%|█████████████████████████████████████████████████████████▋               | 790/1000 [01:23<00:17, 12.22it/s][A
 79%|█████████████████████████████████████████████████████████▊               | 792/1000 [01:23<00:16, 12.90it/s][A
 79%|█████████████████████████████████████████████████████████▉               | 794/1000 [01:23<00:17, 11.92it/s][A
 80%|██████████████████████████████████████████████████████████               | 796/1000 [01:23<00:15, 12.77it/s][A
 80%|██████████████████████████████████████████████████████████▎              | 798/1000 [01:24<00:17, 11.78it/s][A
 80%|██████████████████████████████████████████████████████████▍              | 800/1000 [01:24<00:16, 12.11it/s][A
 80%|██████████████████████████████████████████████████████████▌              | 802/1000 [01:24<00:19, 10.36it/s][A
 80%|██████████████████████████████████████████████████████████▋

 92%|███████████████████████████████████████████████████████████████████▎     | 922/1000 [01:35<00:07, 10.48it/s][A
 92%|███████████████████████████████████████████████████████████████████▍     | 924/1000 [01:35<00:07, 10.17it/s][A
 93%|███████████████████████████████████████████████████████████████████▌     | 926/1000 [01:35<00:07, 10.23it/s][A
 93%|███████████████████████████████████████████████████████████████████▋     | 928/1000 [01:36<00:07, 10.24it/s][A
 93%|███████████████████████████████████████████████████████████████████▉     | 931/1000 [01:36<00:07,  9.65it/s][A
100%|█████████████████████████████████████████████████████████████████████████▋| 199/200 [02:14<00:00,  1.47it/s]


KeyboardInterrupt: 

## End of the search

In [10]:
run.finish()

Shutting down background jobs, please wait a moment...
Done!


Waiting for the remaining 14 operations to synchronize with Neptune. Do not kill this process.


All 14 operations synced, thanks for waiting!
