Fix bug in shaped reward networks #544

levmckinney · 2022-08-30T01:01:54Z

Description

Addresses #543

Testing

Add test for shaping actually being applied during predict and predict processed.
Add test for ValueError being raised when you try to shape a wrapped reward net.

…ince it should never be called on top of another wrapper

codecov · 2022-08-30T17:54:29Z

Codecov Report

Merging #544 (fc9db6b) into master (de36306) will increase coverage by 0.01%.
The diff coverage is 100.00%.

@@            Coverage Diff             @@
##           master     #544      +/-   ##
==========================================
+ Coverage   96.95%   96.96%   +0.01%     
==========================================
  Files          84       84              
  Lines        7460     7486      +26     
==========================================
+ Hits         7233     7259      +26     
  Misses        227      227

Impacted Files	Coverage Δ
src/imitation/rewards/reward_nets.py	`97.14% <100.00%> (+0.06%)`	⬆️
src/imitation/testing/reward_nets.py	`100.00% <100.00%> (ø)`
tests/rewards/test_reward_nets.py	`100.00% <100.00%> (ø)`

📣 We’re building smart automated test selection to slash your CI/CD build times. Learn more

…tworks

AdamGleave

I'd like to reduce code duplication but otherwise this looks fine. Please request re-review once addressed.

src/imitation/rewards/reward_nets.py

tests/rewards/test_reward_nets.py

This reverts commit f9c6803.

This reverts commit 2679fe5.

src/imitation/rewards/reward_nets.py

tests/rewards/test_reward_nets.py

src/imitation/rewards/reward_nets.py

tests/rewards/test_reward_nets.py

Co-authored-by: Adam Gleave <adam@gleave.me>

dfilan · 2022-09-07T21:42:17Z

FWIW I'm kind of confused re: what about ForwardWrapper makes it so that it primarily changes the behaviour of forward, and why it looks so different from the code for PredictProcessedWrapper.

levmckinney · 2022-09-07T23:32:16Z

FWIW I'm kind of confused re: what about ForwardWrapper makes it so that it primarily changes the behaviour of forward, and why it looks so different from the code for PredictProcessedWrapper.

Since the forward wrapper inherits from RewardNet without implementing forward, it still an abstract class. Thus, anyone subclassing ForwardWrapper will have to implement forward if they want to be able to create concrete instances of the class.

The reason it looks so different is that: for the ForwardWrapepr we don't want all the methods calls on instances of ForwardWrapper to be pass through to their self.base. On the other hand, for the PredictProcessedWrapper we generally do.

AdamGleave

LGTM.

Added predict, predict_processed and predict_th to ShapedRewardNet

86cca5a

levmckinney requested a review from AdamGleave August 30, 2022 01:01

levmckinney linked an issue Aug 30, 2022 that may be closed by this pull request

ShapedRewardNet has no effect when calling predict_processed #543

Closed

levmckinney added 2 commits August 30, 2022 10:38

Removed test: shaped reward network does not need to pass on kwargs s…

1c75cde

…ince it should never be called on top of another wrapper

Removed not

292be32

levmckinney changed the title ~~Fix bug in shapped reward networks~~ Fix bug in shaped reward networks Aug 30, 2022

levmckinney added 2 commits August 30, 2022 11:47

added test to ensure shaping is always applied

8e1e005

Add test ensuring shapping can only be applied to unwrapped reward ne…

52caaeb

…tworks

levmckinney marked this pull request as ready for review August 30, 2022 19:06

AdamGleave requested changes Sep 1, 2022

View reviewed changes

src/imitation/rewards/reward_nets.py Outdated Show resolved Hide resolved

tests/rewards/test_reward_nets.py Show resolved Hide resolved

AdamGleave and others added 5 commits September 1, 2022 20:20

DRY-ify

2679fe5

Add explanatory comment

f9c6803

Revert "Add explanatory comment"

cc961f6

This reverts commit f9c6803.

Revert "DRY-ify"

dd7ab19

This reverts commit 2679fe5.

Added ForwardWrapper, PredictProcessedWrapper and reorginized tests

6e247c8

dfilan reviewed Sep 2, 2022

View reviewed changes

src/imitation/rewards/reward_nets.py Outdated Show resolved Hide resolved

levmckinney added 3 commits September 2, 2022 11:08

Added explination for why shaped reward is (-1).

e7ef416

changed wording of docstring

064248a

added docstring to predict_processed in PredictProcessedWrapper

263dd31

levmckinney requested a review from AdamGleave September 2, 2022 18:55

dfilan reviewed Sep 2, 2022

View reviewed changes

tests/rewards/test_reward_nets.py Outdated Show resolved Hide resolved

AdamGleave reviewed Sep 3, 2022

View reviewed changes

src/imitation/rewards/reward_nets.py Show resolved Hide resolved

src/imitation/rewards/reward_nets.py Outdated Show resolved Hide resolved

tests/rewards/test_reward_nets.py Outdated Show resolved Hide resolved

tests/rewards/test_reward_nets.py Show resolved Hide resolved

levmckinney and others added 2 commits September 3, 2022 22:48

Fixed typo

b3c18bf

Co-authored-by: Adam Gleave <adam@gleave.me>

reorginized tests

1615866

levmckinney requested a review from AdamGleave September 6, 2022 21:33

Ensure all RewardNetWrappers inherit base net's device+dtype

fc9db6b

AdamGleave approved these changes Sep 8, 2022

View reviewed changes

dfilan merged commit 838ccca into master Sep 8, 2022

dfilan deleted the shaped_reward_fix branch September 8, 2022 21:58

AdamGleave restored the shaped_reward_fix branch September 8, 2022 22:05

AdamGleave deleted the shaped_reward_fix branch September 8, 2022 22:06

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix bug in shaped reward networks #544

Fix bug in shaped reward networks #544

levmckinney commented Aug 30, 2022 •

edited

codecov bot commented Aug 30, 2022 •

edited

AdamGleave left a comment

dfilan commented Sep 7, 2022

levmckinney commented Sep 7, 2022

AdamGleave left a comment

Fix bug in shaped reward networks #544

Fix bug in shaped reward networks #544

Conversation

levmckinney commented Aug 30, 2022 • edited

Description

Testing

codecov bot commented Aug 30, 2022 • edited

Codecov Report

AdamGleave left a comment

Choose a reason for hiding this comment

dfilan commented Sep 7, 2022

levmckinney commented Sep 7, 2022

AdamGleave left a comment

Choose a reason for hiding this comment

levmckinney commented Aug 30, 2022 •

edited

codecov bot commented Aug 30, 2022 •

edited