Design: define reward calculation, penalties, PolicyHint, and calibration

# Design: define reward calculation, penalties, PolicyHint, and calibration

Parent: #167
Related: #172, #120

## Summary

Define how Ilchul converts EvaluationResult and runtime outcomes into RewardRecord records, penalties, PolicyHint values, and simulator calibration inputs.

## Scope

Define:

- reward calculation formula;
- metric-to-reward mapping;
- penalty taxonomy;
- PolicyHint schema;
- prediction-vs-actual comparison;
- calibration data model;
- anti-Goodhart checks;
- human-approved objective-weight calibration flow.

## Non-goals

- No automatic objective weight mutation.
- No runtime plugin/module retirement behavior.
- No hidden hard-blocking based on reward alone.

## Acceptance criteria

- [ ] Reward formula is documented.
- [ ] Penalty taxonomy is documented.
- [ ] Policy hint schema is documented.
- [ ] Calibration flow from prediction-vs-actual is described.
- [ ] Anti-Goodhart checks are tied to `docs/runcontract-harness-evaluator.md`.
- [ ] Human-approved objective calibration is explicitly required.

## Verification

- Worked examples for successful run, repair-heavy run, and rejected run.
- Design review against #120 metadata-only registry boundary.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Design: define reward calculation, penalties, PolicyHint, and calibration #189

Design: define reward calculation, penalties, PolicyHint, and calibration

Summary

Scope

Non-goals

Acceptance criteria

Verification

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Design: define reward calculation, penalties, PolicyHint, and calibration #189

Description

Design: define reward calculation, penalties, PolicyHint, and calibration

Summary

Scope

Non-goals

Acceptance criteria

Verification

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions