Skip to content

Latest commit

 

History

History
7 lines (6 loc) · 805 Bytes

target_network.md

File metadata and controls

7 lines (6 loc) · 805 Bytes
layout word translation
word
Target Network
شبکه هدف

در یادگیری عمیق Q، شبکه عصبی‌ای است که یک تقریب پایدار از شبکه عصبی اصلی باشد که در آن شبکه عصبی اصلی، یک تابع Q یا یک خط‌مشی را پیاده سازی می‌کند. می‌توان شبکه اصلی را روی مقادیر Q پیش‌بینی شده توسط شبکه هدف آموزش داد تا از حلقه‌ی بازخوردی که در هنگام تمرین شبکه اصلی روی مقادیر Q که توسط خودش پیش‌بینی می‌شود جلوگیری کرد. با اجتناب از این بازخورد،‌ آموزش تمرین افزایش می‌یابد.