participants : 신호연
황승규
김지민
백재원
advisor : 황산하
- Reinforcement learning에 대한 전반적인 이해
- Reinforcement Learning: An Introduction 완독
- 지정된 단원 발표준비
- 지난주 meeting에서 나온 문제 풀이
- 공부한 내용 중 중요도를 고려하여 문제 만들기(일단보류)
- 2023/04/07
- 발표내용
- 지민 : 3.5 Policies and Value Functions
- 재원 : 3.6 Optimal Policies and Optimal Value Functions
- 특이사항
- 부득이한 사정으로 화 => 금 진행
- 동적계획법이 생각보다 많은 시간소요(2명 발표 차후 진행)
- 시험기간 진입
- 공통과제
- 피보나치 수열 재귀함수로 구현
- 발표내용
- 2023/03/31
- 발표내용
- 호연 : 3.1 The Agent-Environment Interface
- 승규 : 3.2 Goals and Rewards
- 지민 : 3.3 Returns and Episodes
- 재원 : 3.4 Unified Notation for Episodic and Continuing Tasks
- 특이사항
- 부득이한 사정으로 화 => 금 진행
- pseudo code구현 난이도가 쉽지 않았음. 기간 연장
- 발표내용
- 2023/03/21
- 발표내용
- 지민 : 2.5 Tracking a Nonstationary Problem
- 재원 : 2.6 Optimistic Initial Values ~ 2.7 Upper-Confidence-Bound Action Selection
- 호연 : 2.8 Gradient Bandit Algorithms
- 승규 : 2.9 Associative Search (Contextual Bandits)
- 특이사항
- pseudo code구현 난이도가 쉽지 않았음. 기간 연장
- 발표내용