Reinforcement Learning 에서 기본적으로 알아야할 정의, 정리

* David Silver 교수 슬라이드에 기반함 (https://www.davidsilver.uk/teaching/)
* David Silver 교수 강의를 우리말로 잘 풀어서 설명해준 유투브 (https://www.youtube.com/watch?v=wYgyiCEkwC8&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU)

* Reward, action, states, agents, environment

# 1

## Information State
* Markov state라고도 함

**정의**
상태(state) $S_t$는 마코프임 $\Longleftrightarrow$
$$
\mathbb{P}[S_{t+1}|S_t] = \mathbb{P}[S_{t+1}|S_1, \cdots, S_t]
$$

## Policy
* Agent's의 정책(policy)
* 키가 state, 값이 action인 매핑
* Deterministic policy: $a=\pi(s)$
* Stochastic policy: $\pi(a|s) = \mathbb{P}[A_t = a | S_t = s$]

## Value Function
* 향후 얻을 reward 를 예측하는 가치 함수 (value function)
* States의 좋음/나쁨 평가에 사용
* Action 중에 뭐 고를꺼냐 할 때 사용할 수 있음
$$
v_\pi (s) = \mathbb{E}_\pi [R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots | S_t = s]
$$

## Model
* P: next state 예측. 어떤 state(s)에서 action(a)을 취할 때 어느 다음 state(s') 어디로 갈거냐 하는 확률. Transition matrix로 나타낼 수 있음
* R: 다음 단계 (즉시 얻을) reward. 어떤 state(s)에서 action(a)를 취할 때, 얻을 reward의 기대값
$$
P^a_{ss'} = \mathbb{P}[S_{t+1}=s'|S_t = s, A_t = a]
$$

## Exploration and Exploitation
* exploration: 새로운 행동 해봄
* exploitation: 에이전트가 알기에 리워드 좋을 행동만 함

# 2

## Markov Property
**정의**
* $S_t$ 는 마코프임 $\Longleftrightarrow$
$$
\mathbb{P}[S_{t+1}|S_t] = \mathbb{P}[S_{t+1}|S_1, \cdots, S_t]
$$

## State Transition Matrix
Markov state s 와 그 다음 뒤 따르는 state s'에 대해, *state transition probability* 는 다음과 같이 정의
$$
P_{ss'} = \mathbb{P}[S_{t+1}=s'|S_t = s]
$$

State transition matrix $P$ 는 모든 s와 s' 조합으로 만듦
$$
P =
\begin{bmatrix}
P_{11} \cdots P_{1n}\\
\vdots\\
P_{n1} \cdots P_{nn}
\end{bmatrix}
$$

이 때 각 row의 합은 1


## Markov Process
**정의**
* Markov process (또는 Markov chain) 은 튜플 $<S, P>$ 임
  * $S$: states의 (유한) 집합
  * $P$: state transition probability matrix $P_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t =s]$

## Markov Reward Process
마코프 프로세스에 reward 추가된거

**정의**
* Markov Reward Process 는 튜플 $<S, P, R, \gamma>$
  * $S$: states 의 유한 집합
  * $P$: state transition probability matrix $P_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t =s]$
  * $R$: reward function $R_s = \mathbb{E}[R_{t+1} | S_t = s]$
  * $\gamma$: 할인 정도(discount factor) $gamma\in[0, 1]$

## Return
**정의**
* 시간 t동안 디스카운트 된 리워드 총합을 리턴 $G_t$라고 함
$$
G_t = R_{t+1} + \gamma R_{t+2} + \cdots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
$$

## Value Function
**정의**
* MRP의 state value function $v(s)$ 는 state s 에서 시작해서 얻을 return 기대값
$$
v(s) = \mathbb{E} [G_t | S_t = s]
$$

## Bellman Equation for MRPs
value function 은 아래 두 가지로 분리 가능
* 즉시 얻을 reward $R_{t+1}$
* 후속 상태의 discount 된 value $\gamma v(S_{t+1})$
$$
\begin{align}
v(s) & = \mathbb{E}[G_t | S_t=s]\\
& = \mathbb{E} [R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots | S_t = s]\\
& = \mathbb{E} [R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \cdots) | S_t = s]\\
& = \mathbb{E} [R_{t+1} + \gamma G_{t+1} | S_t = s]\\
& = \mathbb{E} [R_{t+1} + \gamma v(S_{t+1}) | S_t = s]
\end{align}
$$

## Bellman Equation in Matrix Form
$$
v = R + \gamma P v
$$

$$
\begin{bmatrix}
v(1)\\
\vdots\\
v(n)
\end{bmatrix}
=
\begin{bmatrix}
R_1\\
\vdots\\
R_n
\end{bmatrix}
+\gamma
\begin{bmatrix}
P_{11} \cdots P_{1n}\\
\vdots\\
P_{n1} \cdots P_{nn}
\end{bmatrix}
\begin{bmatrix}
v(1)\\
\vdots\\
v(n)
\end{bmatrix}
$$

## Solving the Bellman Equation
* Bellman equation 이 linear equation 이므로
$$
\begin{align}
v & = R + \gamma P v\\
(I - \gamma P) v & = R\\
v & = (I-\gamma P )^{-1} R
\end{align}
$$
* $n$개 states에 대해 $O(n^3)$ 의 계산량
* Iterative methods 도 있음
  * Dynamic programming
  * Monte-Carlo evaluation
  * Temporal-Difference learning

## Markov decision process (MDP)
MRP에서 action이 추가 됨

**정의**
* MDP 는 $<S, A, P, R, \gamma>$ 튜플임
  * $S$: states 의 유한 집합
  * $A$: action 의 유한 집합
  * $P$: state transition probability matrix $P^a_{ss'} = \mathbb{P} [S_{t+1} = s'|S_t = s, A_t=a]$
  * $R$: reward function $R_s^a = \mathbb{E}[R_{t+1} | S_t = s, A_t=a]$
  * $\gamma$: 할인 정도(discount factor) $gamma\in[0, 1]$

## Policies
**정의**
* 정책(policy) $\pi$ 는 states가 주어졌을 때 action에 관한 분포
$$
\pi(a|s) = \mathbb{P} [A_t = a | S_t = s]
$$

* MDP $M = <S, A, P, R, \gamma>$ 와 policy $\pi$가 주어졌을 때
* state 시퀀스 $S_1, S_2, \cdots$ 는 Markov process $<S, P^\pi>$ 임
* state와 reward 시퀀스 $S_1, R_2, S_2, \cdots$ 는 MRP $<S, P^\pi, R^\pi, \gamma> $임 
* 이 때
$$
\begin{align}
P^\pi_{s,s'} & = \sum_{a\in A} \pi(a|s) P^a_{ss'}\\
R^\pi_s & = \sum_{a\in A} \pi (a|s) R^a_s
\end{align}
$$

## Value Function
**정의**
* MDP의 state-value function $v_\pi (s)$ 은 policy $\pi$에 따라서 state s로부터 얻을 수 있는 return 기대값
$$
v_\pi(s) = \mathbb{E}_\pi [G_t | S_t = s]
$$

**정의**
* action-value function $q_\pi (s, a)$ 는 policy $\pi$를 따라서, state s에서 action a를 취했을 때 얻을 return 기대값
$$
q_\pi (s, a) = \mathbb{E}_pi [G_t | S_t = s, A_t = a]
$$

## Bellman Expectation Equation
위에서 정의한 리턴을 즉시 얻을 reward와 디스카운트 된 그 다음 state 의 value 나 action-value로 나타낼 수 있음

$$
v_\pi(s) = \mathbb{E}_\pi [R_{t+1} + \gamma v_\pi (S_{t+1}) | S_t = s
$$

$$
q_\pi (s, a) = \mathbb{E} [ R_{t+1} + \gamma q_\pi (S_{t+1}, A_{t+1} | S_t = s, A_t = a ]
$$

matrix 로 나타내면

$$
v_\pi = R^\pi + \gamma P^\pi v_\pi
$$

그러면 해는

$$
v_\pi = (I-\gamma P^\pi)^{-1} R^\pi
$$

## Optimal Value Function
**정의**
* optimal state-value function $v_* (s)$ 는 모든 policies 중에서 maximum value 임
$$
v_* (s) = \max_\pi v_\pi (s)
$$

* optimal action-value function $q_* (s, a)$ 는 모든 policies 중에서 maximum action-value
$$
q_* (s, a) = \max_\pi q_\pi (s, a)
$$

optimal value function 을 알면 MDP가 풀렸다고 함

## Optimal Policy

**정리**

어떤 MDP 에 대해서도
* optimal policy $\pi_*$가 있다. 이 policy는 다른 모든 policies 보다 더 좋거나 동일 $\pi_* \ge \pi, \forall \pi$
* 모든 optimal policies 는 optial value function을 얻을 수 잇음 $v_{\pi_*}(s) = v_* (s)$
* 모든 optial policies 는 optimal action-value function을 얻을 수 있음 $q_{\pi_*} (s, a) = q_*(s, a)$

## Finding an Optimal Policy
* optimal action-value function 알면 optimal policy 구해짐
* MDP 에서 policity 가 deterministic하게 됨(걍 action이 정해지니깐)

## Solving the Bellman Optimality Equation
* Bellman Optimality Equation 은 비선형
* 한 번에 못품
* iterative methods
  * Value Iteration
  * Policy Iteration
  * Q-learning
  * Sarsa

# 3

## Iterative Policy Evaluation
* Problem: 주어진 policy $\pi$를 평가
* Solution: 