<a href="https://colab.research.google.com/github/Alice049/ml/blob/main/MDP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

強化式學習
強化式學處理的問題涉及序列相關的決策，解決這類問題的目標在於長期的最佳決策、作業研究、或稱運籌學中的確定性模型與隨機模型，馬可敷決策過程、動態規劃、馬可夫鏈、隨機過程、賽局理論受可以解決的方法。
循序決策背後的基本思想是給定一個問題，需要解決不同部分但相關的問題，首先要將大問題拆解成許多子問題，並考慮相關系的問題之下解決子問題，最後再合併子問題的解可得出原問題的解。
典型的機器學習這考慮眼前狀態，但是多步驟的短期解可能造成次優解，因為觀測值存在許多依存關係。許多統計模型假設個比觀測值間互相獨立，但事實上這個假設永遠無法成立。
Gridworld說明強化式學習中的馬可夫決策過程MDP
從起點開始，目標是達到出口，且不跌入坑中，每個時點而言，遊戲狀態定義為參賽者所在的格位，參加者的行動集有left、right、up和down四個方向。MDP評估由行動集所展開的政策，會加以限制，因此需要律定報酬矩陣，每多走一步就會有小懲罰，因為時間是強化學習優劣的重要評估，跌坑跟撞牆都會嚴厲懲罰，達到出口則有獎勵，這樣我們就能學習如何成功。
總結來說，強化式學習MDP依以下五種元素進行學習：
1可能的狀態所形成的集合
2可能的行動所形成的集合
3懲罰與獎勵所形成的報酬矩陣
4可能的行動行程之各種政策
5政策沿著時間這線後的價值

In [1]:
install.packages("MDPtoolbox")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘lpSolve’, ‘linprog’




In [2]:
#上行行動的狀態轉移機率矩陣
library(MDPtoolbox)
up=matrix(c(1,0,0,0,0.7,0.2,0.1,0,0,0.1,0.2,0.7,0,0,0,1),nrow=4,ncol=4,byrow=TRUE)

Loading required package: Matrix

Loading required package: linprog

Loading required package: lpSolve



In [3]:
#下行行動的狀態轉移機率矩陣
down=matrix(c(0.3,0.7,0,0,0,0.9,0.1,0,0,0.1,0.9,0,0,0,0.7,0.3),nrow=4,ncol=4,byrow=TRUE)

In [6]:
down

0,1,2,3
0.3,0.7,0.0,0.0
0.0,0.9,0.1,0.0
0.0,0.1,0.9,0.0
0.0,0.0,0.7,0.3


In [4]:
#左行行動的狀態轉移機率矩陣
left=matrix(c(0.9,0.1,0,0,0.1,0.9,0,0,0,0.7,0.2,0.1,0,0,0.1,0.9),nrow=4,ncol=4,byrow=TRUE)

In [5]:
left

0,1,2,3
0.9,0.1,0.0,0.0
0.1,0.9,0.0,0.0
0.0,0.7,0.2,0.1
0.0,0.0,0.1,0.9


In [7]:
#右行行動的狀態轉移機率矩陣
right=matrix(c(0.9,0.1,0,0,0.1,0.2,0.7,0,0,0,0.9,0.1,0,0,0.1,0.9),nrow=4,ncol=4,byrow=TRUE)

In [8]:
right

0,1,2,3
0.9,0.1,0.0,0.0
0.1,0.2,0.7,0.0
0.0,0.0,0.9,0.1
0.0,0.0,0.1,0.9


定義報酬矩陣並呼叫mdp函數，以MDP求解轉移機率為Actions，報酬矩陣為Rewards，折現因子為0.1的循序決策問題，因為是多期最佳化問題，所以要考慮折現因子。

In [9]:
#結合為行動集矩陣
Actions=list(up=up,down=down,left=left,right=right)

In [10]:
#定義報酬矩陣
Rewards=matrix(c(-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,10,10,10,10),nrow=4,ncol=4,byrow=TRUE)

In [11]:
#迭代式評估各種可能的政策
solver=mdp_policy_iteration(P=Actions,R=Rewards,discount=0.1)

In [12]:
#最佳政策
solver$policy

In [14]:
names(Actions)[solver$policy]

In [15]:
#迭代次數
solver$iter

In [16]:
#求解所花的時間
solver$time

Time difference of 0.06281829 secs