<a href="https://colab.research.google.com/github/zll134/deeplearning-tutorial/blob/master/Q_learning_Demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 一、Q_learning 实现迷宫程序

迷宫：<br>
a a a a <br>
a a b a <br>
a b c a <br>
a a a a <br>
a表示可通行，b表示陷阱，c表示宝藏

In [21]:
import numpy as np
import pandas as pd
import random as rd
import copy
import os
import time
from google.colab import output
#maze表示迷宫-表示可通行，+表示陷阱 ！表示宝藏位置
maze=[['-','-','-','-'],['-','-','+','-'],['-','+','!','-'],['-','-','-','-']]
print(maze)
print(rd.uniform(0,10))

[['-', '-', '-', '-'], ['-', '-', '+', '-'], ['-', '+', '!', '-'], ['-', '-', '-', '-']]
3.306294332161488


In [0]:
class Qlearning:
  def __init__(self,maze,episode=20,epsilon=0.1,alpha=0.5,gamma=0.9):
    self.maze=maze
    self.action=[[0,1],[1,0],[0,-1],[-1,0]]#表示动作
    self.episode=episode
    self.height=len(maze)
    self.width=len(maze[0])
    self.status_num=len(maze)*len(maze[0])
    self.epsilon=epsilon
    self.alpha=alpha 
    self.gamma=gamma
    self.Qtable=np.zeros((self.status_num+1,4))#Qtable的初始化,包括出界的状态

  #使用epsilon-greedy 算法挑选动作，权衡探索与利用的平衡
  def choose_action(self,status,episode):
    x=status[0]
    y=status[1]
    index=0
    epsilon=0.1
    if episode<10:
      epsilon=0.3
    else:
      epsilon=0.1
    if rd.uniform(0,10)<=10*epsilon or np.max(self.Qtable[x*self.width+y,:])==np.min(self.Qtable[x*self.width+y,:]):
      index=rd.randint(0,3)
    else:
      index=np.argmax(self.Qtable[x*self.width+y,:])
    return index

  #计算对应状态的反馈
  def compute_reward(self,status):
    if self.isinside(status):
      x=status[0]
      y=status[1]
      if self.maze[x][y]=='+':
        return -1
      elif self.maze[x][y]=='!':
        return 1
      else:
        return 0
    else:
      return -1
  #更新Q表
  def update(self,status,new_status,index,reward):
    state=self.compute_state(status)
    new_state=self.compute_state(new_status)
    self.Qtable[state,index]+=self.alpha*(reward+self.gamma*np.max(self.Qtable[new_state,:])-self.Qtable[state,index])
  #展示迷宫
  def show_maze(self,status,episode):
    if self.isinside(status):
      x=status[0]
      y=status[1]
      maze=copy.deepcopy(self.maze)
      maze[x][y]='*'
      #output.clear()
      print('episode:',episode,'\n')
      for i in range(self.height):
        print(maze[i])
        print('\n')
      #time.sleep(2)
  #是否出界
  def isinside(self,status):
    x=status[0]
    y=status[1]
    if x>=0 and x<self.height and y>=0 and y<self.width:
      return True
    return False

  #通过位置计算状态
  def compute_state(self,status):
    if self.isinside(status):
      return status[0]*self.width+status[1]
    else:
      return self.status_num

  #主程序的运行，对照Qlearning的算法
  def run(self):
    episode=0
    while episode<self.episode:
      status=[0,0]
      self.show_maze(status,episode)
      end_flag=True
      while(end_flag):
        #挑选动作
        index=self.choose_action(status,episode)
        #更新状态
        action=self.action[index]
        dx=action[0]
        dy=action[1]
        new_status=[status[0]+dx,status[1]+dy]
        
        #计算反馈
        reward=self.compute_reward(new_status)
        self.show_maze(new_status,episode)
        self.update(status,new_status,index,reward)
        status=new_status
        if reward==1 or reward==-1:
          end_flag=False
      episode=episode+1



In [23]:
q=Qlearning(maze)
q.run()
print(q.Qtable)

episode: 0 

['*', '-', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 1 

['*', '-', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 1 

['-', '*', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 1 

['-', '-', '*', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 2 

['*', '-', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 2 

['-', '*', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 3 

['*', '-', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 3 

['-', '*', '-', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 3 

['-', '-', '*', '-']


['-', '-', '+', '-']


['-', '+', '!', '-']


['-', '-', '-', '-']


episode: 3 

['-', '-', '-', '*']


['-', '-', '+', '-'

## 二、基础知识
---
### python
#### 1、python 面向对象
创建类：<br>
```
class Employee:
   '所有员工的基类'
   empCount = 0
 
   def __init__(self, name, salary):
      self.name = name
      self.salary = salary
      Employee.empCount += 1
   
   def displayCount(self):
     print "Total Employee %d" % Employee.empCount
```
创建实例对象：<br>
```
"创建 Employee 类的第一个对象"
emp1 = Employee("Zara", 2000)
```
#### 2、python 基础知识
生成随机数，使用random包
```
unifrom(a,b)，生成区间为[a,b]，也是均匀分布
print(random.uniform(-10,10))
输出结果：-4.109021075631352
```


## Qlearning

#### 1、Qlearning算法
![avatar](https://pic4.zhimg.com/e6905f69595ed51e9a406a47603d49ef_r.jpg)

#### 2、参数的选取
1、epsilon greedy 算法

 人在迷宫中一开始接触到的state很少，并且如果小车按照已经学到的qtable执行，那么人很有可能出错或者绕圈圈。同时我们希望人一开始能随机的走一走，接触到更多的state。基于上述原因，我们希望小车在一开始的时候不完全按照Qlearning的结果运行，即以一定的概率epsilon，随机选择action，而不是根据maxQ来选择action。然后随着不断的学习，那么我会降低这个随机的概率，使用一个衰减函数来降低epsilon。(3)这个就解决了所谓的exploration and exploitation 的问题，在“探索”和“执行”之间寻找一个权衡。

2、alpha 的解释

 alpha 是一个权衡上一次学到结果和这一次学习结果的量，如：Q_new = (1-alpha)*Q_old + alpha*（instant reward+gamma*Q_current。
alpha 设置过低会导致机器人只在乎之前的知识，而不能积累新的 reward。一般取 0.5 来均衡以前知识及新的 reward。

3、gamma

gamma 是考虑未来奖励对于现在影响的因子，是一个(0,1)之间的值。一般我们取0.9，能够充分地对外来奖励进行考虑。
实际上如果你将它调小了，你会发现终点处的正奖励不能够“扩散”到周围，也就是说，机器人很有可能无法学习到一个到达终点的策略。
