# 강화학습 구현과 실현

강화학습에는 여러 기법이 있는데 여기에서는 DQN(Deep Q-Network)를 사용하여 강화학습을 진행하였습니다  
DQN은 기존의 Q-Learning에 신경망을 결합한 것입니다  
Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습히는 기법입니다  

## 설치

In [5]:
!pip install tensorflow
!pip install matplotlib

zsh:1: command not found: pip
zsh:1: command not found: pip


## import

In [2]:
import tensorflow as tf
import numpy as np
import random
import math
import os
tf.compat.v1.disable_eager_execution()
# tensorflow v2에서 사용법인 바뀐 함수들은 앞에 tf.compat.v1.를 붙여서 사용해준다

## 파라미터 설정

In [3]:
epsilon = 1  # 랜덤하게 행동할 확률
epsilonMinimumValue = 0.001  # epsilon의 최소값
nbActions = 3  # 행동의 개수 (왼쪽, 대기, 오른쪽)
epoch = 1001  # 게임 반복횟수
hiddenSize = 100  # 히든 레이어 뉴런 개수
maxMemory = 500  # 게임내용을 기억하는 최대 개수
batchSize = 50  # 학습시 데이터 묶음 개수
gridSize = 10  # 격자 크기
nbStates = gridSize * gridSize  # 상태 개수 (게임화면 픽셀의 개수)
discount = 0.9  # 감소값
learningRate = 0.2  # 학습률

## 딥러닝 모델 설정
입력레이어는 nbStates(100)개 히든레이어는 hiddenSize(100)개 출력레이어는 nbAction(3)개를 가지는 딥러닝 모델을 만들어 준다  

### 입력 레이어
**X = tf.compat.v1.placeholder(tf.float32, [None, nbStates]) # 입력값**  
placeholder는 변수를 선언할 때 값을 바로 주는 것이 아닌 나중에 값을 던져줄 수 있도록 공간을 미리 만들어 주는 것이다  
따라서 X는 데이터 유형이 float32이고 첫번째 차원의 수는 정해져있지 않고(가변적) 두번째 차원의 수는 nbStates의 값을 가지는 placeholder가 된다  

**W1 = tf.Variable(tf.random.truncated_normal([nbStates, hiddenSize], stddev=1.0 / math.sqrt(float(nbStates)))) # 가중치**  
입력 레이어의 가중치를 나타내는 W1을 생성해 준다  
변수의 초기화는 랜덤값으로 주어지는데 이 랜덤값은 양쪽 끝이 잘려있는 정규분포에서 가져오게 된다
이 정규분포의 표준편차는 $\frac{1}{\sqrt{nbStates}}$가 된다  
이러한 랜덤값들로 nbStates x hiddenSize의 크기를 가지는 행렬을 채워준다  

**b1 = tf.Variable(tf.random.truncated_normal([hiddenSize], stddev=0.01)) # 편향**  
활성화 난이도를 조절해주는 b1을 생성해준다  
학습데이터가 가중치와 계산되어 나온 값에 더해주어 활성화 난이도를 조절해주는 역할을 해준다  
여기서도 양쪽 끝이 잘려있는 정규분포를 이용하게 되는데 이 정규분포의 표준편차는 0.01이 된다  
hiddenSize개의 랜덤값들을 만들어준다  

**input_layer = tf.nn.relu(tf.matmul(X, W1) + b1)**  
input layer의 출력값을 만들어준다  
우선 X과 W1의 행렬곱을 한 다음 b1을 더해준다  
그 다음 활성화 함수에 넣어주는데 여기서 활성화 함수는 ReLU 함수가 사용된다  
ReLU 함수: $f(x) = max(0,x)$  

입력값인 X와 가중치인 W1을 행렬곱을 하게 되면 X는 None x nbStates의 크기를 가지는 행렬이고 W1은 nbStates x hiddenSize의 크기를 가지는 행렬이므로 결과는 None x hiddenSize의 크기를 가지는 행렬이 나오게 된다  
이렇게 행렬곱을 하게되면 각각의 입력 레이어 노드에 들어가는 입력값들을 만들어낼 수 있다  
이 값에 편향인 b1을 더해준 뒤 활성화 함수에 넣어주면 각각의 입력 레이어 노드의 출력값들을 만들어낼 수 있다

In [4]:
X = tf.compat.v1.placeholder(tf.float32, [None, nbStates]) # 입력값
W1 = tf.Variable(tf.random.truncated_normal([nbStates, hiddenSize], stddev=1.0 / math.sqrt(float(nbStates)))) # 가중치
b1 = tf.Variable(tf.random.truncated_normal([hiddenSize], stddev=0.01)) # 편향
input_layer = tf.nn.relu(tf.matmul(X, W1) + b1) # 출력값

### 히든 레이어
**W2 = tf.Variable(tf.random.truncated_normal([hiddenSize, hiddenSize],stddev=1.0 / math.sqrt(float(hiddenSize))))**  
히든 레이어의 가중치를 나타내는 W2를 생성해준다
입력 레이어와 마찬가지로 변수의 초기화는 랜덤값으로 주어지는데 이 랜덤값은 양쪽 끝이 잘려있는 정규분포에서 가져오게 된다  
이 정규분포의 표준편차는 $\frac{1}{\sqrt{hiddenSize}}$가 된다  
이러한 랜덤값들로 hiddenSize x hiddenSize의 크기를 가지는 행렬을 채워준다  

**b2 = tf.Variable(tf.random.truncated_normal([hiddenSize], stddev=0.01)) # 편향**  
활성화 난이도를 조절해주는 b2을 생성해준다  
입력 레이어와 마찬가지로 학습데이터가 가중치와 계산되어 나온 값에 더해주어 활성화 난이도를 조절해주는 역할을 해준다  
여기서도 양쪽 끝이 잘려있는 정규분포를 이용하게 되는데 이 정규분포의 표준편차는 0.01이 된다  
hiddenSize개의 랜덤값들을 만들어준다  

**hidden_layer = tf.nn.relu(tf.matmul(input_layer, W2) + b2) # 출력값**  
hidden layer의 출력값을 만들어준다  
우선 input_layer(입력 레이어의 출력값)과 W2의 행렬곱을 한 다음 b2을 더해준다  
그 다음 활성화 함수에 넣어주는데 여기서도 활성화 함수는 ReLU 함수가 사용된다  
ReLU 함수: $f(x) = max(0,x)$  

입력 레이어의 출력값인 input_layer와 가중치인 W2을 행렬곱을 하게 되면 input_layer는 None x hiddenSize 크기를 가지는 행렬이고 W2은 hiddenSize x hiddenSize의 크기를 가지는 행렬이므로 결과는 None x hiddenSize의 크기를 가지는 행렬이 나오게 된다  
이렇게 행렬곱을 하게되면 각각의 히든 레이어 노드에 들어가는 입력값들을 만들어낼 수 있다  
이 값에 편향인 b2을 더해준 뒤 활성화 함수에 넣어주면 각각의 히든 레이어 노드의 출력값들을 만들어낼 수 있다

In [5]:
W2 = tf.Variable(tf.random.truncated_normal([hiddenSize, hiddenSize],stddev=1.0 / math.sqrt(float(hiddenSize)))) # 가중치
b2 = tf.Variable(tf.random.truncated_normal([hiddenSize], stddev=0.01)) # 편향
hidden_layer = tf.nn.relu(tf.matmul(input_layer, W2) + b2) # 출력값

### 출력 레이어  
**W3 = tf.Variable(tf.random.truncated_normal([hiddenSize, nbActions],stddev=1.0 / math.sqrt(float(hiddenSize))))**  
출력 레이어의 가중치를 나타내는 W3을 생성해준다  
히든 레이어와 마찬가지로 변수의 초기화는 랜덤값으로 주어지는데 이 랜덤값은 양쪽 끝이 잘려있는 정규분포에서 가져오게 된다  
이 정규분포의 표준편차는 $\frac{1}{\sqrt{hiddenSize}}$가 된다  
이러한 랜덤값들로 hiddenSize x hiddenSize의 크기를 가지는 행렬을 채워준다  

**b3 = tf.Variable(tf.random.truncated_normal([nbActions], stddev=0.01))**  
활성화 난이도를 조절해주는 b3을 생성해준다  
히든 레이어와 마찬가지로 학습데이터가 가중치와 계산되어 나온 값에 더해주어 활성화 난이도를 조절해주는 역할을 해준다  
여기서도 양쪽 끝이 잘려있는 정규분포를 이용하게 되는데 이 정규분포의 표준편차는 0.01이 된다  
bnActions개의 랜덤값들을 만들어준다   

**output_layer = tf.matmul(hidden_layer, W3) + b3**  
out layer의 출력값을 만들어준다
hidden_layer(히든레이어의 출력값)과 W3의 행렬곱을 한 다음 b3을 더해준다  
회귀 문제이기 때문에 출력 레이어에서는 활성화 함수를 사용하지 않습니다 (항등함수라고도 함)

히든 레이어의 출력값인 hidden_layer와 가중치인 W3을 행렬곱을 하게 되면 hidden_layer는 None x hiddenSize 크기를 가지는 행렬이고 W3은 hiddenSize x nbActions 크기를 가지는 행렬이므로 결과는 None x nbActions 크기를 가지는 행렬이 나오게 된다  
이렇게 행렬곱을 하게되면 각각의 출력 레이어 노드에 들어가는 입력값들을 만들어낼 수 있다  
이 값에 편향인 b3을 더해주면 각각의 출력 레이어 노드의 출력값들을 만들어낼 수 있다  

In [6]:
W3 = tf.Variable(tf.random.truncated_normal([hiddenSize, nbActions],stddev=1.0 / math.sqrt(float(hiddenSize))))
b3 = tf.Variable(tf.random.truncated_normal([nbActions], stddev=0.01))
output_layer = tf.matmul(hidden_layer, W3) + b3

### 목표값 플레이스홀더
목표값 플레이스홀더 Y를 생성한다  
Y는 데이터 유형이 float32이고 첫번째 차원의 수는 정해져있지 않고(가변적) 두번째 차원의 수는 nbActions의 값을 가지는 placeholder가 된다  

In [7]:
Y = tf.compat.v1.placeholder(tf.float32, [None, nbActions])

### 목표값과 출력값의 차이인 코스트
목표값과 출력값의 오차를 구하기 위해 여기서는 평균 제곱 오차를 사용한다  
목표값(Y)에서 출력값(output_layer)을 뺀 다음 제곱을 해준다  
그 다음 나온 값들을 모두 더해준 뒤 2 x batchSize로 나누어준다  
batchSize는 한 번에 모델이 학습하는 데이터 샘플의 개수로 이렇게 2 x batchSize로 나누어주게 되면 코스트를 정규화해주게 된다  
정규화를 통해 학습률과 batchSize에 따른 코스트 크기의 영향을 줄일 수 있다

In [8]:
cost = tf.reduce_sum(tf.square(Y-output_layer)) / (2*batchSize)

### 경사하강법으로 코스트가 최소가 되는 값 찾음
경사하강법을 이용해 비용이 최소가 되는 값을 찾아준다  
경사하강법을 사용할 때 학습률은 learningRate가 되고 minimize(cost)를 붙여주어 cost를 최소화하도록 설정해준다  

In [9]:
optimizer = tf.compat.v1.train.GradientDescentOptimizer(learningRate).minimize(cost)

## 랜덤값 함수
함수 randf는 s이상 e미만의 값을 가지는 float형태의 랜덤값을 리턴해준다  
(float(random.randrange(0, (e - s) * 9999)) / 10000) + s;
random.randrange는 0부터 (e - s) * 9999 미만의 랜덤값을 만들어준다  
이 값에 float를 붙여 실수로 변환해준 다음 10000으로 나누어주면 0이상 (e - s)미만의 랜덤값이 나오게 된다  
여기에 s를 더해주면 s이상 e미만의 랜덤값이 된다  

In [10]:
def randf(s, e):
    return (float(random.randrange(0, (e - s) * 9999)) / 10000) + s;

## 환경 클래스
### \_\_init__ 함수
\_\_init__ 함수는 초기화를 시켜준다  

**self.gridSize = gridSize  
self.nbStates = self.gridSize * self.gridSize  
self.state = np.empty(3, dtype = np.uint8)**  
np.empty는 초기화되지 않은 값으로 배열을 생성해주는 함수로 여기서는 길이가 3인 초기화되지 않은 배열이 생성된다  
배열의 데이터 형식은 uint8(부호 없는 8비트 정수)가 된다  

### observe 함수
observe 함수는 화면정보를 리턴해준다 (관찰)  

**canvas = self.drawState()**  
drawState함수의 출력값을 canvas에 저장해준다  

**canvas = np.reshape(canvas, (-1,self.nbStates))**  
np.reshape는 배열을 재구성해주는 함수로 여기서는 canvas 배열을 self.nbStates개의 열을 가지는 배열로 재구성해준다(행의 개수는 -1로 설정되어 있으므로 자동으로 결정된다)  
그 값을 다시 canvas에 저장해준다    

return canvas  
canvas를 리턴해준다  

### drawState 함수
drawState 함수는 블럭과 바를 표시하여 화면정보를 리턴해준다

**canvas = np.zeros((self.gridSize, self.gridSize))**  
모든 요소가 0으로 초기화된 self.gridSize x self.gridSize의 크기를 가지는 배열을 생성한다  

**canvas[self.state[0]-1, self.state[1]-1] = 1**  
self.state는 길이가 3인 배열로 0에는 블럭의 행번호가 1에는 블럭의 열번호를 저장하고 있다  
self.state 값들을 계산할때는 gridSize를 기준으로 계산을 해 1 ~ gridSize이지만 실제로 나타낼 때는 0 ~ gridSize-1이기 때문에 각 값들에 -1을 해준 위치의 배열값을 1로 바꾸어준다   

**canvas[self.gridSize-1, self.state[2] -1 - 1] = 1  
canvas[self.gridSize-1, self.state[2] -1] = 1  
canvas[self.gridSize-1, self.state[2] -1 + 1] = 1**  
self.State[2]에는 바의 열번호를 저장하고 있다  
따라서 바의 행번호는 self.gridSize-1(가장 마지막 행)을 해주고 열번호는 self.state[2]-1과 좌우 배열값들을 1로 바꾸어준다    

return canvas  
canvas를 리턴해준다  

### reset 함수
reset함수는 블럭과 바의 위치를 리셋해준다  

**initialFruitColumn = random.randrange(1, self.gridSize + 1)**  
1이상 self.gridSize+1 미만의 랜덤값을 initialFruitColumn에 저장해준다  

**initialBucketPosition = random.randrange(2, self.gridSize + 1 - 1)**  
2이상 self.gridSize미만의 랜덤값을 initialBucketPosition에 저장해준다  
바는 양옆에 픽셀까지 사용하기 때문에 블럭과 다르게 2이상 self.gridSize미만으로 설정해준다  

**self.state = np.array([1, initialFruitColumn, initialBucketPosition])**  
블럭의 시작은 항상 맨 위이여야 하기 때문에 self.state[0]은 1로 설정해주고 self.state[1]에는 블럭의 열번호인 initialFruitColumn로 설정해주고 self.state[2]에는 바의 위치인 initialBucketPosition을 설정해준다(바는 항상 행번호가 마지막 행번호로 정해져있기 때문에 열번호만 변경해주면 된다)

**return self.getState()**  
self.getState(현재 상태)를 리턴해준다

### getState 함수  
getState 함수는 현재 상태를 리턴해준다  

**stateInfo = self.state**  
stateInfo에 현재 state값을 불러온 뒤   

**fruit_row = stateInfo[0]**  
블럭의 행번호는 fruit_row에 저장  

**fruit_col = stateInfo[1]**  
블럭의 열번호는 fruit_col에 저장  

**basket = stateInfo[2]**  
바의 위치는 basket에 저장해준다  

**return fruit_row, fruit_col, basket**  
각각의 값들을 리턴해준다  

### getReward 함수  
getReward 함수는 보상값을 리턴해준다  

**fruitRow, fruitColumn, basket = self.getState()**  
우선 getState 함수를 이용해 현재 상태를 가져온다  

**if (fruitRow == self.gridSize - 1):**   # 만약 블럭의 행번호가 self.gridSize - 1 과 같다면 (블럭이 가장 마지막 행까지 갔다면)  
&nbsp;&nbsp;&nbsp;&nbsp;**if (abs(fruitColumn - basket) <= 1):**  # 블럭의 열번호 - 바의 위치에 절대값이 <= 1이라면 (0이라면 == 위치가 같다면)  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**return 1**   # 1을 리턴해준다  
&nbsp;&nbsp;&nbsp;&nbsp;**else:**  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**return -1**   # 위치가 같지 않다면 -1을 리턴해준다  
**else:**   # 블럭의 행번호가 gridSize - 1 과 같지 않다면 (블럭이 아직 가장 마지막 행까지 가지 않았다면)  
&nbsp;&nbsp;&nbsp;&nbsp;**return 0**   # 0을 리턴해준다**  

### isGameOver 함수
isGameOver 함수는 게임이 끝났는지의 여부를 리턴해준다   

**if (self.state[0] == self.gridSize - 1):**  # 만약 블럭의 행번호가 self.girdSize-1과 같다면 (블럭이 가장 마지막 행까지 갔다면)  
&nbsp;&nbsp;&nbsp;&nbsp;**return True** # True를 리턴해준다  
**else:** # 블럭이 가장 마지막 행까지 가지 않았다면  
&nbsp;&nbsp;&nbsp;&nbsp;**return False**  # False를 리턴해준다  
    
### updateState 함수
updateState 함수는 action에 따라 바의 위치를 업데이트해주고 블럭의 위치를 업데이트해준다

**if (action == 0):** # action이 0이면 왼쪽으로 이동시켜준다  
&nbsp;&nbsp;&nbsp;&nbsp;**action = -1**    
**elif (action == 1):** # action이 1이면 그대로 있는다  
&nbsp;&nbsp;&nbsp;&nbsp;**action = 0**   
**elif (action == 2):**  # action이 2이면 오른쪽으로 이동시켜준다  
&nbsp;&nbsp;&nbsp;&nbsp;**action = 1**  

**fruitRow, fruitColumn, basket = self.getState()**  
getState함수를 이용해 현재상태를 가져온다  

**newBasket = min(max(2, basket + action), self.gridSize - 1)**  # 바 위치 변경  
새로운 바의 위치는 우선 2와 bascket + action 중 큰 것을 고른 다음 self.gridSize - 1과 비교하여 더 작은 값으로 설정해준다 (2이상 self.gridSize-1이하의 값으로 설정된다 바는 양옆의 픽셀까지 사용하기 때문에 2와 self.gridSize - 1로 설정해준다)  

**fruitRow = fruitRow + 1**  # 블럭을 아래로 이동  
블럭의 행번호도 하나 추가해준다  

**self.state = np.array([fruitRow, fruitColumn, newBasket])**  
state값을 새로운 값들로 업데이트 해준다  

### act 함수
act 함수는 행동을 수행한다  

**self.updateState(action)**  
updateState 함수를 사용해 바의 위치와 블럭의 위치를 업데이트 시켜준다  

**reward = self.getReward()**  
getReward 함수를 사용해 보상값을 가져오고  

**gameOver = self.isGameOver()**  
isGameOver 함수를 사용해 게임이 끝났는지 확인한다  

**return self.observe(), reward, gameOver, self.getState()**  
앞에서 가져온 값들을 리턴해준다  

In [11]:
class CatchEnvironment():
    # 초기화
    def __init__(self, gridSize):
        self.gridSize = gridSize
        self.nbStates = self.gridSize * self.gridSize
        self.state = np.empty(3, dtype = np.uint8) 
        
    # 화면정보 리턴
    def observe(self):
        canvas = self.drawState()
        canvas = np.reshape(canvas, (-1,self.nbStates))
        return canvas
    
    # 블럭과 바를 표시하여 화면정보 리턴
    def drawState(self):
        canvas = np.zeros((self.gridSize, self.gridSize))
    
        # 블럭 표시
        canvas[self.state[0]-1, self.state[1]-1] = 1

        # 바 표시
        canvas[self.gridSize-1, self.state[2] -1 - 1] = 1
        canvas[self.gridSize-1, self.state[2] -1] = 1
        canvas[self.gridSize-1, self.state[2] -1 + 1] = 1    
        return canvas 

    # 블럭과 바 위치 초기화
    def reset(self): 
        initialFruitColumn = random.randrange(1, self.gridSize + 1)
        initialBucketPosition = random.randrange(2, self.gridSize + 1 - 1)
        self.state = np.array([1, initialFruitColumn, initialBucketPosition]) 
        return self.getState()

    # 상태 리턴
    def getState(self):
        stateInfo = self.state
        fruit_row = stateInfo[0]
        fruit_col = stateInfo[1]
        basket = stateInfo[2]
        return fruit_row, fruit_col, basket

    # 보상값 리턴
    def getReward(self):
        fruitRow, fruitColumn, basket = self.getState()
        if (fruitRow == self.gridSize - 1):  # If the fruit has reached the bottom.
            if (abs(fruitColumn - basket) <= 1): # Check if the basket caught the fruit.
                return 1
            else:
                return -1
        else:
            return 0

    # 게임오버 검사
    def isGameOver(self):
        if (self.state[0] == self.gridSize - 1): 
            return True 
        else: 
            return False 

    # 상태 업데이트
    def updateState(self, action):
        if (action == 0):
            action = -1  # 왼쪽 이동
        elif (action == 1):
            action = 0  # 대기
        elif (action == 2):
            action = 1  # 오른쪽 이동
        fruitRow, fruitColumn, basket = self.getState()
        newBasket = min(max(2, basket + action), self.gridSize - 1)  # 바 위치 변경
        fruitRow = fruitRow + 1  # 블럭을 아래로 이동
        self.state = np.array([fruitRow, fruitColumn, newBasket])

    # 행동 수행 (1->왼쪽, 2->대기, 3->오른쪽)
    def act(self, action):
        self.updateState(action)
        reward = self.getReward()
        gameOver = self.isGameOver()
        return self.observe(), reward, gameOver, self.getState() 

## 메모리 클래스 (게임내용을 저장하고 나중에 배치로 묶어 학습에 사용)

### \_\_init__ 함수
\_\_init__ 함수는 초기화를 시켜준다  

**self.maxMemory = maxMemory  
self.gridSize = gridSize  
self.nbStates = self.gridSize * self.gridSize  
self.discount = discount  
canvas = np.zeros((self.gridSize, self.gridSize))**  
canvas는 0으로 초기화된 self.gridSize x self.gridSize의 크기를 가지는 배열이 된다  

**canvas = np.reshape(canvas, (-1,self.nbStates))**  
위에서 생성한 canvas를 self.nbStates개의 열을 가지는 배열로 재배열해준다  

**self.inputState = np.empty((self.maxMemory, 100), dtype = np.float32)**  
self.inputState는 초기화가 되지 않은 self.maxMermory * 100의 크기를 가지는 배열이 된다  
배열의 데이터 형식은 np.float32가 된다  

**self.actions = np.zeros(self.maxMemory, dtype = np.uint8)**  
self.actions는 0으로 초기화된 self.maxMemory의 길이를 가지는 배열이 된다
배열의 데이터 형식은 np.uint8이 된다

**self.nextState = np.empty((self.maxMemory, 100), dtype = np.float32)**  
self.nextState는 초기화가 되지 않은 self.maxMemory x 100의 크기를 가지는 배열이 된다  
배열의 데이터 형식은 np.float32가 된다

**self.gameOver = np.empty(self.maxMemory, dtype = np.bool_)**  
self.gameOver는 초기화가 되지 않은 self.maxMemory의 길이를 가지는 배열이 된다  
배열의 데이터 형식은 np.bool_이 된다

**self.rewards = np.empty(self.maxMemory, dtype = np.int8)**  
self.rewords는 초기화가 되지 않은 self.maxMemory의 길이를 가지는 배열이 된다  
배열의 데이터 형식은 np.int8이 된다  

**self.count = 0  
self.current = 0**  

### remember 함수
remember 함수는 경험을 ReplayMemory에 저장해준다  

**self.actions[self.current] = action**  
self.actions의 self.current번째 데이터는 action이 된다  

**self.rewards[self.current] = reward**  
self.rewards의 self.current번째 데이터는 reward가 된다  

**self.inputState[self.current, ...] = currentState**  
self.inputState의 self.current번째 행의 데이터는 currentState가 된다  

**self.nextState[self.current, ...] = nextState**   
self.nextState의 self.current번째 행의 데이터는 nextState가 된다  

**self.gameOver[self.current] = gameOver**  
self.gameOver의 self.current번째 데이터는 gameOver가 된다  

**self.count = max(self.count, self.current + 1)**  
self.count는 self.count와 self.current+1 중 더 큰 값이 된다  
현재까지 사용된 데이터의 수를 업데이트해준다

**self.current = (self.current + 1) % self.maxMemory**  
self.current는 self.current + 1을 self.maxMemory로 나눈 나머지값이 된다  
이렇게 해주는 이유는 self.current + 1이 self.maxMemory 값과 같아질 경우 0으로 만들어 주기 때문이다  
따라서 self.current는 0에서 self.maxMemory -1의 값을 가지게 된다  

### getBatch 함수
getBatch 함수는 저장된 게임내용에서 랜덤한 배치(batch)를 가져오는 함수입니다  
배치(batch)는 한 번에 모델에 입력되는 데이터의 묶음을 말합니다  

**memoryLength = self.count**  
memoryLength는 self.count(현재까지 사용된 데이터의 수)가 된다  

**chosenBatchSize = min(batchSize, memoryLength)**  
chosenBatchSize는 batchSize와 memoryLength 중 더 작은 값이 된다  

**inputs = np.zeros((chosenBatchSize, nbStates))**   
inputs은 0으로 초기화된 chosenBatchSize x nbStates의 크기를 가지는 배열이 된다  

**targets = np.zeros((chosenBatchSize, nbActions))**   
targets은 0으로 초기화된 chosenBatchSize x nbActions의 크기를 가지는 배열이 된다  

**for i in range(chosenBatchSize):** 
chosenBatchSize만큼 for문을 돌려준다  

**randomIndex = random.randrange(0, memoryLength)**  
randomIndex는 0이상 memoryLength 이하의 랜덤값을 가지게 된다  

**current_inputState = np.reshape(self.inputState[randomIndex], (1, 100))**  
current_inputState는 inputState의 randomIndex번째 행의 데이터를 1 x 100 크기의 배열로 재배열해준다  

**target = sess.run(model, feed_dict={X: current_inputState})**  
target은 tensorflow의 세션을 실행한 뒤 model을 설정해주고 X는 모델의 입력 플레이스홀더를 나타내고 current_inputState가 이 플레이스홀더에 입력이 된다  
그 다음 모델을 실행하여 그 결과를 받을 수 있다  

**current_nextState = np.reshape(self.nextState[randomIndex], (1, 100))**  
current_nextState는 nextState의 randomIndex번째 행의 데이터를 1 x 100 크기의 배열로 재배열해준다  

**current_outputs = sess.run(model, feed_dict={X: current_nextState})**       
그 다음 target과 마찬가지로 세션을 실행한 다음 결과를 받는데 여기서는 플레이스홀더에 입력되는 값이 current_nextState로 바뀐다  

**nextStateMaxQ = np.amax(current_outputs)**   
nextStateMaxQ는 current_outputs에서 최대값을 가진다  
가질 수 있는 가장 큰 Q값을 계산


**if (self.gameOver[randomIndex] == True):**  # 만약 gameOver의 randomIndex번째 행의 값이 True라면 (게임이 끝났다면)  
&nbsp;&nbsp;&nbsp;&nbsp;**target[0, [self.actions[randomIndex]-1]] = self.rewards[randomIndex]** # target의 첫번째 행의 self.actions의 randomIndex번째 데이터 - 1번째 열의 데이터는 self.rewards의 randomIndex번째 데이터가 된다  
게임이 끝났을 때의 Q값은 reward(보상값)이 된다  

**else:**  # 만약 gameOver의 randomIndex 행의 값이 False라면 (게임이 끝나지 않았다면)  
&nbsp;&nbsp;&nbsp;&nbsp;**target[0, [self.actions[randomIndex]-1]] = self.rewards[randomIndex] +self.discount * nextStateMaxQ**  
True일때와 마찬가지로 self.reward의 데이터를 넣어주는데 이번에는 reward(보상값)에 self.discount(감소값) x nextStateMaxQ(가질 수 있는 가장 큰 Q값)을 더해준다  
Q값을 업데이트 시켜주는 과정인데 Q-Learning의 업데이트 수식은 보상값 + 감소값 x maxQ(상태,행동)입니다  

&nbsp;&nbsp;&nbsp;&nbsp;**inputs[i] = current_inputState**  
&nbsp;&nbsp;&nbsp;&nbsp;**targets[i] = target**  
**return inputs, targets**  
for문이 끝나면 저장한 input과 targets을 리턴해준다  

In [12]:
class ReplayMemory:

    # 초기화
    def __init__(self, gridSize, maxMemory, discount):
        self.maxMemory = maxMemory
        self.gridSize = gridSize
        self.nbStates = self.gridSize * self.gridSize
        self.discount = discount
        canvas = np.zeros((self.gridSize, self.gridSize))
        canvas = np.reshape(canvas, (-1,self.nbStates))
        self.inputState = np.empty((self.maxMemory, 100), dtype = np.float32)
        self.actions = np.zeros(self.maxMemory, dtype = np.uint8)
        self.nextState = np.empty((self.maxMemory, 100), dtype = np.float32)
        self.gameOver = np.empty(self.maxMemory, dtype = np.bool_)
        self.rewards = np.empty(self.maxMemory, dtype = np.int8) 
        self.count = 0
        self.current = 0

    # 게임내용 추가
    def remember(self, currentState, action, reward, nextState, gameOver):
        self.actions[self.current] = action
        self.rewards[self.current] = reward
        self.inputState[self.current, ...] = currentState
        self.nextState[self.current, ...] = nextState
        self.gameOver[self.current] = gameOver
        self.count = max(self.count, self.current + 1)
        self.current = (self.current + 1) % self.maxMemory

    # 게임내용을 배치로 묶어서 리턴
    def getBatch(self, model, batchSize, nbActions, nbStates, sess, X):
        memoryLength = self.count
        chosenBatchSize = min(batchSize, memoryLength)
        inputs = np.zeros((chosenBatchSize, nbStates))
        targets = np.zeros((chosenBatchSize, nbActions))

        for i in range(chosenBatchSize):
            # 메모리에서 랜덤하게 선택
            randomIndex = random.randrange(0, memoryLength)
            current_inputState = np.reshape(self.inputState[randomIndex], (1, 100))
            target = sess.run(model, feed_dict={X: current_inputState})

            current_nextState = np.reshape(self.nextState[randomIndex], (1, 100))
            current_outputs = sess.run(model, feed_dict={X: current_nextState})      

            # 다음 상태의 최대 Q값
            nextStateMaxQ = np.amax(current_outputs)


            if (self.gameOver[randomIndex] == True):
                # 게임오버일때 Q값은 보상값으로 설정
                target[0, [self.actions[randomIndex]-1]] = self.rewards[randomIndex]
            else:
                # Q값을 계산
                # reward + discount(gamma) * max_a' Q(s',a')
                target[0, [self.actions[randomIndex]-1]] = self.rewards[randomIndex] +self.discount * nextStateMaxQ
                inputs[i] = current_inputState
                targets[i] = target
        return inputs, targets

##  메인함수
**print("Training new model")**  

**env = CatchEnvironment(gridSize)**  
env를 CatchEnvironment 클래스로 정의해준다  
변수값으로 gridSize(게임화면 한 면의 픽셀 수)를 넘겨준다  

**memory = ReplayMemory(gridSize, maxMemory, discount)**  
memory를 ReplayMemory 클래스로 정의해준다  
변수값으로 gridSize(게임화면 한 면의 픽셀 수), maxMemory(ReplayMemory 데이터의 최대크기), discount(감소값)를 넘겨준다  

**saver = tf.compat.v1.train.Saver()**  
모델과 파라미터를 저장하기 위해 saver을 설정해준다  
    
**winCount = 0**  
winCount는 0으로 초기화해준다  

**with tf.compat.v1.Session() as sess:**  
세션을 열고 사용한 후 자동으로 세션을 닫아주는 코드이다  
여기서 sess는 세션을 나타내는 객체가 된다  

**sess.run(tf.compat.v1.global_variables_initializer())** 
세션 내의 텐서플로우 변수들(tf.variables)을 초기화 시켜준다  

**for i in range(epoch):**  
epoch만큼 for문을 반복해준다  

**err = 0**  
한 번의 루프 동안 사용할 err 변수를 0으로 초기화 해준다  

**env.reset()**  
reset 함수를 사용하여 블럭과 바의 위치를 리셋해준다  
      
**isGameOver = False**  
isGameOver 변수의 루프 초기화 값을 False로 설정해준다  

**currentState = env.observe()**  
currentState는 observe 함수를 사용하여 현재 화면의 상태를 가져온다  
            
**while (isGameOver != True):**  
만약 게임이 끝났다면  

**action = -9999**   
action을 -9999로 설정해주고  

**global epsilon**  
전역변수인 epsilon을 불러온다  
epsilon은 랜덤하게 행동할 확률을 말한다  
epsilon greedy 기법에 따라 action을 취하게 된다  

**if (randf(0, 1) <= epsilon):**  
randf 함수를 이용하여 float 형태의 0이상 1미만인 랜덤값을 가져온 뒤 epsilon과 비교하여 epsilon이 같거나 더 크다면(epsilon의 확률만큼 랜덤한 행동을 합니다)      

**action = random.randrange(0, nbActions)**  
action은 0이상 nbActions 미만인 랜덤값을 가지게 된다 

**else:**  
반대로 epsilon 보다 랜덤값이 작게 나온다면 (1-epsilon의 확률만큼 greedy 기법에 따라 Q값을 기반으로 가장 높은 가치를 가진 행동을 선택한다)  

**q = sess.run(output_layer, feed_dict={X: currentState})**   
위에서 정의했던 딥러닝에 currentState를 입력값으로 넣어 돌려 q에 넣어준다    

**action = q.argmax()**  
딥러닝을 돌려 얻은 q값들 중 가장 큰 값을 action으로 설정해준다    

**if (epsilon > epsilonMinimumValue):**  
만약 epsilon이 epsilonMinimumValue(epsilon의 최소값)보다 크다면  
**epsilon = epsilon * 0.999**  
epsilon의 값을 감소시켜준다 (랜덤으로 행동할 확률을 감소시킨다)  
이렇게 되면 학습 초반에는 랜덤으로 행동할 확률이 높고 학습이 진행될 수록 랜덤으로 행동할 확률이 줄어든다  
                
**nextState, reward, gameOver, stateInfo = env.act(action)**  
act 함수를 사용해 nextState, reward, gameOver, stateInfo를 얻어낸다  
act 함수를 사용하게 되면 우선 updateState 함수를 사용해 상태를 업데이트 해준다  
이때 updateState에 아까 얻은 action값을 넣어주게 된다  
nextState: observe 함수를 사용해 얻은 값으로 화면 정보를 리턴받는다  
reward: getReward 함수를 사용해 보상값을 리턴받는다  
gameOver: isGameOver 함수를 사용하여 게임의 종료 여부를 확인한다  
stateInfo: getState 함수를 사용하여 게임의 상태를 리턴받는다  

**if (reward == 1):**
만약 reward가 1이라면 (블럭이 마지막 행까지 갔을 때 바와 위치가 같다면(게임을 이겼다면))

**winCount = winCount + 1**  
winCount를 1 올려준다  

**memory.remember(currentState, action, reward, nextState, gameOver)**  
remember 함수를 사용해 경험을 Replay Memory에 저장해준다  

**currentState = nextState**  
현재 상태를 다음 상태(act함수를 실행한)로 업데이트 해준다  

**isGameOver = gameOver**  
게임 종료 여부를 업데이트 시켜준다  
                
**inputs, targets = memory.getBatch(output_layer, batchSize, nbActions, nbStates, sess, X)**  
getBatch 함수를 사용하여 Replay Memory에서 학습에 사용할 batch 데이터를 불러온다  
        
**\_, loss = sess.run([optimizer, cost], feed_dict={X: inputs, Y: targets})**   
세션에서 optimizer(경사하강법을 이용한 최적값)과 cost(오차)를 실행해 optimizer을 이용해 최적화된 cost를 만들어낸다  
가져온 batch 데이터를 이용해 입력값은 inputs을 타겟값은 targets로 설정한다  
optimizer 결과는 사용하지 않기 때문에 \_로 표시하고 cost 결과는 loss에 저장해준다  

**err = err + loss**  
err에 위에서 나온 결과인 loss를 더해준다  

**print("Epoch " + str(i) + ": err = " + str(err) + ": Win count = " + str(winCount) + " Win ratio = " + str(float(winCount)/float(i+1)*100))**  

**save_path = saver.save(sess,'test')**  

**print("Finish")**  

In [13]:
def main(_):
    print("Training new model")

    # 환경 정의
    env = CatchEnvironment(gridSize)

    # 메모리 정의
    memory = ReplayMemory(gridSize, maxMemory, discount)

    # 세이버 설정
    saver = tf.compat.v1.train.Saver()
    
    winCount = 0
    with tf.compat.v1.Session() as sess:   
        sess.run(tf.compat.v1.global_variables_initializer())

        for i in range(epoch):
            err = 0
            env.reset()
      
            isGameOver = False

            currentState = env.observe()
            
            while (isGameOver != True):
                action = -9999 

                # 랜덤으로 행동을 할지 Q값에 따라 행동할지 결정
                global epsilon
                if (randf(0, 1) <= epsilon):
                    action = random.randrange(0, nbActions)
                else:          
                    q = sess.run(output_layer, feed_dict={X: currentState})          
                    action = q.argmax()  

 

                # 랜덤으로 행동할 확률 감소
                if (epsilon > epsilonMinimumValue):
                  epsilon = epsilon * 0.999
                
                # 행동 수행
                nextState, reward, gameOver, stateInfo = env.act(action)

                # 승리 횟수 설정
                if (reward == 1):
                    winCount = winCount + 1

                # 메모리에 저장
                memory.remember(currentState, action, reward, nextState, gameOver)

                # 다음 상태 설정
                currentState = nextState
                isGameOver = gameOver
                
                # 입력과 출력 데이터 배치를 구함
                inputs, targets = memory.getBatch(output_layer, batchSize, nbActions, nbStates, sess, X)
        
                # 학습 수행
                _, loss = sess.run([optimizer, cost], feed_dict={X: inputs, Y: targets})  
                err = err + loss

            print("Epoch " + str(i) + ": err = " + str(err) + ": Win count = " + str(winCount) + " Win ratio = " + str(float(winCount)/float(i+1)*100))

        # 모델 세션 저장
        #save_path = saver.save(sess, os.getcwd()+"/model.ckpt")
        save_path = saver.save(sess,'test')

        #print("Model saved in file: %s" % save_path)
        print("Finish")

## 메인 함수 실행

In [14]:
if __name__ == '__main__':
    tf.compat.v1.app.run()

Training new model
Epoch 0: err = 0.011006545915734023: Win count = 0 Win ratio = 0.0
Epoch 1: err = 0.012725674954708666: Win count = 0 Win ratio = 0.0
Epoch 2: err = 0.007974592037498951: Win count = 0 Win ratio = 0.0
Epoch 3: err = 0.006828086741734296: Win count = 0 Win ratio = 0.0
Epoch 4: err = 0.007225937093608081: Win count = 1 Win ratio = 20.0
Epoch 5: err = 0.006314221594948322: Win count = 1 Win ratio = 16.666666666666664
Epoch 6: err = 0.007663882919587195: Win count = 2 Win ratio = 28.57142857142857
Epoch 7: err = 0.006451951572671533: Win count = 3 Win ratio = 37.5
Epoch 8: err = 0.0064329293090850115: Win count = 3 Win ratio = 33.33333333333333
Epoch 9: err = 0.007716641062870622: Win count = 3 Win ratio = 30.0
Epoch 10: err = 0.006721072597429156: Win count = 3 Win ratio = 27.27272727272727
Epoch 11: err = 0.005961518618278205: Win count = 4 Win ratio = 33.33333333333333
Epoch 12: err = 0.0063595826795790344: Win count = 5 Win ratio = 38.46153846153847
Epoch 13: err = 0

Epoch 103: err = 0.002959335455670953: Win count = 38 Win ratio = 36.53846153846153
Epoch 104: err = 0.0030648931860923767: Win count = 38 Win ratio = 36.19047619047619
Epoch 105: err = 0.002752646862063557: Win count = 38 Win ratio = 35.84905660377358
Epoch 106: err = 0.003305189253296703: Win count = 38 Win ratio = 35.51401869158878
Epoch 107: err = 0.003749853582121432: Win count = 38 Win ratio = 35.18518518518518
Epoch 108: err = 0.0028995817847317085: Win count = 39 Win ratio = 35.77981651376147
Epoch 109: err = 0.002700481010833755: Win count = 40 Win ratio = 36.36363636363637
Epoch 110: err = 0.00296643195906654: Win count = 40 Win ratio = 36.03603603603604
Epoch 111: err = 0.0030455172673100606: Win count = 40 Win ratio = 35.714285714285715
Epoch 112: err = 0.0030120612791506574: Win count = 40 Win ratio = 35.39823008849557
Epoch 113: err = 0.0031837022106628865: Win count = 40 Win ratio = 35.08771929824561
Epoch 114: err = 0.003049515944439918: Win count = 41 Win ratio = 35.65

Epoch 201: err = 0.0018441100328345783: Win count = 63 Win ratio = 31.18811881188119
Epoch 202: err = 0.0018060403526760638: Win count = 63 Win ratio = 31.03448275862069
Epoch 203: err = 0.001824059509090148: Win count = 64 Win ratio = 31.372549019607842
Epoch 204: err = 0.0020677939610322937: Win count = 64 Win ratio = 31.21951219512195
Epoch 205: err = 0.0019335799443069845: Win count = 64 Win ratio = 31.06796116504854
Epoch 206: err = 0.0019206146243959665: Win count = 64 Win ratio = 30.917874396135264
Epoch 207: err = 0.0017205433250637725: Win count = 65 Win ratio = 31.25
Epoch 208: err = 0.0017972356145037338: Win count = 65 Win ratio = 31.100478468899524
Epoch 209: err = 0.0017663735779933631: Win count = 66 Win ratio = 31.428571428571427
Epoch 210: err = 0.0017353994771838188: Win count = 66 Win ratio = 31.27962085308057
Epoch 211: err = 0.0019258158572483808: Win count = 67 Win ratio = 31.60377358490566
Epoch 212: err = 0.0017953516216948628: Win count = 67 Win ratio = 31.4553

Epoch 299: err = 0.0016910185513552278: Win count = 89 Win ratio = 29.666666666666668
Epoch 300: err = 0.001814960916817654: Win count = 90 Win ratio = 29.900332225913623
Epoch 301: err = 0.0016816560237202793: Win count = 90 Win ratio = 29.80132450331126
Epoch 302: err = 0.0015920192090561613: Win count = 91 Win ratio = 30.033003300330037
Epoch 303: err = 0.001579886142280884: Win count = 92 Win ratio = 30.263157894736842
Epoch 304: err = 0.0017029911832651123: Win count = 92 Win ratio = 30.16393442622951
Epoch 305: err = 0.0013550696385209449: Win count = 93 Win ratio = 30.392156862745097
Epoch 306: err = 0.0014408994684345089: Win count = 93 Win ratio = 30.293159609120522
Epoch 307: err = 0.001725475929561071: Win count = 93 Win ratio = 30.1948051948052
Epoch 308: err = 0.0014361690118676051: Win count = 93 Win ratio = 30.097087378640776
Epoch 309: err = 0.001747616144712083: Win count = 94 Win ratio = 30.32258064516129
Epoch 310: err = 0.0015160482289502397: Win count = 94 Win rati

Epoch 395: err = 0.0010685247252695262: Win count = 128 Win ratio = 32.323232323232325
Epoch 396: err = 0.0010501163560547866: Win count = 129 Win ratio = 32.49370277078086
Epoch 397: err = 0.0015245537215378135: Win count = 129 Win ratio = 32.41206030150754
Epoch 398: err = 0.0010931520446320064: Win count = 129 Win ratio = 32.33082706766917
Epoch 399: err = 0.00104582762287464: Win count = 130 Win ratio = 32.5
Epoch 400: err = 0.0011486427974887192: Win count = 131 Win ratio = 32.66832917705736
Epoch 401: err = 0.0010191686378675513: Win count = 131 Win ratio = 32.58706467661692
Epoch 402: err = 0.0011869633235619403: Win count = 132 Win ratio = 32.754342431761785
Epoch 403: err = 0.0013912525027990341: Win count = 133 Win ratio = 32.92079207920792
Epoch 404: err = 0.001093488397600595: Win count = 133 Win ratio = 32.839506172839506
Epoch 405: err = 0.0012980987230548635: Win count = 133 Win ratio = 32.758620689655174
Epoch 406: err = 0.0010989370057359338: Win count = 134 Win ratio 

Epoch 491: err = 0.0014356536557897925: Win count = 150 Win ratio = 30.48780487804878
Epoch 492: err = 0.0012709859147435054: Win count = 150 Win ratio = 30.425963488843816
Epoch 493: err = 0.0011449298763182014: Win count = 150 Win ratio = 30.364372469635626
Epoch 494: err = 0.0011995067761745304: Win count = 150 Win ratio = 30.303030303030305
Epoch 495: err = 0.0013088790437905118: Win count = 151 Win ratio = 30.443548387096776
Epoch 496: err = 0.0012418527403497137: Win count = 151 Win ratio = 30.38229376257545
Epoch 497: err = 0.0012837306567234918: Win count = 151 Win ratio = 30.32128514056225
Epoch 498: err = 0.0011951327833230607: Win count = 151 Win ratio = 30.26052104208417
Epoch 499: err = 0.0010081468644784763: Win count = 152 Win ratio = 30.4
Epoch 500: err = 0.0013374213594943285: Win count = 152 Win ratio = 30.33932135728543
Epoch 501: err = 0.0012363300484139472: Win count = 152 Win ratio = 30.278884462151396
Epoch 502: err = 0.0011793584199040197: Win count = 153 Win ra

Epoch 587: err = 0.0007980472946655937: Win count = 161 Win ratio = 27.380952380952383
Epoch 588: err = 0.0006735593342455104: Win count = 161 Win ratio = 27.33446519524618
Epoch 589: err = 0.000691342975187581: Win count = 161 Win ratio = 27.288135593220336
Epoch 590: err = 0.0007053433764667716: Win count = 161 Win ratio = 27.241962774957702
Epoch 591: err = 0.0006840427085990086: Win count = 162 Win ratio = 27.364864864864863
Epoch 592: err = 0.0008614153412054293: Win count = 162 Win ratio = 27.318718381112983
Epoch 593: err = 0.0007044558551569935: Win count = 162 Win ratio = 27.27272727272727
Epoch 594: err = 0.0007925959689600859: Win count = 163 Win ratio = 27.39495798319328
Epoch 595: err = 0.0006848008415545337: Win count = 163 Win ratio = 27.348993288590606
Epoch 596: err = 0.0006525792196043767: Win count = 164 Win ratio = 27.470686767169177
Epoch 597: err = 0.0007604090860695578: Win count = 164 Win ratio = 27.424749163879596
Epoch 598: err = 0.0007155320272431709: Win cou

Epoch 683: err = 0.0005992262085783295: Win count = 186 Win ratio = 27.192982456140353
Epoch 684: err = 0.0007724864481133409: Win count = 186 Win ratio = 27.153284671532845
Epoch 685: err = 0.0005717662716051564: Win count = 186 Win ratio = 27.113702623906704
Epoch 686: err = 0.0006738503907399718: Win count = 187 Win ratio = 27.219796215429405
Epoch 687: err = 0.0007632233900949359: Win count = 187 Win ratio = 27.180232558139533
Epoch 688: err = 0.0007272550828929525: Win count = 187 Win ratio = 27.14078374455733
Epoch 689: err = 0.0006797497189836577: Win count = 188 Win ratio = 27.246376811594203
Epoch 690: err = 0.00061595445004059: Win count = 188 Win ratio = 27.206946454413895
Epoch 691: err = 0.0006574463550350629: Win count = 188 Win ratio = 27.167630057803464
Epoch 692: err = 0.000641858878225321: Win count = 188 Win ratio = 27.12842712842713
Epoch 693: err = 0.0006347707676468417: Win count = 188 Win ratio = 27.089337175792505
Epoch 694: err = 0.0006458653224399313: Win coun

Epoch 779: err = 0.0005036632028350141: Win count = 210 Win ratio = 26.923076923076923
Epoch 780: err = 0.0005846193053002935: Win count = 210 Win ratio = 26.888604353393085
Epoch 781: err = 0.0005643510339723434: Win count = 211 Win ratio = 26.982097186700766
Epoch 782: err = 0.0005000668570573907: Win count = 211 Win ratio = 26.947637292464876
Epoch 783: err = 0.0005268183085718192: Win count = 211 Win ratio = 26.913265306122447
Epoch 784: err = 0.00045409033191390336: Win count = 211 Win ratio = 26.878980891719745
Epoch 785: err = 0.0005113053957757074: Win count = 211 Win ratio = 26.84478371501272
Epoch 786: err = 0.00044553585394169204: Win count = 211 Win ratio = 26.810673443456164
Epoch 787: err = 0.0007090207618603017: Win count = 211 Win ratio = 26.776649746192895
Epoch 788: err = 0.00043435765110189095: Win count = 212 Win ratio = 26.869455006337134
Epoch 789: err = 0.0005192931930650957: Win count = 212 Win ratio = 26.83544303797468
Epoch 790: err = 0.0004797940928256139: Wi

Epoch 875: err = 0.0006200918687682133: Win count = 232 Win ratio = 26.48401826484018
Epoch 876: err = 0.0005212410433159675: Win count = 233 Win ratio = 26.567844925883694
Epoch 877: err = 0.0005328095139702782: Win count = 233 Win ratio = 26.537585421412302
Epoch 878: err = 0.0006421789621526841: Win count = 233 Win ratio = 26.507394766780436
Epoch 879: err = 0.0006110082395025529: Win count = 233 Win ratio = 26.477272727272727
Epoch 880: err = 0.0007762640161672607: Win count = 233 Win ratio = 26.4472190692395
Epoch 881: err = 0.0006638622362515889: Win count = 234 Win ratio = 26.53061224489796
Epoch 882: err = 0.0007015519950073212: Win count = 234 Win ratio = 26.50056625141563
Epoch 883: err = 0.0005253518393146805: Win count = 234 Win ratio = 26.47058823529412
Epoch 884: err = 0.0007109223006409593: Win count = 234 Win ratio = 26.440677966101696
Epoch 885: err = 0.0005219888626015745: Win count = 234 Win ratio = 26.410835214446955
Epoch 886: err = 0.0005984297749819234: Win count

Epoch 971: err = 0.00042294900231354404: Win count = 252 Win ratio = 25.925925925925924
Epoch 972: err = 0.0005467692681122571: Win count = 252 Win ratio = 25.899280575539567
Epoch 973: err = 0.00041605528531363234: Win count = 253 Win ratio = 25.97535934291581
Epoch 974: err = 0.0004501644398260396: Win count = 253 Win ratio = 25.94871794871795
Epoch 975: err = 0.00039310448119067587: Win count = 253 Win ratio = 25.922131147540984
Epoch 976: err = 0.0005437484978756402: Win count = 253 Win ratio = 25.895598771750254
Epoch 977: err = 0.0004725958024209831: Win count = 253 Win ratio = 25.869120654396728
Epoch 978: err = 0.00044497737144411076: Win count = 253 Win ratio = 25.842696629213485
Epoch 979: err = 0.00038626148489129264: Win count = 253 Win ratio = 25.816326530612244
Epoch 980: err = 0.0005273674541967921: Win count = 253 Win ratio = 25.79001019367992
Epoch 981: err = 0.0004954067517246585: Win count = 253 Win ratio = 25.76374745417515
Epoch 982: err = 0.00045853970368625596: W

SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


# 플레이 & 시각화

## import

In [15]:
from IPython import display
import matplotlib.pyplot as plt
import matplotlib.patches as patches
import pylab as pl
import time
import tensorflow as tf
import math
import os

In [None]:
gridSize = 10 # The size of the grid that the agent is going to play the game on.
maxGames = 100
env = CatchEnvironment(gridSize)
winCount = 0
loseCount = 0
numberOfGames = 0

In [6]:
ground = 1
plot = pl.figure(figsize=(12,12))
axis = plot.add_subplot(111, aspect='equal')
axis.set_xlim([-1, 12])
axis.set_ylim([0, 12])

saver = tf.compat.v1.train.Saver()

def drawState(fruitRow, fruitColumn, basket):
    global gridSize
      # column is the x axis
    fruitX = fruitColumn 
      # Invert matrix style points to coordinates
    fruitY = (gridSize - fruitRow + 1)
    statusTitle = "Wins: " + str(winCount) + "  Losses: " + str(loseCount) + "  TotalGame: " + str(numberOfGames)
    axis.set_title(statusTitle, fontsize=30)
    for p in [
        patches.Rectangle(
            ((ground - 1), (ground)), 11, 10, facecolor="#000000"      # Black
        ),
        patches.Rectangle(
            (basket - 1, ground), 2, 0.5, facecolor="#FF0000"     # No background
        ),
        patches.Rectangle(
            (fruitX - 0.5, fruitY - 0.5), 1, 1, facecolor="#FF0000"       # red 
        ),   
        ]:
        axis.add_patch(p)
    display.clear_output(wait=True)
    display.display(pl.gcf())

with tf.compat.v1.Session() as sess:    
    # Restore variables from disk.
    saver.restore(sess, 'test')
    print('saved model is loaded!')

    while (numberOfGames < maxGames):
        numberOfGames = numberOfGames + 1
     
    # The initial state of the environment.
    isGameOver = False
    fruitRow, fruitColumn, basket = env.reset()
    currentState = env.observe()
    drawState(fruitRow, fruitColumn, basket)

    while (isGameOver != True):
        # Forward the current state through the network.
        q = sess.run(output_layer, feed_dict={X: currentState})
        # Find the max index (the chosen action).
        index = q.argmax()
        action = index + 1
        nextState, reward, gameOver, stateInfo = env.act(action)    
        fruitRow = stateInfo[0]
        fruitColumn = stateInfo[1]
        basket = stateInfo[2]
     
        # Count game results
        if (reward == 1):
            winCount = winCount + 1
        elif (reward == -1):
            loseCount = loseCount + 1

        currentState = nextState
        isGameOver = gameOver
        drawState(fruitRow, fruitColumn, basket)
        time.sleep(0.4)

display.clear_output(wait=True)

NameError: name 'pl' is not defined

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)