In [None]:
import random
import numpy as np
class gridworld():
  def __init__(self):
    self.x=0
    self.y=0
  def step(self,a):
    if a==0:
      self.move_right()
    elif a==1:
      self.move_left()
    elif a==2:
      self.move_up()
    elif a==3:
      self.move_down()
    
    reward = -1
    done = self.is_done()
    return (self.x, self.y), reward, done
  
  def move_right(self):
    self.y +=1
    if self.y>3:
      self.y = 3
  def move_left(self):
    self.y -=1
    if self.y<0:
      self.y = 0
  def move_up(self):
    self.x -=1
    if self.x<0:
      self.x = 0
  def move_down(self):
    self.x +=1
    if self.x>3:
      self.x = 3
  def is_done(self):
    if self.x==3 and self.y==3:
      return True
    else :
      return False
  
  def get_state(self):
    return (self.x,self.y)
  
  def reset(self):
    self.x =0
    self.y =0
    return (self.x,self.y)


class Agent():
  def __init__(self):
    pass
  def select_action(self):
    coin = random.random()
    if coin <0.25:
      action =0
    elif coin <0.5 :
      action =1
    elif coin <0.75 :
      action =2
    else :
      action =3
    return action

In [None]:
def main(): # Monte-Carlo prediction
  env = gridworld()
  agent = Agent()
  data = np.zeros((4,4))
  gamma = 1.0
  alpha =0.0001

  for k in range(50000):
    done = False
    history=[]
    while not done:
      action = agent.select_action()
      (x, y), reward, done = env.step(action)
      history.append((x,y,reward))
    env.reset() #episode가 끝났으므로, agent의 위치 초기화

    cum_reward = 0 # Gt | termination부터 계산
    for transition in history[::-1]:
      x,y,reward = transition
      data[x][y] = data[x][y] + alpha*(cum_reward - data[x][y])
      cum_reward = reward + gamma*cum_reward # action에 대한 reward + G(t+1) = Gt

  for row in data:
    print(row)

main()

In [None]:
def main():#TD prediction
  env = gridworld()
  agent = Agent()
  data = np.zeros((4,4))
  gamma= 1.0
  alpha = 0.01 #MC에 비해 큰 값 사용

  for k in range(50000):
    done = False
    while not done:
      x,y = env.get_state()  # state에서 action을 하고 움직이기 전 state를 update하기 위해서, 값 저장
      action = agent.select_action()
      (x_prime,y_prime),reward,done = env.step(action)
      x_prime,y_prime = env.get_state()

      data[x][y] = data[x][y] + alpha*(reward + gamma*data[x_prime][y_prime]-data[x][y])  # action하고 state update
    env.reset()
  for row in data:
    print(row)

main()

In [None]:
import random 
import numpy as np

class gridworld2():
  def __init__(self):
    self.x=0
    self.y=0
  def step(self,a):
    if a==0:
      self.move_left()
    elif a==1:
      self.move_up()
    elif a==2:
      self.move_right()
    elif a==3:
      self.move_down()
    
    reward = -1
    done = self.is_done()
    return (self.x, self.y), reward, done
  
  def move_left(self):
    if self.y==0:
      pass
    elif self.y==3 and self.x in [0,1,2]:
      pass
    elif self.y==5 and self.x in [2,3,4]:
      pass
    else:
      self.y -=1
  def move_right(self):
    if self.y==1 and self.x in [0,1,2]:
      pass
    elif self.y==3 and self.x in [2,3,4]:
      pass
    elif self.y==6:
      pass
    else:
      self.y +=1
  def move_up(self):
    if self.x==0:
      pass
    elif self.x==3 and self.y==2:
      pass
    else:
      self.x -=1
  def move_down(self):
    if self.x==4:
      pass
    elif self.x==1 and self.y==4:
      pass
    else:
      self.x+=1
  def is_done(self):
    if self.x==4 and self.y==6:
      return True
    else:
      return False
  def reset(self):
    self.x=0
    self.y=0
    return (self.x,self.y)

class QAgent() :
  def __init__(self):
    self.q_table = np.zeros((5,7,4))
    self.eps = 0.9
    self.alpha = 0.01

  def select_action(self,s):
    x,y =s
    coin = random.random()
    if coin<self.eps :
      action = random.randint(0,3)
    else :
      action_val = self.q_table[x,y,:]
      action = np.argmax(action_val)
    return action
  def update_table(self,history):
    cum_reward = 0
    for transition in history[::-1]:
      s,a,r,s_prime = transition
      x,y =s 
      self.q_table[x,y,a] = self.q_table[x,y,a]+self.alpha*(cum_reward-self.q_table[x,y,a])
      cum_reward = cum_reward+r
  def anneal_eps(self):
    self.eps -=0.03
    self.eps = max(self.eps,0.1)
  def show_table(self):
    q_lst = self.q_table.tolist()
    data = np.zeros((5,7))
    for row_idx in range(len(q_lst)):
      row=q_lst[row_idx]
      for col_idx in range(len(row)):
        col = row[col_idx]
        action = np.argmax(col)
        data[row_idx,col_idx] = action
    print(data)

In [None]:
def main(): #MC로 control
  env = gridworld2()
  agent = QAgent()

  for n_epi in range(1000):
    done = False
    history = []
    s = env.reset()
    while not done:
      a = agent.select_action(s)
      s_prime,r,done = env.step(a)
      history.append((s,a,r,s_prime))
      s = s_prime
    agent.update_table(history)
    agent.anneal_eps()

  agent.show_table()

main()

In [None]:
class QAgent2():
  def __init__(self):
    self.q_table = np.zeros((5,7,4))
    self.eps = 0.9
  def select_action(self,s):
    x,y=s
    coin = random.random()
    if coin<self.eps:
      action = random.randint(0,3)
    else :
      action_val = self.q_table[x,y,:]
      action = np.argmax(action_val)
    return action
  def update_table(self,transition):
    s,a,r,s_prime = transition
    x,y=s
    next_x,next_y = s_prime
    a_prime = self.select_action(s_prime)

    self.q_table[x,y,a] = self.q_table[x,y,a]+0.1*(r+self.q_table[next_x,next_y,a_prime]-self.q_table[x,y,a])

  def anneal_eps(self):
    self.eps -=0.03
    self.eps = max(self.eps,0.1)
  
  def show_table(self):
    q_lst = self.q_table.tolist()
    data = np.zeros((5,7))
    for row_idx in range(len(q_lst)):
      row = q_lst[row_idx]
      for col_idx in range(len(row)):
        col = row[col_idx]
        action = np.argmax(col)
        data[row_idx,col_idx] = action
    print(data)

def main(): #TD control
  env = gridworld2()
  agent = QAgent2()

  for n_epi in range(1000):
    done = False
    s = env.reset()
    while not done:
      a = agent.select_action(s)
      s_prime,r,done = env.step(a)
      agent.update_table((s,a,r,s_prime))
      s = s_prime
    agent.anneal_eps()
  agent.show_table()

main()

In [None]:
import random # ====================================dealer가 game시작 전에 이미 카드를 모두 받은 상황
import numpy as np

class blackJack():
  
  def __init__(self): #trash value
    self.x=[]  # user sum
    self.y=0  # dealer show
    self.y_sum =[]
    self.z=0  # usable ace -> 11

  def use_ace(self): # ace 유무 판단 -> 1이 있고,
    if 1 in self.x and (sum(self.x) + 10 <= 21): 
      return True #ace를 11로 써도 된다.
    elif 1 in self.x and (sum(self.x)+10 >21):
      return False #ace를 가지고 있지만 1로 써야 한다.
    else :
      return False
  
  def dealer_ace(self) : # sum이 21을 넘지 않는 한 무조건 11로 계산
    if 1 in self.y_sum and (sum(self.x) + 10 <= 21): 
      return True
    elif 1 in self.y_sum and (sum(self.y_sum)+10 >21):
      return False #ace를 가지고 있지만 1로 써야 한다.
    else :
      return False
  def score_y(self): # ace 유무를 판단해서, 점수 합산 -> z도 같이 바꿔준다. 따라서 카드를 뽑아서 score로 판단
    Bool2 = self.dealer_ace()
    if Bool2 == True: # ace를 11로 쓰겠다
      return int(sum(self.y_sum)+10)
    else :
      return int((sum(self.y_sum)))
  def score(self): # ace 유무를 판단해서, 점수 합산 -> z도 같이 바꿔준다. 따라서 카드를 뽑아서 score로 판단
    Bool = self.use_ace()
    if Bool == True: # ace를 11로 쓰겠다
      self.z = 1
      return int(sum(self.x)+10)
    else :
      self.z =0
      return int((sum(self.x)))
      
  def draw_hand(self):  # 게임 시작 전, user, dealer set
    deck = [1,2,3,4,5,6,7,8,9,10,10,10,10]
    deck_user_one,deck_user_two = random.choice(deck),random.choice(deck) #user 2장 set
    deck_dealer_one,deck_dealer_two = random.choice(deck),random.choice(deck) #dealer 2장 set
    self.x.append(deck_user_one)
    self.x.append(deck_user_two)  # user array에 저장
    self.y = deck_dealer_one   # dealer가 보여줄 카드 선정
    self.y_sum.append(deck_dealer_one)
    self.y_sum.append(deck_dealer_two)  # dealer array에 저장
    x_score = self.score() # ace-usable 판단 하면서, z set
    y_score = self.score_y() # y의 score계산
    while x_score<12 : # x는 12부터이므로, 12이상일때까지 hit 이때 ace유무를 판단해주자
      self.x.append(random.choice(deck))
      x_score = self.score() # ace-usable 판단 하면서, z set
    while y_score<16 : #dealer는 sum이 16이하면 무조건 hit이므로 일단 다 뽑아 놓는다?
      self.y_sum.append(random.choice(deck))
      y_score = self.score_y()

  def is_done(self):
    if self.score()>21 :
      return True  # is done
    else :
      return False
  def user_hit_stand(self,action):  # 종료 조건을 고려하면서 action
    deck = [1,2,3,4,5,6,7,8,9,10,10,10,10]
    #action에 대한 보상을 주고 종료 조건 따지기
    ys = self.score_y()
    if ys > 21: # ace를 11로 쓰는데, 합이 21을 넘으면 dealer의 score는 0으로 가정
      ys = 0
    if action==1 : #hit
      self.x.append(random.choice(deck)) 
      done = self.is_done() # 종료 조건 check
      if done == True :  #user의 score가 21을 넘으면, score를 0으로 계산
        if ys == 0 : #비겼을 때 
          reward = 0
        else :
          reward = -1
      else :
        reward = -1
      
    elif action == 0 : #stand 무조건 종료
      done = True
      if ys == self.score() : #비겼을 때 
        reward = 0
      elif ys > self.score() : #lose
        reward = -1
      elif ys < self.score() : #win
        reward = 1
    #종료 조건
    return ((self.score(),self.y,self.z),reward,done)  #observation , reward, done 
  
  def current_state(self): # 현재 위치 제공
    #print(self.x[-1],self.y,self.z)
    return (self.score(),self.y,self.z)
  def reset_state(self): # state initialize
    self.x = []
    self.y = 0
    self.y_sum = []
    self.z = 0
agent_location = blackJack()
agent_location.draw_hand()
score = agent_location.score()
print("x = {}\nx_score = {}\ny = {}\nz = {}".format(agent_location.x,score,agent_location.y,agent_location.z))
print("y = {}\ny_score = {}".format(agent_location.y_sum,agent_location.score_y()))

In [None]:
import random # ====================================dealer가 user가 stop할 때 까지 wait
import numpy as np

class blackJack():
  
  def __init__(self): #trash value
    self.x=[]  # user sum
    self.y=0  # dealer show
    self.y_sum =[]
    self.z=0  # usable ace -> 11

  def use_ace(self): # ace 유무 판단 -> 1이 있고,
    if 1 in self.x and (sum(self.x) + 10 <= 21): 
      return True #ace를 11로 써도 된다.
    elif 1 in self.x and (sum(self.x)+10 >21):
      return False #ace를 가지고 있지만 1로 써야 한다.
    else :
      return False
  
  def dealer_ace(self) : # sum이 21을 넘지 않는 한 무조건 11로 계산
    if 1 in self.y_sum and (sum(self.x) + 10 <= 21): 
      return True
    elif 1 in self.y_sum and (sum(self.y_sum)+10 >21):
      return False #ace를 가지고 있지만 1로 써야 한다.
    else :
      return False
  def score_y(self): # ace 유무를 판단해서, 점수 합산 -> z도 같이 바꿔준다. 따라서 카드를 뽑아서 score로 판단
    Bool2 = self.dealer_ace()
    if Bool2 == True: # ace를 11로 쓰겠다
      return int(sum(self.y_sum)+10)
    else :
      return int((sum(self.y_sum)))
  def score(self): # ace 유무를 판단해서, 점수 합산 -> z도 같이 바꿔준다. 따라서 카드를 뽑아서 score로 판단
    Bool = self.use_ace()
    if Bool == True: # ace를 11로 쓰겠다
      self.z = 1
      return int(sum(self.x)+10)
    else :
      self.z =0
      return int((sum(self.x)))
      
  def draw_hand(self):  # 게임 시작 전, user, dealer set
    deck = [1,2,3,4,5,6,7,8,9,10,10,10,10]
    deck_user_one,deck_user_two = random.choice(deck),random.choice(deck) #user 2장 set
    deck_dealer_one,deck_dealer_two = random.choice(deck),random.choice(deck) #dealer 2장 set
    self.x.append(deck_user_one)
    self.x.append(deck_user_two)  # user array에 저장
    self.y = deck_dealer_one   # dealer가 보여줄 카드 선정
    self.y_sum.append(deck_dealer_one)
    self.y_sum.append(deck_dealer_two)  # dealer array에 저장
    x_score = self.score() # ace-usable 판단 하면서, z set
    while x_score<12 : # x는 12부터이므로, 12이상일때까지 hit 이때 ace유무를 판단해주자
      self.x.append(random.choice(deck))
      x_score = self.score() # ace-usable 판단 하면서, z set
   #user는 12이상일때 까지 다 뽑고, dealer는 2장만 뽑는다.
  def is_done(self):
    if self.score()>21 :
      return True  # is done
    else :
      return False
  def user_hit_stand(self,action):  # 종료 조건을 고려하면서 action
    deck = [1,2,3,4,5,6,7,8,9,10,10,10,10]
    #action에 대한 보상을 주고 종료 조건 따지기
    if action==1 : #hit
      self.x.append(random.choice(deck)) 
      done = self.is_done() # 종료 조건 check
      reward = -1
      
    elif action == 0 : #stand 무조건 종료
      done = self.is_done() #stop했는데 21을 넘는다?
      if done == True:
        reward = -1;
      else : # stop했는데, 21을 넘지 않은 경우 -> dealer가 카드를 뽑고 우위를 따져야한다.
      #dealer가 카드 뽑기
        ys = self.score_y()
        while ys<16 : #dealer는 sum이 16이하면 무조건 hit이므로 뽑는다.
          self.y_sum.append(random.choice(deck))
          ys = self.score_y()
        if ys > 21: # ace를 11로 쓰는데, 합이 21을 넘으면 dealer의 score는 0으로 가정
          ys = 0
        if ys == self.score() : #비겼을 때 
          reward = 0
        elif ys > self.score() : #lose
          reward = -1
        elif ys < self.score() : #win
          reward = 1
        done = True #x가 21을 넘지 않아도, action이 stand이므로, game is done
    #종료 조건
    return ((self.score(),self.y,self.z),reward,done)  #observation , reward, done 
  
  def current_state(self): # 현재 위치 제공
    return (self.score(),self.y,self.z)
  def reset_state(self): # state initialize
    self.x = []
    self.y = 0
    self.y_sum = []
    self.z = 0
agent_location = blackJack()
agent_location.draw_hand()
score = agent_location.score()
print("x = {}\nx_score = {}\ny = {}\nz = {}".format(agent_location.x,score,agent_location.y,agent_location.z))
print("y = {}\ny_score = {}".format(agent_location.y_sum,agent_location.score_y()))

In [None]:
import matplotlib.pyplot as plt

class QAgent_blackJack(): # y도 순서대로 뽑아야됨
  def __init__(self):
    self.q_value = np.zeros((10,10,2,2))  
    self.eps = 0.9 # 0.9부터 -0.03을 통해 0.1까지 declaying greedy policy
  
  def select_action(self,state): # 어떤 action을 취할지 정하고, 현재 state에서 action
    coin = random.random()
    x,y,z = state
    if coin > (1-self.eps+self.eps/2): 
      action = random.randint(0,1) #otherwise  0<= <=1 중 int 하나 가져오기 (hit, stand)
    else : #현재 state에서 가장 q_value가 높은 방향으로 action
      idx = self.q_value[x,y,z,:] 
      action = np.argmax(idx) # 값이 높은 index 가져오기
    return action
  
  #def eps_declaying(self): #action을 하고 나서 앱실론 감소
  #  self.eps -= 0.03
  #  self.eps = max(self.eps,0.1) #앱실론은 최소 0.1까지 감소
  def eps_declaying(self):
    self.eps -= 0.03
    self.eps = max(self.eps,0)
  def update_q(self,transition):
    alpha = 0.01 # learning rate
    (x,y,z),reward,a,(x_prime,y_prime,z_prime) = transition
    if x_prime > 9 or y_prime> 9  : # 범위를 벗어나면 추정치 q_value는 0으로 계산
        self.q_value[x,y,z,a] = self.q_value[x,y,z,a] +alpha*(reward -self.q_value[x,y,z,a])
    else :
      a_prime = self.select_action((x_prime,y_prime,z_prime)) # 실제로 움직이는 건 아니고, 추정 action 뽑기
      self.q_value[x,y,z,a] = self.q_value[x,y,z,a] +alpha*(reward+self.q_value[x_prime,y_prime,z_prime,a_prime] -self.q_value[x,y,z,a])

def graph(user):
  q = user.q_value
  q1= []
  q2= []
  for i in range(0,10): # z =0 
    for j in range(0,10):
      q1.append(np.argmax(q[i][j][0]))
      q2.append(np.argmax(q[i][j][1]))
  q1 = np.array(q1)
  q2 = np.array(q2)
  q1 = q1.reshape(10,10)
  q2 = q2.reshape(10,10)
  x = np.array(range(1,11))

  fig=plt.figure(figsize=(15,10))
  plt.subplot(1, 2, 1)
  plt.grid(True)
  plt.axis([0,11,11,22])
  plt.xticks(range(11))
  plt.yticks(range(11,22))
  plt.title("z = 0 ",fontsize = 25)
  plt.xlabel("dealer show",fontsize = 10)
  plt.ylabel("user sum",fontsize = 10)
  for i in range(0,10):
    y = []
    for j in range(0,10):
      if q1[i][j] ==1:
        y.append(i+12)
      else :
        y.append(0)
    plt.scatter(x,y,color='blue',marker = '*')
  fig=plt.figure(figsize=(15,10))
  plt.subplot(1, 2, 2)
  plt.grid(True)
  plt.axis([0,11,11,22])
  plt.xticks(range(11))
  plt.yticks(range(11,22))
  plt.title("z = 1 ",fontsize = 25)
  plt.xlabel("dealer show",fontsize = 10)
  plt.ylabel("user sum",fontsize = 10)
  for i in range(0,10):
    y = []
    for j in range(0,10):
      if q2[i][j] ==1:
        y.append(i+12)
      else :
        y.append(0)
    plt.scatter(x,y,color='red',marker = '*')
def main():
  environment = blackJack()
  user = QAgent_blackJack()
  for episode in range(10000000):
    done = False # 종료 조건 만족을 하는가?
    environment.reset_state()# state 초기화
    environment.draw_hand() # user & dealer get card
    while not done: #policy evaluate
      (x,y,z) = environment.current_state() # 현재 위치이자 action을 했을 때 q_value를 update할 state
      x -= 12
      y -= 1
      action = user.select_action((x,y,z)) # 현재위치에서 action 정하기
      (x_next,y_next,z_next),reward,done = environment.user_hit_stand(action) # 실제 action하기 -> state transition
      x_next -= 12 
      y_next -= 1
       # agent가 정한 action을 envionment에게 전달하면, observation & reward  & done이 나온다.
      user.update_q(((x,y,z),reward,action,(x_next,y_next,z_next))) #transition 전달
    user.eps_declaying()
  graph(user)

main()

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
environment = blackJack()
user = QAgent_blackJack()
for episode in range(500000):
  done = False # 종료 조건 만족을 하는가?
  environment.reset_state()# state 초기화
  environment.draw_hand() # user & dealer get card
  while not done: #policy evaluate
    (x,y,z) = environment.current_state() # 현재 위치이자 action을 했을 때 q_value를 update할 state
    x -= 12
    y -= 1
    action = user.select_action((x,y,z)) # 현재위치에서 action 정하기
    (x_next,y_next,z_next),reward,done = environment.user_hit_stand(action) # 실제 action하기 -> state transition
    x_next -= 12 # 왜 이거 안되지
    y_next -= 1
       # agent가 정한 action을 envionment에게 전달하면, observation & reward  & done이 나온다.
    user.update_q(((x,y,z),reward,action,(x_next,y_next,z_next))) #transition 전달
  user.eps_declaying()

q = user.q_value
q1= []
q2= []
for i in range(0,10): # z =0 
  for j in range(0,10):
    a = np.argmax(q[i][j][0])
    q1.append(q[i][j][0][a]) # value 가져 오기
    b = np.argmax(q[i][j][1])
    q2.append(q[i][j][1][b])
q1 = np.array(q1)
q2 = np.array(q2)
q1 = q1.reshape(10,10)
q2 = q2.reshape(10,10)
x = np.array(range(0,10))
y = np.array(range(12,22))
fig = plt.figure(figsize=(9, 6))
z = q1
ax = fig.add_subplot(211, projection='3d')
#ax.plot_surface(x, y, z, cmap="brg_r")
X, Y = np.meshgrid(x, y)
surf = ax.plot_surface(X, Y, z, rstride=1, cstride=1, cmap=plt.cm.coolwarm, vmin=-1.0, vmax=1.0)
ax.set_xlabel('Player\'s Current Sum')
ax.set_ylabel('Dealer\'s Showing Card')
ax.set_zlabel('State Value')
ax.view_init(ax.elev, -120)

fig = plt.figure(figsize=(10,10))
z = q2
ax = fig.add_subplot(212, projection='3d')
X, Y = np.meshgrid(x, y)
surf = ax.plot_surface(X, Y, z, rstride=1, cstride=1, cmap=plt.cm.coolwarm, vmin=-1.0, vmax=1.0)
ax.set_xlabel('Player\'s Current Sum')
ax.set_ylabel('Dealer\'s Showing Card')
ax.set_zlabel('State Value')
ax.view_init(ax.elev, -200)
print(user.eps)

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
environment = blackJack()
user = QAgent_blackJack()
for episode in range(500000):
  done = False # 종료 조건 만족을 하는가?
  environment.reset_state()# state 초기화
  environment.draw_hand() # user & dealer get card
  while not done: #policy evaluate
    (x,y,z) = environment.current_state() # 현재 위치이자 action을 했을 때 q_value를 update할 state
    x -= 12
    y -= 1
    action = user.select_action((x,y,z)) # 현재위치에서 action 정하기
    (x_next,y_next,z_next),reward,done = environment.user_hit_stand(action) # 실제 action하기 -> state transition
    x_next -= 12 # 왜 이거 안되지
    y_next -= 1
       # agent가 정한 action을 envionment에게 전달하면, observation & reward  & done이 나온다.
    user.update_q(((x,y,z),reward,action,(x_next,y_next,z_next))) #transition 전달
  user.eps_declaying()

q = user.q_value
for i in range(0,10):
  for j in range(0,10):
    for k in range(0,10):
      z = q[i][j][k][0]*0.1+q[i][j][k][1]*0.9
q1= []
q2= []
for i in range(0,10): # z =0 
  for j in range(0,10):
    a = np.argmax(q[i][j][0])
    q1.append(a) # value 가져 오기
    b = np.argmax(q[i][j][1])
    q2.append(b)
q1 = np.array(q1)
q2 = np.array(q2)
q1 = q1.reshape(10,10)
q2 = q2.reshape(10,10)
x = np.array(range(12,22))
y = np.array(range(0,10))
fig = plt.figure(figsize=(9, 6))
z = q1
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(x, y, z, cmap="brg_r")



In [None]:
class QAgent_blackJack(): # y도 순서대로 뽑아야됨.
  def __init__(self):
    self.q_value = np.zeros((22,11,2,2))  
    self.eps = 0.9 # 0.9부터 -0.03을 통해 0.1까지 declaying greedy policy
  
  def select_action(self,state): # 어떤 action을 취할지 정하고, 현재 state에서 action
    coin = random.random()
    x,y,z = state
    #print(state)
    if coin > (1-self.eps+self.eps/2): 
      action = random.randint(0,1) #otherwise  0<= <=1 중 int 하나 가져오기 (hit, stand)
    else : #현재 state에서 가장 q_value가 높은 방향으로 action
      idx = self.q_value[x,y,z,:] 
      action = np.argmax(idx) # 값이 높은 index 가져오기
    return action
  
  def eps_declaying(self): #action을 하고 나서 앱실론 감소
    self.eps -= 0.03
    self.eps = max(self.eps,0.1) #앱실론은 최소 0.1까지 감소
  
  def update_q(self,transition):
    alpha = 0.01 # learning rate
    (x,y,z),reward,a,(x_prime,y_prime,z_prime) = transition
    if x_prime > 21 or y_prime>10 : # 범위를 벗어나면 추정치 q_value는 0으로 계산
        self.q_value[x,y,z,a] = self.q_value[x,y,z,a] +alpha*(reward -self.q_value[x,y,z,a])
    else :
      a_prime = self.select_action((x_prime,y_prime,z_prime)) # 실제로 움직이는 건 아니고, 추정 action 뽑기
      self.q_value[x,y,z,a] = self.q_value[x,y,z,a] +alpha*(reward+self.q_value[x_prime,y_prime,z_prime,a_prime] -self.q_value[x,y,z,a])
  def show_table(self):
    q_lst = self.q_value.tolist()
    data = np.zeros((22,11,2))
    for row_idx in range(len(q_lst)):
      row = q_lst[row_idx]
      for col_idx in range(len(row)):
        col = row[col_idx]
        for z_idx in range(len(col)):
          z = col[z_idx]
          action = np.argmax(z)
          data[row_idx,col_idx,z_idx] = action
    print(data)
def main():
  environment = blackJack()
  user = QAgent_blackJack()
  for episode in range(1000):
    done = False # 종료 조건 만족을 하는가?
    environment.reset_state()# state 초기화
    environment.draw_hand() # user & dealer get card
    while not done: #policy evaluate
      (x,y,z) = environment.current_state() # 현재 위치이자 action을 했을 때 q_value를 update할 state
      action = user.select_action((x,y,z)) # 현재위치에서 action 정하기
      (x_next,y_next,z_next),reward,done = environment.user_hit_stand(action) # 실제 action하기 -> state transition
      #print(done)
       # agent가 정한 action을 envionment에게 전달하면, observation & reward  & done이 나온다.
      user.update_q(((x,y,z),reward,action,(x_next,y_next,z_next))) #transition 전달
    user.eps_declaying()
  user.show_table()

main()