파이썬으로 만드는 인공지능 책을 바탕으로 강화학습 스터디 진행

다중 손잡이 밴딧 문제를 위한 랜덤 정책 코드

In [10]:
import numpy as np

arms_profit = [0.4, 0.12, 0.52, 0.6, 0.25]
n_arms = len(arms_profit) # 손잡이 개수

n_trial = 1000            # 손잡이를 당기는 횟수를 지시함. (손잡이 당기는 횟수=에피소드 수)

def pull_bandit(handle):  # 행동을 수행하는 함수
    q=np.random.random()  # 난수를 생성
    if q<arms_profit[handle]: # q에 저장된 난수가 핸들이라는 변수가 지정하는 확률보다 작으면
        return 1              # 1 출력
    else:                     # 아니면은
        return -1             # -1 출력

def random_exploration():  # 손잡이를 무작위로 고르는 함수 -> 탐험
    episode=[]
    num=np.zeros(n_arms)
    wins=np.zeros(n_arms)
    for i in range(n_trial):         # 위에서 정의한 손잡이를 당기는 횟수를 의미하는 변수에 저장된 수만큼 손잡이를 당김
        h=np.random.randint(0, n_arms)     #난수생성 -> 무작위로 손잡이를 선택함
        reward=pull_bandit(h)              # 보상을 받음.
        episode.append([h,reward])         # 에피소드 변수에 손잡이 번호(h)와 보상을 저장함.
        num[h]+=1                          # 손잡이를 당긴 횟수를 갱신
        wins[h]+=1 if reward==1 else 0     # 승리 횟수를 갱신
    return episode, (num,wins)

e,r=random_exploration()  # 시뮬레이션 결과를 저장하는 곳

print("손잡이별 승리 확률: ", ["%6.14f"% (r[1][i]/r[0][i]) if r[0][i]>0 else 0.0 for i in range(n_arms)])
print("손잡이별 수익($) : ", ["%d"% (2*r[1][i] - r[0][i]) for i in range(n_arms)])
print("순 수익($): ", sum(np.asarray(e)[:, 1]))

손잡이별 승리 확률:  ['0.41711229946524', '0.09278350515464', '0.49532710280374', '0.58653846153846', '0.24365482233503']
손잡이별 수익($) :  ['-31', '-158', '-2', '36', '-101']
순 수익($):  -256


입실론-탐욕 알고리즘 예제

In [11]:
# 입실론-탐욕을 구하는 함수(epsilon_greedy)
def epsilon_greedy(eps):
    episode = []
    num=np.zeros(n_arms)   # 손잡이별로 당긴 횟수
    wins=np.zeros(n_arms)  # 손잡이별로 승리한 횟수
    for i in range(n_trial):
        r = np.random.random()    #난수 r 생성
        if(r<eps or sum(wins)==0):   # 확률 eps로 임의 선택 -> r < eps이면, 입실론 확률만큼 랜덤 선택을 해서 탐험형을 처리함.
            h=np.random.randint(0, n_arms)
        else:                        # 그렇지 않으면,,,,
            prob=np.asarray([wins[i]/num[i] if num[i]>0 else 0.0 for i in range(n_arms)])    # 손잡이 별로 승리 확률을 계산함.
            prob=prob/sum(prob)  # 확률 계산
            h=np.random.choice(range(n_arms),p=prob)   # 확률에 따라 손잡이를 선태가여 탐사형을 처리함.
        reward=pull_bandit(h)         # 손잡이를 잡아당김
        episode.append([h, reward])   # episode에 결과를 저장함.
        num[h]+=1
        wins[h]+=1 if reward==1 else 0
    return episode, (num,wins)

e, r = epsilon_greedy(0.1)
print("손잡이별 승리 확률: ", ["%6.14f"% (r[1][i]/r[0][i]) if r[0][i]>0 else 0.0 for i in range(n_arms)])
print("손잡이별 수익($) : ", ["%d"% (2*r[1][i] - r[0][i]) for i in range(n_arms)])
print("순 수익($): ", sum(np.asarray(e)[:, 1]))

손잡이별 승리 확률:  ['0.40723981900452', '0.07317073170732', '0.49498327759197', '0.62068965517241', '0.25000000000000']
손잡이별 수익($) :  ['-41', '-35', '-3', '77', '-60']
순 수익($):  -62


In [13]:
import gym

env=gym.make("FrozenLake-v1",is_slippery=False)
print(env.observation_space)
print(env.action_space)

n_trial = 20

env.reset()
episode=[]
for i in range(n_trial):
    action=env.action_space.sample()
    obs,reward,done,info=env.step(action)
    episode.append([action,reward,obs])
    env.render()
    if done:
        break

print(episode)
env.close()

Discrete(16)
Discrete(4)


AttributeError: module 'numpy' has no attribute 'bool8'