In [7]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

#### 9.1.1 다중 손잡이 밴딧 문제

In [94]:
import numpy as np

# 다중 손잡이 밴딧 문제 설정
arms_profit=[0.4, 0.12, 0.52, 0.6, 0.25]
n_arms = len(arms_profit)

n_trial = 10000 # 손잡이를 당기는 횟수(에피소드 길이)

# 손잡이 당기는 행위를 시뮬레이션하는 함수 (handle은 손잡이 번호)
def pull_bandit(handle):
    q = np.random.random() # random() 함수는 0 이상 1 미만의 숫자 중에서 아무 숫자나 하나 뽑아서 돌려줌
    if q < arms_profit[handle]:
        return 1
    else:
        return -1

# 랜덤 정책을 모방하는 함수
def random_exploration():
    episode = []
    num = np.zeros(n_arms)    # 손잡이별로 당긴 횟수
    wins = np.zeros(n_arms)    # 손잡이별로 승리 횟수
    for i in range(n_trial):
        h = np.random.randint(0,n_arms) # 0 ~ 4 까지 랜덤한 정수 반환
        reward = pull_bandit(h) # -> 1 or -1 반환
        episode.append([h,reward])
        num[h]+=1
        wins[h]+=1 if reward ==1 else 0 #if 조건 만족하면 +1, 아니면 +0
    return episode, (num, wins)

e,r = random_exploration()

print("손잡이별 승리 확률:", ["%6.4f"%(r[1][i]/r[0][i]) if r[0][i]>0 else 0.0 for i in range(n_arms)])
print("손잡이별 수익($):",["%d"% (2*r[1][i]-r[0][i]) for i in range(n_arms)])
print('순 수익($):',sum(np.asarray(e)[:,1]))
# np.asarray : 입력 데이터를 ndarray로 변환하나 이미 ndarray일 경우에는 새로 메모리에 ndarray가 생성되지는 않음

손잡이별 승리 확률: ['0.3852', '0.1257', '0.5196', '0.5782', '0.2447']
손잡이별 수익($): ['-452', '-1555', '77', '309', '-1027']
순 수익($): -2648


In [95]:
# print(n_arms)
# print(np.zeros(n_arms))
# print(np.random.randint(0,n_arms))
# print(np.random.random())

# b = []
# b.append([1, 1])
# b.append([2, 2])
# print(b)

# a = np.zeros(n_arms)
# a[1] +=1
# print(a)

# c = np.zeros(n_arms)
# c[1] +=1
# print(a)

# d = [1, 2]
# np.asarray(d)

In [103]:
# ε-탐욕을 구현하는 함수
def epsilon_greedy(eps):
    episode = []
    num = np.zeros(n_arms)    # 손잡이별로 당긴 횟수
    wins = np.zeros(n_arms)    # 손잡이별로 승리 횟수
    for i in range(n_trial):
        r = np.random.random()
        if (r < eps or sum(wins) == 0): # 확률 eps로 임의 선택
            h = np.random.randint(0, n_arms) # 0 ~ 4
        else:
            prob = np.asarray([wins[i]/num[i] if num[i] >0 else 0.0 # 해당 손잡이의 승리횟수/시행횟수를 배열로 반환
                               for i in range(n_arms)]) # 0 ~ 4
            prob = prob / sum(prob) # 각 손잡이별 확률
            h = np.random.choice(range(n_arms), p = prob) # prob개 중에서 range(n_arms)개를 뽑아냄
        reward = pull_bandit(h)
        episode.append([h, reward])
        num[h] += 1
        wins[h] +=1 if reward ==1 else 0
    return episode, (num, wins)

e, r = epsilon_greedy(0.1)

print("손잡이별 승리 확률:", ["%6.4f"% (r[1][i] / r[0][i])
                      if r[0][i]>0 else 0.0 for i in range(n_arms)])
print("손잡이별 수익($):",["%d"% (2* r[1][i] -r[0][i]) for i in range(n_arms)])
print("순 수익($):", sum(np.asarray(e)[:,1]))

손잡이별 승리 확률: ['0.4055', '0.1113', '0.5103', '0.5900', '0.2364']
손잡이별 수익($): ['-411', '-517', '55', '569', '-698']
순 수익($): -1002


In [108]:
e = [1,2,3,4,5]
e[4]

print(sum(e))
f = np.asarray(e)
f/ sum(e)


15


array([0.06666667, 0.13333333, 0.2       , 0.26666667, 0.33333333])

In [None]:
import gym

# 환경 불러오기
env = gym.mak