# 챕터 1. 밴디트 문제

1.1 머신러닝 분류와 강화 학습  
>1.1.1 지도 학습  
1.1.2 비지도 학습  
1.1.3 강화 학습

1.2 밴디트 문제 와 표기법
>1.2.1 밴디트 문제란?  
  환경, 에이전트, 행동, 보상  
>1.2.2 좋은 슬롯머신이란?  
  확률분포표, 기댓값  
>1.2.3 수식으로 표현하기   
보상(Reward) = R  
확률변수 = 값이 확률적으로 결정되는 변수  
행동(Action) = A  
기댓값(Expectaion) = E, $\mathop{\mathbb{E}}$  
보상 R의 기댓값 = $\mathbb{E}\left[ R \right]$   
t번째에 얻는 보상 R의 기댓값 = $\mathbb{E}\left[ R_{t} \right]$  
행동 A로 인한 보상 기댓값 = $\mathbb{E}\left[ R| A \right]$  
보상에 대한 기댓값 = 행동가치 Q, q  
행동 A에 대한 행동가치 $q \left( A \right) = \mathbb{E} \left[ R|A \right]$  
행동가치 Q 를 소문자로 적을 때는 실제 행동가치, 대문자 Q로 적을 때는 추정 행동가치를 의미

    

1.3 밴티드 알고리즘
> 슬롯머신의 가치를 모르고, 추정해나가야 하는 상황.  
> 1.3.1 가치 추정 방법  
표본 평균  
> 1.3.2 평균을 구하는 코드  
증분구현  
> 1.3.3 플레이어의 정책  
탐욕 정책(Greedy policy)  
활용 exploitation  
탐색 exploration  
활용과 탐색의 균형이 강화학습의 핵심. 기본적인 알고리즘은 $\epsilon$-탐욕 정책, 엡실론 그리디 정책  
$\epsilon$-탐욕 정책, 엡실론 그리디 정책 : $\epsilon$ = 0.1  이라면, 10% 확률로 탐색을 하고, 90%는 활용을 한다. 탐색에서는 무작위 행동을 한다. 

1.4 밴디트 알고리즘 구현  
> 1.4.1 슬롯머신 구현

In [1]:
import numpy as np

class Bandit:
    def __init__(self, arms=10):
        self.rates = np.random.rand(arms) # 슬롯머신들의 승률 설정 

    def play(self, arm):
        rate = self.rates[arm]
        if rate > np.random.rand():
            return 1
        return 0

    def show(self):
        print(self.rates)

In [2]:
bandit = Bandit()
bandit.show()

[0.47098872 0.82736003 0.1495522  0.72256245 0.25917606 0.43889302
 0.10202315 0.53446921 0.31837249 0.39583608]


In [3]:
_sum = 0
for i in range(3):
    _ = bandit.play(0)
    _sum+=_
    print(_)
# _sum

1
1
1


1.4.2 에이전트 구현

In [4]:
bandit = Bandit()
Q = 0

In [5]:
bandit.show()

[0.21283121 0.62316941 0.94144366 0.40649852 0.943657   0.9970726
 0.75526715 0.72907306 0.18494284 0.95157878]


In [6]:
for n in range(1, 11):
    reward = bandit.play(0)
    Q += (reward - Q) / n
    print(Q)

0.0
0.0
0.0
0.0
0.0
0.16666666666666666
0.14285714285714285
0.125
0.1111111111111111
0.19999999999999998


In [7]:
bandit = Bandit()
Qs = np.zeros(10) # 각 슬롯머신의 가치 추정치
ns = np.zeros(10) # 각 슬롯머신의 플레이 횟수

for n in range(10):
    action = np.random.randint(0, 10) # 임의의 슬롯머신 선택
    reward = bandit.play(action)

    ns[action] += 1 
    Qs[action] += (reward - Qs[action]) / ns[action]
    print(Qs)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0.  0.5 0.  0.  0.  0.  0.  0.  0.  0. ]
[0.  0.5 0.  0.  0.  0.  1.  0.  0.  0. ]
[0.  0.5 0.  0.  0.  1.  1.  0.  0.  0. ]
[0.         0.33333333 0.         0.         0.         1.
 1.         0.         0.         0.        ]
[0.         0.33333333 0.         0.         0.         1.
 1.         1.         0.         0.        ]
[0.         0.33333333 0.         0.         0.         1.
 1.         1.         0.         0.        ]
[0.   0.25 0.   0.   0.   1.   1.   1.   0.   0.  ]


In [8]:
bandit.show()

[0.88293346 0.15337894 0.05865297 0.37811784 0.25128953 0.96723386
 0.15141695 0.38408965 0.49601199 0.36331612]


In [None]:
class Agent:
    def __init__(self, epsilon, action_size=10):
        self.epsilon = epsilon # 탐색 확률
        self.Qs = np.zeros(action_size)
        self.ns = np.zeros(action_size)
    
    def update(self, action, reward):
        self.ns[action]+=1
        self.Qs[action] += (reward - self.Qs[action]) / self.ns[action]

    def get_action(self): # 행동 추정
        if np.random.rand() < self.epsilon: 
            return np.random.randint(len(self.Qs))
        

                            
        