# 12wk-2: 클래스 (2)

최규빈  
2024-05-24

<a href="https://colab.research.google.com/github/guebin/PP2024/blob/main/posts/12wk-2.ipynb"><img src="https://colab.research.google.com/assets/colab-badge.svg" style="text-align: left"></a>

# 1. 강의영상

In [1]:
#{{<video https://youtu.be/playlist?list=PLQqh36zP38-wMY2MS-ZGKFXqVgbTeAzNQ&si=iojT6Aif9fwoOyUN >}}

# 2. Imports

In [540]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 3. 상속 맛보기

## A. 모티브: 클래스를 수정은 불편해

`-` 예시1: UpJump ver1

In [5]:
class UpJump:
    def __init__(self):
        self.value = 0
    def up(self):
        self.value = self.value + 1
    def __repr__(self):
        return str(self.value)

In [6]:
a = UpJump()
a.up()

In [7]:
a

In [8]:
a.jump(2)

-   점프는 아직 구현하지 않음.

`-` 예시2: UpJump2

In [9]:
class UpJump2:
    def __init__(self):
        self.value = 0
    def up(self):
        self.value = self.value + 1
    def jump(self,jump_size):
        self.value = self.value + jump_size
    def __repr__(self):
        return str(self.value)

In [11]:
a = UpJump2()

In [12]:
a.up()

In [13]:
a.jump(2)

In [14]:
a

`-` 예시3: UpJump2의 다른 구현

In [15]:
class UpJump2(UpJump):
    def jump(self,jump_size):
        self.value = self.value + jump_size

In [16]:
a = UpJump2()

In [17]:
a.up()

In [18]:
a.jump(2)

In [19]:
a

## B. 꿀팁

`-` 클래스를 조금 수정하고 싶을때, 아래와 같은 문법을 이용하면 편리하다.

``` python
class 새로운_클래스_이름(수정할_클래스_이름):
    def 수정_및_추가할_함수이름(self,...):
        ...
```

`-` 사용예시

In [26]:
class UpJump3(UpJump2):
    def __repr__(self):
        return f'현재의 이 인스턴스의 value는 {self.value}입니다.'

In [27]:
a=UpJump3()

In [28]:
a

In [29]:
a.jump(50)

In [30]:
a

# 4. `__add__`

## A. 모티브

`-` 모티브: 아래의 연산구조를 관찰하자.

In [31]:
a=1
b=2
a+b

-   a라는 인스턴스와 b라는 인스턴스를 +라는 기호가 연결하고 있다.

`-` 이번에는 아래의 연산구조를 관찰하자.

In [32]:
a=[1,2]
b=[3,4]
a+b

-   a라는 인스턴스와 b라는 인스턴스를 +라는 기호가 연결하고 있다.

`-` 동작이 다른 이유?

-   클래스를 배우기 이전: int자료형의 `+`는 “정수의 덧셈”을 의미하고
    list자료형의 `+`는 “자료의 추가”를 의미한다.
-   클래스를 배운 이후: 아마 클래스는 `+`라는 연산을 정의하는 숨겨진
    메소드가 있을것이다. (print가 그랬듯이) 그리고 int클래스에서는 그
    메소드를 “정수의 덧셈”이 되도록 정의하였고 list클래스에서는 그
    메소드를 “자료의 추가”를 의미하도록 정의하였다.

`-` 아래의 결과를 관찰

In [33]:
a=1
b=2

In [34]:
a.__add__(b)

In [35]:
b.__add__(a)

In [36]:
a=[1,2]
b=[3,4]

In [37]:
a.__add__(b) # a+b

In [38]:
b.__add__(a) # b+a

`-` 확인: a+b는 사실 내부적으로 `a.__add__(b)`의 축약구문이다.

`-` 추측: 따라서 만약 `a.__add__(b)`의 기능을 바꾸면 (재정의하면) a+b의
기능도 바뀔 것이다.

## B. Student: `__add__`의 사용

`-` Student 클래스 선언

In [65]:
class StudentWrong:
    def __init__(self, age=20.0, semester=0):
        self.age = age
        self.semester = semester
        print(f"입학을 축하합니다. 당신의 나이는 {self.age}이고 현재 학기는 {self.semester}학기 입니다.")
    def __add__(self,registration_status):
        if registration_status=='휴학':
            self.age=self.age+0.5
        elif registration_status=='등록':
            self.age=self.age+0.5
            self.semester= self.semester+1
    def __repr__(self):
        text = f"""나이: {self.age}\n학기: {self.semester}"""
        return text

`-` 사용

In [72]:
boram = StudentWrong()

입학을 축하합니다. 당신의 나이는 20.0이고 현재 학기는 0학기 입니다.

In [73]:
boram

In [74]:
boram + '등록'
boram

In [75]:
boram + '휴학'
boram

`-` 잘못된 사용

In [78]:
boram = StudentWrong()

입학을 축하합니다. 당신의 나이는 20.0이고 현재 학기는 0학기 입니다.

In [79]:
boram + '등록'+ '휴학' + '등록' + '휴학'

-   에러가?

`-` 올바른 코드

In [80]:
class Student:
    def __init__(self, age=20.0, semester=0):
        self.age = age
        self.semester = semester
        print("입학을 축하합니다. 당신의 나이는 {}이고 현재 학기는 {}학기 입니다.".format(self.age,self.semester))
    def __add__(self,registration_status):
        if registration_status=='휴학':
            self.age = self.age+0.5
        elif registration_status=='등록':
            self.age = self.age+0.5
            self.semester = self.semester+1
        return self
    def _repr_html_(self):
        html_str = """
        나이: {} <br/>
        학기: {} <br/>
        """
        return html_str.format(self.age,self.semester)

In [81]:
boram = Student()

입학을 축하합니다. 당신의 나이는 20.0이고 현재 학기는 0학기 입니다.

In [82]:
boram + "등록"

## C. Student의 다른구현1

In [83]:
class Student(StudentWrong):
    def __add__(self,registration_status):
        if registration_status=='휴학':
            self.age = self.age+0.5
        elif registration_status=='등록':
            self.age = self.age+0.5
            self.semester = self.semester+1
        return self

In [84]:
boram = Student_Ver2()

입학을 축하합니다. 당신의 나이는 20.0이고 현재 학기는 0학기 입니다.

In [85]:
boram + '등록'+ '휴학' + '등록' + '휴학'

## D. Student의 다른구현2

-   요거까지는 지금 몰라도 됩니다

In [88]:
class Student(StudentWrong):
    def __add__(self,registration_status):
        super().__add__(registration_status)
        return self

In [89]:
boram = Student()

입학을 축하합니다. 당신의 나이는 20.0이고 현재 학기는 0학기 입니다.

In [90]:
boram + '등록' + '휴학' + '등록' + '휴학'

> 파이썬의 비밀6: `a+b`는 사실 `a.__add__(b)`의 축약형이다.

# 5. `__getitem__`

## A. 모티브

In [91]:
a=[11,22,32]

In [92]:
a[0]

-   이거 좋아보인다?

In [93]:
a.__getitem__(0) # a[0]

-   이런거였어?

## B. RPS2: `__getitem__`의 사용

In [104]:
class RPSBase:
    def __init__(self,action_space):
        self.action_space = action_space 
        self.actions = []
    def act(self):
        self.actions.append(random.choice(self.action_space))
        return self.actions[-1]
    def __repr__(self):
        text = f"낼 수 있는 패: {self.action_space}\n기록: {self.actions}"
        return text

In [109]:
a = RPSBase(['가위','바위','보'])

In [110]:
a.act()
a.act()

In [111]:
a.actions

In [112]:
a[0], a[1]

-   결과가 ‘가위’, ’바위’로 나오면 좋겠다.. 물론 지금은 불가능해

In [114]:
class RPS2(RPSBase):
    def __getitem__(self,item):
        return self.actions[item]

In [115]:
a = RPS2(['가위','바위','보'])

In [116]:
a.act()
a.act()
a.act()

In [117]:
a

In [118]:
a[0]

In [120]:
a[:2] # 이것도 열림!

> 파이썬의 비밀7: `a[0]`는 `a.__getitem__(0)`의 축약형이다.

# 6. `__setitem__`

## A. 모티브

In [125]:
a = RPS2(['가위','바위'])
a

In [126]:
a.act()
a.act()
a

In [127]:
a[0]

In [129]:
a[0] = '보'

-   여기서 이 문법이 가능하면 결과 조작임.
-   하지만 경우에 따라서는 이런 문법이 필요하기도 하다.

## B. RPS3: `__setitem__` 사용

`-` 관찰

In [207]:
lst = [1,2,3]

In [208]:
lst.__setitem__(0,11)

In [209]:
lst

`-` RPS예제

In [218]:
class RPS3(RPS2):
    def __setitem__(self,index,val):
        self.actions[index] = val

In [219]:
a=RPS3(['가위','바위','보'])

In [220]:
a.act()

In [221]:
a

In [222]:
a[0] = '가위'

In [223]:
a

> 파이썬의 비밀8: `a[0]=11`는 `a.__setitem__(0,11)`의 축약형이다.

# 7. `__len__`

## A. 모티브

In [224]:
a= RPS3(['가위','바위','보'])
a

In [225]:
a.act()
a.act()
a.act()

In [226]:
a

In [227]:
a[0],a[1],a[2]

In [228]:
len(a)

## B. RPS4: `__len__` 의 사용

In [440]:
class RPS4(RPS3):
    def __len__(self):
        return len(self.actions)

In [441]:
a = RPS4(['가위','바위','보'])
a

In [442]:
a.act()
a.act()
a.act()
a.act()

In [443]:
a

In [444]:
a.__len__() # len(a.actions)

In [445]:
len(a) # a.__len__()

> 파이썬의 비밀9: `a.__len__()`는 `len(a)`의 축약형이다.

In [455]:
a

# 8. `__eq__`

## A. 모티브

In [334]:
a = RPS4(['가위','바위','보'])
b = RPS4(['가위','바위','보'])

In [335]:
a.act()
b.act()

In [336]:
a,b

In [337]:
a[0] = "가위" # 결과조작

In [338]:
b[0] = "가위" # 결과조작

In [339]:
a,b

In [340]:
a == b

-   `가위 == 가위` 이면 True가 나오면 좋겠구만..

In [341]:
a[-1] == b[-1]

-   이렇게 하면 되긴하지..

## B. RPS5: `__eq__` 의 사용

`-` 관찰

a = 1

In [343]:
a.__eq__(1) # a == 1

In [344]:
a.__eq__(2) # a == 2

`-` 구현

In [345]:
class RPS5(RPS4):
    def __eq__(self,other):
        return self[-1] == other[-1]

In [346]:
a = RPS5(['가위','바위'])
b = RPS5(['가위','바위'])

`-` 1회 대결

In [347]:
a.act()
b.act()

In [348]:
a

In [349]:
b

In [350]:
a == b

`-` 2회 대결

In [351]:
a.act()
b.act()

In [352]:
a

In [353]:
b

In [354]:
a == b

`-` 3회 대결

In [355]:
a.act()
b.act()

In [356]:
a

In [357]:
b

In [358]:
a == b

# 9 `__gt__`

## A. 모티브

In [362]:
a = RPS5(['가위','바위'])
b = RPS5(['가위','바위'])

In [363]:
a.act()
b.act()

In [364]:
a,b

In [365]:
a[-1], b[-1]

In [366]:
a > b

## B. RPS6: `__gt__` 의 사용

`-` 관찰

In [426]:
a = 1

In [427]:
a.__gt__(1) # a>1

In [428]:
a.__gt__(0) # a>0

`-` 구현

In [429]:
class RPS6(RPS5):
    def __gt__(self,other):
        return [self[-1],other[-1]] in [['가위','보'],['바위','가위'],['보','바위']]

In [430]:
a = RPS6(['가위','바위','보'])
b = RPS6(['가위','바위','보'])

`-` 1회대결

In [412]:
a.act()
b.act()

In [413]:
a

In [414]:
b

In [415]:
a>b, a==b

`-` 2회대결

In [416]:
a.act()
b.act()

In [417]:
a

In [418]:
b

In [419]:
a>b, a==b

In [420]:
a<b # 이건 알아서 된다!! -- 제가 알기론 안되어야하는데 바뀐것같아용

`-` 비교연산자 정리

| 특수메소드 |      의미       |
|:----------:|:---------------:|
|  `__eq__`  | `self == other` |
|  `__gt__`  | `self > other`  |
|  `__lt__`  | `self < other`  |
|  `__ge__`  | `self >= other` |
|  `__le__`  | `self <= other` |

> 파이썬의 비밀10: `__eq__`, `__gt__`, `__lt__`, `__ge__`, `__le__`는
> 각각 `==`, `>`, `<`, `>=`, `<=` 를 재정의한다.

# 10. `__mul__`

## A. 모티브

In [435]:
a = 3

In [436]:
b = 2

In [439]:
a*b

In [438]:
a.__mul__(b)

`-` 하고싶은것: `a*b` 가 두 플레이어 `a`,`b`의 “대결”을 의미하도록
하고싶다!

## B. RPS7: `__mul__` 의 사용

`-` 구현

In [886]:
class RPS7(RPS6):
    def __init__(self,action_space):
        super().__init__(action_space)
        self.results = []
    def __mul__(self,other):
        self.act()
        other.act()
        if self > other:
            self.results.append("승리")
            other.results.append("패배")
        elif self < other: 
            self.results.append("패배")
            other.results.append("승리")
        else: 
            self.results.append("무승부")
            other.results.append("무승부")
    def __repr__(self):
        text = super().__repr__()
        text = text+f"\n승패: {self.results}"
        return text

In [887]:
a = RPS7(['가위','바위','보'])
b = RPS7(['가위','바위','보'])

In [888]:
a*b

In [889]:
a

In [890]:
b

In [891]:
a.results,b.results

# 11. 가위,바위,보

`(1)` 플레이어A는 (가위,가위) 중 하나를 선택할 수 있고 플레이어B는
(가위,바위) 중 하나를 선택할 수 있다. 각 플레이어는 각 패 중 하나를
랜덤으로 선택하는 액션을 한다고 가정하자. 즉 아래의 상황을 가정하자.

|              |         플레이어A          |        플레이어B        |
|:------------:|:--------------------------:|:-----------------------:|
| action_space |        (가위,가위)         |       (가위,바위)       |
|     prob     | {‘가위’: 0.5, ‘가위’: 0.5} | {‘가위’:0.5,‘바위’:0.5} |

아래에 해당하는 확률을 시뮬레이션을 이용하여 추정하라.

-   플레이어A가 승리할 확률:
-   플레이어B가 승리할 확률:
-   플레이어A와 플레이어B가 비길 확률:

**hint**: 50% 확률로 b가 승리하고 50% 확률로 비긴다.

(풀이)

In [892]:
A = RPS7(['가위','가위']) 
B = RPS7(['가위','바위']) 
results = []
for t in range(20):
    A*B

In [893]:
A,B

In [900]:
{s:A.results.count(s) for s in set(A.results)}

In [901]:
{s:B.results.count(s) for s in set(B.results)}

`(2)` 아래의 상황을 가정하자.

|              |         플레이어A          |        플레이어B        |
|:------------:|:--------------------------:|:-----------------------:|
| action_space |        (가위,가위)         |       (가위,바위)       |
|     prob     | {‘가위’: 0.5, ‘가위’: 0.5} | {‘가위’:0.5,‘바위’:0.5} |

각 플레이어는 아래와 같은 규칙으로 가위바위보 결과에 따른 보상점수를
적립한다고 하자. - 승리: 보상점수 2점 적립 - 무승부: 보상점수 1점 적립 -
패배: 보상점수 0점 적립

100번째 대결까지 시뮬레이션을 시행하고 플레이어B가 가위를 낼 경우 얻은
보상점수의 총합과 바위를 낼 경우 얻은 보상점수의 총합을 각각 구하라.
플레이어B는 가위를 내는것이 유리한가? 바위를 내는것이 유리한가?

**hint**: 플레이어B는 바위를 내는 것이 유리하다.

**hint**: 플레이어B가 100번중에 49번 가위를 내고 51번 바위를 낸다면
플레이어B가 적립할 보상점수는 각각 아래와 같다. - 가위를 내었을 경우: 49
\* 1 = 49점 - 바위를 내었을 경우: 51 \* 2 = 102점 - 총 보상점수 = 49점 +
102점 = 151점

(풀이)

In [1177]:
class RPSBase2:
    def __init__(self,action_space):
        self.action_space = action_space 
        self.actions = []
        self.results = []
        self.rewards = []
        self.prob = [1/2,1/2] 
        self.score_dct = {'승리':2, '무승부':1, '패배':0}
    def act(self):
        action = np.random.choice(self.action_space,p=self.prob)
        self.actions.append(action)
        return action
    def __repr__(self):
        text = f"낼 수 있는 패: {self.action_space}\n최근기록: {self.actions[-10:]}\n최근승패: {self.results[-10:]}\n확률: {dict(zip(self.action_space,self.prob))}"
        return text
    def __eq__(self,other):
        return self.actions[-1] == other.actions[-1]  
    def __gt__(self,other):
        return [self.actions[-1],other.actions[-1]] in [['가위','보'],['바위','가위'],['보','바위']]
    def __mul__(self,other):
        self.act()
        other.act()
        if self > other:
            self.results.append("승리")
            other.results.append("패배")
        elif self < other: 
            self.results.append("패배")
            other.results.append("승리")
        else: 
            self.results.append("무승부")
            other.results.append("무승부")
    def save_reward(self):
        self.rewards.append(self.score_dct[self.results[-1]])

In [1178]:
A = RPSBase2(["가위","가위"])
B = RPSBase2(["가위","바위"])

In [1179]:
A

In [1180]:
for t in range(100):
    A*B 
    A.save_reward()
    B.save_reward()

In [1181]:
A

In [1182]:
B

In [1183]:
df = pd.DataFrame({"A행동": A.actions, "B행동": B.actions, "A보상": A.rewards, "B보상": B.rewards})
df

In [1184]:
df[df.B행동 == "가위"].B보상.sum(), df[df.B행동 == "바위"].B보상.sum()

`(3)` 아래의 상황을 가정하자.

|              |         플레이어A          |        플레이어B        |
|:------------:|:--------------------------:|:-----------------------:|
| action_space |        (가위,가위)         |       (가위,바위)       |
|     prob     | {‘가위’: 0.5, ‘가위’: 0.5} | {‘가위’:0.5,‘바위’:0.5} |

100번의 대결에서 얻은 데이터를 **학습**하여, 이후의 대결부터는
플레이어B가 “가위” 혹은 “바위” 를 선택할 확률을 매시점 조금씩 조정한다고
가정하자. 구체적으로는 현재시점까지 얻은 보상점수의 비율로 확률을
결정한다. 예를들어 플레이어B가 100회의 대결동안 누적한 보상점수의 총합이
아래와 같다고 하자.

-   가위를 내었을 경우 보상점수 총합 = 50점
-   바위를 내었을 경우 보상점수 총합 = 100점

그렇다면 플레이어B는 각각 (50/150,100/150) 의 확률로 (가위,바위) 중
하나를 선택한다. 101번째 대결에 플레이어B가 가위를 내서 비겼다면
이후에는 (51/151,100/151) 의 확률로 (가위,바위) 중 하나를 선택한다.
102번째 대결에 플레이어B가 바위를 내서 이겼다면 이후에는 각각
(51/153,102/153) 의 확률로 (가위,바위) 중 하나를 선택한다. 이러한 상황을
요약하여 표로 정리하면 아래와 같다.

**플레이어 B의 확률업데이트 예시** \|시점\|점수 \|확률\|
\|:-:\|:-:\|:-:\| \|0\<= t \< 100\|B = {가위: 50, 바위:100}\| B = {가위:
50/150, 바위: 100/150}\| \|t= 100\| B= {가위: 51, 바위:100}\| B = {가위:
51/151, 바위: 100/151}\| \|t=101\|B = {가위: 51, 바위:102}\| B = {가위:
51/153, 바위: 102/153}\|

첫 100회 까지는 확률을 업데이트 하지 않고 (=학습하지 않고)
100~500회까지는 플레이어B가 데이터를 보고 확률을 수정한다고 하자. 즉
아래와 같은 방식으로 수정한다고 하자.

**플레이어 A,B의 시점별 확률업데이트** \|시점\|확률\|학습\|
\|:-:\|:-:\|:-:\| \|0\<= t \< 100 \|A = {가위: 1/2, 바위: 1/2}, B =
{가위:1/2, 바위:1/2}\| A = False, B = False\| \|100\<= t \<500\| A=
{가위: 1/2, 바위:1/2}, B= {가위: ??, 바위: ??}\| A = False, B =
**True**\|

500번의 대결이 끝난 이후 플레이어B가 (가위,바위)를 낼 확률은 각각 얼마로
업데이트 되었는가?

**hint: 시간이 지날수록 플레이어B는 (가위,바위)중 바위를 내는 쪽이
유리하다는 것을 알게 될 것이다.**

(풀이)

In [1327]:
class RPSlrn(RPSBase2):
    def learn(self):
        a0,a1 = self.action_space
        actions = pd.Series(self.actions)
        rewards = pd.Series(self.rewards)
        p0 = rewards[actions == a0].sum()/sum(rewards)
        p1 = rewards[actions == a1].sum()/sum(rewards)
        self.prob = [p0,p1]

In [1328]:
A = RPSlrn(['가위','가위'])
B = RPSlrn(['가위','바위'])

In [1329]:
# t= 0~99
for t in range(100):
    A*B
    A.save_reward()
    B.save_reward()
# t = 100~499   
for t in range(100,500):
    A*B
    A.save_reward()
    B.save_reward()
    B.learn()

In [1330]:
A

In [1331]:
B

------------------------------------------------------------------------

`(4)` 플레이어 C와 플레이어 D를 만들아라.

|              |         플레이어C          |        플레이어D        |
|:------------:|:--------------------------:|:-----------------------:|
| action_space |        (가위,바위)         |       (가위,바위)       |
|     prob     | {‘가위’: 0.5, ‘바위’: 0.5} | {‘가위’:0.5,‘바위’:0.5} |

두 플레이어는 처음 100번의 대결 동안 플레이어 C와 플레이어 D는 둘 다
’가위’와 ’바위’를 랜덤하게 선택한다. 즉, 어떤 규칙 없이 무작위로
선택한다. 그리고 500번째 대결까지는 문제 (3)와 같은 방식으로 확률을
수정한다.

**플레이어 C,D의 시점별 확률업데이트** \|시점\|확률\|학습\|
\|:-:\|:-:\|:-:\| \|0\<= t \<100 \| C = {가위: 1/2, 바위: 1/2}, D =
{가위:1/2, 바위:1/2}\| C = False, D = False\| \|100\<= t \<500\| C =
{가위: ??, 바위:??}, D = {가위: ??, 바위: ??}\| C = **True**, D =
**True**\|

500번의 대결이 끝난 이후 플레이어C,D가 (가위,바위)를 낼 확률은 각각
얼마로 업데이트 되었는가?

**hint: 시간이 지날수록 두 플레이어 모두 바위를 내는 쪽이 유리하다는
것을 알게 될 것이다.**

(풀이)

In [1192]:
C = RPSlrn(['가위','바위'])
D = RPSlrn(['가위','바위'])

In [1193]:
# t= 0~99
for t in range(100):
    C*D
    C.save_reward()
    D.save_reward()
# t = 100~499   
for t in range(100,500):
    C*D
    C.save_reward()
    D.save_reward()
    C.learn()
    D.learn()

In [1194]:
C

In [1195]:
D

`(5)` 새로운 플레이어 E와 F를 생각하자. 플레이어E와 플레이어F는 각각
(가위,바위) 그리고 (가위,보) 중 하나를 선택할 수 있다고 가정하자.

|              |         플레이어E          |        플레이어F        |
|:------------:|:--------------------------:|:-----------------------:|
| action_space |        (가위,바위)         |        (가위,보)        |
|     prob     | {‘가위’: 0.5, ‘바위’: 0.5} | {‘가위’:0.5,‘바위’:0.5} |

시뮬레이션 대결결과를 이용하여 아래의 확률을 근사적으로 추정하라.

-   플레이어E가 승리할 확률:
-   플레이어F가 승리할 확률:
-   플레이어E와 플레이어F가 비길 확률:

**hint: 플레이어E가 가위를 낸다면 최소한 지지는 않기 때문에 플레이어E가
좀 더 유리한 패를 가지고 있다. 따라서 플레이어E의 결과가 더 좋을
것이다.**

In [1196]:
E = RPSlrn(['가위','바위'])
F = RPSlrn(['가위','보'])
for t in range(100):
    E * F

In [1197]:
{s:E.results.count(s) for s in set(E.results)}

In [1198]:
{s:F.results.count(s) for s in set(F.results)}

`(6)` (5)와 동일한 두 명의 플레이어E, F를 생각하자.

|              |         플레이어E          |       플레이어F       |
|:------------:|:--------------------------:|:---------------------:|
| action_space |        (가위,바위)         |       (가위,보)       |
|     prob     | {‘가위’: 0.5, ‘바위’: 0.5} | {‘가위’:0.5,‘보’:0.5} |

두 플레이어는 100회까지는 랜덤으로 자신의 패를 선택한다. 그리고
101회부터 500회까지는 플레이어F만 데이터로 부터 학습을 하여 수정된
확률을 사용한다.

**플레이어 E,F의 시점별 확률업데이트** \|시점\|확률\|학습\|
\|:-:\|:-:\|:-:\| \|0\<= t \<100 \| E = {가위: 1/2, 바위: 1/2}, F =
{가위:1/2, 보:1/2}\| E = False, F = False\| \|100\<= t \<500\| E =
{가위: 1/2, 바위: 1/2}, F = {가위: ??, 보: ??}\| E = False, F =
**True**\|

500번의 대결이 끝나고 플레이어F가 (가위,보)를 선택하는 확률이 어떻게
업데이트 되어있는가?

**hint: 플레이어F는 보를 내는 것이 낫다고 생각할 것이다. (가위를 내면
지거나 비기지만 보를 내면 지거나 이긴다.)**

In [1199]:
E = RPSlrn(['가위','바위'])
F = RPSlrn(['가위','보'])
for t in range(100):
    E * F
    E.save_reward()
    F.save_reward()
for t in range(100,500):
    E * F
    E.save_reward()
    F.save_reward()
    F.learn()

In [1200]:
E

In [1201]:
F

`(7)` (6)번의 플레이어E와 플레이어F가 500회~1000회까지 추가로 게임을
한다. 이번에는 플레이어E만 데이터로부터 학습한다. 1000회까지 대결을 끝낸
이후 플레이어E가 (가위,바위)를 내는 확률은 어떻게 업데이트 되었는가?

**플레이어 E,F의 시점별 확률업데이트** \|시점\|확률\|학습\|
\|:-:\|:-:\|:-:\| \|0\<= t \<100 \| E = {가위: 1/2, 바위: 1/2}, F =
{가위:1/2, 보:1/2}\| E = False, F = False\| \|100\<= t \<500\| E =
{가위: 1/2, 바위: 1/2}, F = {가위: ??, 보: ??}\| E = False, F =
**True**\| \|-\|-\|-\| \|t \< 1000\| E = {가위: ??, 바위: ??}, F =
{가위: ??, 보: ??}\| E = **True**, F = False\|

**hint: 플레이어F는 보를 내도록 학습되어 있다. 따라서 플레이어E가 바위를
내면 지고 가위를 내면 이길것이다. 따라서 플레이어E는 가위가 유리하다고
생각할 것이다.**

In [1202]:
for t in range(500,1000):
    E * F
    E.save_reward()
    F.save_reward()
    E.learn()

In [1203]:
E

In [1204]:
F

`(8)` (7)번의 플레이어E와 플레이어F가 1000회~10000회까지 추가로 게임을
한다. 이번에는 플레이어F만 데이터로부터 학습한다. 10000회까지 대결을
끝낸 이후 플레이어F가 (가위,보)를 내는 확률은 어떻게 업데이트 되었는가?

**플레이어 E,F의 시점별 확률업데이트** \|시점\|확률\|학습\|
\|:-:\|:-:\|:-:\| \|0\<= t \<100 \| E = {가위: 1/2, 바위: 1/2}, F =
{가위:1/2, 보:1/2}\| E = False, F = False\| \|100\<= t \<500\| E =
{가위: 1/2, 바위: 1/2}, F = {가위: ??, 보: ??}\| E = False, F =
**True**\| \|500\<= t \< 1000\| E = {가위: ??, 바위: ??}, F = {가위: ??,
보: ??}\| E = **True**, F = False\| \|-\|-\|-\| \|1000\<= t \< 10000\| E
= {가위: ??, 바위: ??}, F = {가위: ??, 보: ??}\| E = False, F =
**True**\|

**hint: 플레이어F는 원래 보가 유리하다고 생각하여 보를 자주 내도록
학습되었다. 하지만 플레이어E가 그러한 플레이어F의 성향을 파악하고 가위를
주로 내도록 학습하였다. 플레이어F는 그러한 플레이어E의 성향을 다시
파악하여 이번에는 가위을 자주 내는 것이 유리하다고 생각할 것이다.**

(풀이)

In [1332]:
for t in range(1000,10000):
    E * F
    E.save_reward()
    F.save_reward()
    F.learn()    

In [1333]:
E

In [1334]:
F

`(9)` 플레이어E와 플레이어F의 대결기록을 초기화 한다. 이번에는
플레이어F가 항상 (3/4)의 확률로 가위를 (1/4)의 확률로 보를 낸다고
가정한다.

|              |         플레이어E          |       플레이어F       |
|:------------:|:--------------------------:|:---------------------:|
| action_space |        (가위,바위)         |       (가위,보)       |
|     prob     | {‘가위’: 0.5, ‘바위’: 0.5} | {‘가위’:3/4,‘보’:1/4} |

플레이어E는 처음 1000번의 대결까지는 랜덤으로 (가위,바위)중 하나를 내고,
이후의 1000번의 대결에서는 데이터를 학습하여 수정한 확률을 사용한다고
하자. 대결이후에 플레이어E가 (가위,바위)를 내는 확률이 어떻게 업데이트
되어있는가?

|       시점       |                         확률                         |          학습           |
|:----------------------:|:----------------------:|:----------------------:|
|  0\<= t \<1000   | E = {가위: 1/2, 바위: 1/2}, F = {가위: 3/4, 보: 1/4} |  E = False, F = False   |
| 1000\<= t \<2000 |  E = {가위: ??, 바위: ??}, F = {가위: 3/4, 보: 1/4}  | E = **True**, F = False |

(풀이)

In [1303]:
E=RPSlrn(['가위','바위'])
F=RPSlrn(['가위','보'])

In [1308]:
F.prob = [3/4,1/4]

In [1309]:
for t in range(1000):
    E * F
    E.save_reward()
    F.save_reward()
for t in range(1000,2000):
    E * F
    E.save_reward()
    F.save_reward()
    E.learn()

In [1310]:
E

In [1311]:
F

`(10)` 플레이어E와 플레이어F의 대결기록을 초기화 한다. 이번에는
플레이어F가 항상 (2/3)의 확률로 가위를 (1/3)의 확률로 보를 낸다고
가정한다. 플레이어E는 100번의 대결까지는 랜덤으로 (가위,바위)중 하나를
내고 101번째 대결부터 1000번째 대결까지는 대결 데이터를 학습하여 수정한
확률을 사용한다고 하자. 1000번째 대결이후에 플레이어E가 (가위,바위)를
내는 확률이 어떻게 업데이트 되어있는가?

|              |         플레이어E          |       플레이어F       |
|:------------:|:--------------------------:|:---------------------:|
| action_space |        (가위,바위)         |       (가위,보)       |
|     prob     | {‘가위’: 0.5, ‘바위’: 0.5} | {‘가위’:2/3,‘보’:1/3} |

플레이어E는 처음 1000번의 대결까지는 랜덤으로 (가위,바위)중 하나를 내고,
이후의 1000번의 대결에서는 데이터를 학습하여 수정한 확률을 사용한다고
하자. 대결이후에 플레이어E가 (가위,바위)를 내는 확률이 어떻게 업데이트
되어있는가?

|       시점       |                         확률                         |          학습           |
|:----------------------:|:----------------------:|:----------------------:|
|  0\<= t \<1000   | E = {가위: 1/2, 바위: 1/2}, F = {가위: 3/4, 보: 1/4} |  E = False, F = False   |
| 1000\<= t \<2000 |  E = {가위: ??, 바위: ??}, F = {가위: 3/4, 보: 1/4}  | E = **True**, F = False |

(풀이)

In [1322]:
E=RPSlrn(['가위','바위'])
F=RPSlrn(['가위','보'])

In [1323]:
F.prob = [2/3,1/3]

In [1324]:
for t in range(1000):
    E * F
    E.save_reward()
    F.save_reward()
for t in range(1000,2000):
    E * F
    E.save_reward()
    F.save_reward()
    E.learn()

In [1325]:
E

In [1326]:
F

> E가 가위를 냈을경우 보상의 기대값은 $1\times 2/3 + 2 \times 1/3 = 4/3$
> 이고 바위를 냈을 경우 보상의 기대값은
> $2\times 2/3 + 0 \times 1/3 = 4/3$ 이므로 가위도 바위도 유리하지 않다.
> 따라서 가위와 바위를 어떠한 확률로 내든 상관없다.