# 효과 크기 Effect Size
- 관찰된 현상의 크기를 나타내는 방법
- 분산을 이용하는 방법
- 평균 차이를 이용하는 방법

> ex. $IQ ~= 수능 표준점수$

    무조건 평균이 100 점, IQ 15 점이 1 표준편차

    인간계에서 2 표준편차 차이 나면 엄청난 것

# ζ² 에타 제곱 Eta Squared
- 편차제곱합: 평균과 차이를 제곱해서 모두 더한 것
- 분산 = 편차제곱합 / N
- 전체 $SS = (X - 전체 평균)²$ 의 합계
- 처치 $SS = (집단 평균 - 전체 평균)²$ 의 합계
- $ζ² 에타 제곱 = 처치 SS / 전체 SS$

In [1]:
import pandas as pd

In [6]:
sleep = pd.read_csv('./TIL/minjukim/Statistics/sleep.csv')
sleep.head()

Unnamed: 0.1,Unnamed: 0,extra,group,ID
0,1,0.7,1,1
1,2,-1.6,1,2
2,3,-0.2,1,3
3,4,-1.2,1,4
4,5,-0.1,1,5


In [9]:
전체평균 = sleep['extra'].mean()
X = sleep['extra']
import numpy as np

In [2]:
# 분산 np.mean((X - 전체평균)²)

# sum 을 한 이유는 집단 간 크기가 다른 경우가 있어서
전체SS = np.sum((X - 전체평균) ** 2)

NameError: name 'np' is not defined

In [18]:
# sleep.groupby('group').agg({'extra': np.mean })
sleep.groupby('group').agg({'extra':'mean'})

Unnamed: 0_level_0,extra
group,Unnamed: 1_level_1
1,0.75
2,2.33


In [12]:
# 처치SS: 집단 간 차이만 반영한 것(집단 내 차이 무시)
# 처치(Treatment)SS == 그룹SS == 조건간SS == 그룹간SS

처치SS = (
10 * (0.75 - 전체평균) ** 2 +
10 * (2.33 - 전체평균) ** 2
)

In [14]:
에타제곱 = 처치SS / 전체SS

에타제곱 # 집단 간(조건 별) 차이가 수면시간 분산의 16.1 %를 설명한다. 
         # 10 % 는 보통, 2-30% 정도면 큰 것
         # 차이 수치는 업계마다 다름. 평소에 눈여겨 볼 것

0.16133285079102466

개인차 = 집단 간 차이 + 집단 내 차이

### 예시1) ζ² 에타 제곱의 의미
- 대조군 데이터는 1, 1, 1 이고, 실험군 데이터는 3, 3, 3 인 경우
- 집단 내 차이는 없고, 집단 간 차이만 존재
- 에타 제곱 = 1

### 예시2) ζ² 에타 제곱의 의미
- 대조군 데이터는 1, 2, 3 이고, 실험군 데이터는 1, 2, 3 인 경우
- 집단 내 차이만 있고, 집단 간 차이는 없음
- 에타 제곱 = 0

In [21]:
# 두 집단의 수면시간 평균값 차이 / 표준편차
코헨의d = (2.33 - 0.75) / sleep['extra'].std()

코헨의d # 두 집단이 0.78 표준편차 차이가 난다(IQ 11 점 정도 차이)

0.7829845675400594

# 요약: 집단 간 차이를 설명할 때
- ζ² 에타제곱: 분산이ㅡ 00%를 설명한다
- 코헨의 d: 00 표준편차 차이가 난다

# 리커트 척도 Likert Scale
- 그렇다/아니다를 단계로 나누어 답변하도록 한다

점수|답변
--|--
1|전혀 그렇지 않다
2|약간 그렇다
3|보통이다
4|약간 그렇다
5|매우 그렇다

# 거트만 척도
- 답변을 약한 것에서 강한 것 순으로 늘어놓은 것
- 높은 점수에 응답하면 반드시 작은 점수에도 응답하는 관계가 성립

> - 단점: 질문을 5가지 만들어야 한다
> - 장점: 해석이 좀 더 편리하다, 구체적인 기준을 제시하기 떄문에 응답하기도 편하다

점수 | 답변
--|--
1|외국인들이 우리나라에 살아도 된다
2|외국인들이 우리 지역에 살아도 된다
3|외국인들이 우리 동네에 살아도 된다
4|외국인들이 우리 옆집에 살아도 된다
5|외국인들이 우리 아이들과 결혼해도 된다

# 강제 선택형 Ipsative: 절대 쓰지마라
- 여러가지 선택지 중에 하나를 고르게 하는 형식
- 객관식 시험처럼 정답이 있는 경우가 아니면 통계 처리가 까다로움
- 인성검사 등에만 제한적으로 사용(ex. MBTI)

> ex. 휴지에서 가장 중요하다고 생각하는 것?
> 1. 색깔 2. 가격 3. 냄새 4. 잘 닦이는가 5. 휴대성

    → 두번째로 중요하다고 생각하는 것은 누락됨
    → 다 따로 물어봐야한다

# 진점수 이론 The Score Theory
    X(설문) T(진짜 고객만족도) E(오차)
    X1 = T + E1 합리적인 소비라고 생각하시나요?
    X2 = T + E2 만족하시나요?
    X3 = T + E3 추천할 의향이 있나요?

총점 = T + 오차합계

# 설문 Tip
- 설문조사가 길어도 사람들은 웬만하면 한다
- 돈만 주면 1시간까지도 한다
- 나 자신에 대해 발견할 수 있게 심리테스트 느낌 들면 좋아함

    ex. 성격검사
    성격형용사를 비슷한 것끼리 묶는다
    OCEAN
    Open Coutious Extrovert Acceptable Neuro

심리척도 핸드북 - 고려대학교

# 실습) 설문조사 만들기-연애 유형

유형|설명
--|--
캥거루 |(엄마형)
강아지 |(너 없으면 안돼)
악어새 |(상리공생)
고양이 |(독립)

Q. 연인과 연락이안될떄 본인의 행동은?
    
    1. 다 이해한다
    2. 계속 연락한다
    3. 이유가 있을 때는 이해한다,
    4. 신경쓰지않는다. 단 기분에따라

Q. 일주일에 몇 번 데이트?

    1. 상대가 원하는 횟수
    2. 6-7번
    3. 1-2번
    4. 내가 내킬 때

Q. 음식메뉴를 정할 때

    1. 너는 뭐먹고싶어? 라고 먼저 물어 본후 결정
    2. 먹고싶은게 있지만 일단은 물어본다
    3. 내가 원하는 것을 제시하고 서로 타협한다.
    4. 답정너

Q. 이성친구와의 관계 어디까지?
    
    1. 먼저 알리기만 하면 갠춘
    2.  이성이 낀 자리는 기분나쁘다
    3. 나의 남사친도 남친의 여사친도 오케이
    4. 나는 되지만 너는 안돼!

# 실습) 설문조사 만들기 피드백
- 답변이 수치화하기 좋아야 한다
- 답변 유형이 섞여있으면 안된다(1. 1~2회, 2. 상대방에 맞춘다)
    
    → 답변을 각각의 질문으로 나눈다

# 실습) 설문조사 수정 버전-관계 주도성 
0(순응적)-10점(주도적)

유형 | 설명 | 점수
--|--|--
고양이 |(독립)| 1점-15점
악어새 |(상리공생)| 16점-30점
캥거루 |(엄마형)| 31점-45점
강아지 |(너 없으면 안돼)| 46점-60점

Q1. 일주일에 몇 번 데이트를 선호하시나요?
    
    1. 6-7회(10)
    2. 4-5회(7)
    3. 2-3회(4)
    4. 1회미만(1)

Q2. 연인이 아무이야기 없이 연락이 안될 때 본인의 행동은?
    
    1. 받을때까지 계속 전화, 문자등 모든 매체로 연락한다. (10)
    2. 생각날때마다 연락한다. (5)
    3. 연락이 올때까지 기다린다.(0)


Q3. 연인이 이유는 말했지만 연락이 안될 때 본인의 기분은?
   
    1. 이유가 있더라도 연락한통없는 그가 너무 밉다. (10)
    2. 머리로는 이해하지만 마음은 서운하다. (5)
    3. 이해한다(0)

Q4. 음식메뉴를 정할 때 내의견(10점)과 상대방의 의견(1점)중 어떤 것을
위주로 정하시나요?

    1. 내가 먹고 싶은 대로 결정한다 (10)
    2. 대체로 내가 먹고싶은대로(7)
    3. 서로 타협한다 (5)
    4. 대체로 상대방이 먹고싶은대로(3)
    5. 상대방의 의견을 적극 수용한다(0)

Q5. 연인이 있을 때 다른 이성과의 교류는 어디까지 가능한가요?

    1. 이성과 사적인 연락, 만남 모두 안된다 (10)
    2. 이성과 연락하는 것은 괜찮지만 만나는 것은 안된다 (7)
    3. 이성과 만나는 것은 괜찮지만 일대일 만남은 안됨 (4)
    4. 이성과 일대일 만남도 상관없음 (1)

Q6. 연인이 이성친구와 만날 때 미리 알리지 않으면 어떤가요?

    1. 미리 알리지 않으면 이별의 사유가 된다. (10)
    2. 미리 알리지 않으면 화가 난다. (7)
    3. 미리 알리지 않아도 가끔은 넘어가줄 수 있다. (4)
    4. 미리 알리지 않아도 상관없다. (1)

# 탐색과 활용
- 탐색Exploration: 기존과 다른 시도 ex. 실험
- 활용Exploitation: 기존의 방법을 계속

> 탐색을 많이 하면 개선의 기회가 많지만, 시간 낭비를 할 위험도 크다

    → 탐색과 활용을 어떤 비율로 어떻게 할 것인가

### Multi-Armed Bandit 
선택의 기회가 있을 때 여러가지 시도해볼 것인지, 하나만 활용할 것인지
> cf. One-Armed Bandit 슬롯머신

- 슬롯머신이 여러개 있을 때
- 슬롯머신마다 터지는 비율이 다르다
- 어떤 슬롯머신을 당길 것인가

### MAB) 탐색만 하는 전략
- 모든 슬롯머신을 골고루 당겨본다
- 각 슬롯머신의 수익률을 가장 정확히 파악할 수 있다
- 돈은 모든 슬롯머신의 평균만큼만 벌 수 있다

### MAB 문제의 다른 예
- 홈페이지 디자인의 A안과 B안이 있을 때
- 디자인에 따라 수익률이 다르다
- 모든 고객에게 다른 디자인을 보여준다 → A/B 테스트 → 탐색

### 용어
- 행동Action: 하나의 선택(슬롯머신, 홈페이지 디자인)
- 보상Reward: 각 선택의 결과(발생한 수익)
- 가치Value: 각 행동에 따르는 보상의 평균

→ MAB 문제는 행동의 보상을 추정하는 문제로 볼 수도 있다

### Greedy Algorithm 탐욕법
- 가장 가치가 높은 행동만 한다: 활용 중심
- 일정 비율(εepsilon) 만큼은 탐색
    
    ε epsilon-first: 처음에 ε 만큼은 탐색을 하고 이후로는 활용
    
    ε epsilon-greedy: 매번 ε 의 확률로 탐색, 그렇지 않으면 활용한다
    - 예시1) 주사위를 굴려서 1 이 나오면 무작위로 아무 슬롯머신이나 당겨보고, 그 외에는 이제까지 가치가 가장 높은 슬롯머신을 당긴다
    - 예시2) 20 % 의 고객에게는 A 안과 B 안 중에 무작위로 보여주지만, 나머지 80 % 의 고객에게는 이제까지 가치가 가장 높은 안을 보여준다

> ε epsilon: 보통 아주 작은 숫자

$ε = 10$% 일 때,

Best) $(1 - ε) + (ε / N)$

In [27]:
from numpy.random import normal

In [28]:
# 평균(만원), 표준편차, 데이터 수
A = normal(10, 1, 1000)
B = normal(9, 1, 1000)

In [42]:
epsilon = 0.1

In [30]:
from numpy.random import uniform

# ε Epsilon Greedy 전략

In [32]:
import random

In [None]:
count = {'A':0, 'B':0}
reward = {'A':0, 'B':0}
value = {'A':0, 'B':0}
real = {'A':10, 'B':9}

for _ in range(10000):
    if uniform(0, 1) < epsilon:
        if random.choice('AB') == 'A':
            reward['A'] += normal(10, 1)
            count['A'] += 1
            value['A'] = reward['A'] / count['A']
            print('A')
                  # Explore
        else:
            reward['B'] += normal(9, 1)
            count['B'] += 1
            value['B'] = reward['B'] / count['B']
            print('B')
    else:
        if random.choice('AB') == 'A':
            reward['A'] += normal(10, 1)
            count['A'] += 1
            value['A'] = reward['A'] / count['A']
            print('A')    
        else:
            reward['B'] += normal(9, 1)
            count['B'] += 1
            value['B'] = reward['B'] / count['B']
            print('B')
                 # Exploit

In [50]:
count = {'A':0, 'B':0}
reward = {'A':0, 'B':0}
value = {'A':0, 'B':0}
real = {'A':10, 'B':9}

for _ in range(10000):
    if uniform(0, 1) < epsilon:
        s = random.choice('AB')
    else:
        if value['A'] > value['B']:
            s = 'A'
        else:
            s = 'B'
    
    # 보통 평균
    reward[s] = normal(real[s], 1)
    count[s] += 1
    value[s] = reward[s] / count[s]
    print(s)
        
#     # 이동 평균
#     reward[s] = normal(real[s], 1)
#     count[s] += 1
#     value[s] += (reward[s] - value[s]) / count[s]
#     print(s)

#     # 지수 이동 평균- count 없앤다
#     reward[s] = normal(real[s], 1)
#     count[s] += 1
#     value[s] += (reward[s] - value[s]) / 100
#     print(s)

B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
A
B
A
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
A
B
A
B
A
B
A
A
A
A
A
B
B
B
B
B
A
A
A
B
B
B
A
A
A
B
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
A
B
B
B
B
B
B
A
A
B
A
A
A
A
A
A
B
B
B
A
A
A
A
A
A
A
A
A
B
B
B
B
B
A
B
B
A
A
A
B
B
B
A
B
B
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
A
B
B
A
B
B
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
B
A
A
A
A
A
A
B
A
A
A
A
A
B
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B


B
A
B
A
B
B
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
B
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
A
B
B
B
B
B
B
B
A
A
B
A
B
B
B
B
A
A
A
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
B
B
A
A
A
A
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
B
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
B
B
B
B
A
A
B
B
B
B
B
A
A
A
A
A
A
A
A
A
A
B
A
B
A
B
A
A
A
B
A
A
B
A
A
A
B
B
B
B
B
B
B
B
B
A
A
A
A
B
A
A
B
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
B
B
A
A
A


B
B
B
B
B
A
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
A
A
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
A
A
A
A
A
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
A
A
A
A
B
B
B
A
B
B
B
B
A
A
B
B
B
B
B
B
B
B
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
A
B
B
A
A
A
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
A
B
B
B
B
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
B
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
A
B
A
A
A
A
A
B
A
B
A
A
A
A
B
A
B
A
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
A
A
B
A
B
B
B
B
B
B
B
B
A
A
B
B
A
A
A
B
B
B
B
B
B
B
A
B
B
B
B
B
B
B
B
B
B
B
B
A
A
A
A
A
A
A
B
B
B
B
A
A
A
A
A
A
A
B
B
A
B
B
B
B
A
B
B
B
A
A
A
A
A
A
B
A
A


# 이동 평균 Moving Average
평균 = 기존의 가치 + (새로운 보상 - 평균)/전체 데이터 수(N)

→ 풀어서 쓰면 기존 평균 계산 방식이랑 똑같다

# 지수이동평균 Exponential Moving Average
이동평균에서 전체 데이터 수를($1/N$ → a)로 고정한다
- 새로운 데이터가 주는 영향을 고정한다
- 기존의 데이터가 남긴 영향은 점점 지수적으로 사라진다
- 최근 데이터가 더 중요할 때 쓴다

# Epsilon Greedy + 지수이동평균Exponential Moving Average 의 파라미터
- ε 이 크면 탐색을 많이, 작으면 활용을 많이
- a 가 크면 최근 데이터에 민감하다
- 전체 보상이 극대화되도록 두 가지를 조정한다

그 외 알고리즘 많다