# What is Statistics

1000 번의 동전 던지기를 해서 570 번의 앞면이 나왔다면, 이 동전은 fair coin 인가 아닌가 ?

가설 - 이 동전은 fair coin 이다.

만약, fair coin 이면서 570 번의 앞면이 나올 확률이 극히 적다면 가설을 reject 한다.

앞면을 +1, 뒷면을 -1 로 하면 570 - 430 = 140 이다.

$|S_k| \geq 4 \times \sqrt{k}$ 일 확률은 $2\times10^{-8}$ 이므로,

In [20]:
import numpy as np

s_k = 4 * np.sqrt(1000)
s_k

126.49110640673517

다라서 fair coin 이라는 가설은 reject 되었고, coin 이 biase 되었다고 높은 confidence 말할 수 있다. 

507 head 의 경우는 어떠한가 ?

507 - 493 = 14 이므로, 이 경우는 126.49 보다 훨씬 작은 값이므로 fair coin 이 아니라고 말할 수 없고, fair coin 일 가능성 높음. 따라서 fair coin 이 아니라고 결론 지을 수 없다.

## Real World Problem

### Case 1 : 여론조사
수일 내로 투표가 있고, 우리는 사람들이 R 과 D 당 중 어느 당을 찍을지 알고 싶다. (오직 2 당만 존재한다고 가정)  
전체 유권자를 대상으로 물어볼 수는 없으므로 작은 수의 선택된 사람들을 표본으로 여론 조사를 하여 추정 (extrapolate)한다.

- n 명의 사람들에게 무작위로 전화를 하여 D 당 투표를 count  
- 확신을 가지고 R vote 가 많을지 D vote 가 많을지 말할 수 있는가 ?
- 이 것은 동전던지기 문제를 확신을 가지고 앞면 혹은 뒷면으로 편향되었다고 말할 수 있는가와 수학적으로 완전히 같다.

### A/B Test
- 두개의 design 을 방문자에게 무작위로 보여주어 방문자가 얼마나 오래 site 에 머무는지 혹은 광고 클릭을 하는지 등을 통해 사용자가 어느 design 을 선호하는지 측정
- 이 것 역시 동전의 앞면이 뒷면 보다 더 확률이 높은지를 확신을 가지고 이야기 하는 문제와 유사하다.

그 이외에도 지구온난화 측정, 의료 과정의 효율성 판단 등도 유사

## Three Card Puzzle

모자 속에 3 장의 카드가 있다.   
- RB : 한면은 red, 한면은 blue
- RR : 양면 모두 red
- BB : 양면 모두 blue

한장의 카드를 무작위로 꺼내어 아무쪽이나 책상위에 놓는다.  
- U 를 윗면을 향한 카드 색이라 하자 (R or B)
- 다른 면의 색이 다르면 내가 상대에게 \$1 을 주고,    
- 다른 면의 색이 같으면 상대가 내게 \$1 을 준다.

### 첫번째 주장
이 내기가 공정한 이유,
- U 가 R 이라 가정할 때,
- 카드는 RR 혹은 RB 일 것이다. 따라서, 다른 면은 R 혹은 B 이므로 승산은 반반이다.
- U 가 B 인 경우도 마찬가지이다.


### Monte Carlo Simulation 을 이용하여 위 내용을 검증한다.

- 3 장의 card 를 random 하게 골라서 random side 를 up 이 되도록 한다.
- card 를 print 하고 양면이 모두 같은지 다른지를 표시한다.

In [49]:
import numpy as np

cards = [('r', 'r'), ('r', 'b'), ('b', 'b')]
same = 0
different = 0
n = 10000

for _ in range(n):

    trial = cards[np.random.randint(3)]
    up = np.random.randint(2)

    if up == 0:
        down = 1
    else:
        down = 0

    if trial[up] == trial[down]:
        same += 1
    else:
        different += 1

    #print(trial, trial[up], trial[down])

print("same: {:.0f}%, different: {:.0f}%".format(same/n*100, different/n*100))

same: 67%, different: 33%


### 새로운 주장
- 양면이 같은 경우가 다른 경우 보다 2 배이다.
- 따라서 상대는 2 배 확률로 돈을 잃는다.
- 평균적으로 매번 33 센트를 잃는다.  
    $\$1 \times (2/3) - \$1 \times (1/3)$

### 결론
- 카드를 무작위로 뽑으면 2/3 회는 양면의 색이 같은 카드를 뽑고 1/3 만 색이 다른 카드를 뽑게 된다.
- 따라서 처음 가정은 그럴듯해 보이나 틀렸다.
- 우리의 결론이 맞다는 것을 확인하려면 outcome 과 event 라는 두개의 개념을 정의해야 한다. 
- simulation 없이 첫번째 주장과 두번째 주장 중 어느 것이 맞는지 확인하는 방법 필요