### SciPy를 사용한 기초적인 검정

#### 이항검정(Binomial Test)

In [7]:
import scipy as sp

In [8]:
import scipy.stats

In [9]:
import numpy as np

In [38]:
import seaborn as sns

In [70]:
import matplotlib.pyplot as plt

In [10]:
N = 10
theta_0 = 0.5
np.random.seed(0)
x = sp.stats.bernoulli(theta_0).rvs(N)
n = np.count_nonzero(x)
n

7

In [11]:
sp.stats.binom_test(n, N)

0.3437499999999999

In [12]:
N = 100
theta_0 = 0.5
np.random.seed(0)
x = sp.stats.bernoulli(theta_0).rvs(N)
n = np.count_nonzero(x)
n

49

In [13]:
sp.stats.binom_test(n, N)

0.9204107626128206

In [14]:
N = 100
theta_0 = 0.35
np.random.seed(0)
x = sp.stats.bernoulli(theta_0).rvs(N)
n = np.count_nonzero(x)
n

31

In [16]:
sp.stats.binom_test(n, N)
# 이 경우에는 reject

0.00018314322488235352

1. N = 10이고 유의 수준이 10%라면 앞면이 나온 횟수가 몇 번이어야지 동전이 fair하지 않다고 이야기 할 수 있을까?
2. N = 1000이고 유의 수준이 10%라면 앞면이 나온 횟수가 몇 번이어야지 동전이 fair하지 않다고 이야기 할 수 있을까? 이 때 fair하다고 이야기할 수 있는 경우의 범위는 N=10일 때와 비교하여 넓은가 혹은 좁은가?

In [39]:
N = 10
theta_0 = 0.10

In [40]:
sp.stats.binom_test(2, 10), sp.stats.binom_test(8, 10)

(0.10937500000000003, 0.10937500000000003)

In [41]:
sp.stats.binom_test(1, 10), sp.stats.binom_test(9, 10)

(0.021484374999999997, 0.021484374999999997)

In [None]:
10번 중 1번 이하 혹은 9번 이상 나와야 fair하지 않다고 할 수 있다

In [42]:
N = 1000
theta_0 = 0.10

In [43]:
sp.stats.binom_test(474, 1000), sp.stats.binom_test(526, 1000)

(0.10674954203435372, 0.10674954203435372)

In [44]:
sp.stats.binom_test(473, 1000), sp.stats.binom_test(527, 1000)

(0.09368729147551143, 0.09368729147551143)

In [None]:
1000번 중에 473번 이하 혹은 527번 이상 나와야 fair하지 않다고 할 수 있다

3. N = 100이고 앞면이 나온 횟수는 40번이다. 유의 수준이 1%라면 앞면이 나온 횟수가 몇 번이어야지  θ=0.4 라고 이야기 할 수 있을까?

다음 코드를 실행하면 어느 식당의 판매 기록을 구할 수 있다. 이 데이터는 성별, 흡연유무, 점심/저녁 유무 등을 포함한다. 각 레코드는 한명의 손님을 나타낸다고 가정핮. 이항 검정을 사용하여 다음 문제를 풀어라.
1. 여자 손님 중 비흡연자가 흡연자보다 많다고 할 수 있는가?
2. 저녁에 오는 여자 손님 중 비흡연자가 흡연자보다 많다고 할 수 있는가?

In [47]:
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [48]:
tips1 = tips.groupby(["sex","smoker"]).size().reset_index(name="counts")
tips1

Unnamed: 0,sex,smoker,counts
0,Male,Yes,60
1,Male,No,97
2,Female,Yes,33
3,Female,No,54


In [50]:
sp.stats.binom_test(33, 87), sp.stats.binom_test(54, 87)

(0.031418110233846136, 0.031418110233846136)

In [49]:
tips2 = tips.groupby(["sex","smoker","time"]).size().reset_index(name="counts")
tips2

Unnamed: 0,sex,smoker,time,counts
0,Male,Yes,Lunch,13
1,Male,Yes,Dinner,47
2,Male,No,Lunch,20
3,Male,No,Dinner,77
4,Female,Yes,Lunch,10
5,Female,Yes,Dinner,23
6,Female,No,Lunch,25
7,Female,No,Dinner,29


In [51]:
sp.stats.binom_test(23, 52), sp.stats.binom_test(29, 52)

(0.4884556693798922, 0.4884556693798922)

In [None]:
-> 1번은 많다고 할 수 없다. 2번은 많다고 할 수 있다.

#### 카이 제곱 검정(Chi-square test)

In [73]:
N = 10
K = 4
theta_0 = np.ones(K)/K
np.random.seed(0)
x = np.random.choice(K, N, p=theta_0)
n = np.bincount(x, minlength=K)
n

array([0, 3, 5, 2], dtype=int64)

In [74]:
sp.stats.chisquare(n)

Power_divergenceResult(statistic=5.199999999999999, pvalue=0.157724450396663)

In [75]:
N = 100
K = 4
theta_0 = np.array([0.35, 0.30, 0.20, 0.15])
np.random.seed(0)
x = np.random.choice(K, N, p=theta_0)
n = np.bincount(x, minlength=K)
n

array([37, 32, 20, 11], dtype=int64)

In [76]:
sp.stats.chisquare(n)

Power_divergenceResult(statistic=16.56, pvalue=0.0008703471978912127)

4면체 주사위를 10번 던졌다. 만약 10번 모두 1이 나왔다면 주사위가 공정하다는 귀무 가설의 유의 확률은 얼마인가?

In [84]:
tips = sns.load_dataset("tips")
tips.pivot_table(index="sex", columns="day", aggfunc="size")

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,30,10,59,58
Female,32,9,28,18


이 결과에 따르면 성별에 따라 식당을 많이 방문하는 요일이 달라진다고 이야기할 수 있는가?

In [86]:
n = np.array([[30,10,59,58],[32,9,28,18]])

In [87]:
sp.stats.chi2_contingency(n)
# 상관 관계가 없지 않다. 귀무가설이 상관 관계가 없다이기 때문.

(13.22200137240661,
 0.004180302092822257,
 3,
 array([[39.89344262, 12.22540984, 55.9795082 , 48.90163934],
        [22.10655738,  6.77459016, 31.0204918 , 27.09836066]]))