In [1]:
import numpy as np
import pandas as pd
from scipy import stats

%precision 3
np.random.seed(111)

In [2]:
df = pd.read_csv('../python_stat_sample-master/data/ch11_potato.csv')
sample = np.array(df['무게'])
sample

array([122.02, 131.73, 130.6 , 131.82, 132.05, 126.12, 124.43, 132.89,
       122.79, 129.95, 126.14, 134.45, 127.64, 125.68])

In [3]:
# numpy의 mean 함수를 사용하여 데이터 샘플(sample)의 평균을 계산합니다.
s_mean = np.mean(sample)

# 계산된 평균값을 출력합니다.
s_mean

128.451

In [4]:
# stats.norm()을 사용하여 평균(mean)이 130이고 표준편차(standard deviation)가 np.sqrt(9/14)인 정규 분포를 생성합니다.
rv = stats.norm(130, np.sqrt(9/14))

# 생성한 정규 분포에서 95% 신뢰수준을 갖는 상위 경계값을 계산하여 출력합니다.
rv.isf(0.95)

128.681

In [5]:
# Z-점수(Z-score)를 계산합니다.
# Z-점수는 (샘플 평균 - 모집단 평균)을 모집단 표준편차로 나눈 값입니다.
z = (s_mean - 130) / np.sqrt(9/14)

# 계산된 Z-점수를 출력합니다.
z

-1.932

In [6]:
# stats.norm()을 사용하여 표준 정규 분포 객체를 생성합니다.
rv = stats.norm()

# 생성한 표준 정규 분포 객체에서 95% 신뢰수준을 갖는 상위 경계값을 계산하여 출력합니다.
rv.isf(0.95)

-1.645

In [7]:
# 생성한 정규 분포 객체(rv)에서 Z-점수(z)에 대한 누적 확률을 계산합니다.
rv.cdf(z)

0.027

In [8]:
# Z-점수(Z-score)를 계산합니다.
# Z-점수는 (샘플 평균 - 모집단 평균)을 모집단 표준편차로 나눈 값입니다.
z = (s_mean - 130) / np.sqrt(9/14)

# 계산된 Z-점수를 변수 z에 저장합니다.
z

-1.932

In [9]:
# stats.norm()을 사용하여 표준 정규 분포 객체를 생성합니다.
rv = stats.norm()

# 생성한 표준 정규 분포 객체에서 95% 신뢰수준에 해당하는 신뢰 구간을 계산하여 반환합니다.
rv.interval(0.95)

(-1.960, 1.960)

In [10]:
# rv 객체의 누적 분포 함수(CDF)를 사용하여 확률 변수의 값이 z 이하가 될 확률을 계산하고, 이를 2배 합니다.
# 이는 특히 양측 검정에서 사용되며, 확률 변수 값이 z의 절대값 이외의 영역에 있을 확률을 계산하는 데 사용됩니다.
rv.cdf(z) * 2

0.053

In [11]:
# stats 라이브러리의 norm 함수를 사용하여 정규 분포 객체를 생성합니다.
# 여기서 130은 평균(mean)을, 3은 표준편차(standard deviation)를 나타냅니다.
# 결과적으로, 이 코드는 평균이 130이고 표준편차가 3인 정규 분포를 나타내는 rv 객체를 생성합니다.
rv = stats.norm(130, 3)

In [12]:
# stats 라이브러리의 norm 함수를 이용하여 표준 정규 분포에서 상위 5% (95% 분위수)에 해당하는 z-값을 계산합니다.
c = stats.norm().isf(0.95)

# 시뮬레이션할 샘플의 개수를 10,000개로 설정합니다.
n_samples = 10000

# 조건을 만족하는 샘플의 개수를 세기 위한 카운터를 초기화합니다.
cnt = 0

# 10,000번의 시뮬레이션을 수행합니다.
for _ in range(n_samples):
    # rv 객체에서 14개의 난수를 생성하고, 소수점 둘째자리까지 반올림합니다. 이는 샘플을 나타냅니다.
    sample_ = np.round(rv.rvs(14), 2)
    # 생성된 샘플의 평균을 계산합니다.
    s_mean_ = np.mean(sample_)
    # 계산된 샘플 평균을 바탕으로 z-점수를 계산합니다. 여기서 분모는 표준오차를 나타냅니다.
    z = (s_mean_ - 130) / np.sqrt(9/14)
    # 만약 계산된 z-점수가 c보다 작다면, 카운터를 1 증가시킵니다.
    if z < c:
        cnt += 1

# 조건을 만족하는 샘플의 비율을 계산합니다.
cnt / n_samples

0.051

In [13]:
# stats 라이브러리의 norm 함수를 사용하여 정규 분포 객체를 생성합니다.
# 여기서 첫 번째 인자 128은 분포의 평균(mean)을,
# 두 번째 인자 3은 분포의 표준편차(standard deviation)를 나타냅니다.
# 따라서, 평균이 128이고 표준편차가 3인 정규 분포 객체 rv가 생성됩니다.
rv = stats.norm(128, 3)

In [14]:
# stats 라이브러리의 정규 분포(norm) 객체를 사용하여, 상위 5%에 해당하는 z값 (즉, 95번째 백분위수)를 구합니다.
c = stats.norm().isf(0.95)

# 시뮬레이션할 샘플의 개수를 100,000으로 설정합니다.
n_samples = 100000

# 조건을 만족하는 샘플의 개수를 세기 위한 카운터를 초기화합니다.
cnt = 0

# 100,000번의 시뮬레이션을 수행합니다.
for _ in range(n_samples):
    # rv 객체(정규 분포)에서 14개의 난수를 생성하고, 각각을 소수점 둘째 자리까지 반올림합니다.
    # 이는 하나의 샘플을 나타냅니다.
    sample_ = np.round(rv.rvs(14), 2)
    
    # 생성된 샘플의 평균을 계산합니다.
    s_mean_ = np.mean(sample_)
    
    # 계산된 샘플 평균을 바탕으로 z-점수를 계산합니다. 분모는 표준오차를 나타냅니다.
    z = (s_mean_ - 130) / np.sqrt(9/14)
    
    # 만약 계산된 z-점수가 c보다 크거나 같다면, 카운터를 1 증가시킵니다.
    if z >= c:
        cnt += 1

# 조건을 만족하는 샘플의 비율을 계산합니다.
cnt / n_samples

0.197

In [15]:
# 평균에 대한 가설 검정을 수행하는 함수를 정의합니다.
# sample은 데이터 샘플, mean0는 비교 대상 평균, p_var는 모집단 분산, alpha는 유의 수준(기본값 0.05)입니다.
def pmean_test(sample, mean0, p_var, alpha=0.05):
    # 샘플의 평균을 계산합니다.
    s_mean = np.mean(sample)
    # 샘플의 크기를 구합니다.
    n = len(sample)
    # 표준 정규 분포 객체를 생성합니다.
    rv = stats.norm()
    # 유의 수준에 따른 신뢰 구간을 계산합니다.
    interval = rv.interval(1-alpha)

    # 샘플 평균에 대한 z-점수를 계산합니다.
    z = (s_mean - mean0) / np.sqrt(p_var/n)
    # z-점수가 신뢰 구간 안에 있는지 확인하여 귀무 가설의 채택 여부를 결정합니다.
    if interval[0] <= z <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    # p-값을 계산합니다.
    # z-점수가 0보다 작으면, p-값은 z-점수의 두 배에 해당하는 확률입니다.
    # 그렇지 않으면, p-값은 1에서 z-점수에 해당하는 누적 확률의 두 배를 뺀 값입니다.
    if z < 0:
        p = rv.cdf(z) * 2
    else:
        p = (1 - rv.cdf(z)) * 2
    print(f'p값은 {p:.3f}')

In [16]:
# pmean_test 함수를 호출합니다. 이 함수는 평균에 대한 가설 검정을 수행합니다.
# sample은 가설 검정에 사용될 데이터 샘플을 나타냅니다.
# 130은 검정할 귀무 가설 하에서의 평균값입니다.
# 9는 모집단의 분산을 나타냅니다.
# 이 함수는 주어진 샘플이 평균이 130이고 분산이 9인 모집단에서 추출되었는지를 검정합니다.
pmean_test(sample, 130, 9)

귀무가설을 채택
p값은 0.053


In [17]:
# 표본 분산에 대한 가설 검정을 수행하는 함수를 정의합니다.
# sample은 데이터 샘플, var0는 비교 대상 분산, alpha는 유의 수준(기본값 0.05)입니다.
def pvar_test(sample, var0, alpha=0.05):
    # 샘플의 불편 분산(unbiased variance)을 계산합니다. ddof=1은 자유도를 1로 설정합니다.
    u_var = np.var(sample, ddof=1)
    # 샘플의 크기를 구합니다.
    n = len(sample)
    # 카이제곱(chi-square) 분포 객체를 생성합니다. 자유도는 샘플 크기에서 1을 뺀 값입니다.
    rv = stats.chi2(df=n-1)
    # 유의 수준에 따른 신뢰 구간을 계산합니다.
    interval = rv.interval(1-alpha)

    # 카이제곱 검정 통계량을 계산합니다.
    y = (n-1) * u_var / var0
    # 계산된 검정 통계량이 신뢰 구간 안에 있는지 확인하여 귀무 가설의 채택 여부를 결정합니다.
    if interval[0] <= y <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    # p-값을 계산합니다.
    # 검정 통계량이 카이제곱 분포의 중앙값보다 작으면, p-값은 검정 통계량의 두 배에 해당하는 확률입니다.
    # 그렇지 않으면, p-값은 1에서 검정 통계량에 해당하는 누적 확률의 두 배를 뺀 값입니다.
    if y < rv.isf(0.5):
        p = rv.cdf(y) * 2
    else:
        p = (1 - rv.cdf(y)) * 2
    print(f'p값은 {p:.3f}')

In [18]:
# pvar_test 함수를 호출하여 표본 분산에 대한 가설 검정을 수행합니다.
# sample은 가설 검정에 사용될 데이터 샘플을 나타냅니다.
# 9는 검정할 귀무 가설 하에서의 모집단 분산값입니다.
# 이 함수는 주어진 샘플이 분산이 9인 모집단에서 추출되었는지를 검정합니다.
pvar_test(sample, 9)

귀무가설을 채택
p값은 0.085


In [19]:
# 표본 평균에 대한 가설 검정을 수행하는 함수를 정의합니다.
# sample은 데이터 샘플, mean0는 비교 대상 평균, alpha는 유의 수준(기본값 0.05)입니다.
def pmean_test(sample, mean0, alpha=0.05):
    # 샘플의 평균을 계산합니다.
    s_mean = np.mean(sample)
    # 샘플의 불편 분산(unbiased variance)을 계산합니다. ddof=1은 자유도를 1로 설정합니다.
    u_var = np.var(sample, ddof=1)
    # 샘플의 크기를 구합니다.
    n = len(sample)
    # 스튜던트의 t 분포 객체를 생성합니다. 자유도는 샘플 크기에서 1을 뺀 값입니다.
    rv = stats.t(df=n-1)
    # 유의 수준에 따른 신뢰 구간을 계산합니다.
    interval = rv.interval(1-alpha)

    # 샘플 평균에 대한 t-점수를 계산합니다.
    t = (s_mean - mean0) / np.sqrt(u_var/n)
    # 계산된 t-점수가 신뢰 구간 안에 있는지 확인하여 귀무 가설의 채택 여부를 결정합니다.
    if interval[0] <= t <= interval[1]:
        print('귀무가설을 채택')
    else:
        print('귀무가설을 기각')

    # p-값을 계산합니다.
    # t-점수가 0보다 작으면, p-값은 t-점수의 두 배에 해당하는 확률입니다.
    # 그렇지 않으면, p-값은 1에서 t-점수에 해당하는 누적 확률의 두 배를 뺀 값입니다.
    if t < 0:
        p = rv.cdf(t) * 2
    else:
        p = (1 - rv.cdf(t)) * 2
    print(f'p값은 {p:.3f}')

In [20]:
# pmean_test 함수를 호출하여 평균에 대한 가설 검정을 수행합니다.
# sample은 가설 검정에 사용될 데이터 샘플을 나타냅니다.
# 130은 검정할 귀무 가설 하에서의 모집단 평균값입니다.
# 이 함수는 주어진 샘플의 평균이 130과 다른지를 검정합니다.
pmean_test(sample, 130)

귀무가설을 채택
p값은 0.169


In [21]:
# stats.ttest_1samp 함수를 사용하여 단일 표본 t-검정을 수행합니다.
# sample은 가설 검정에 사용될 데이터 샘플을 나타냅니다.
# 130은 이 표본의 평균을 비교할 모집단 평균값을 나타냅니다.
# 이 함수는 sample의 평균이 130과 통계적으로 유의미하게 다른지를 검정합니다.
# 반환값으로 t-통계량(t)과 p-값(p)을 받습니다.
t, p = stats.ttest_1samp(sample, 130)

# t-통계량과 p-값을 출력합니다.
t, p

(-1.455, 0.169)

In [22]:
training_rel = pd.read_csv('../python_stat_sample-master/data/ch11_training_rel.csv')
print(training_rel.shape)
training_rel.head()

(20, 2)


Unnamed: 0,전,후
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84


In [23]:
# 'training_rel' 데이터프레임에 '차'라는 새로운 열을 추가합니다. 
# 이 열은 '후'와 '전' 열의 값들의 차이를 나타냅니다.
training_rel['차'] = training_rel['후'] - training_rel['전']
training_rel.head()

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25


In [24]:
# 단일 표본 t-검정을 사용하여 '차'의 평균이 0과 다른지를 검정합니다.
# 이는 '전'과 '후'의 차이가 통계적으로 유의한지를 판단하기 위함입니다.
t, p = stats.ttest_1samp(training_rel['차'], 0)

# 위에서 계산된 p-값을 출력합니다. 이 값이 낮을수록 '전'과 '후'의 차이가 유의미하다는 것을 나타냅니다.
p

0.040

In [25]:
# 대응 표본 t-검정(t-test for related samples)을 수행하여 
# '후'와 '전' 간의 평균 차이가 통계적으로 유의한지를 검정합니다.
t, p = stats.ttest_rel(training_rel['후'], training_rel['전'])

# 위에서 계산된 p-값을 출력합니다. 이 값이 낮을수록 '전'과 '후' 간의 차이가 유의미하다는 것을 나타냅니다.
p

0.040

In [26]:
training_ind = pd.read_csv('../python_stat_sample-master/data/ch11_training_ind.csv')
print(training_ind.shape)
training_ind.head()

(20, 2)


Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [27]:
# stats.ttest_ind 함수를 사용하여 독립 표본 t-검정을 수행합니다.
# training_ind['A']와 training_ind['B']는 비교할 두 독립 표본 그룹을 나타냅니다.
# equal_var = False는 두 그룹의 분산이 동일하지 않다고 가정합니다 (Welch's t-test).
# 이 검정은 두 그룹 'A'와 'B'의 평균이 통계적으로 유의미하게 다른지를 판단합니다.
t, p = stats.ttest_ind(training_ind['A'], training_ind['B'], equal_var = False)

# 계산된 p-값을 출력합니다.
# p-값이 낮을 경우, 두 그룹 간의 평균 차이가 통계적으로 유의미하다는 것을 나타냅니다.
p

0.087

In [28]:
training_rel = pd.read_csv('../python_stat_sample-master/data/ch11_training_rel.csv')
toy_df = training_rel[:6].copy()
toy_df

Unnamed: 0,전,후
0,59,41
1,52,63
2,55,68
3,61,59
4,59,84
5,45,37


In [29]:
# toy_df 데이터프레임의 '후'와 '전' 열 간의 차이를 계산하여 새로운 열 '차'에 저장합니다.
diff = toy_df['후'] - toy_df['전']
toy_df['차'] = diff

# 변경된 데이터프레임을 출력합니다.
toy_df

Unnamed: 0,전,후,차
0,59,41,-18
1,52,63,11
2,55,68,13
3,61,59,-2
4,59,84,25
5,45,37,-8


In [30]:
# diff의 절대값에 대해 순위를 매깁니다. stats.rankdata 함수는 각 값에 순위를 부여합니다.
# 순위 데이터는 정수형으로 변환합니다.
rank = stats.rankdata(abs(diff)).astype(int)

# 계산된 순위를 '순위' 열에 저장합니다.
toy_df['순위'] = rank

# 변경된 데이터프레임을 출력합니다.
toy_df

Unnamed: 0,전,후,차,순위
0,59,41,-18,5
1,52,63,11,3
2,55,68,13,4
3,61,59,-2,1
4,59,84,25,6
5,45,37,-8,2


In [31]:
# diff가 0보다 작은 경우(음의 차이)의 순위 합을 계산합니다.
r_minus = np.sum((diff < 0) * rank)
# diff가 0보다 큰 경우(양의 차이)의 순위 합을 계산합니다.
r_plus = np.sum((diff > 0) * rank)

# 음의 차이에 대한 순위 합과 양의 차이에 대한 순위 합을 출력합니다.
r_minus, r_plus

(8, 13)

In [32]:
# toy_df 데이터프레임의 '전' 열에 1부터 6까지의 숫자를 순차적으로 더하여 '후' 열을 생성합니다.
toy_df['후'] = toy_df['전'] + np.arange(1, 7)

# '후'와 '전' 열 간의 차이를 계산하여 새로운 열 '차'에 저장합니다.
diff = toy_df['후'] - toy_df['전']

# 차이(diff)의 절대값에 대해 순위를 매기고, 그 결과를 정수형으로 변환하여 '순위' 열에 저장합니다.
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank

# 수정된 toy_df 데이터프레임을 출력합니다.
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,54,2,2
2,55,58,3,3
3,61,65,4,4
4,59,64,5,5
5,45,51,6,6


In [33]:
# diff가 음수(0보다 작은 값)인 경우에 해당하는 순위들의 합을 계산합니다.
# 이는 diff < 0 조건에 부합하는 값에 해당하는 rank 값들만 합산합니다.
r_minus = np.sum((diff < 0) * rank)

# diff가 양수(0보다 큰 값)인 경우에 해당하는 순위들의 합을 계산합니다.
# 이는 diff > 0 조건에 부합하는 값에 해당하는 rank 값들만 합산합니다.
r_plus = np.sum((diff > 0) * rank)

# 계산된 r_minus(음수 차이에 대한 순위 합)와 r_plus(양수 차이에 대한 순위 합)를 출력합니다.
r_minus, r_plus

(0, 21)

In [34]:
# toy_df 데이터프레임의 '전' 열에 고정된 값들 [1, -2, -3, 4, 5, -6]을 더하여 '후' 열을 수정합니다.
toy_df['후'] = toy_df['전'] + [1, -2, -3, 4, 5, -6]

# '후'와 '전' 열 간의 차이를 계산하여 새로운 열 '차'에 저장합니다.
diff = toy_df['후'] - toy_df['전']

# 차이(diff)의 절대값에 대해 순위를 매기고, 그 결과를 정수형으로 변환하여 '순위' 열에 저장합니다.
rank = stats.rankdata(abs(diff)).astype(int)
toy_df['차'] = diff
toy_df['순위'] = rank

# 수정된 toy_df 데이터프레임을 출력합니다.
toy_df

Unnamed: 0,전,후,차,순위
0,59,60,1,1
1,52,50,-2,2
2,55,52,-3,3
3,61,65,4,4
4,59,64,5,5
5,45,39,-6,6


In [35]:
# diff가 음수인 경우(즉, '후'의 값이 '전'의 값보다 작은 경우)의 순위(rank) 합을 계산합니다.
# 이는 diff < 0을 만족하는 요소에 해당하는 순위의 합을 의미합니다.
r_minus = np.sum((diff < 0) * rank)

# diff가 양수인 경우(즉, '후'의 값이 '전'의 값보다 큰 경우)의 순위(rank) 합을 계산합니다.
# 이는 diff > 0을 만족하는 요소에 해당하는 순위의 합을 의미합니다.
r_plus = np.sum((diff > 0) * rank)

# 계산된 r_minus와 r_plus를 출력합니다.
# 이 값들은 윌콕슨 부호 순위 검정에서 사용되며, '전'과 '후' 사이에 유의미한 차이가 있는지를 평가하는 데 사용됩니다.
r_minus, r_plus

(11, 10)

In [36]:
# stats.wilcoxon 함수를 사용하여 윌콕슨 부호 순위 검정을 수행합니다.
# 이 검정은 두 관련 표본인 training_rel 데이터프레임의 '전'과 '후' 열 간의 차이를 비모수적으로 검정합니다.
# 반환값으로 검정 통계량(T)과 p-값(p)을 받습니다.
T, p = stats.wilcoxon(training_rel['전'], training_rel['후'])

# 계산된 p-값을 출력합니다.
# p-값이 낮을 경우, 두 관련 표본 간의 차이가 통계적으로 유의미하다는 것을 나타냅니다.
p

0.036

In [37]:
# stats.wilcoxon 함수를 사용하여 윌콕슨 부호 순위 검정을 수행합니다.
# 이 검정은 training_rel 데이터프레임의 '후'와 '전' 열 간의 차이를 비모수적으로 검정합니다.
# 검정은 '후'와 '전'의 차이를 계산한 결과를 사용합니다.
# 반환값으로 검정 통계량(T)과 p-값(p)을 받습니다.
T, p = stats.wilcoxon(training_rel['후'] - training_rel['전'])

# 계산된 p-값을 출력합니다.
# p-값이 낮을 경우, 두 관련 표본 간의 차이가 통계적으로 유의미하다는 것을 나타냅니다.
p

0.040

In [38]:
# 샘플의 크기와 차원을 설정합니다. 여기서는 10,000개의 샘플을 생성하며, 각 샘플은 20개의 요소를 가집니다.
n = 10000

# stats.norm(3, 4)은 평균이 3이고 표준편차가 4인 정규 분포를 나타냅니다.
# rvs(size=(n, 20))는 위에서 정의한 정규 분포에서 무작위로 n개의 샘플을 추출하는데, 
# 각 샘플은 20개의 값으로 구성됩니다.
# np.round를 사용하여 이러한 값들을 가장 가까운 정수로 반올림합니다.
diffs = np.round(stats.norm(3, 4).rvs(size=(n, 20)))

In [39]:
# 유의미한 결과를 세기 위한 카운터를 초기화합니다.
cnt = 0

# 유의 수준을 0.05로 설정합니다.
alpha = 0.05

# diffs의 각 diff(20개 요소를 가진 샘플)에 대해 반복합니다.
for diff in diffs:
    # 단일 표본 t-검정을 수행합니다. 여기서 귀무 가설은 diff의 평균이 0이라는 것입니다.
    t, p = stats.ttest_1samp(diff, 0)
    # p-값이 유의 수준보다 작으면 카운터를 증가시킵니다.
    # 이는 귀무 가설을 기각하는 경우를 의미합니다.
    if p < alpha:
        cnt += 1

# 전체 시행 횟수 대비 유의 수준보다 작은 p-값을 가진 시행의 비율을 계산합니다.
cnt / n

0.885

In [40]:
# cnt는 유의미한 차이가 관찰된 데이터 쌍의 수를 계산하기 위한 카운터입니다.
cnt = 0

# alpha는 유의 수준을 설정합니다. 이 경우 0.05로 설정되어 있어,
# p-값이 0.05보다 작으면 결과가 통계적으로 유의미하다고 간주합니다.
alpha = 0.05

# diffs에 있는 각 데이터 쌍에 대해 반복합니다.
for diff in diffs:
    # 윌콕슨 부호 순위 검정을 수행합니다.
    # 이 검정은 두 관련 표본 간의 차이가 0이 아닌지를 검정합니다.
    T, p = stats.wilcoxon(diff)

    # 만약 p-값이 alpha(0.05)보다 작으면,
    # 이는 통계적으로 유의미한 차이가 있다는 것을 의미합니다.
    if p < alpha:
        cnt += 1

# 유의미한 차이가 관찰된 경우의 비율을 계산합니다.
# 이는 전체 데이터 쌍 중에서 통계적으로 유의미한 차이를 보인 쌍의 비율입니다.
cnt / n



0.876

In [41]:
training_ind = pd.read_csv('../python_stat_sample-master/data/ch11_training_ind.csv')
toy_df = training_ind[:5].copy()
toy_df

Unnamed: 0,A,B
0,47,49
1,50,52
2,37,54
3,60,48
4,39,51


In [42]:
# 'A' 열과 'B' 열의 값을 합쳐서 하나의 배열로 만듭니다.
# rankdata 함수를 사용하여 해당 배열의 요소들에 대한 순위를 계산합니다.
rank = stats.rankdata(np.concatenate([toy_df['A'], toy_df['B']]))

# 순위를 계산한 결과를 바탕으로 새로운 데이터 프레임을 생성합니다.
# 'A' 열에는 rank 배열의 처음 5개 값을, 'B' 열에는 rank 배열의 5번째부터 10번째까지 값을 넣습니다.
# 순위는 정수형으로 변환하여 저장합니다.
rank_df = pd.DataFrame({'A': rank[:5], 'B': rank[5:10]}).astype(int)

# 최종적으로 생성된 rank_df를 출력합니다.
rank_df

Unnamed: 0,A,B
0,3,5
1,6,8
2,1,9
3,10,4
4,2,7


In [43]:
# 데이터 프레임 rank_df의 'A' 열의 길이를 n1에 저장합니다.
n1 = len(rank_df['A'])

# Wilcoxon 순위 합 검정을 위한 U 통계량을 계산합니다.
# U 통계량은 'A' 열의 순위 합을 계산한 뒤, 기대값인 (n1 * (n1 + 1)) / 2를 뺀 값을 의미합니다.
# U 통계량은 두 개의 대응하는 표본 간의 차이를 비교하는 데 사용됩니다.
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2

# U 통계량을 출력합니다.
u

7.000

In [44]:
# np.arange(1, 11)은 1부터 10까지의 숫자를 생성한 배열을 나타냅니다.
# reshape(2, 5)는 이 숫자 배열을 2x5 형태의 행렬로 변형합니다.
# T는 행렬을 전치(transpose)하여 행과 열을 바꿉니다.
# 이로써 'A' 열과 'B' 열이 각각 1부터 5까지의 값을 가지는 2개의 열로 구성된 데이터 프레임이 생성됩니다.
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5).T, columns=['A', 'B'])

# 생성된 데이터 프레임 rank_df를 출력합니다.
rank_df

Unnamed: 0,A,B
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [45]:
# 데이터 프레임 rank_df의 'A' 열에서 U 통계량(U statistic)을 계산합니다.
# U 통계량은 Wilcoxon 순위 합 검정(Wilcoxon signed-rank test)에서 사용되는 값으로,
# 두 개의 대응하는 표본 간의 순위 합의 차이를 나타냅니다.
# 'A' 열의 순위 합을 계산한 뒤, 기대값인 (n1 * (n1 + 1)) / 2를 뺀 값을 U로 저장합니다.
u = rank_df['A'].sum() - (n1 * (n1 + 1)) / 2

# U 통계량 값을 출력합니다.
u

0.000

In [46]:
# np.arange(1, 11)은 1부터 10까지의 숫자를 생성한 배열을 나타냅니다.
# reshape(2, 5)는 이 숫자 배열을 2x5 형태의 행렬로 변형합니다.
# [::-1]은 배열을 역순으로 변환합니다. 따라서 [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]로 변환됩니다.
# T는 행렬을 전치(transpose)하여 행과 열을 바꿉니다.
# 이로써 'A' 열과 'B' 열이 각각 [10, 9, 8, 7, 6]과 [5, 4, 3, 2, 1]로 구성된 데이터 프레임이 생성됩니다.
rank_df = pd.DataFrame(np.arange(1, 11).reshape(2, 5)[::-1].T, columns=['A', 'B'])

# 생성된 데이터 프레임 rank_df를 출력합니다.
rank_df

Unnamed: 0,A,B
0,6,1
1,7,2
2,8,3
3,9,4
4,10,5


In [47]:
# 데이터 프레임 rank_df의 'A' 열에서 모든 값을 합산합니다.
# 이것은 'A' 열의 모든 값의 순위 합을 나타냅니다.
# n1은 'A' 열의 길이를 나타내는 변수입니다. 이 변수는 코드 내에서 정의되어 있어야 합니다.
# U 통계량(U statistic)은 Wilcoxon 순위 합 검정에서 사용되는 값으로,
# 'A' 열의 순위 합에서 기대값인 (n1 * (n1 + 1)) / 2를 뺀 값을 나타냅니다.
u = rank_df['A'].sum() - (n1*(n1+1))/2

# 계산된 U 통계량 값을 출력합니다.
u

25.000

In [48]:
# Mann-Whitney U 검정을 수행하고 유의확률(p-value)을 계산합니다.

# stats.mannwhitneyu 함수를 사용하여 Mann-Whitney U 검정을 수행합니다.
# training_ind['A']는 'A' 그룹의 데이터를 나타내며, training_ind['B']는 'B' 그룹의 데이터를 나타냅니다.
# alternative='two-sided'는 양측 검정을 수행하겠다는 옵션입니다.
u, p = stats.mannwhitneyu(training_ind['A'], training_ind['B'], alternative='two-sided')

# Mann-Whitney U 검정의 결과로 얻은 유의확률(p-value)을 출력합니다.
p

0.059

In [49]:
ad_df = pd.read_csv('../python_stat_sample-master/data/ch11_ad.csv')
n = len(ad_df)
print(n)
ad_df.head()

1000


Unnamed: 0,광고,구입
0,B,하지 않았다
1,B,하지 않았다
2,A,했다
3,A,했다
4,B,하지 않았다


In [50]:
# '광고' 열과 '구입' 열을 기반으로 크로스탭(crosstab)을 생성합니다.
# 크로스탭은 두 범주형 변수 간의 교차 빈도를 나타냅니다.
ad_cross = pd.crosstab(ad_df['광고'], ad_df['구입'])
ad_cross

구입,하지 않았다,했다
광고,Unnamed: 1_level_1,Unnamed: 2_level_1
A,351,49
B,549,51


In [51]:
# 크로스탭에서 '했다' 열을 '했다' 열과 '하지 않았다' 열을 합친 값으로 나누어
# '했다' 열의 비율을 계산합니다.
ad_cross['했다'] / (ad_cross['했다'] + ad_cross['하지 않았다'])

광고
A    0.1225
B    0.0850
dtype: float64

In [52]:
# 크로스탭에서 '했다' 열과 '하지 않았다' 열의 합계를 계산합니다.
n_not, n_yes = ad_cross.sum()

# '했다' 열과 '하지 않았다' 열의 합계를 출력합니다.
n_not, n_yes

(900, 100)

In [53]:
# 각 광고 유형('A'와 'B')에 대한 관측치 합계를 계산합니다.
# axis=1은 행 방향을 따라 합계를 계산하라는 것을 의미합니다.
n_adA, n_adB = ad_cross.sum(axis=1)

# n_adA와 n_adB는 각각 'A' 광고와 'B' 광고에 대한 관측치 합계를 나타냅니다.
# 이 값을 출력합니다.
n_adA, n_adB

(400, 600)

In [54]:
# 기대 빈도(expected frequency)를 계산하기 위한 데이터 프레임을 생성합니다.

# '했다'와 '하지 않았다'를 각 광고 유형('A'와 'B')에 대한 기대 빈도로 계산합니다.
# n_adA * n_yes / n은 'A' 광고에 대한 '했다' 및 '하지 않았다'의 기대 빈도를 계산합니다.
# n_adB * n_yes / n은 'B' 광고에 대한 '했다' 및 '하지 않았다'의 기대 빈도를 계산합니다.
# index=['A', 'B']로 인덱스를 설정합니다.
ad_ef = pd.DataFrame({'했다': [n_adA * n_yes / n, n_adB * n_yes / n],
                     '하지 않았다': [n_adA * n_not / n, n_adB * n_not / n]},
                     index=['A', 'B'])

# 생성된 기대 빈도 데이터 프레임을 출력합니다.
ad_ef

Unnamed: 0,했다,하지 않았다
A,40.0,360.0
B,60.0,540.0


In [55]:
# 카이제곱 통계량(Chi-squared statistic)을 계산합니다.

# ad_cross는 관측 빈도를 나타내며, ad_ef는 기대 빈도를 나타냅니다.
# (ad_cross - ad_ef) ** 2는 각 셀에서 관측 빈도와 기대 빈도의 차이를 제곱한 값을 나타냅니다.
# 이를 기대 빈도로 나누어 카이제곱 통계량을 계산합니다.
# .sum().sum()을 사용하여 모든 셀에서의 카이제곱 값을 합산합니다.
y = ((ad_cross - ad_ef) ** 2 / ad_ef).sum().sum()

# 계산된 카이제곱 통계량 값을 출력합니다.
y

3.750

In [56]:
# 카이제곱 분포를 생성하고 유의확률(p-value)을 계산합니다.
# stats.chi2(1)은 자유도가 1인 카이제곱 분포를 생성합니다.
# 자유도 1은 카이제곱 검정에서 자주 사용되는 값 중 하나입니다.
rv = stats.chi2(1)

# 1 - rv.cdf(y)는 카이제곱 분포의 누적 분포 함수(CDF)를 사용하여
# 카이제곱 통계량 y에 대한 유의확률(p-value)을 계산합니다.
# 1에서 CDF 값을 빼서 상단 꼬리 영역의 확률을 계산합니다.
1 - rv.cdf(y)

0.053

In [59]:
# 카이제곱 독립성 검정을 수행하고 검정 통계량(chi2), 유의확률(p-value), 자유도(dof)를 계산합니다.

# stats.chi2_contingency 함수를 사용하여 카이제곱 독립성 검정을 수행합니다.
# ad_cross는 크로스탭 테이블을 나타냅니다.
# correction=False는 Yates' 보정(Yates' continuity correction)을 사용하지 않겠다는 옵션입니다.
chi2, p, dof, ef = stats.chi2_contingency(ad_cross, correction=False)

# 계산된 검정 통계량(chi2), 유의확률(p-value), 자유도(dof)를 출력합니다.
chi2, p, dof

(3.750, 0.053, 1)

In [60]:
# 기대빈도
ef

array([[360.,  40.],
       [540.,  60.]])