In [1]:
import numpy as np
import pandas as pd

from scipy import stats

### 🔹 1. 대응표본 정규성 만족

한 교육 연구소는 **AI 학습 프로그램**이 학생들의 **논리적 사고력 향상**에 효과가 있는지 알고 싶어 한다.  
20명의 학생을 대상으로 프로그램 **실시 전과 후**에 동일한 사고력 테스트를 실시했다.  

아래는 임의로 추출된 10명의 점수 일부이다:

| 학생 | 사전 테스트 | 사후 테스트 |
|------|--------------|--------------|
| 1    | 72           | 75           |
| 2    | 68           | 74           |
| 3    | 70           | 70           |
| 4    | 65           | 68           |
| 5    | 73           | 78           |
| 6    | 69           | 71           |
| 7    | 74           | 76           |
| 8    | 67           | 70           |
| 9    | 71           | 74           |
| 10   | 66           | 69           |


In [2]:
H0 = '사고력 향상에 유의미한 영향이 없다.'
H1 = '사고력 향상에 유의미한 영향이 있다.'

df = pd.DataFrame(
    [[1, 72, 75,],
     [2, 68, 74,],
     [3, 70, 70,],
     [4, 65, 68,],
     [5, 73, 78,],
     [6, 69, 71,],
     [7, 74, 76,],
     [8, 67, 70,],
     [9, 71, 74,],
     [10, 66, 69,]
     ],
    columns=['학생', '사전테스트', '사후테스트']
)

df

Unnamed: 0,학생,사전테스트,사후테스트
0,1,72,75
1,2,68,74
2,3,70,70
3,4,65,68
4,5,73,78
5,6,69,71
6,7,74,76
7,8,67,70
8,9,71,74
9,10,66,69


In [3]:
# 정규성 검정
_H0 = '정규성을 만족한다.'
_H1 = '정규성을 만족하지 않는다.'

df['diff'] = df['사후테스트'] - df['사전테스트']
statistic, p_value = stats.shapiro(df['diff'])
print(f'p_value :{p_value}')
if 0.05 < p_value:
    print(_H0)
else:
    print(_H1)

p_value :0.21059874267461046
정규성을 만족한다.


In [None]:
# alternative='less' : (a-b)가 0보다 작은가.
statistic, p_value = stats.ttest_rel(df['사전테스트'], df['사후테스트'], alternative='less')

print(f'p_value : {p_value}')
if 0.05 < p_value:
    print(H0)
else:
    print(H1)

p_value : 0.00012820699140199507
사고력 향상에 유의미한 영향이 있다.


### 🔹 1. 대응표본 정규성 불만족

한 피트니스 센터는 **8주간 운동 프로그램**이  
회원들의 체지방률에 효과가 있는지를 확인하고자 했다.  
10명의 회원에 대해 운동 **전후 체지방률**을 측정했다.

| 회원 | 운동 전 | 운동 후 |
|------|--------|---------|
| 1 | 25 | 23 |
| 2 | 28 | 25 |
| 3 | 27 | 26 |
| 4 | 30 | 27 |
| 5 | 26 | 24 |
| 6 | 29 | 28 |
| 7 | 24 | 22 |
| 8 | 31 | 29 |
| 9 | 28 | 27 |
|10 | 27 | 25 |

→ 운동 전후 체지방률에 **유의미한 차이가 있는가? (유의수준 0.05)**

In [8]:
H0 = '운동 전후 체지방률에 유의미한 차이가 없다.'
H1 = '운동 전후 체지방률에 유의미한 차이가 있다.'

df = pd.DataFrame(
    [[1, 25, 23],
     [2, 28, 25],
     [3, 27, 26],
     [4, 30, 27],
     [5, 26, 24],
     [6, 29, 28],
     [7, 24, 22],
     [8, 31, 29],
     [9, 28, 27],
     [10, 27, 25]],
    columns=['회원', '운동전', '운동후'])
df

Unnamed: 0,회원,운동전,운동후
0,1,25,23
1,2,28,25
2,3,27,26
3,4,30,27
4,5,26,24
5,6,29,28
6,7,24,22
7,8,31,29
8,9,28,27
9,10,27,25


In [10]:
# 정규성 검정
_H0 = '정규성을 만족한다.'
_H1 = '정규성을 만족하지 않는다.'

df['diff'] = df['운동후'] - df['운동전']
statistic, p_value = stats.shapiro(df['diff'])

print(f'p_value :{p_value}')
if 0.05 < p_value:
    print(_H0)
else:
    print(_H1)

p_value :0.03586421822449294
정규성을 만족하지 않는다.


In [11]:
statistic, p_value = stats.wilcoxon(df['운동전'], df['운동후'], alternative='two-sided')

print(f'p_value : {p_value}')
if 0.05 < p_value:
    print(H0)
else:
    print(H1)

p_value : 0.001953125
운동 전후 체지방률에 유의미한 차이가 있다.
