In [44]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt     

# 가설 검정에 사용할 데이터 준비
school_health=pd.read_csv("school_health_2022.csv")
data=school_health[["아침식사","BMI","성별","학교급"]]
data=data[data['아침식사'].notna()]
mapping = {1: 4, 2: 3, 3: 2, 4: 1}
data['아침식사'] = data['아침식사'].map(mapping)

In [45]:
# 한글 폰트 설정
import matplotlib as mpl
mpl.rcParams['font.family']='NanumGothic'

In [74]:
# 이상치 제거
Q1 = data['BMI'].quantile(0.25) 
Q3 = data['BMI'].quantile(0.75) 
IQR = Q3 - Q1 
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
data = data[(data['BMI'] >= lower_bound) & (data['BMI'] <= upper_bound)]

In [75]:
# 성별과 학교급을 기준으로 나눈 6가지 분포
bmi_wel = data[(data['성별'] == '여') & (data['학교급'] == '초')]
bmi_wmid = data[(data['성별'] == '여') & (data['학교급'] == '중')]
bmi_whigh = data[(data['성별'] == '여') & (data['학교급'] == '고')]
bmi_mel = data[(data['성별'] == '남') & (data['학교급'] == '초')]
bmi_mmid = data[(data['성별'] == '남') & (data['학교급'] == '중')]
bmi_mhigh = data[(data['성별'] == '남') & (data['학교급'] == '고')]

In [78]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_wel['아침식사'], bmi_wel['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 초등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 초등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 초등학교 여학생의 경우 유의 수준 0.0000으로 인해 귀무가설을 기각


[Spearman 상관 분석 결과]
Statistic = -0.0992, p-value: 0.0000
 -> 초등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.


In [79]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_wmid['아침식사'], bmi_wmid['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 중학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 중학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 중학교 여학생의 경우 유의 수준 0.0000으로 인해 귀무가설을 기각


[Spearman 상관 분석 결과]
Statistic = -0.0838, p-value: 0.0000
 -> 중학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.


In [84]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_whigh['아침식사'], bmi_whigh['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 고등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 고등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 고등학교 여학생의 경우 유의 수준 0.0000으로 인해 귀무가설을 기각


[Spearman 상관 분석 결과]
Statistic = -0.0517, p-value: 0.0000
 -> 고등학교 여학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.


In [82]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_mel['아침식사'], bmi_mel['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 초등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 초등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 초등학교 남학생의 경우 유의 수준 0.0000으로 인해 귀무가설을 기각


[Spearman 상관 분석 결과]
Statistic = -0.0647, p-value: 0.0000
 -> 초등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.


In [81]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_mmid['아침식사'], bmi_mmid['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 중학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 중학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 중학교 남학생의 경우 유의 수준 0.0000으로 인해 귀무가설을 기각


[Spearman 상관 분석 결과]
Statistic = -0.0442, p-value: 0.0000
 -> 중학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.


In [80]:
from scipy.stats import spearmanr
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Spearman 상관 분석으로 실행
stat, p_value = spearmanr(bmi_mhigh['아침식사'], bmi_mhigh['BMI'])
print("\n[Spearman 상관 분석 결과]")
print(f"Statistic = {stat:.4f}, p-value: {p_value:.4f}")

if p_value < 0.05:
    print(" -> 고등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 있습니다.")
else:
    print(" -> 고등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.")
# 결과 고등학교 남학생의 경우 유의 수준 0.3637으로 인해 귀무가설을 기각할 수 없음


[Spearman 상관 분석 결과]
Statistic = -0.0078, p-value: 0.3637
 -> 고등학교 남학생의 경우 아침식사 빈도와 BMI 간에 유의미한 상관 관계가 없습니다.


In [73]:
from scipy.stats import kruskal
# 아침식사 빈도 별 BMI가 정규성을 띄지 않고 동분산성 또한 만족하지 못하기 때문에 Kruskal-Wallis H-test로 실행
stat, p_value = kruskal(bmi_wel['BMI'], bmi_wmid['BMI'], bmi_whigh['BMI'], bmi_mel['BMI'], bmi_mmid['BMI'], bmi_mhigh['BMI'])
print("\n[Kruskal-Wallis 검정 결과]")
print(f"Statistic = {stat:.4f}, p-value = {p_value:.4f}")
if p_value < 0.05:
    print(" -> 아침식사 빈도에 따른 BMI 중앙값에 유의미한 차이가 있습니다.")
else:
    print(" -> 아침식사 빈도에 따른 BMI 중앙값에 유의미한 차이가 없습니다.")
# 결과 6개의 분포에 대해서 적어도 하나는 유의미한 차이가 있다는 것을 파악 가능


[Kruskal-Wallis 검정 결과]
Statistic = 15642.8831, p-value = 0.0000
 -> 아침식사 빈도에 따른 BMI 중앙값에 유의미한 차이가 있습니다.
