In [None]:
%pip install pandas numpy matplotlib seaborn scipy statsmodels

In [19]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import platform

In [20]:
import matplotlib as mpl
mpl.rcParams['axes.unicode_minus'] = False

current_os = platform.system()
if current_os == 'Windows':
    plt.rcParams["font.family"] = 'Malgun Gothic'
elif current_os == 'Darwin':
    plt.rcParams["font.family"] = 'AppleGothic'
else:
    plt.rcParams["font.family"] = 'NanumGothic'

In [21]:
data = pd.read_csv('../../data/school_health_preprocessed.csv')

df = data[['하루수면량', 'BMI', '성별', '학교급']].dropna()

sleep_time_mapping = {
    1.0: '6시간 이내',
    2.0: '6~7시간',
    3.0: '7~8시간',
    4.0: '8시간 이상'
}
df['수면시간대'] = df['하루수면량'].map(sleep_time_mapping)

df['수면시간_수치'] = df['하루수면량'].map({
    1.0: 5.5,   # 6시간 이내 평균 가정
    2.0: 6.5,   # 6~7시간 평균 가정
    3.0: 7.5,   # 7~8시간 평균 가정
    4.0: 8.5    # 8시간 이상 평균 가정
})

male_elem = df[(df['성별'] == '남') & (df['학교급'] == '초')]
female_elem = df[(df['성별'] == '여') & (df['학교급'] == '초')]

In [22]:
# 종속변수 : BMI
# 독립변수 : 수면시간

# 남자 초등학생 그룹 회귀분석
X_m = sm.add_constant(male_elem['수면시간_수치'])
y_m = male_elem['BMI']
model_male_elem = sm.OLS(y_m, X_m).fit()
print("=== 남자 초등학생 그룹 회귀 결과 ===")
print(model_male_elem.summary())
## 결과:
# R-squared가 2%로 BMI의 매우 작은 부분만 설명 가능함
# 회귀계수가 -0.7353으로 수면시간이 길어질수록 BMI가 감소하는 경향을 보임
# p-value가 0.05 미만으로 수면시간이 BMI에 통계적으로 유의미한 영향을 미침

=== 남자 초등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.020
Model:                            OLS   Adj. R-squared:                  0.020
Method:                 Least Squares   F-statistic:                     339.3
Date:                Sat, 07 Dec 2024   Prob (F-statistic):           5.05e-75
Time:                        23:10:33   Log-Likelihood:                -46371.
No. Observations:               16755   AIC:                         9.275e+04
Df Residuals:                   16753   BIC:                         9.276e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         25.0162      

In [23]:
# 여자 초등학생 그룹 회귀분석
X_f = sm.add_constant(female_elem['수면시간_수치'])
y_f = female_elem['BMI']
model_female_elem = sm.OLS(y_f, X_f).fit()
print("\n=== 여자 초등학생 그룹 회귀 결과 ===")
print(model_female_elem.summary())
## 결과:
# R-squared가 3%로 BMI의 매우 작은 부분만 설명 가능함
# 회귀계수가 -0.7956으로 수면시간이 길어질수록 BMI가 감소하는 경향을 보임
# p-value가 0.05 미만으로 수면시간이 BMI에 통계적으로 유의미한 영향을 미침


=== 여자 초등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.030
Model:                            OLS   Adj. R-squared:                  0.030
Method:                 Least Squares   F-statistic:                     496.9
Date:                Sat, 07 Dec 2024   Prob (F-statistic):          2.05e-108
Time:                        23:10:33   Log-Likelihood:                -41911.
No. Observations:               15962   AIC:                         8.383e+04
Df Residuals:                   15960   BIC:                         8.384e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         24.4586     