In [None]:
%pip install pandas numpy matplotlib seaborn scipy statsmodels

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import platform

In [2]:
import matplotlib as mpl
mpl.rcParams['axes.unicode_minus'] = False

current_os = platform.system()
if current_os == 'Windows':
    plt.rcParams["font.family"] = 'Malgun Gothic'
elif current_os == 'Darwin':
    plt.rcParams["font.family"] = 'AppleGothic'
else:
    plt.rcParams["font.family"] = 'NanumGothic'

In [3]:
data = pd.read_csv('../../data/school_health_preprocessed.csv')

df = data[['하루수면량', 'BMI', '성별', '학교급']].dropna()

sleep_time_mapping = {
    1.0: '6시간 이내',
    2.0: '6~7시간',
    3.0: '7~8시간',
    4.0: '8시간 이상'
}
df['수면시간대'] = df['하루수면량'].map(sleep_time_mapping)

df['수면시간_수치'] = df['하루수면량'].map({
    1.0: 5.5,   # 6시간 이내 평균 가정
    2.0: 6.5,   # 6~7시간 평균 가정
    3.0: 7.5,   # 7~8시간 평균 가정
    4.0: 8.5    # 8시간 이상 평균 가정
})

male_elem = df[(df['성별'] == '남') & (df['학교급'] == '초')]
female_elem = df[(df['성별'] == '여') & (df['학교급'] == '초')]
male_mid = df[(df['성별'] == '남') & (df['학교급'] == '중')]
female_mid = df[(df['성별'] == '여') & (df['학교급'] == '중')]
male_high = df[(df['성별'] == '남') & (df['학교급'] == '고')]
female_high = df[(df['성별'] == '여') & (df['학교급'] == '고')]

In [4]:
# 종속변수 : BMI
# 독립변수 : 수면시간

# 남자 초등학생 그룹 회귀분석
X_m = sm.add_constant(male_elem['수면시간_수치'])
y_m = male_elem['BMI']
model_male_elem = sm.OLS(y_m, X_m).fit()
print("=== 남자 초등학생 그룹 회귀 결과 ===")
print(model_male_elem.summary())
## 결과:
# R-squared가 2%로 BMI의 매우 작은 부분만 설명 가능함
# 회귀계수가 -0.7353으로 수면시간이 길어질수록 BMI가 감소하는 경향을 보임
# p-value가 0.05 미만으로 수면시간이 BMI에 통계적으로 유의미한 영향을 미침

=== 남자 초등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.020
Model:                            OLS   Adj. R-squared:                  0.020
Method:                 Least Squares   F-statistic:                     339.3
Date:                Tue, 10 Dec 2024   Prob (F-statistic):           5.05e-75
Time:                        04:54:04   Log-Likelihood:                -46371.
No. Observations:               16755   AIC:                         9.275e+04
Df Residuals:                   16753   BIC:                         9.276e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         25.0162      

In [5]:
# 여자 초등학생 그룹 회귀분석
X_f = sm.add_constant(female_elem['수면시간_수치'])
y_f = female_elem['BMI']
model_female_elem = sm.OLS(y_f, X_f).fit()
print("\n=== 여자 초등학생 그룹 회귀 결과 ===")
print(model_female_elem.summary())
## 결과:
# R-squared가 3%로 BMI의 매우 작은 부분만 설명 가능함
# 회귀계수가 -0.7956으로 수면시간이 길어질수록 BMI가 감소하는 경향을 보임
# p-value가 0.05 미만으로 수면시간이 BMI에 통계적으로 유의미한 영향을 미침


=== 여자 초등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.030
Model:                            OLS   Adj. R-squared:                  0.030
Method:                 Least Squares   F-statistic:                     496.9
Date:                Tue, 10 Dec 2024   Prob (F-statistic):          2.05e-108
Time:                        04:54:05   Log-Likelihood:                -41911.
No. Observations:               15962   AIC:                         8.383e+04
Df Residuals:                   15960   BIC:                         8.384e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         24.4586     

In [6]:
# 남자 중학생 그룹 회귀분석
X_m = sm.add_constant(male_mid['수면시간_수치'])
y_m = male_mid['BMI']
model_male_mid = sm.OLS(y_m, X_m).fit()
print("=== 남자 중학생 그룹 회귀 결과 ===")
print(model_male_mid.summary())

=== 남자 중학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.001
Model:                            OLS   Adj. R-squared:                  0.001
Method:                 Least Squares   F-statistic:                     11.12
Date:                Tue, 10 Dec 2024   Prob (F-statistic):           0.000858
Time:                        04:54:46   Log-Likelihood:                -32634.
No. Observations:               11683   AIC:                         6.527e+04
Df Residuals:                   11681   BIC:                         6.529e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         22.7772      0

In [7]:
# 여자 중학생 그룹 회귀분석
X_m = sm.add_constant(female_mid['수면시간_수치'])
y_m = female_mid['BMI']
model_female_mid = sm.OLS(y_m, X_m).fit()
print("=== 여자 중학생 그룹 회귀 결과 ===")
print(model_female_mid.summary())

=== 여자 중학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.001
Model:                            OLS   Adj. R-squared:                  0.001
Method:                 Least Squares   F-statistic:                     15.43
Date:                Tue, 10 Dec 2024   Prob (F-statistic):           8.62e-05
Time:                        04:55:18   Log-Likelihood:                -29872.
No. Observations:               11272   AIC:                         5.975e+04
Df Residuals:                   11270   BIC:                         5.976e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         21.7180      0

In [8]:
# 남자 고등학생 그룹 회귀분석
X_m = sm.add_constant(male_high['수면시간_수치'])
y_m = male_high['BMI']
model_male_high = sm.OLS(y_m, X_m).fit()
print("=== 남자 고등학생 그룹 회귀 결과 ===")
print(model_male_high.summary())

=== 남자 고등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.000
Model:                            OLS   Adj. R-squared:                  0.000
Method:                 Least Squares   F-statistic:                     1.993
Date:                Tue, 10 Dec 2024   Prob (F-statistic):              0.158
Time:                        04:56:00   Log-Likelihood:                -36332.
No. Observations:               13345   AIC:                         7.267e+04
Df Residuals:                   13343   BIC:                         7.268e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         23.1218      

In [9]:
# 여자 고등학생 그룹 회귀분석
X_f = sm.add_constant(female_high['수면시간_수치'])
y_f = female_high['BMI']
model_female_high = sm.OLS(y_f, X_f).fit()
print("\n=== 여자 고등학생 그룹 회귀 결과 ===")
print(model_female_high.summary())


=== 여자 고등학생 그룹 회귀 결과 ===
                            OLS Regression Results                            
Dep. Variable:                    BMI   R-squared:                       0.000
Model:                            OLS   Adj. R-squared:                  0.000
Method:                 Least Squares   F-statistic:                     2.812
Date:                Tue, 10 Dec 2024   Prob (F-statistic):             0.0936
Time:                        04:56:48   Log-Likelihood:                -35533.
No. Observations:               13477   AIC:                         7.107e+04
Df Residuals:                   13475   BIC:                         7.109e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         21.2207     