In [1]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

In [2]:
from statsmodels.formula.api import ols
model = ols('키 ~ 몸무게', data=df).fit() # '키'를 '몸무게'로부터 예측하겠다
print(model.summary())

## 1. OLS란?
# OLS는 **최소제곱법(Ordinary Least Squares)** 으로,  
# **데이터의 실제값과 예측값의 차이(잔차)** 의 제곱합이 최소가 되도록  
# **회귀선(선형식)** 을 찾는 통계적 방법이다.
    

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Fri, 17 Oct 2025   Prob (F-statistic):           4.04e-10
Time:                        01:21:01   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

In [None]:
# ======================= 회귀분석 주요 지표 설명 =======================

# ① coef (회귀계수)
# → 독립변수가 1단위 증가할 때 종속변수가 얼마나 변하는지를 의미함.
# 예: coef = 0.8658 → 몸무게가 1 증가할 때 키가 평균 0.8658 증가한다는 뜻.

# ② std err (표준오차, Standard Error)
# → 추정된 회귀계수(coef)가 얼마나 불확실한지를 보여주는 값.
# → 값이 작을수록 추정이 안정적이고, 계수가 신뢰할 만함을 의미함.

# ③ t (t-통계량)
# → 회귀계수가 ‘0이 아니다’라는 가설을 검증하는 통계량.
# → t값 = coef / std err 로 계산됨.
# → 절댓값이 클수록 독립변수가 종속변수에 유의미한 영향을 미친다는 뜻.

# ④ P>|t| (p값, 유의확률)
# → t검정의 p값. "이 변수가 실제로 영향이 없을 확률"을 의미함.
# → p < 0.05 → 통계적으로 유의함 (즉, 실제로 영향이 있다).
# → p ≥ 0.05 → 통계적으로 유의하지 않음 (영향이 없을 가능성 큼).

# ⑤ [0.025  0.975] (95% 신뢰구간)
# → 회귀계수(coef)가 95% 확률로 포함될 범위.
# → 예: [0.716, 1.015] → 계수는 0.716~1.015 사이일 가능성이 95%.
# → 이 구간에 0이 포함되지 않으면, 그 변수는 유의하다고 볼 수 있음.

# ======================= 한 줄 요약 =======================
# coef : 영향의 크기(기울기)
# std err : 계수의 불확실성
# t : 영향의 통계적 강도
# P>|t| : 영향의 유의성(p<0.05면 유의)
# [0.025 0.975] : 계수가 존재할 95% 신뢰구간


In [None]:
# ======================= 회귀분석 주요 지표 설명 =======================

# ① coef (회귀계수)
# → 독립변수가 1단위 증가할 때 종속변수가 얼마나 변하는지를 의미함.
# 예: coef = 0.8658 → 몸무게가 1 증가할 때 키가 평균 0.8658 증가한다는 뜻.

# ② std err (표준오차, Standard Error)
# → 추정된 회귀계수(coef)가 얼마나 불확실한지를 보여주는 값.
# → 값이 작을수록 추정이 안정적이고, 계수가 신뢰할 만함을 의미함.

# ③ t (t-통계량)
# → 회귀계수가 ‘0이 아니다’라는 가설을 검증하는 통계량.
# → t값 = coef / std err 로 계산됨.
# → 절댓값이 클수록 독립변수가 종속변수에 유의미한 영향을 미친다는 뜻.

# ④ P>|t| (p값, 유의확률)
# → t검정의 p값. "이 변수가 실제로 영향이 없을 확률"을 의미함.
# → p < 0.05 → 통계적으로 유의함 (즉, 실제로 영향이 있다).
# → p ≥ 0.05 → 통계적으로 유의하지 않음 (영향이 없을 가능성 큼).

# ⑤ [0.025  0.975] (95% 신뢰구간)
# → 회귀계수(coef)가 95% 확률로 포함될 범위.
# → 예: [0.716, 1.015] → 계수는 0.716~1.015 사이일 가능성이 95%.
# → 이 구간에 0이 포함되지 않으면, 그 변수는 유의하다고 볼 수 있음.

# ======================= 한 줄 요약 =======================
# coef : 영향의 크기(기울기)
# std err : 계수의 불확실성
# t : 영향의 통계적 강도
# P>|t| : 영향의 유의성(p<0.05면 유의)
# [0.025 0.975] : 계수가 존재할 95% 신뢰구간
