In [None]:
#단순 선형 회귀 분석

In [1]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

In [2]:
from statsmodels.formula.api import ols
model = ols('키 ~ 몸무게', data=df).fit() # '키'를 '몸무게'로부터 예측하겠다
print(model.summary())

## 1. OLS란?
# OLS는 **최소제곱법(Ordinary Least Squares)** 으로,  
# **데이터의 실제값과 예측값의 차이(잔차)** 의 제곱합이 최소가 되도록  
# **회귀선(선형식)** 을 찾는 통계적 방법이다.
    

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Fri, 17 Oct 2025   Prob (F-statistic):           4.04e-10
Time:                        01:20:55   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

In [None]:
# ======================= 회귀분석 주요 지표 해석 예시 =======================

# ① coef (회귀계수)
# 의미: 독립변수가 1단위 증가할 때 종속변수가 얼마나 변하는가 (기울기)
# ▶ 값이 클수록 → 영향력이 큼
# ▶ 값이 양수(+)면 → 정(+)의 상관관계 (같이 증가)
# ▶ 값이 음수(-)면 → 음(-)의 상관관계 (한쪽이 오를 때 다른 쪽은 감소)
# 예시:
#  - coef = 0.8 → 공부시간 1시간 늘면 점수 0.8점 오른다.
#  - coef = -5.2 → 가격 1단위 오르면 판매량이 5.2개 줄어든다.

# ② std err (표준오차)
# 의미: 계수(coef)가 얼마나 정확하게 추정되었는지 (불확실성)
# ▶ 값이 작을수록 → 신뢰할 수 있는 계수 (안정적 추정)
# ▶ 값이 크면 → 데이터의 변동이 크거나 표본이 적음 (추정 불안정)
# 예시:
#  - std err = 0.05 → 매우 안정적, 오차 적음
#  - std err = 2.0 → 계수의 신뢰성 낮음, 표본 부족 가능성

# ③ t (t-통계량)
# 의미: 계수가 ‘0이 아니다’라고 말할 근거의 강도 (통계적 유의성)
# ▶ |t|가 클수록 → 영향이 강하고 확실함
# ▶ 일반적으로 |t| > 2 → 유의하다고 판단
# 예시:
#  - t = 12.1 → 매우 큰 값, 해당 변수는 종속변수에 강한 영향
#  - t = 0.8 → 영향이 거의 없음 (유의하지 않음)

# ④ P>|t| (p값, 유의확률)
# 의미: “이 변수가 실제로 영향이 없을 확률”
# ▶ p < 0.05 → 통계적으로 유의 (영향 있음)
# ▶ p ≥ 0.05 → 통계적으로 유의하지 않음 (영향 약함)
# 예시:
#  - p = 0.000 → 매우 유의함, 영향 확실
#  - p = 0.08 → 0.05보다 크므로 유의하지 않음

# ⑤ [0.025  0.975] (95% 신뢰구간)
# 의미: 회귀계수가 이 구간 안에 있을 확률이 95%
# ▶ 구간이 좁을수록 → 계수가 안정적임
# ▶ 구간이 0을 포함하지 않으면 → 통계적으로 유의함
# 예시:
#  - [0.7, 1.0] → 0을 포함하지 않음 → 유의함
#  - [-0.3, 0.4] → 0 포함됨 → 영향이 없을 수도 있음

# ======================= 해석 예시 종합 =======================
# 예시 
# 공부시간: coef=0.48, std err=0.01, t=43.8, p=0.000, [0.46~0.51]
# → 공부시간이 늘수록 점수가 유의하게 상승 (매우 강한 영향)

# 예시 
# 도서자료: coef=-8.6, std err=0.68, t=-12.8, p=0.000, [-10.0~-7.3]
# → 도서로 공부한 경우, 강의 대비 평균 8.6점 낮음 (강한 음의 영향)

# 예시 
# 광고비: coef=1.8, std err=0.8, t=2.25, p=0.038, [0.12~3.52]
# → 광고비가 1 증가하면 매출 1.8 증가 (유의함, 다만 불확실성 약간 있음)
