In [None]:
import pandas as pd

data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

In [None]:
from statsmodels.formula.api import ols
model = ols('키 ~ 몸무게', data=df).fit() # '키'를 '몸무게'로부터 예측하겠다
print(model.summary())

## 1. OLS란?
# OLS는 **최소제곱법(Ordinary Least Squares)** 으로,  
# **데이터의 실제값과 예측값의 차이(잔차)** 의 제곱합이 최소가 되도록  
# **회귀선(선형식)** 을 찾는 통계적 방법이다.
    

In [None]:
# ======================= 회귀분석 주요 지표 설명 =======================

# ① coef (회귀계수)
# → 독립변수가 1단위 증가할 때 종속변수가 얼마나 변하는지를 의미함.
# 예: coef = 0.8658 → 몸무게가 1 증가할 때 키가 평균 0.8658 증가한다는 뜻.

# ② std err (표준오차, Standard Error)
# → 추정된 회귀계수(coef)가 얼마나 불확실한지를 보여주는 값.
# → 값이 작을수록 추정이 안정적이고, 계수가 신뢰할 만함을 의미함.

# ③ t (t-통계량)
# → 회귀계수가 ‘0이 아니다’라는 가설을 검증하는 통계량.
# → t값 = coef / std err 로 계산됨.
# → 절댓값이 클수록 독립변수가 종속변수에 유의미한 영향을 미친다는 뜻.

# ④ P>|t| (p값, 유의확률)
# → t검정의 p값. "이 변수가 실제로 영향이 없을 확률"을 의미함.
# → p < 0.05 → 통계적으로 유의함 (즉, 실제로 영향이 있다).
# → p ≥ 0.05 → 통계적으로 유의하지 않음 (영향이 없을 가능성 큼).

# ⑤ [0.025  0.975] (95% 신뢰구간)
# → 회귀계수(coef)가 95% 확률로 포함될 범위.
# → 예: [0.716, 1.015] → 계수는 0.716~1.015 사이일 가능성이 95%.
# → 이 구간에 0이 포함되지 않으면, 그 변수는 유의하다고 볼 수 있음.

# ======================= 한 줄 요약 =======================
# coef : 영향의 크기(기울기)
# std err : 계수의 불확실성
# t : 영향의 통계적 강도
# P>|t| : 영향의 유의성(p<0.05면 유의)
# [0.025 0.975] : 계수가 존재할 95% 신뢰구간


In [None]:
# ======================= 회귀분석 주요 지표 해석 예시 =======================

# ① coef (회귀계수)
# 의미: 독립변수가 1단위 증가할 때 종속변수가 얼마나 변하는가 (기울기)
# ▶ 값이 클수록 → 영향력이 큼
# ▶ 값이 양수(+)면 → 정(+)의 상관관계 (같이 증가)
# ▶ 값이 음수(-)면 → 음(-)의 상관관계 (한쪽이 오를 때 다른 쪽은 감소)
# 예시:
#  - coef = 0.8 → 공부시간 1시간 늘면 점수 0.8점 오른다.
#  - coef = -5.2 → 가격 1단위 오르면 판매량이 5.2개 줄어든다.

# ② std err (표준오차)
# 의미: 계수(coef)가 얼마나 정확하게 추정되었는지 (불확실성)
# ▶ 값이 작을수록 → 신뢰할 수 있는 계수 (안정적 추정)
# ▶ 값이 크면 → 데이터의 변동이 크거나 표본이 적음 (추정 불안정)
# 예시:
#  - std err = 0.05 → 매우 안정적, 오차 적음
#  - std err = 2.0 → 계수의 신뢰성 낮음, 표본 부족 가능성

# ③ t (t-통계량)
# 의미: 계수가 ‘0이 아니다’라고 말할 근거의 강도 (통계적 유의성)
# ▶ |t|가 클수록 → 영향이 강하고 확실함
# ▶ 일반적으로 |t| > 2 → 유의하다고 판단
# 예시:
#  - t = 12.1 → 매우 큰 값, 해당 변수는 종속변수에 강한 영향
#  - t = 0.8 → 영향이 거의 없음 (유의하지 않음)

# ④ P>|t| (p값, 유의확률)
# 의미: “이 변수가 실제로 영향이 없을 확률”
# ▶ p < 0.05 → 통계적으로 유의 (영향 있음)
# ▶ p ≥ 0.05 → 통계적으로 유의하지 않음 (영향 약함)
# 예시:
#  - p = 0.000 → 매우 유의함, 영향 확실
#  - p = 0.08 → 0.05보다 크므로 유의하지 않음

# ⑤ [0.025  0.975] (95% 신뢰구간)
# 의미: 회귀계수가 이 구간 안에 있을 확률이 95%
# ▶ 구간이 좁을수록 → 계수가 안정적임
# ▶ 구간이 0을 포함하지 않으면 → 통계적으로 유의함
# 예시:
#  - [0.7, 1.0] → 0을 포함하지 않음 → 유의함
#  - [-0.3, 0.4] → 0 포함됨 → 영향이 없을 수도 있음

# ======================= 해석 예시 종합 =======================
# 예시 
# 공부시간: coef=0.48, std err=0.01, t=43.8, p=0.000, [0.46~0.51]
# → 공부시간이 늘수록 점수가 유의하게 상승 (매우 강한 영향)

# 예시 
# 도서자료: coef=-8.6, std err=0.68, t=-12.8, p=0.000, [-10.0~-7.3]
# → 도서로 공부한 경우, 강의 대비 평균 8.6점 낮음 (강한 음의 영향)

# 예시 
# 광고비: coef=1.8, std err=0.8, t=2.25, p=0.038, [0.12~3.52]
# → 광고비가 1 증가하면 매출 1.8 증가 (유의함, 다만 불확실성 약간 있음)


In [None]:
# ======================== OLS Regression Results ===========================   # OLS(최소제곱법) 회귀분석 결과 시작
# Dep. Variable:                      키                                     # 종속변수(예측 대상)는 ‘키’
# R-squared:                       0.892                                     # 결정계수: 모델이 데이터를 89.2% 설명 (설명력 매우 높음)
# Model:                            OLS                                      # 회귀모델 종류: OLS(Ordinary Least Squares, 최소제곱법)
# Adj. R-squared:                  0.886                                     # 보정된 결정계수: 변수 수 고려 시에도 여전히 설명력 높음
# Method:                 Least Squares                                      # 방법: 잔차 제곱합을 최소화하는 방식
# F-statistic:                     148.0                                     # F값: 모델 전체 유의성 검정 (값이 클수록 모델이 적합)
# Date:                Mon, 17 Mar 2025                                      # 분석 실행 날짜
# Prob (F-statistic):           4.04e-10                                     # F검정의 p값: 매우 작음(0.05보다 작음) → 모델 전체 유의함
# Time:                        03:15:36                                      # 분석 실행 시각
# Log-Likelihood:                -45.761                                     # 로그우도값: 모델의 적합도 지표 (절대값 작을수록 좋음)
# No. Observations:                  20                                       # 데이터 개수: 20개
# AIC:                             95.52                                     # AIC: 모델 품질 지표 (낮을수록 좋음)
# Df Residuals:                      18                                       # 잔차 자유도 = 데이터수(20) - 회귀계수(2)
# BIC:                             97.51                                     # BIC: 베이지안 정보 기준 (낮을수록 좋음)
# Df Model:                           1                                       # 독립변수(설명변수) 개수: 1개 (‘몸무게’)
# Covariance Type:            nonrobust                                      # 공분산 계산 방식: 기본값(등분산 가정)

# =================== 회귀계수 요약 (Regression Coefficients) ==============
#                  coef    std err          t      P>|t|      [0.025      0.975]   # 계수, 표준오차, t값, p값, 신뢰구간
# Intercept    115.0676      4.158     27.671      0.000     106.331     123.804   # 절편: 몸무게=0일 때 키 약 115.07cm (기준선)
# 몸무게            0.8658      0.071     12.167      0.000       0.716       1.015   # 몸무게 1kg 증가 시 키 약 0.87cm 증가 (양의 상관관계, 매우 유의함)

# ======================= 잔차 검정 (Residual Diagnostics) ===================
# Omnibus:                        0.985                                     # 잔차 정규성 검정 통계량 (작음 → 정규분포 근사)
# Durbin-Watson:                   2.609                                    # 잔차 자기상관 검정 (2에 가까움 → 독립적)
# Prob(Omnibus):                  0.611                                     # p값>0.05 → 잔차가 정규분포 따름
# Jarque-Bera (JB):                0.336                                    # 또 다른 정규성 검정 (값 작음 → 정규성 양호)
# Skew:                          -0.315                                    # 잔차의 비대칭 정도 (0 근처 → 거의 대칭)
# Prob(JB):                        0.845                                   # p값>0.05 → 정규성 통과
# Kurtosis:                       3.082                                   # 잔차의 뾰족함 (정규분포=3에 근접)
# Cond. No.:                         432.                                  # 조건수: 다중공선성(변수 간 상관성) 문제 없음

# ============================ Notes ========================================
# [1] Standard Errors assume that the covariance matrix of the errors is correctly specified.   # 표준오차 계산은 오차항이 독립적이고 분산이 일정하다는 가정하에 수행됨

# ============================  해석 요약 ==================================
# ▶ 회귀식: 키 = 115.0676 + 0.8658 * 몸무게
# ▶ 몸무게 1kg 증가 → 키가 평균 약 0.87cm 증가 (통계적으로 매우 유의함, p=0.000)
# ▶ 모델의 설명력(R²=0.892)이 높아, 몸무게로 키를 잘 예측할 수 있음
# ▶ 잔차의 정규성 및 독립성 모두 양호 → 모델 적합도 우수
