통계모형 中 선형 회귀모형

## 단순 선형 회귀분석 (scipy)
## 다중 선형 회귀분석 (statsmodels)

- 귀무가설: 회귀계수 0

In [15]:
# diabetes 데이터에서
# bmi 칼럼을 독립변수
# target 칼럼을 종속변수
# 선형 회귀분석

# 독립변수 1개 -> 단순 선형 회귀분석
import pandas as pd
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
target = diabetes.target
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)

from scipy.stats import linregress
result = linregress(x = data.bmi, y = target)

print(result)

# 결과: LinregressResult(slope=949.4352603839499, intercept=152.1334841628967, rvalue=0.586450134474689, pvalue=3.4660064451667566e-42, stderr=62.515122002846745, intercept_stderr=2.9735411187907337)
# slope: 회귀계수
# intercept: 절편
# rvalue: 모형 설명력
# pvalue: 통계적 유의성
# stderr: 회귀계수 표준오차
# target(y) = 949*bmi(x) + 152 느낌
# p-value 작음 -> 귀무가설 기각 -> 회귀계수 통계적으로 유의함!

# 결론: 해당 회귀모형이 현 데이터의 약 58%를 설명할 수 있으며, bmi라는 독립변수의 회귀계수는 통계적으로 유의하다!
# +) 상수항에 대한 통계적 유의성은 보통 고려되지 않음!


LinregressResult(slope=949.4352603839499, intercept=152.1334841628967, rvalue=0.586450134474689, pvalue=3.4660064451667566e-42, stderr=62.515122002846745, intercept_stderr=2.9735411187907337)


In [1]:
# 제공된 tips 데이터를 불러와
# 총액(total_bill)과 사람 수(size)를 독립변수로
# tip을 종속변수로 하는
# 다중 선형 회귀분석 수행

# 독립변수 여러개 -> 다중 회귀분석 -> scipy.stats.linregress 사용 불가능 ->statsmodels.api.OLS 사용
import pandas as pd
tips = pd.read_csv('C:/BigData/practice_data/예제/tips.csv')
#print(tips.columns)

import statsmodels.api as sm

X = tips[['total_bill', 'size']]
X = sm.add_constant(X)
y = tips['tip']

model = sm.OLS(y, X).fit()
print(model.summary())

# const: 절편
# const, total_bill, size 모두 p-value값이 작음 -> 통계적으로 유의함!!
# F-statistic의 귀무가설: 모든 회귀계수는 0 (AND)
# F-statistic의 p-value 작음 -> 귀무가설 기각 -> 모든 회귀계수가 0은 아님! 유의한 변수가 적어도 하나는 있음! -> 모델의 중요성

# 결론: 모델이 전반적으로 매우 유의미하다!


                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.463
Method:                 Least Squares   F-statistic:                     105.9
Date:                Sun, 08 Jun 2025   Prob (F-statistic):           9.67e-34
Time:                        06:03:32   Log-Likelihood:                -347.99
No. Observations:                 244   AIC:                             702.0
Df Residuals:                     241   BIC:                             712.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.6689      0.194      3.455      0.0

In [10]:
# 기댓값 추정 (점추정)
d = X.iloc[4]
print(d)

model.predict(X.iloc[4])

# 결과: 3.719157
# 선형 회귀 모형을 이용한 기댓값 추정 -> 4번 행의 점추정 값: 3.71957

# 결론: 5번째 관측치에 대한 tip의 기댓값 추정 결과: 3.719

const          1.00
total_bill    24.59
size           4.00
Name: 4, dtype: float64


None    3.719157
dtype: float64

In [None]:
# 기댓값 예측
new_data = pd.DataFrame({'const': [1], 'total_bill': [24.59], 'size': [4]})

result = model.get_prediction(new_data)
result.summary_frame()

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,3.719157,0.12093,3.480943,3.957371,1.708534,5.729779
