# 다중선형회귀

독립변수가 두 개 이상인 경우의 회귀분석

분석 정확도를 높이기 위해 적절하지 않은 변수를 추려내는 과정을 반복적으로 수행하여 최적의 독립변수 그룹을 찾아내는 것을 목표로 한다.

## 패키지 참조

In [1]:
from pandas import read_excel
from statsmodels.formula.api import ols
from matplotlib import pyplot as plt
import seaborn as sb
# 모듈 불러오기
import sys
import os
sys.path.append(os.path.dirname(os.path.dirname(os.getcwd())))
from helper import ext_ols

### 데이터 가져오기

| 필드 | 설명 |
|---|---|
| CRIM | 범죄율 |
| ZN | 25,000 평방피트를 초과 거주지역 비율 |
| INDUS | 비소매상업지역 면적 비율 |
| CHAS | 찰스강의 경계에 위치한 경우는 1, 아니면 0 |
| NOX | 일산화질소 농도 |
| RM | 주택당 방 수 |
| AGE | 1940년 이전에 건축된 주택의 비율 |
| DIS | 직업센터의 거리 |
| RAD | 방사형 고속도로까지의 거리 |
| TAX | 재산세율 |
| PTRATIO | 학생/교사 비율 |
| B | 인구 중 흑인 비율 |
| LSTAT | 인구 중 하위 계층 비율 |
| MEDV | 집값 |
| CAT.MEDV | $3000 이상 여부 |

In [3]:
df = read_excel("https://data.hossam.kr/E04/boston.xlsx")
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,CAT. MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0,0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6,0
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2,1


## 파이썬의 ols 객체로 분석

In [4]:
print(df.columns)

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT', 'MEDV', 'CAT. MEDV'],
      dtype='object')


In [6]:
model = ols("MEDV ~ CRIM + INDUS", data=df)
fit = model.fit()
fit.summary()

0,1,2,3
Dep. Variable:,MEDV,R-squared:,0.278
Model:,OLS,Adj. R-squared:,0.275
Method:,Least Squares,F-statistic:,96.83
Date:,"Tue, 25 Jul 2023",Prob (F-statistic):,2.66e-36
Time:,15:14:57,Log-Likelihood:,-1757.8
No. Observations:,506,AIC:,3522.0
Df Residuals:,503,BIC:,3534.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,29.2483,0.670,43.624,0.000,27.931,30.566
CRIM,-0.2455,0.044,-5.536,0.000,-0.333,-0.158
INDUS,-0.5234,0.056,-9.414,0.000,-0.633,-0.414

0,1,2,3
Omnibus:,193.751,Durbin-Watson:,0.739
Prob(Omnibus):,0.0,Jarque-Bera (JB):,653.883
Skew:,1.8,Prob(JB):,1.03e-142
Kurtosis:,7.248,Cond. No.,27.7


R-squared:	0.278로 적합성이 매우 떨어지기 때문에 가공이 필요

## 모듈화 한 기능을 활용

In [7]:
print(df.columns)

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT', 'MEDV', 'CAT. MEDV'],
      dtype='object')


In [9]:
cls = list(df.columns)
cls.remove("MEDV")
cls.remove("CAT. MEDV")
print(cls)

['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']


In [12]:
model, fit, summary, table, result, goodness, varstr = ext_ols(df, x=cls, y="MEDV")

In [13]:
summary

0,1,2,3
Dep. Variable:,MEDV,R-squared:,0.741
Model:,OLS,Adj. R-squared:,0.734
Method:,Least Squares,F-statistic:,108.1
Date:,"Tue, 25 Jul 2023",Prob (F-statistic):,6.72e-135
Time:,15:19:35,Log-Likelihood:,-1498.8
No. Observations:,506,AIC:,3026.0
Df Residuals:,492,BIC:,3085.0
Df Model:,13,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,36.4595,5.103,7.144,0.000,26.432,46.487
CRIM,-0.1080,0.033,-3.287,0.001,-0.173,-0.043
ZN,0.0464,0.014,3.382,0.001,0.019,0.073
INDUS,0.0206,0.061,0.334,0.738,-0.100,0.141
CHAS,2.6867,0.862,3.118,0.002,0.994,4.380
NOX,-17.7666,3.820,-4.651,0.000,-25.272,-10.262
RM,3.8099,0.418,9.116,0.000,2.989,4.631
AGE,0.0007,0.013,0.052,0.958,-0.025,0.027
DIS,-1.4756,0.199,-7.398,0.000,-1.867,-1.084

0,1,2,3
Omnibus:,178.041,Durbin-Watson:,1.078
Prob(Omnibus):,0.0,Jarque-Bera (JB):,783.126
Skew:,1.521,Prob(JB):,8.84e-171
Kurtosis:,8.281,Cond. No.,15100.0


In [14]:
table

Unnamed: 0_level_0,Unnamed: 1_level_0,B,표준오차,β,t,유의확률,VIF
종속변수,독립변수,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
MEDV,CRIM,-0.108,0.033,0,-3.287*,0.001,1.792192
MEDV,ZN,0.0464,0.014,0,3.382*,0.001,2.298758
MEDV,INDUS,0.0206,0.061,0,0.334*,0.738,3.991596
MEDV,CHAS,2.6867,0.862,0,3.118*,0.002,1.073995
MEDV,NOX,-17.7666,3.82,0,-4.651*,0.0,4.39372
MEDV,RM,3.8099,0.418,0,9.116*,0.0,1.933744
MEDV,AGE,0.0007,0.013,0,0.052*,0.958,3.100826
MEDV,DIS,-1.4756,0.199,0,-7.398*,0.0,3.955945
MEDV,RAD,0.306,0.066,0,4.613*,0.0,7.484496
MEDV,TAX,-0.0123,0.004,0,-3.280*,0.001,9.008554


In [15]:
result

'𝑅(0.741), 𝑅^2(0.734), 𝐹(108.1), 유의확률(6.72e-135), Durbin-Watson(1.078)'

In [16]:
goodness

'MEDV에 대하여 CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT로 예측하는 회귀분석을 실시한 결과, 이 회귀모형은 통계적으로 유의하다(F(13,492) = 108.1, p < 0.05).'

In [17]:
varstr

['CRIM의 회귀계수는 -0.1080(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'ZN의 회귀계수는 0.0464(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'INDUS의 회귀계수는 0.0206(p>0.05)로, MEDV에 대하여 유의하지 않은 예측변인인 것으로 나타났다.',
 'CHAS의 회귀계수는 2.6867(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'NOX의 회귀계수는 -17.7666(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'RM의 회귀계수는 3.8099(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'AGE의 회귀계수는 0.0007(p>0.05)로, MEDV에 대하여 유의하지 않은 예측변인인 것으로 나타났다.',
 'DIS의 회귀계수는 -1.4756(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'RAD의 회귀계수는 0.3060(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'TAX의 회귀계수는 -0.0123(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'PTRATIO의 회귀계수는 -0.9527(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'B의 회귀계수는 0.0093(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.',
 'LSTAT의 회귀계수는 -0.5248(p<0.05)로, MEDV에 대하여 유의미한 예측변인인 것으로 나타났다.']