In [1]:
# scikit learn package에서 linear_model 이라는 모듈을 불러들임
from sklearn import linear_model
import numpy as np
import pandas as pd

In [2]:
# 2차원 배열을 만들어 'data'라는 변수에 할당
data = {'x1': [1,4,5,8,10],
        'x2': [3,5,7,9,10],
        'x3': [7,8,5,7,4],
        'y' : [30,40,45,60,61]
       }
# data라는 변수의 값을 data frame 형태로 변환
data = pd.DataFrame(data)
data

Unnamed: 0,x1,x2,x3,y
0,1,3,7,30
1,4,5,8,40
2,5,7,5,45
3,8,9,7,60
4,10,10,4,61


In [3]:
# linear_model 모듈이 포함하고 있는 Linearregression() 함수를 'linear_regression'이라고 하는 변수에 할당
linear_regression = linear_model.LinearRegression()

# Linearregression()의 fit()이라는 함수를 이용하여 선형회귀모델 훈련실행
# 이 때 독립변수는 x1, x2, x3, 종속변수는 y
linear_regression.fit(X = pd.DataFrame(data[["x1","x2","x3"]]), y = data["y"])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [4]:
# 모든 독립변수를 이용하여 선형회귀를 하고 r_square를 계산
linear_regression.score(X = pd.DataFrame(data[["x1","x2","x3"]]), y = data["y"])

0.9952763020975958

In [5]:
# linear_regression을 이용하여 예측을 수행하고 예측값을 prediction에 대입
prediction = linear_regression.predict(X = pd.DataFrame(data[["x1","x2","x3"]]))
prediction

array([28.98387097, 41.06451613, 45.82258065, 59.32258065, 60.80645161])

In [6]:
# 예측값 - 진짜값을 계산(잔차)
residual = prediction - data["y"]
residual

0   -1.016129
1    1.064516
2    0.822581
3   -0.677419
4   -0.193548
Name: y, dtype: float64

In [7]:
# 잔차 제곱의 평균(Mean Square ERROR)을 계산 (데이터의 수는 5)
MSE = (residual*residual).sum()/5
MSE

0.6677419354838687

In [10]:
# 제곱근 잔차 제곱의 평균(ROOT Mean Square ERROR)을 계산 (데이터의 수는 5)
RMSE = ((residual*residual).sum()/5)**0.5
RMSE

0.8171547806161747

In [9]:
# x1에 대한 다중공선성을 계산하기 위해서 x1을 종속변수로 다른 독립변수 x2, x3를 독립변수로 선형회귀 함수를 만듦

# linear_model 모듈이 포함하고 있는 Linearregression() 함수를 'linear_regression'이라고 하는 변수에 할당
linear_regression = linear_model.LinearRegression()

# Linearregression()의 fit()이라는 함수를 이용하여 선형회귀모델 훈련실행
# 이 때 독립변수는 x2, x3, 종속변수는 x1
linear_regression.fit(X = pd.DataFrame(data[["x2","x3"]]), y = data["x1"])

# 선형회귀식의 세로축 절편 'linear_regression.intercept_'를 구하여 출력한다
print('a value = ', linear_regression.intercept_)

# 선형회귀식의 기울기 'linear_regression.coef_'를 구하여 출력한다
print('b value = ', linear_regression.coef_)


a value =  -3.4623255813953495
b value =  [1.2427907  0.09860465]


In [12]:
# r_square 값을 계산
# 독립변수에 X에 x2, x3 컬럼을 (data[["x2","x3"]]) 데이터프레임으로 만들어서 대입 pd.DataFrame()
# 종속변수 y에 data["x1"]을 대입
r_square = linear_regression.score(X = pd.DataFrame(data[["x2","x3"]]), y = data["x1"])
r_square

0.9730383815466063

In [13]:
# x1의 vif를 계산
vif_x1 = 1. / (1. - r_square)
vif_x1

37.08976157082763

In [16]:
from sklearn.linear_model import LinearRegression
def sklearn_vif(X, y):
    # X와 y에 대해서 선형회귀 함수를 구하고 r_square를 return
    r_squared = LinearRegression().fit(X, y).score(X, y)
    # VIF를 계산
    vif = 1. / (1. - r_squared)
    return vif

In [17]:
# x1의 VIF를 계산
sklearn_vif(data[["x2","x3"]],data["x1"])

37.08976157082763

In [18]:
# x2의 VIF를 계산
sklearn_vif(data[["x1","x3"]],data["x2"])

39.83842917251046

In [19]:
# x3의 VIF를 계산
sklearn_vif(data[["x1","x2"]],data["x3"])

1.7267882187938297

In [20]:
# VIF가 10 초과인 독립변수 중 가장 값이 높은 독립변수 x2를 제거
data = data[["x1","x3","y"]]
data

Unnamed: 0,x1,x3,y
0,1,7,30
1,4,8,40
2,5,5,45
3,8,7,60
4,10,4,61


In [21]:
# x1의 VIF를 계산
sklearn_vif(data[["x3"]],data["x1"])

1.5339491916859123

In [22]:
# x3의 VIF를 계산
sklearn_vif(data[["x1"]],data["x3"])

1.5339491916859125

In [25]:
# x1과 x3로 선형회귀 함수를 만들고 r_square 계산
linear_regression = linear_model.LinearRegression()

# Linearregression()의 fit()이라는 함수를 이용하여 선형회귀모델 훈련실행
# 이 때 독립변수는 x1, x3, 종속변수는 y
linear_regression.fit(X = pd.DataFrame(data[["x1","x3"]]), y = data["y"])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [26]:
linear_regression.score(X = pd.DataFrame(data[["x1","x3"]]), y = data["y"])

0.9757257443691176

In [27]:
# linear_regression을 이용하여 예측을 수행하고 예측값을 prediction에 대입
prediction = linear_regression.predict(X = pd.DataFrame(data[["x1","x3"]]))
prediction

array([29.61778291, 42.48845266, 43.70323326, 57.4965358 , 62.69399538])

In [29]:
# 예측값 - 진짜값을 계산(잔차)
residual = prediction - data["y"]
residual

0   -0.382217
1    2.488453
2   -1.296767
3   -2.503464
4    1.693995
Name: y, dtype: float64

In [30]:
# 잔차의 제곱의 평균(Mean Square ERROR)을 계산 (데이터의 수는 5)
MSE = (residual*residual).sum()/5
MSE

3.4314087759815246

In [33]:
# 제곱근 잔차 제곱의 평균(ROOT Mean Square ERROR)을 계산 (데이터의 수는 5)
RMSE = ((residual*residual).sum()**0.5)/5
RMSE

0.8284212426032452