In [1]:
"""
dataset 스케일링(scaling) : 정규화, 표준화
 - 특징변수의 값에 따라서 model에 영향을 미치는 경우 적용 
   ex) 범죄율(-0.1~0.99), 주택가격(99~999)
 - 정규화: 변수의 값을 일정한 범위(0~1, -1~1) 조정(n개 x변수)
 - 표준화: 표준화공식(z)에 의해서 mean=0, sd=1 조정(1개 y변수) 
   z = (x - mu) / sd 
"""
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

#######################
## data 정규화(0~1 조정)
#######################

# 정규화 사용자 함수 
def normal(x): # 0~1 정규화 
    n = ( x - np.min(x) ) / (np.max(x) - np.min(x))
    return n

In [2]:
x = np.random.randint(100, size=(4, 5)) #0~100개중 20개의 난수 정수 생성
x 

array([[94, 14,  4, 68, 46],
       [50, 33, 10, 46, 76],
       [17, 92, 44, 80, 17],
       [52, 76, 77, 27, 59]])

In [3]:
# 함수 호출 (정규화 해준다)
x_nor = normal(x)
print(x_nor)

[[1.         0.11111111 0.         0.71111111 0.46666667]
 [0.51111111 0.32222222 0.06666667 0.46666667 0.8       ]
 [0.14444444 0.97777778 0.44444444 0.84444444 0.14444444]
 [0.53333333 0.8        0.81111111 0.25555556 0.61111111]]


In [4]:
print(x_nor.min()) # 0
print(x_nor.max()) # 1

0.0
1.0


In [5]:
# 1. dataset load
X, y = load_boston(return_X_y=True)

print(X.shape) # 표준화 
print(X.min())
print(X.max())

(506, 13)
0.0
711.0


In [8]:
# 2. 변수 
y_nor = normal(y)
y_nor[:10]


array([0.42222222, 0.36888889, 0.66      , 0.63111111, 0.69333333,
       0.52666667, 0.39777778, 0.49111111, 0.25555556, 0.30888889])

In [9]:
# 3. train/test split
x_train, x_test, y_train, y_test = train_test_split(
        X, y_nor, test_size=0.3)
print(x_train.shape)
print(y_train.shape)

(354, 13)
(354,)


In [11]:
# 4. 회귀모델 생성 : train set
boston_model = LinearRegression().fit(x_train, y_train)
print('회귀계수')
print("기울기 :", boston_model.coef_)
print('절편 :', boston_model.intercept_)

회귀계수
기울기 : [-2.60206437e-03  1.15435331e-03 -1.70021744e-03  8.02626766e-02
 -3.37411551e-01  7.18077223e-02 -2.26911462e-04 -3.18693513e-02
  7.60366293e-03 -3.05854106e-04 -1.95552072e-02  1.31154447e-04
 -1.09620098e-02]
절편 : 0.7769409474050379


In [12]:
# 5. 모델 평가 : test set
pred = boston_model.predict(x_test)
Y = y_test
mse = mean_squared_error(Y, pred)
'''
MSE = (Y-pred)^2 / n
'''
print('MSE =', mse)

MSE = 0.011475417940081228


In [13]:
# 2) 결정계수 : target 변수 표준화 안된 경우 : 
print('결정계수 : %.2f' % r2_score(Y, pred)) # 결정계수 : 0.75

결정계수 : 0.74


In [14]:
###############################
### data 표준화(mean=0, sd=1) 
###############################

from scipy import stats

# 1. dataset load
X, y = load_boston(return_X_y=True)

# y 표준화 
y_st = stats.zscore(y) # z = (x - mu) / sd
print(y_st.mean()) # -5.195668225913776e-16 -> 0에 수렴한 형태
print(y_st.std()) # 0.9999999999999999 -> 1에 수렴한 형태

-5.195668225913776e-16
0.9999999999999999


In [16]:
# 3. train/test split
x_train, x_test, y_train, y_test = train_test_split(X, y_st, test_size=0.3)
print(x_train.shape)
print(y_train.shape)

(354, 13)
(354,)


In [17]:
# 4. 회귀모델 생성 : train set
boston_model = LinearRegression().fit(x_train, y_train)
print('회귀계수')
print("기울기 :", boston_model.coef_)
print('절편 :', boston_model.intercept_)

회귀계수
기울기 : [-1.41042315e-02  4.57970671e-03 -2.36092357e-03  4.86328453e-01
 -1.75757937e+00  3.96930210e-01  1.50997925e-04 -1.51334348e-01
  3.60578009e-02 -1.19095722e-03 -1.13065770e-01  9.73368804e-04
 -5.93254533e-02]
절편 : 1.6705867390449949


In [18]:
# 5. 모델 평가 : test set
pred = boston_model.predict(x_test)
Y = y_test
mse = mean_squared_error(Y, pred)
'''
MSE = (Y-pred)^2 / n
'''
print('MSE =', mse)

MSE = 0.29458408028621663


In [19]:
# 2) 결정계수 : target 변수 표준화 안된 경우 : 
print('결정계수 : %.2f' % r2_score(Y, pred)) # 결정계수 : 0.69

결정계수 : 0.68
