# data scailing (정규화, 표준화) : 이물질 제거
 - 용도 : 특정 변수의 값에 따라서 model에 영향을 미치는 경우
   ex) 범죄율(-0.1~0.99), 주택가격(99~999)
 - 정규화 X : 변수의 값을 일정한 범위로 조정(0~1, -1~1)
 - 표준화 Y : 평균(0)과 표준편차(1)를 이용
           z = (x - mu) / sd

In [1]:
# 패키지설치
from sklearn.datasets import load_boston # 실습용 dataset
from sklearn.linear_model import LinearRegression # model 생성 
from sklearn.model_selection import train_test_split # data split
from sklearn.metrics import mean_squared_error, r2_score # 평가 도구
import numpy as np # min/max


In [2]:

# 1. dataset load
X,y = load_boston(return_X_y=True)
X.shape # (506,13)
y.shape # (506,)


# 2. data scailing
'''
X : 정규화 (0~1)
y : 표준화 (mu=0, sd=1)
'''
X.max() # 711.0 
X.mean() # 70.074
y.max() # 50.0
y.mean() # 22.533


# 정규화 / 표준화 함수
def normal_zscore(X,y):
    nor = (X-np.min(X)) / (np.max(X)-np.min(X)) # 정규화
    mu = y.mean()
    z = (y - mu) / y.std() # 표준화
    return nor, z

# 정규화 / 표준화
x_nor, y_nor = normal_zscore(X,y)

# x 변수 정규화
x_nor.max() # 1.0
x_nor.min() # 0.0

# y 변수 표준화
y_nor.mean() # -5.1956e-16 -> 0 수렴
y_nor.std() # 0.9999 -> 1 수렴



# 3. data split (75:25) -> test_size(default=0.25)
x_train,x_test,y_train,y_test = train_test_split(x_nor,y_nor,random_state=123)
x_train.shape # (379, 13) 75%
x_test.shape # (127, 13) 25%

# 비정규화 데이터 split
x_train2, x_test2, y_train2, y_test2 = train_test_split(X,y,random_state=123)


# 4. model 생성
def model_rg(x_train,y_train,x_test):
    obj = LinearRegression()
    model = obj.fit(x_train,y_train)
    y_pred = model.predict(x_test)
    return y_pred
y_pred = model_rg(x_train,y_train,x_test)

# 비정규화 model 생성
y_pred2 = model_rg(x_train2,y_train2,x_test2)


# 5. model 평가
mse = mean_squared_error(y_test,y_pred)
r2 = r2_score(y_test,y_pred)
mse # 0.2933980240643525 : 오차수치 30%
r2 # 0.6862448857295749 : 정확률수치 68% 

# 비정규화 model 평가
mse = mean_squared_error(y_test2, y_pred2)
r2 = r2_score(y_test2,y_pred2)
mse # 24.768530968608427 -> 의미없는 값
r2 # 0.6862448857295773 : 정확률수치 68%




0.6862448857295773