### 조건수 : Cond. No.
- 데이터의 스케일에 따라서 오차의 크기가 다르게 나옵니다.
- 보스턴 집값을 회귀분석하면 조건수가 15,000 정도로 크게 나옵니다.
- 각각의 독립변수 데이터의 단위가 0.1 단위 ~ 수백 단위까지 가지고 있어서 조건수가 크게 나옵니다.
- 조건수가 크면 모수 추정의 오차가 증폭될 가능성이 크고 선형 회귀분석의 성능이 떨어집니다.

In [None]:
%config InlineBackend.figure_formats = {'png', 'retina'}

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import statsmodels.api as sm

from sklearn.datasets import load_boston

boston = load_boston()

df_x = pd.DataFrame(boston.data, columns=boston.feature_names)
df_y = pd.DataFrame(boston.target, columns=["MEDV"])
df = pd.concat([df_x, df_y], axis=1)

In [None]:
df.tail(2)

In [None]:
train_featrue = sm.add_constant(df_x)
model_1 = sm.OLS(df_y, train_featrue).fit()
print(model_1.summary())

### TAX feature의 스케일을 크게 설정
- 조건수의 값이 커지고 모수의 설명력을 표현하는 R-squared 값이 작아졌습니다.

In [None]:
df_x2 = df_x.copy()
df_x2["TAX"] *= 1e12
df2 = pd.concat([df_x2, df_y], axis=1)
df2.tail(2)

In [None]:
train_featrue = sm.add_constant(df_x2)
model_2 = sm.OLS(df_y, train_featrue).fit()
print(model_2.summary())

### scale을 지정해서 모델을 생성
- StandardScaler를 이용해서 학습하면 R-squared를 유지하면서 Cond. No.를 줄일수 있습니다.
- StandardScaler
    - 평균이 0과 표준편차가 1이 되도록 변환

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
df_x3 = df_x.copy()
df_x3.head()

In [None]:
# 스케일링
df_x3 = scaler.fit_transform(df_x3)
df_x3 = pd.DataFrame(df_x3, columns=df_x.columns)
df_x3.head()

In [None]:
# 인버스 스케일링
inverse_datas = scaler.inverse_transform(df_x3)
pd.DataFrame(inverse_datas, columns=df_x.columns).head()

In [None]:
# 모델 학습
train_featrue = sm.add_constant(df_x3)
model_3 = sm.OLS(df_y, train_featrue).fit()
print(model_3.summary())

In [None]:
# 예측할때는 데이터에 상수항을 추가하고 스케일링을 해서 예측해야 함

# target 컬럼 제거
features = df.loc[:, df.columns[:-1]]

# 스케일링
features = scaler.fit_transform(features)

# 데이터 프레임으로 만들기
features = pd.DataFrame(features, columns=df.columns[:-1])

# 상수항 추가
features = sm.add_constant(features)

features.head()

In [None]:
# 예측
pred_y = np.dot(features, model_3.params)
np.round(pred_y[:5], 1), df_y.values[:5].reshape(1, -1)

In [None]:
# 평가 : MAE

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
np.round(mean_absolute_error(df_y.values, pred_y), 3)

#### 스케일링의 종류
- StandardScaler : 평균이 0과 표준편차가 1이 되도록 변환.
- MinMaxScaler : 최대값이 각각 1, 최소값이 0이 되도록 변환록 변환.
- RobustScaler : 중앙값(median) 0이 되도록 변환
- Nomalizer : 0을 기준으로 절대값이 가장 큰 수가 1또는 -1이 되도록 변환

In [None]:
!pip install mglearn

In [None]:
import mglearn
mglearn.plots.plot_scaling()