# 회귀의 전처리

- 통계기반 회귀모델답게 정규분포형태의 데이터를 선호함
- 따라서, 타겟/피처 값을 정규분포형태로 만드는 전처리작업이 필요할 수 있음


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

### 보스턴 주택가격 예측

In [3]:
from sklearn.datasets import load_boston
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score

In [4]:
boston = load_boston()
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names)
boston_df['PRICE'] = boston.target

X_data = boston_df.drop(['PRICE'], axis=1, inplace=False)
y_target = boston_df['PRICE']

In [6]:
from modules.preprocessing import get_scaled_data
from modules.evaluation import get_linear_reg_eval

In [8]:
alphas = [0.1, 1, 10, 100]

scaled_methods = [(None, None), ('Standard', None), ('Standard', 2),
               ('MinMax', None), ('MinMax', 2), ('Log', None)]

for scaled_method in scaled_methods:
    X_data_scaled = get_scaled_data(method=scaled_method[0], p_degree=scaled_method[1], input_data=X_data)
    
    print('\n## 반환 유형: {0}, Polynomial Degree: {1}'.format(scaled_method[0], scaled_method[1]))
    get_linear_reg_eval('Ridge', params=alphas, X_data_n=X_data_scaled, y_target_n=y_target,
                        verbose=True, return_coef=False)



## 반환 유형: None, Polynomial Degree: None
######  Ridge ######
alpha 0.1 일때 5 폴드세트의 평균 RMSE: 5.788
alpha 1 일때 5 폴드세트의 평균 RMSE: 5.653
alpha 10 일때 5 폴드세트의 평균 RMSE: 5.518
alpha 100 일때 5 폴드세트의 평균 RMSE: 5.330

## 반환 유형: Standard, Polynomial Degree: None
######  Ridge ######
alpha 0.1 일때 5 폴드세트의 평균 RMSE: 5.826
alpha 1 일때 5 폴드세트의 평균 RMSE: 5.803
alpha 10 일때 5 폴드세트의 평균 RMSE: 5.637
alpha 100 일때 5 폴드세트의 평균 RMSE: 5.421

## 반환 유형: Standard, Polynomial Degree: 2
######  Ridge ######
alpha 0.1 일때 5 폴드세트의 평균 RMSE: 8.827
alpha 1 일때 5 폴드세트의 평균 RMSE: 6.871
alpha 10 일때 5 폴드세트의 평균 RMSE: 5.485
alpha 100 일때 5 폴드세트의 평균 RMSE: 4.634

## 반환 유형: MinMax, Polynomial Degree: None
######  Ridge ######
alpha 0.1 일때 5 폴드세트의 평균 RMSE: 5.764
alpha 1 일때 5 폴드세트의 평균 RMSE: 5.465
alpha 10 일때 5 폴드세트의 평균 RMSE: 5.754
alpha 100 일때 5 폴드세트의 평균 RMSE: 7.635

## 반환 유형: MinMax, Polynomial Degree: 2
######  Ridge ######
alpha 0.1 일때 5 폴드세트의 평균 RMSE: 5.298
alpha 1 일때 5 폴드세트의 평균 RMSE: 4.323
alpha 10 일때 5 폴드세트의 평균 RMSE: 5.185
alpha 100 일때 5 