In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
%matplotlib inline
warnings.filterwarnings('ignore')

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

np.random.seed(601)

### 데이터 불러오기

In [None]:
from sklearn.datasets import load_boston

boston = load_boston()
train = pd.DataFrame(boston.data , columns = boston.feature_names)

train['PRICE'] = boston.target

# 결정자 할당
target = train['PRICE']

train.head(3)

**[컬럼 설명]**

### 데이터 분석하기

In [None]:
print('[shape]\t',train.shape)
print('\n[info]\n')
train.info()

* 컬럼 타입
* null check
* object 타입 - category 컬럼 확인 => 숫자형 변환

In [None]:
print('\n전체 feature 들의 type \n',train.dtypes.value_counts())

In [None]:
train.describe()

* ! 숫자형(int, float) 컬럼만 조사 
* 컬럼별 분포 파악 - 왜곡, 이상치
* max == count 라면, id 같은 숫자형 카테코리 컬럼일 가능성이 높음(삭제 대상)

**데이터 분포 확인**

In [None]:
def df_value_counts(df):
    for col in df.columns:
        print('col:', df[col].value_counts())
    
# df_value_counts(train[['CRIM', 'ZN']])

### 결손 데이터 처리
**넘파이의 NaN 으로 표시(머신러닝 알고리즘에서 처리하지 않으므로 대체해야함)**
* isna() : NaN 여부 확인
* fillna(): NaN 대체 
    *fillna(value=None,inplace=False)

In [None]:
# NULL 확인 
train.isna().sum()

In [None]:
# NULL 변환 
# train['Cabin'] = train['Cabin'].fillna('C000') 
# train['Cabin'].fillna('C000',inplace=True) 

# Null 처리 함수
def fillna(df):
    df['CRIM'].fillna(df['CRIM'].mean(),inplace=True)
    return df

train = fillna(train)

print('데이터 세트 Null 값 갯수 ',train.isnull().sum().sum())
print(train.shape, target.shape)

In [None]:
print('데이터 세트 Null 값 갯수 ',train.isnull().sum())

In [None]:
"""
# 머신러닝 알고리즘에 불필요한 속성 제거
def drop_features(df):
    df.drop(['B'],axis=1,inplace=True)
    return df

train = drop_features(train)
print(train.shape, target.shape)
"""

### EDA

In [None]:
sns.distplot(train['PRICE'])

In [None]:
sample = train[['RM','PRICE']].sample(n=100,random_state=0)
plt.figure()
plt.scatter(sample.RM , sample.PRICE,c="darkorange")

In [None]:
# 숫자만

# 2개의 행과 4개의 열을 가진 subplots를 이용. axs는 4x2개의 ax를 가짐.
fig, axs = plt.subplots(figsize=(16,8) , ncols=4 , nrows=2)
lm_features = ['RM','ZN','INDUS','NOX','AGE','PTRATIO','LSTAT','RAD']
for i , feature in enumerate(lm_features):
    row = int(i/4)
    col = i%4
    # 시본의 regplot을 이용해 산점도와 선형 회귀 직선을 함께 표현
    sns.regplot(x=feature , y='PRICE',data=train , ax=axs[row][col])

선형성이 큰 컬럼 파악

### 이상치

In [None]:
def get_outlier(df=None, column=None, weight=1.5):
    # fraud에 해당하는 column 데이터만 추출, 1/4 분위와 3/4 분위 지점을 np.percentile로 구함. 
    
    fraud = df[column]
    quantile_25 = np.percentile(fraud.values, 25)
    quantile_75 = np.percentile(fraud.values, 75)
    
    # IQR을 구하고, IQR에 1.5를 곱하여 최대값과 최소값 지점 구함. 
    iqr = quantile_75 - quantile_25
    iqr_weight = iqr * weight
    lowest_val = quantile_25 - iqr_weight
    highest_val = quantile_75 + iqr_weight
    
    # 최대값 보다 크거나, 최소값 보다 작은 값을 아웃라이어로 설정하고 DataFrame index 반환. 
    outlier_index = fraud[(fraud < lowest_val) | (fraud > highest_val)].index
    
    return outlier_index

In [None]:
print(train.shape, target.shape)

In [None]:
outlier_index = get_outlier(df=train, column='PTRATIO', weight=1.5)
print('이상치 데이터 인덱스:', outlier_index)
train.drop(outlier_index, axis=0, inplace=True)
target.drop(outlier_index, axis=0, inplace=True)

print(train.shape, target.shape)

### 카테고리 타입 -> 변환 대상 

In [None]:
# 컬럼 명 변경 

# data_df_reset.rename(columns={'index':'old_index'})

# Dataframe.drop(labels=None, axis=1, inplace=False) #  axis=0 : col 삭제

컬럼 데이터 세트 생성/수정/삭제 

In [None]:
"""
# 조작 
train['NOX'] = train['NOX'].str[:1]
train['NOX'].value_counts()
"""

# 전처리
* 1. 스케일링과 정규화(StandardScaler, MinMaxScaler)
* 2. 1번으로 향상 없을 시, 다항 적용(PolynomialFeatures)
* 3. 1,2 보다 많이 사용되는 **로그 변환**

### 왜곡
* target 왜곡

In [None]:
plt.hist(target, bins=10)

왜곡 시 log 변환 

In [None]:
target = np.log1p(target)
target.hist()

왜곡 log -> 지수 변환 

In [None]:
target = np.expm1(target)
target.hist()

* train 왜곡

In [None]:
from scipy.stats import skew

# object가 아닌 숫자형 피쳐의 컬럼 index 객체 추출.
features_index = train.dtypes[train.dtypes != 'object'].index

# house_df에 컬럼 index를 [ ]로 입력하면 해당하는 컬럼 데이터 셋 반환. apply lambda로 skew( )호출 
skew_features = train[features_index].apply(lambda x : skew(x))

# skew 정도가 1 이상인 컬럼들만 추출. 
skew_features_top = skew_features[skew_features > 1]
print(skew_features_top.sort_values(ascending=False))

In [None]:
# 왜곡도가 1인 피처들은 로그 변환 적용하고 다시 하이퍼 파라미터 튜닝 후 재 학습/예측/평가
train[skew_features_top.index] = np.log1p(train[skew_features_top.index])

In [None]:
train.head()

### 선형 회귀 모델을 위한 데이터 변환

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeatures

# method는 표준 정규 분포 변환(Standard), 최대값/최소값 정규화(MinMax), 로그변환(Log) 결정
# p_degree는 다향식 특성을 추가할 때 적용. p_degree는 2이상 부여하지 않음. 
def get_scaled_data(method='None', p_degree=None, input_data=None):
    if method == 'Standard':
        scaled_data = StandardScaler().fit_transform(input_data)
    elif method == 'MinMax':
        scaled_data = MinMaxScaler().fit_transform(input_data)
    elif method == 'Log':
        scaled_data = np.log1p(input_data)
    else:
        scaled_data = input_data

    if p_degree != None:
        scaled_data = PolynomialFeatures(degree=p_degree, 
                                         include_bias=False).fit_transform(scaled_data)
    
    return scaled_data

In [None]:
# Ridge의 alpha값을 다르게 적용하고 다양한 데이터 변환방법에 따른 RMSE 추출. 
alphas = [0.1, 1, 10, 100]
#변환 방법은 모두 6개, 원본 그대로, 표준정규분포, 표준정규분포+다항식 특성
# 최대/최소 정규화, 최대/최소 정규화+다항식 특성, 로그변환 
scale_methods=[(None, None), ('Standard', None), ('Standard', 2), 
               ('MinMax', None), ('MinMax', 2), ('Log', None)]
for scale_method in scale_methods:
    X_data_scaled = get_scaled_data(method=scale_method[0], p_degree=scale_method[1], 
                                    input_data=train)
    print('\n## 변환 유형:{0}, Polynomial Degree:{1}'.format(scale_method[0], scale_method[1]))
    
    #get_linear_reg_eval('Ridge', params=alphas, X_data_n=X_data_scaled, 
    #                    y_target_n=train, verbose=False)

### 인코딩
* 원-핫 인코딩(One-Hot encoding)

In [None]:
train = pd.get_dummies(train)
train.head(3)
print(train.shape, target.shape)

In [None]:
plt.figure(figsize=(9, 9))
corr = train.corr()
sns.heatmap(corr, cmap='RdBu')

* ! 모두 숫자형으로 변환이 완료 되었는가?

# 학습

### 학습 데이터와 테스트 데이터 세트로 분리

In [None]:
# 데이터에서 결정자 삭제 
train.drop('PRICE', axis=1, inplace=True)

In [None]:
print(train.shape, target.shape)

In [None]:
# LogisticRegression 는 스케일링 적용하고 train_test_split

# StandardScaler( )로 평균이 0, 분산 1로 데이터 분포도 변환
scaler = StandardScaler()
train = scaler.fit_transform(train)
train = pd.DataFrame(train , columns = boston.feature_names)

In [None]:
from sklearn.model_selection import train_test_split, KFold, cross_val_score
X_train, X_test, y_train, y_test = train_test_split(train , target ,test_size=0.3, shuffle=True, random_state=156)

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

### SMOTE 오버 샘플링

In [None]:
"""
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=0)
X_train_over, y_train_over = smote.fit_sample(X_train, y_train)
print('SMOTE 적용 전 학습용 피처/레이블 데이터 세트: ', X_train.shape, y_train.shape)
print('SMOTE 적용 후 학습용 피처/레이블 데이터 세트: ', X_train_over.shape, y_train_over.shape)
print('SMOTE 적용 후 레이블 값 분포: \n', pd.Series(y_train_over).value_counts())
"""

### 모델 학습
* LinearRegression: RSS(Residual Sum of Squares) 최소화해 OLS(Ordinary Least Squares) 추정방식
* LogisticRegression: 정규 분포에 영향 받으므로 스케일링 적용 후 적용
    * 선형 회귀 기반 + 시그모이드 함수
    * 분류, 희소

In [None]:
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

In [None]:
li_reg = LinearRegression(
    fit_intercept=True, # 절편값 계산, False: 절편 사용되지 않고 0 
    normalize=False, # fit_intercept=True 일때만 사용, 회귀 수행 전 정규화 수행
    copy_X=True,
    n_jobs=None,
)

lo_reg = LogisticRegression()

rf_reg = RandomForestRegressor(random_state=0, n_estimators=1000)

gb_reg = GradientBoostingRegressor(random_state=0, n_estimators=1000)

dt_reg = DecisionTreeRegressor(random_state=0, max_depth=4)
rf_reg = RandomForestRegressor(random_state=0, n_estimators=1000)
xgb_reg = XGBRegressor(n_estimators=1000)
lgb_reg = LGBMRegressor(n_estimators=1000)

### fit

In [None]:
li_reg.fit(X_train ,y_train)
#lo_reg.fit(X_train ,y_train.astype('int'))
#rf_reg.fit(X_train ,y_train)

### predict

In [None]:
y_preds = li_reg.predict(X_test)
#y_preds = lo_reg.predict(X_test)
#y_preds = rf_reg.predict(X_test)

In [None]:
def get_model_cv_prediction(model, X_data, y_target):
    neg_mse_scores = cross_val_score(model, X_data, y_target, scoring="neg_mean_squared_error", cv = 5)
    rmse_scores  = np.sqrt(-1 * neg_mse_scores)
    avg_rmse = np.mean(rmse_scores)
    print('##### ',model.__class__.__name__ , ' #####')
    print(' 5 교차 검증의 평균 RMSE : {0:.3f} '.format(avg_rmse))

In [None]:
# 트리 기반의 회귀 모델을 반복하면서 평가 수행 
models = [dt_reg, rf_reg, gb_reg, xgb_reg, lgb_reg]
for model in models:  
    get_model_cv_prediction(model, X_train, y_train)

LinearRegression max_depth 변경할 때 시각화 

In [None]:
# 선형 회귀와 결정 트리 기반의 Regressor 생성. DecisionTreeRegressor의 max_depth는 각각 2, 7
lr_reg = LinearRegression()
rf_reg2 = DecisionTreeRegressor(max_depth=2)
rf_reg7 = DecisionTreeRegressor(max_depth=7)

# 실제 예측을 적용할 테스트용 데이터 셋을 4.5 ~ 8.5 까지 100개 데이터 셋 생성. 
X_test_reshape = np.arange(4.5, 8.5, 0.04).reshape(-1, 1)

# 보스턴 주택가격 데이터에서 시각화를 위해 피처는 RM만, 그리고 결정 데이터인 PRICE 추출
X_feature = train['RM'].values.reshape(-1,1)
y_target = target.values.reshape(-1,1)

# 학습과 예측 수행. 
lr_reg.fit(X_feature, y_target)
rf_reg2.fit(X_feature, y_target)
rf_reg7.fit(X_feature, y_target)

pred_lr = lr_reg.predict(X_test_reshape)
pred_rf2 = rf_reg2.predict(X_test_reshape)
pred_rf7 = rf_reg7.predict(X_test_reshape)

fig , (ax1, ax2, ax3) = plt.subplots(figsize=(14,4), ncols=3)

# X축값을 4.5 ~ 8.5로 변환하며 입력했을 때, 선형 회귀와 결정 트리 회귀 예측 선 시각화
# 선형 회귀로 학습된 모델 회귀 예측선 
ax1.set_title('Linear Regression')
ax1.scatter(train.RM, target, c="darkorange")
ax1.plot(X_test_reshape, pred_lr,label="linear", linewidth=2 )

# DecisionTreeRegressor의 max_depth를 2로 했을 때 회귀 예측선 
ax2.set_title('Decision Tree Regression: \n max_depth=2')
ax2.scatter(train.RM, target, c="darkorange")
ax2.plot(X_test_reshape, pred_rf2, label="max_depth:3", linewidth=2 )

# DecisionTreeRegressor의 max_depth를 7로 했을 때 회귀 예측선 
ax3.set_title('Decision Tree Regression: \n max_depth=7')
ax3.scatter(train.RM, target, c="darkorange")
ax3.plot(X_test_reshape, pred_rf7, label="max_depth:7", linewidth=2)

# 평가
* 회귀: Mean(오차(실제값 - 예측값)) : 오차 평균에 기반 
* 분류: 일반적으로 오차에 기반 + **성능 평가 지표**
    * **이진분류:** 정확도 << 성능 평가 지표
    
### 평가 지표
* MAE(Mean Absolute Error): 차이 절댓값 평균
* MSE(Mean Sqared Error): 차이 제곱 평균
    * MSLE(MS Log Error): 로그 MSE
* RMSE(Root MSE): 루트 MSE
    * RMSLE(RMS Log Error) 로그 RMSE
* R^2: 분산 기반, 실제값고 분산 대비 예측 값의 분산비율, 1에 가까울수록 정확

### 평가 방법

In [None]:
col_name = ["평가방법","사이킷런 평가 지표 API","Scoring 함수 적용 값"]
arr_method = [ ["MAE", "metric.mean_absolute_error","neg_mean_absolute_error"]
              ,["MSE", "metric.mean_squared_error","neg_mean_squared_error"]
              ,["R^2", "metric.r2_score","r2"]]
pd.DataFrame(arr_method, columns=col_name)

**neg_: -1 * metrics**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error , r2_score

In [None]:
# log 값 변환 시 언더플로우 영향으로 log() 가 아닌 log1p() 를 이용하여 RMSLE 계산
def rmsle(y, pred):
    log_y = np.log1p(y)
    log_pred = np.log1p(pred)
    squared_error = (log_y - log_pred) ** 2
    rmsle = np.sqrt(np.mean(squared_error))
    return rmsle

# 사이킷런의 mean_square_error() 를 이용하여 RMSE 계산
def rmse(y,pred):
    return np.sqrt(mean_squared_error(y,pred))

def mse(y,pred):
    return mean_squared_error(y,pred)

# 책에서는 mean_absolute_error()를 MSE로 잘못 기재함. 
# MAE, RMSE, RMSLE 를 모두 계산 
def evaluate_regr(y,pred):
    rmsle_val = rmsle(y,pred)
    rmse_val = rmse(y,pred)
    mse_val = mse(y,pred)
    # MAE 는 scikit learn의 mean_absolute_error() 로 계산
    mae_val = mean_absolute_error(y,pred)
    print('RMSLE: {0:.3f}, RMSE: {1:.3F}, MAE: {2:.3F}, MSE: {3:.3F}'.format(rmsle_val, rmse_val, mae_val, mse_val))

In [None]:
evaluate_regr(y_test, y_preds)

오류값이 큰 순으로 5개 확인 

In [None]:
def get_top_error_data(y_test, pred, n_tops = 5):
    # DataFrame에 컬럼들로 실제 대여횟수(count)와 예측 값을 서로 비교 할 수 있도록 생성. 
    result_df = pd.DataFrame(y_test.values, columns=['real_count'])
    result_df['predicted_count']= np.round(pred)
    result_df['diff'] = np.abs(result_df['real_count'] - result_df['predicted_count'])
    # 예측값과 실제값이 가장 큰 데이터 순으로 출력. 
    print(result_df.sort_values('diff', ascending=False)[:n_tops])
    
get_top_error_data(y_test,y_preds,n_tops=5)

**선형회귀**

In [None]:
# Regressor 클래스에는 없음 

print('절편 값:',li_reg.intercept_)
print('회귀 계수값:', np.round(li_reg.coef_, 1))

In [None]:
# coef_ 는 회귀 계수 값만 가지므로 피처와 매핑해서 내림차순 정렬

# 회귀 계수를 큰 값 순으로 정렬하기 위해 Series로 생성. index가 컬럼명에 유의
coeff = pd.Series(data=np.round(li_reg.coef_, 1), index=X_train.columns )
coeff.sort_values(ascending=False)

**회귀 트리는 선형 회귀의 회귀 계수 대신, 피처 중요도로 피처의 상대적 중요도를 알 수 있음**

In [None]:

rf_reg = RandomForestRegressor(n_estimators=1000)

# 앞 예제에서 만들어진 X_data, y_target 데이터 셋을 적용하여 학습합니다.   
rf_reg.fit(X_train, y_train)

feature_series = pd.Series(data=rf_reg.feature_importances_, index=X_train.columns )
feature_series = feature_series.sort_values(ascending=False)
sns.barplot(x= feature_series, y=feature_series.index)


### GridSearchCV = 교차 검증 + 하이퍼파라미터 튜닝

In [None]:
from sklearn.model_selection import GridSearchCV

params={'penalty':['l2', 'l1'],
        'C':[0.01, 0.1, 1, 1, 5, 10]}

grid_clf = GridSearchCV(lo_reg, param_grid=params, scoring='accuracy', cv=3 )
grid_clf.fit(train, target.astype(int))
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_, 
                                                  grid_clf.best_score_))

### 교차검증
**cross_val_score = KFold/StratifiedKFold + train_test_split + fit/predict/evaluation**

In [None]:
# cross_val_score( )로 5 Fold 셋으로 MSE 를 구한 뒤 이를 기반으로 다시  RMSE 구함. 
neg_mse_scores = cross_val_score(li_reg, train, target, scoring="neg_mean_squared_error", cv = 5)
rmse_scores  = np.sqrt(-1 * neg_mse_scores)
avg_rmse = np.mean(rmse_scores)

# cross_val_score(scoring="neg_mean_squared_error")로 반환된 값은 모두 음수 
print(' 5 folds 의 개별 Negative MSE scores: ', np.round(neg_mse_scores, 2))
print(' 5 folds 의 개별 RMSE scores : ', np.round(rmse_scores, 2))
print(' 5 folds 의 평균 RMSE : {0:.3f} '.format(avg_rmse))


## 규제

In [None]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet

### Ridge Regression

In [None]:
ridge = Ridge(alpha = 10)
neg_mse_scores = cross_val_score(ridge, X_train, y_train, scoring="neg_mean_squared_error", cv = 5)
rmse_scores  = np.sqrt(-1 * neg_mse_scores)
avg_rmse = np.mean(rmse_scores)
print(' 5 folds 의 개별 Negative MSE scores: ', np.round(neg_mse_scores, 3))
print(' 5 folds 의 개별 RMSE scores : ', np.round(rmse_scores,3))
print(' 5 folds 의 평균 RMSE : {0:.3f} '.format(avg_rmse))

In [None]:
# Ridge에 사용될 alpha 파라미터의 값들을 정의
alphas = [0 , 0.1 , 1 , 10 , 100]

# alphas list 값을 iteration하면서 alpha에 따른 평균 rmse 구함.
for alpha in alphas :
    ridge = Ridge(alpha = alpha)
    
    #cross_val_score를 이용하여 5 fold의 평균 RMSE 계산
    neg_mse_scores = cross_val_score(ridge, X_train, y_train, scoring="neg_mean_squared_error", cv = 5)
    avg_rmse = np.mean(np.sqrt(-1 * neg_mse_scores))
    print('alpha {0} 일 때 5 folds 의 평균 RMSE : {1:.3f} '.format(alpha,avg_rmse))

In [None]:
# 각 alpha에 따른 회귀 계수 값을 시각화하기 위해 5개의 열로 된 맷플롯립 축 생성  
fig , axs = plt.subplots(figsize=(18,6) , nrows=1 , ncols=5)
# 각 alpha에 따른 회귀 계수 값을 데이터로 저장하기 위한 DataFrame 생성  
coeff_df = pd.DataFrame()

# alphas 리스트 값을 차례로 입력해 회귀 계수 값 시각화 및 데이터 저장. pos는 axis의 위치 지정
for pos , alpha in enumerate(alphas) :
    ridge = Ridge(alpha = alpha)
    ridge.fit(X_train , y_train)
    # alpha에 따른 피처별 회귀 계수를 Series로 변환하고 이를 DataFrame의 컬럼으로 추가.  
    coeff = pd.Series(data=ridge.coef_ , index=train.columns )
    colname='alpha:'+str(alpha)
    coeff_df[colname] = coeff
    # 막대 그래프로 각 alpha 값에서의 회귀 계수를 시각화. 회귀 계수값이 높은 순으로 표현
    coeff = coeff.sort_values(ascending=False)
    axs[pos].set_title(colname)
    axs[pos].set_xlim(-3,6)
    sns.barplot(x=coeff.values , y=coeff.index, ax=axs[pos])

# for 문 바깥에서 맷플롯립의 show 호출 및 alpha에 따른 피처별 회귀 계수를 DataFrame으로 표시
plt.show()



In [None]:
ridge_alphas = [0 , 0.1 , 1 , 10 , 100]
sort_column = 'alpha:'+str(ridge_alphas[0])
coeff_df.sort_values(by=sort_column, ascending=False)

### 라쏘

In [None]:
# alpha값에 따른 회귀 모델의 폴드 평균 RMSE를 출력하고 회귀 계수값들을 DataFrame으로 반환 
def get_linear_reg_eval(model_name, params=None, X_data_n=None, y_target_n=None, verbose=True):
    coeff_df = pd.DataFrame()
    if verbose : print('####### ', model_name , '#######')
    for param in params:
        if model_name =='Ridge': model = Ridge(alpha=param)
        elif model_name =='Lasso': model = Lasso(alpha=param)
        elif model_name =='ElasticNet': model = ElasticNet(alpha=param, l1_ratio=0.7)
        neg_mse_scores = cross_val_score(model, X_data_n, 
                                             y_target_n, scoring="neg_mean_squared_error", cv = 5)
        avg_rmse = np.mean(np.sqrt(-1 * neg_mse_scores))
        print('alpha {0}일 때 5 폴드 세트의 평균 RMSE: {1:.3f} '.format(param, avg_rmse))
        # cross_val_score는 evaluation metric만 반환하므로 모델을 다시 학습하여 회귀 계수 추출
        
        model.fit(X_train , y_train)
        # alpha에 따른 피처별 회귀 계수를 Series로 변환하고 이를 DataFrame의 컬럼으로 추가. 
        coeff = pd.Series(data=model.coef_ , index=train.columns )
        colname='alpha:'+str(param)
        coeff_df[colname] = coeff
    return coeff_df
# end of get_linear_regre_eval

In [None]:
# 라쏘에 사용될 alpha 파라미터의 값들을 정의하고 get_linear_reg_eval() 함수 호출
lasso_alphas = [ 0.07, 0.1, 0.5, 1, 3]
coeff_lasso_df =get_linear_reg_eval('Lasso', params=lasso_alphas, X_data_n=X_train, y_target_n=y_train)

In [None]:
# 반환된 coeff_lasso_df를 첫번째 컬럼순으로 내림차순 정렬하여 회귀계수 DataFrame출력
sort_column = 'alpha:'+str(lasso_alphas[0])
coeff_lasso_df.sort_values(by=sort_column, ascending=False)

### 엘라스틱넷 회귀

In [None]:
# 엘라스틱넷에 사용될 alpha 파라미터의 값들을 정의하고 get_linear_reg_eval() 함수 호출
# l1_ratio는 0.7로 고정
elastic_alphas = [ 0.07, 0.1, 0.5, 1, 3]
coeff_elastic_df =get_linear_reg_eval('ElasticNet', params=elastic_alphas,
                                      X_data_n=X_train, y_target_n=y_train)

In [None]:
# 반환된 coeff_elastic_df를 첫번째 컬럼순으로 내림차순 정렬하여 회귀계수 DataFrame출력
sort_column = 'alpha:'+str(elastic_alphas[0])
coeff_elastic_df.sort_values(by=sort_column, ascending=False)

### 다항 회귀

In [None]:
from sklearn.pipeline import Pipeline

from sklearn.preprocessing import PolynomialFeatures

In [None]:
## Pipeline을 이용하여 PolynomialFeatures 변환과 LinearRegression 적용을 순차적으로 결합. 
p_model = Pipeline([('poly', PolynomialFeatures(degree=3, include_bias=False)),
                  ('linear', LinearRegression())])

p_model.fit(X_train, y_train)
y_preds = p_model.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)


print('MSE : {0:.3f} , RMSE : {1:.3F}'.format(mse , rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

In [None]:
X_train_poly= PolynomialFeatures(degree=2, include_bias=False).fit_transform(X_train, y_train)
X_train_poly.shape, X_train.shape

### 스태킹

In [None]:
# 개별 기반 모델에서 최종 메타 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수. 
def get_stacking_base_datasets(model, X_train_n, y_train_n, X_test_n, n_folds ):
    # 지정된 n_folds값으로 KFold 생성.
    kf = KFold(n_splits=n_folds, shuffle=False, random_state=0)
    #추후에 메타 모델이 사용할 학습 데이터 반환을 위한 넘파이 배열 초기화 
    train_fold_pred = np.zeros((X_train_n.shape[0] ,1 ))
    test_pred = np.zeros((X_test_n.shape[0],n_folds))
    print(model.__class__.__name__ , ' model 시작 ')
    
    for folder_counter , (train_index, valid_index) in enumerate(kf.split(X_train_n)):
        #입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 셋 추출 
        print('\t 폴드 세트: ',folder_counter,' 시작 ')
        X_tr = X_train_n[train_index] 
        y_tr = y_train_n[train_index] 
        X_te = X_train_n[valid_index]  
        
        #폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행.
        model.fit(X_tr , y_tr)       
        #폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장.
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1,1)
        #입력된 원본 테스트 데이터를 폴드 세트내 학습된 기반 모델에서 예측 후 데이터 저장. 
        test_pred[:, folder_counter] = model.predict(X_test_n)
            
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성 
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1,1)    
    
    #train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred , test_pred_mean

In [None]:
ridge_reg = Ridge(alpha=10)
ridge_reg.fit(X_train, y_train)
lasso_reg = Lasso(alpha=0.001)
lasso_reg.fit(X_train, y_train)

In [None]:
# get_stacking_base_datasets( )은 넘파이 ndarray를 인자로 사용하므로 DataFrame을 넘파이로 변환. 
X_train_n = X_train.values
X_test_n = X_test.values
y_train_n = y_train.values

# 각 개별 기반(Base)모델이 생성한 학습용/테스트용 데이터 반환. 
ridge_train, ridge_test = get_stacking_base_datasets(ridge_reg, X_train_n, y_train_n, X_test_n, 5)
lasso_train, lasso_test = get_stacking_base_datasets(lasso_reg, X_train_n, y_train_n, X_test_n, 5)
xgb_train, xgb_test = get_stacking_base_datasets(xgb_reg, X_train_n, y_train_n, X_test_n, 5)  
lgbm_train, lgbm_test = get_stacking_base_datasets(lgbm_reg, X_train_n, y_train_n, X_test_n, 5)