In [1]:
# ライブラリimport
import pandas as pd
import numpy as np
from xgboost.sklearn import XGBRegressor
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import Ridge
from sklearn.pipeline import make_pipeline

In [2]:
# データ読み込み　重複データ削除
df = pd.read_csv('../input/train.csv').drop_duplicates().reset_index(drop=True)
df_test = pd.read_csv('../input/test.csv', index_col='id')

cols = df.columns.drop('quality')
target = 'quality'

X = df[cols].values
y = df[target].values
X_ts = df_test[cols].values

In [3]:
# XGBによる予測

# seed averaging 100回するため、入れ物を作っておく
n_averaging = 100
preds_xgb = np.zeros([len(df_test), n_averaging])

# seed averaging
for i in range(n_averaging):
    xgb = XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=0.2,
                       colsample_bytree=1, gamma=0, learning_rate=0.02, max_delta_step=0,
                       max_depth=5, min_child_weight=1, missing=None, n_estimators=200,
                       n_jobs=1, nthread=None, objective='reg:linear', random_state=i,
                       reg_alpha=0.5, reg_lambda=0.5, scale_pos_weight=1, seed=i,# シードを毎回変える
                       silent=True, subsample=0.9)
    xgb.fit(X, y)
    pred_xgb = xgb.predict(X_ts)
    
    # i回目のループでi列目に予測値を格納
    preds_xgb[:, i] = pred_xgb

pred_xgb = preds_xgb.mean(axis=1)# 予測値の平均を取る

In [4]:
# Ridgeによる予測

# Ridgeの特徴量のレンジ?(大きさ？)が、ある程度そろってないと、正則化項がうまく働かないので、
# 毎回スケーリングをするpipelineを作ってあげる
RI = make_pipeline(StandardScaler(), Ridge())

# 線形モデルでは最初の特徴量だけでは足りないので各交差項を変数に追加
poly = PolynomialFeatures(2, interaction_only=False)# 2次の項まで追加
X_poly = poly.fit_transform(X)
X_poly_ts = poly.fit_transform(X_ts)

RI.fit(X_poly, y)
pred_ri = RI.predict(X_poly_ts)

In [5]:
# 線形モデルと非線形モデル(決定木)のアンサンブル
pred_ensemble = (pred_ri + pred_xgb) / 2

# 保存
pd.DataFrame(pred_ensemble, columns=[target]).to_csv('../output/sub.csv', index=False)