# 汎化性能の検証
## hold-out

In [19]:
import numpy as np
import seaborn as sns
import pandas as pd
from sklearn.model_selection import train_test_split
# seabornが用意してくれている練習用データセットを利用
# https://github.com/mwaskom/seaborn-data
df = sns.load_dataset("tips")

# 目的変数をtipとする(他のデータからtipを予測するモデルを構築する)
y_col = "tip"
y = df[y_col]

X = df.drop(columns=[y_col])

# 標準化する連続値のカラム名を取り出す
numeric_cols = X.select_dtypes(include=np.number).columns.to_list()
# select_dtypesは以下の操作と同じ処理
# numeric_cols = ["total_bill", "size"]


# one hot encodingによってダミー変数を作成
X = pd.get_dummies(X, drop_first=True)

In [20]:
# 学習データとテストデータに分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0 ) #random_stateをつけることでseed付けして、毎度分割の方法が変化しないようにする


In [21]:
print(len(X_train))
print(len(X_test))

170
74


In [28]:
# 標準化 ※標準化はデータ分割の後、学習データのみに行う
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# 学習データのみでfit
scaler.fit(X_train[numeric_cols])

X_train_scaled = X_train.copy()
X_train_scaled[numeric_cols] = scaler.transform(X_train[numeric_cols])
# テストデータは、学習データでfitした値を用いて標準化する必要があることに注意
X_test_scaled = X_test.copy()
X_test_scaled[numeric_cols] = scaler.transform(X_test[numeric_cols])
X_test_scaled

Unnamed: 0,total_bill,size,sex_Female,smoker_No,day_Fri,day_Sat,day_Sun,time_Dinner
64,-0.267738,0.463915,0,1,0,1,0,1
63,-0.190963,1.544266,0,0,0,1,0,1
55,-0.059349,-0.616436,0,1,0,0,1,1
111,-1.401811,-1.696786,1,1,0,1,0,1
225,-0.412513,-0.616436,1,0,1,0,0,0
...,...,...,...,...,...,...,...,...
90,0.980401,-0.616436,0,0,1,0,0,1
101,-0.510127,-0.616436,1,0,1,0,0,1
75,-1.044260,-0.616436,0,1,0,1,0,1
4,0.500010,1.544266,1,1,0,0,1,1


In [27]:
# 学習データを用いてfitしているので、テストデータの標準化後の値は平均値 0, 標準偏差 1 となるわけではない
print(X_test_scaled.mean())
print(X_test_scaled.std())

total_bill    -0.088666
size          -0.003263
sex_Female     0.445946
smoker_No      0.527027
day_Fri        0.135135
day_Sat        0.351351
day_Sun        0.324324
time_Dinner    0.756757
dtype: float64
total_bill     0.916074
size           1.088917
sex_Female     0.500463
smoker_No      0.502677
day_Fri        0.344201
day_Sat        0.480651
day_Sun        0.471317
time_Dinner    0.431969
dtype: float64


In [29]:
# 線形回帰モデルの学習
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

y_pred と y_test が一致すれば汎化性能が高いといえる\
モデルによって予想したデータ(y_pred)と、実際のデータ(y_test)の残差の二乗平均を平均二乗誤差として算出する。この値が小さいほど性能が高いモデルと言える

In [31]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred) # np.mean(np.square(y_test - y_pred))

0.955080898861715