# Exercise01 : ローカルマシンでトレーニングしてみる

Azure Machine Learning で実行する前に、いつものようにローカルの計算機でサンプルスクリプトを学習し、モデルを作成します。<br>
この演習では、Azure Machine Learning を使用せず、ローカルで Scikit-learn を使用してサンプルコードを実行します。


In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

import numpy as np
import joblib
import pandas as pd
import matplotlib.pyplot as plt


In [None]:
sample_data = load_diabetes()

df = pd.DataFrame(
    data=sample_data.data,
    columns=sample_data.feature_names)
df['Y'] = sample_data.target
y_all = pd.DataFrame(df["Y"],columns=["Y"])
df

データサイエンス初期のデータが少ない状態をシミュレートするため、あえてレコードを減らしたバージョンのデータセットを作成します。


In [None]:
df350 = df[:350]
print(df350.shape)

データセットをトレーニングとテストデータに分割します。

In [None]:
X = df350.drop('Y', axis=1).values
y = df350['Y'].values

#splitting
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


ローカルでモデルを学習させます。
このコードは、今後リモート学習用にトレーニング スクリプトとして分離します。


In [None]:
# experiment parameters
args = {
    "alpha": 0.03
}

#fitting the model
reg_model = Ridge(**args)
reg_model.fit(X_train, y_train)

生成されたモデルを使って予測します。このコードは、今後スコアリング スクリプトとして分離します。

In [None]:
#predictions 
preds = reg_model.predict(X_test)

#model metrics
r2 = r2_score(y_test, preds)
rmse = np.sqrt(mean_squared_error(y_test, preds))
mae = mean_absolute_error(y_test, preds)
mse = mean_squared_error(y_test, preds)

print('R2 :', r2)
print('RMSE :', rmse)
print('MAE :', mae)
print('MSE :', mse)

予測値に対する実際の値の散布図（テストデータ）

In [None]:
plt.figure(figsize=(10, 7))

#scatterplot of y_test and preds
plt.scatter(y_test, preds) 
plt.plot(y_test, y_test, color='r')

plt.title('Actual VS Predicted Values (Test set)') 
plt.xlabel('Actual Values') 
plt.ylabel('Predicted Values')

plt.show()